このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220219となっている論文です。

PDF登録状況(公開日: 20220219)

TitleAuthorsAbstract論文公表日・翻訳日
# 非分離型シンプレクティックニューラルネットワーク

Nonseparable Symplectic Neural Networks ( http://arxiv.org/abs/2010.12636v3 )

ライセンス: Link先を確認
Shiying Xiong, Yunjin Tong, Xingzhe He, Shuqi Yang, Cheng Yang, Bo Zhu(参考訳) ハミルトン系の振る舞いを予測することは、科学機械学習において注目を集めている。 しかし、多くの文献は、流体力学や量子力学においてユビキタスな非分離ハミルトニアン系を予測するデータ駆動パラダイムを構築しながら、運動的および潜在的エネルギー項を明示的に分離して分離可能なハミルトニアン系を予測することに重点を置いていた。 主な計算課題は、通常複雑な力学を示す位置と運動量の本質的に結合した進化を記述するために、シンプレクティック先行の効果的な埋め込みである。 そこで本研究では,非分離型シンプレクティックニューラルネットワーク(nssnns)を用いて,有限観測データから非分離型ハミルトニアンのシンプレクティック構造を明らかにする。 我々のアプローチで実現可能なメカニズムは、位置と運動量エネルギーの項を分離し、それらの進化を促進する拡張シンプレクティック時間積分器である。 カオス渦流を含む分離性および非分離性の両方を含む幅広いハミルトン系を予測し,本手法の有効性と汎用性を実証した。 大規模ハミルトニアン系の長期的, 正確かつ堅牢な予測を, シンプレクトモルフィズムを厳格に強制することによって得られる, アプローチのユニークな計算的メリットを示した。

Predicting the behaviors of Hamiltonian systems has been drawing increasing attention in scientific machine learning. However, the vast majority of the literature was focused on predicting separable Hamiltonian systems with their kinematic and potential energy terms being explicitly decoupled while building data-driven paradigms to predict nonseparable Hamiltonian systems that are ubiquitous in fluid dynamics and quantum mechanics were rarely explored. The main computational challenge lies in the effective embedding of symplectic priors to describe the inherently coupled evolution of position and momentum, which typically exhibits intricate dynamics. To solve the problem, we propose a novel neural network architecture, Nonseparable Symplectic Neural Networks (NSSNNs), to uncover and embed the symplectic structure of a nonseparable Hamiltonian system from limited observation data. The enabling mechanics of our approach is an augmented symplectic time integrator to decouple the position and momentum energy terms and facilitate their evolution. We demonstrated the efficacy and versatility of our method by predicting a wide range of Hamiltonian systems, both separable and nonseparable, including chaotic vortical flows. We showed the unique computational merits of our approach to yield long-term, accurate, and robust predictions for large-scale Hamiltonian systems by rigorously enforcing symplectomorphism.
翻訳日:2022-10-03 22:16:12 公開日:2022-02-19
# 確率的スパース対逆攻撃

Stochastic sparse adversarial attacks ( http://arxiv.org/abs/2011.12423v4 )

ライセンス: Link先を確認
Manon C\'esaire, Lucas Schott, Hatem Hajri, Sylvain Lamprier, and Patrick Gallinari(参考訳) 本稿では,ニューラルネットワーク分類器 (NNC) の簡易かつ高速かつ純粋に雑音をベースとした攻撃である,確率的スパース攻撃 (SSAA) を提案する。 SSAAはスパース(または$L_0$)攻撃の新たな例を提供している。 これらの攻撃は、マルコフ過程に広く使われる小さな時間拡張アイデアを活用して考案された。 小型および大規模データセット(CIFAR-10とImageNet)の実験では、最先端の手法と比較して、SSAAのいくつかの利点が示されている。 例えば、ターゲット外の場合、Voting Folded Gaussian Attack(VFGA)と呼ばれるメソッドは、ImageNetに効率よくスケールし、SparseFool(最大$\frac{2}{5}$)よりもはるかに低いスコアを得る。 さらに、VFGAは、多数のサンプルで両方の攻撃が完全に成功した場合、ImageNetのSparse-RSよりも$L_0$スコアがよい。

This paper introduces stochastic sparse adversarial attacks (SSAA), standing as simple, fast and purely noise-based targeted and untargeted attacks of neural network classifiers (NNC). SSAA offer new examples of sparse (or $L_0$) attacks for which only few methods have been proposed previously. These attacks are devised by exploiting a small-time expansion idea widely used for Markov processes. Experiments on small and large datasets (CIFAR-10 and ImageNet) illustrate several advantages of SSAA in comparison with the-state-of-the-art methods. For instance, in the untargeted case, our method called Voting Folded Gaussian Attack (VFGA) scales efficiently to ImageNet and achieves a significantly lower $L_0$ score than SparseFool (up to $\frac{2}{5}$) while being faster. Moreover, VFGA achieves better $L_0$ scores on ImageNet than Sparse-RS when both attacks are fully successful on a large number of samples.
翻訳日:2022-09-21 13:04:34 公開日:2022-02-19
# (参考訳) GCNET:グラフ畳み込みネットワークを用いた株価変動のグラフベース予測

GCNET: graph-based prediction of stock price movement using graph convolutional network ( http://arxiv.org/abs/2203.11091v1 )

ライセンス: CC BY 4.0
Alireza Jafari and Saman Haratizadeh(参考訳) 歴史的価格情報を用いた株式の移動方向の予測は、機械学習分野における課題としてかなりの注目を集めている。 しかし、株価間の隠れた関係を将来の行動予測の重要な情報源としてモデル化し分析することは、まだ十分に研究されていない。 この領域における既存の手法は一般性と柔軟性の欠如に苦しめられており、いかなる関連株にも容易に適用できない。 この領域の主な課題は、任意の株群間の既存の関係をモデル化する方法を見つけ、それらの株の予測性能を改善するためにそのようなモデルを活用することである。 本稿では,任意のストック間の関係を,インフルエンスネットワークと呼ばれるグラフ構造としてモデル化するGCNETという新しいフレームワークを紹介し,履歴に基づく予測モデルを用いて,グラフ内のストックノードのサブセットに対して有効な初期ラベルを推定する。 最後に、GCNETはグラフ畳み込みネットワークアルゴリズムを用いて、部分的にラベル付けされたグラフを分析し、グラフ内の各株の次の価格方向を予測する。 gcnetは一般的な予測フレームワークであり、その履歴データに基づいて、あらゆる相互作用する株式の価格変動の予測に適用することができる。 S\&P500 と NASDAQ の在庫集合に関する実験および評価の結果,GCNET は精度およびMCC 測定において SOTA の性能を著しく向上させることが示された。

The prediction of stocks' direction of movement using the historical price information has attracted considerable attention as a challenging problem in the field of machine learning. However, modeling and analyzing the hidden relations among stock prices as an important source of information for the prediction of their future behavior has not been explored well yet. The existing methods in this domain suffer from the lack of generality and flexibility and cannot be easily applied on any set of inter-related stocks. The main challenges in this domain are to find a way for modeling the existing relations among an arbitrary set of stocks and to exploit such a model for improving the prediction performance for those stocks. In this paper, we introduce a novel framework, called GCNET that models the relations among an arbitrary set of stocks as a graph structure called influence network and uses a set of history-based prediction models to infer plausible initial labels for a subset of the stock nodes in the graph. Finally, GCNET uses the Graph Convolutional Network algorithm to analyzes this partially labeled graph and predicts the next price direction of movement for each stock in the graph. GCNET is a general prediction framework that can be applied for the prediction of the price fluctuations for any set of interacting stocks based on their historical data. Our experiments and evaluations on sets of stocks from S\&P500 and NASDAQ show that GCNET significantly improves the performance of SOTA in terms of accuracy and MCC measures.
翻訳日:2022-03-27 13:47:12 公開日:2022-02-19
# (参考訳) 医療における責任あるAI

Responsible AI in Healthcare ( http://arxiv.org/abs/2203.03616v1 )

ライセンス: CC BY 4.0
Federico Cabitza, Davide Ciucci, Gabriella Pasi, Marco Viviani(参考訳) 本稿では、医療における責任あるAI分野におけるオープンな問題、実装されたソリューション、今後の研究について論じる。 特に,ミラノ・ビコッカ大学情報学・システム学・通信学科における2つの研究室の研究に関連する2つの主要な研究テーマについて述べる。 問題は、特に、医療データと機械アドバイスの不確実性、およびオンライン健康情報障害の問題に対処した。

This article discusses open problems, implemented solutions, and future research in the area of responsible AI in healthcare. In particular, we illustrate two main research themes related to the work of two laboratories within the Department of Informatics, Systems, and Communication at the University of Milano-Bicocca. The problems addressed concern, in particular, {uncertainty in medical data and machine advice}, and the problem of online health information disorder.
翻訳日:2022-03-13 16:14:51 公開日:2022-02-19
# (参考訳) ブロックチェーンに基づく暗号価格変動の時系列解析

Time Series Analysis of Blockchain-Based Cryptocurrency Price Changes ( http://arxiv.org/abs/2202.13874v1 )

ライセンス: CC BY 4.0
Jacques Fleischer and Gregor von Laszewski and Carlos Theran and Yohn Jairo Parra Bautista(参考訳) 本稿では、リスクの高い暗号通貨の歴史的記録にニューラルネットワークと人工知能(AI)を適用し、価格を推定する予測モデルをトレーニングする。 本論文のコードにはJupyterノートブックが含まれており、履歴データのCSVファイルがプログラムに入力されると、暗号通貨価格の時系列グラフを出力する。 別のJupyterノートブックはLSTM(長期記憶モデル)をトレーニングし、暗号通貨の閉値を予測する。 LSTMは、その日の終わりに通貨が持つ価格である密接な価格で供給されるので、それらの値から学ぶことができる。 ノートブックは、トレーニングセットと、結果の正確性を評価するテストセットの2つのセットを生成する。 データは手動のmin-maxスケーリングを使って正規化され、モデルにバイアスがないようにします。 そして、モデルを3つの層(lstm、ドロップアウト、高密度層)で訓練し、50エポックのトレーニングで損失を最小限にし、このトレーニングから、リカレントニューラルネットワーク(rnn)が生成され、トレーニングセットに適合する。 さらに、各エポックに対する損失のグラフが作成され、損失は時間とともに最小化される。 最後に、ノートブックは、実際の通貨価格のライングラフを赤で、予測価格を青でプロットする。 このプロセスは、予測モデルを比較するために、さらにいくつかの暗号通貨で繰り返される。 LSTMのパラメータ、例えばエポック数やバッチサイズは、ルート平均二乗誤差を最小化するために微調整される。

In this paper we apply neural networks and Artificial Intelligence (AI) to historical records of high-risk cryptocurrency coins to train a prediction model that guesses their price. This paper's code contains Jupyter notebooks, one of which outputs a timeseries graph of any cryptocurrency price once a CSV file of the historical data is inputted into the program. Another Jupyter notebook trains an LSTM, or a long short-term memory model, to predict a cryptocurrency's closing price. The LSTM is fed the close price, which is the price that the currency has at the end of the day, so it can learn from those values. The notebook creates two sets: a training set and a test set to assess the accuracy of the results. The data is then normalized using manual min-max scaling so that the model does not experience any bias; this also enhances the performance of the model. Then, the model is trained using three layers -- an LSTM, dropout, and dense layer-minimizing the loss through 50 epochs of training; from this training, a recurrent neural network (RNN) is produced and fitted to the training set. Additionally, a graph of the loss over each epoch is produced, with the loss minimizing over time. Finally, the notebook plots a line graph of the actual currency price in red and the predicted price in blue. The process is then repeated for several more cryptocurrencies to compare prediction models. The parameters for the LSTM, such as number of epochs and batch size, are tweaked to try and minimize the root mean square error.
翻訳日:2022-03-06 14:16:15 公開日:2022-02-19
# Transformerは変数バインディングを使用するか?

Do Transformers use variable binding? ( http://arxiv.org/abs/2203.00162v1 )

ライセンス: Link先を確認
Tommi Gr\"ondahl and N. Asokan(参考訳) ディープニューラルネットワーク(DNN)の説明可能性を高めるには、シンボリック計算を実装するかどうかを評価する必要がある。 中心となるシンボリックキャパシティの1つは変数バインディングである:入力値とシステム内部メモリに保持されている抽象変数をリンクする。 DNNの計算能力に関する以前の研究は、内部プロセスが変数結合を含むかどうかという問題を解決していない。 この理由は基本的であり、事前の作業における実験の設計方法に固有のものである、と私たちは主張する。 本稿では,最先端トランスフォーマーネットワークBERTとRoBERTaの可変結合容量を初めて体系的に評価する。 我々の実験は、入力語彙の解離部分集合にまたがる規則を一般化するように設計されており、連想パターンマッチングのみに依存することはできない。 BERTとRoBERTaは、テストセットで切り替わるタスク固有の語彙で訓練された場合でも、文字列のコピーやリバースを簡単に学べるが、どちらのモデルも、類似のシーケンス分類タスクにおいて語彙をまたいで完全に一般化できない。 これらの結果から, シーケンスモデリングにおけるトランスフォーマーの有効性は, 可変結合を含むネットワーク内部のシンボル操作よりも, 入力自体を外部の「メモリ」として広く活用していることが示唆された。 そこで本研究では,ネットワーク内部変数バインディングの欠如を回避するために利用可能な入力を増強する,今後の作業のための新しい方向性を提案する。

Increasing the explainability of deep neural networks (DNNs) requires evaluating whether they implement symbolic computation. One central symbolic capacity is variable binding: linking an input value to an abstract variable held in system-internal memory. Prior work on the computational abilities of DNNs has not resolved the question of whether their internal processes involve variable binding. We argue that the reason for this is fundamental, inherent in the way experiments in prior work were designed. We provide the first systematic evaluation of the variable binding capacities of the state-of-the-art Transformer networks BERT and RoBERTa. Our experiments are designed such that the model must generalize a rule across disjoint subsets of the input vocabulary, and cannot rely on associative pattern matching alone. The results show a clear discrepancy between classification and sequence-to-sequence tasks: BERT and RoBERTa can easily learn to copy or reverse strings even when trained on task-specific vocabularies that are switched in the test set; but both models completely fail to generalize across vocabularies in similar sequence classification tasks. These findings indicate that the effectiveness of Transformers in sequence modelling may lie in their extensive use of the input itself as an external "memory" rather than network-internal symbolic operations involving variable binding. Therefore, we propose a novel direction for future work: augmenting the inputs available to circumvent the lack of network-internal variable binding.
翻訳日:2022-03-06 13:13:57 公開日:2022-02-19
# ウェーブレット型マルチクラス発作分類システム

Wavelet-Based Multi-Class Seizure Type Classification System ( http://arxiv.org/abs/2203.00511v1 )

ライセンス: Link先を確認
Hezam Albaqami, Ghulam Mubashar Hassan, Amitava Datta(参考訳) てんかんは世界の人口の12%以上に影響する最も一般的な脳疾患の1つである。 異なるタイプの再発発作を特徴とし、異なる方法で治療される。 脳波検査(Electroencephalography、EEG)は、発作とそのタイプを診断するために医療サービスで一般的に用いられる。 発作の正確な同定は、患者に最適な治療と正確な情報を提供するのに役立つ。 しかし,てんかん発作の診断は困難であり,高度に専門化されている。 さらに、EEGマニュアル評価は専門家の間でのレータ間合意の低さが知られているプロセスである。 本稿では,双本木複合ウェーブレット変換(dtcwt)を用いて脳波信号から特定の特徴を抽出し,分類する新しい自動手法を提案する。 TUH EEG Seizure Corpus (TUSZ) ver.1.5.2 データセットを用いて提案手法の評価を行い、クラス不均衡発作型によるF1スコアを用いた既存の最先端技術と比較した。 提案手法は, 重み付きf1-scoreを99.1\%, 74.7\%の患者別分類でそれぞれ最良とし, 新たなベンチマーク結果を得た。

Epilepsy is one of the most common brain diseases that affect more than 1\% of the world's population. It is characterized by recurrent seizures, which come in different types and are treated differently. Electroencephalography (EEG) is commonly used in medical services to diagnose seizures and their types. The accurate identification of seizures helps to provide optimal treatment and accurate information to the patient. However, the manual diagnostic procedures of epileptic seizures are laborious and highly-specialized. Moreover, EEG manual evaluation is a process known to have a low inter-rater agreement among experts. This paper presents a novel automatic technique that involves extraction of specific features from EEG signals using Dual-tree Complex Wavelet Transform (DTCWT) and classifying them. We evaluated the proposed technique on TUH EEG Seizure Corpus (TUSZ) ver.1.5.2 dataset and compared the performance with existing state-of-the-art techniques using overall F1-score due to class imbalance seizure types. Our proposed technique achieved the best results of weighted F1-score of 99.1\% and 74.7\% for seizure-wise and patient-wise classification respectively, thereby setting new benchmark results for this dataset.
翻訳日:2022-03-06 13:13:16 公開日:2022-02-19
# (参考訳) 逆文摂動のデータ駆動緩和

Data-Driven Mitigation of Adversarial Text Perturbation ( http://arxiv.org/abs/2202.09483v1 )

ライセンス: CC BY 4.0
Rasika Bhalerao, Mohammad Al-Rubaie, Anand Bhaskar, Igor Markov(参考訳) ソーシャルネットワークは私たちの生活にとって欠かせない部分となり、何十億もの人々がテキストを制作している。 このような規模では、コンテンツポリシーとその施行が最重要となる。 モデレーションを自動化するために、自然言語処理(NLP)分類器によって疑わしい内容を検出する。 しかし、ハイパフォーマンスな分類器は、誤文や逆文の摂動によって妨げられる。 本稿では,意図的かつ意図的でない逆文摂動を10種類に分類し,そのような摂動に対してNLPモデルを堅牢化するための難読化パイプラインを提案する。 我々は,単語の摂動が元の単語と類似した埋め込みを持つことを保証する単語埋め込みを学習するためのデータ駆動手法である連続型word2vec(cw2v)を提案する。 我々は,CW2V埋め込みが文字nグラムに基づく埋め込みよりもテキスト摂動に強いことを示す。 当社のロバストな分類パイプラインは、難読化と分類を組み合わせることで、提案された防御メソッドと単語埋め込みを使用して、likeなどのエンゲージメントを要求するfacebookポストを分類します。 このパイプラインでは,逆テキストの摂動を伴う0.70から0.67 aucまでのエンゲージメントベイト分類を行い,文字ngramに基づく単語埋め込み手法では0.76から0.64までのダウンストリーム分類を行う。

Social networks have become an indispensable part of our lives, with billions of people producing ever-increasing amounts of text. At such scales, content policies and their enforcement become paramount. To automate moderation, questionable content is detected by Natural Language Processing (NLP) classifiers. However, high-performance classifiers are hampered by misspellings and adversarial text perturbations. In this paper, we classify intentional and unintentional adversarial text perturbation into ten types and propose a deobfuscation pipeline to make NLP models robust to such perturbations. We propose Continuous Word2Vec (CW2V), our data-driven method to learn word embeddings that ensures that perturbations of words have embeddings similar to those of the original words. We show that CW2V embeddings are generally more robust to text perturbations than embeddings based on character ngrams. Our robust classification pipeline combines deobfuscation and classification, using proposed defense methods and word embeddings to classify whether Facebook posts are requesting engagement such as likes. Our pipeline results in engagement bait classification that goes from 0.70 to 0.67 AUC with adversarial text perturbation, while character ngram-based word embedding methods result in downstream classification that goes from 0.76 to 0.64.
翻訳日:2022-02-26 17:45:11 公開日:2022-02-19
# (参考訳) Automungeによるデータの不足

Missing Data Infill with Automunge ( http://arxiv.org/abs/2202.09484v1 )

ライセンス: CC BY 4.0
Nicholas J.Teague(参考訳) データ不足はデータサイエンスの実践における基本的な障害である。 本稿では,Automunge オープンソース python library platform for tabular data preprocessing において,自動MLモデルをトレーニングセットの分割抽出からターゲット特徴に対してトレーニングする "ML infill" など,いくつかの計算方法について検討する。 一連の検証実験により、ダウンストリームモデル性能の計算シナリオをベンチマークし、与えられたベンチマークセットに対してMLインフィルが数値的およびカテゴリー的両方の特徴に優れており、他の計算シナリオのノイズ分布の中では最小限であったことが判明した。 証拠はまた、インフィルの存在を示すブール整数マーカーでサポートカラムを追加することでmlインフィルを補うことが、通常下流モデルの性能に有益であることを示唆している。 これらの結果は,表型学習のためのMLインフィルのデフォルト化を推奨するのに十分であり,さらに,Automungeライブラリのプッシュボタン操作で用意できるように,インフィルの存在を知らせるサポートコラムを補足することを推奨する。 当社のコントリビューションには、pythonエコシステムにおける表型学習のためのauto mlによる欠落データインプテーションライブラリが含まれており、機能変換の広範なライブラリを備えたプリプロセッシングプラットフォームに完全に統合されています。

Missing data is a fundamental obstacle in the practice of data science. This paper surveys a few conventions for imputation as available in the Automunge open source python library platform for tabular data preprocessing, including "ML infill" in which auto ML models are trained for target features from partitioned extracts of a training set. A series of validation experiments were performed to benchmark imputation scenarios towards downstream model performance, in which it was found for the given benchmark sets that in many cases ML infill outperformed for both numeric and categoric target features, and was otherwise at minimum within noise distributions of the other imputation scenarios. Evidence also suggested supplementing ML infill with the addition of support columns with boolean integer markers signaling presence of infill was usually beneficial to downstream model performance. We consider these results sufficient to recommend defaulting to ML infill for tabular learning, and further recommend supplementing imputations with support columns signaling presence of infill, each as can be prepared with push-button operation in the Automunge library. Our contributions include an auto ML derived missing data imputation library for tabular learning in the python ecosystem, fully integrated into a preprocessing platform with an extensive library of feature transformations, with a novel production friendly implementation that bases imputation models on a designated train set for consistent basis towards additional data.
翻訳日:2022-02-26 17:32:41 公開日:2022-02-19
# (参考訳) ラベルスムースなバックドア攻撃

Label-Smoothed Backdoor Attack ( http://arxiv.org/abs/2202.11203v1 )

ライセンス: CC BY 4.0
Minlong Peng, Zidi Xiong, Mingming Sun, Ping Li(参考訳) トレーニングセットに少量の有毒サンプルを注入することで、バックドア攻撃は、事前に設計されたバックドアで注入された入力に対して、設計されたアウトプットを生成することを目的としている。 有毒なトレーニングサンプルをできるだけ少なく使用して高い攻撃成功率を達成するために、既存の攻撃方法は、有毒なサンプルのラベルをターゲットクラスに変更する。 この慣行は、しばしば被害者モデルをバックドアに過度に適合させ、攻撃は出力制御に非常に効果的であるが、人間の検査や自動防御アルゴリズムによって容易に識別できる。 本研究では,これらの攻撃手法の過剰フィッティング問題を克服するためのラベルスムーシング戦略を提案し,lsba ( \textit{label-smoothed backdoor attack}) を得た。 lsba では、有毒サンプル $\bm{x}$ のラベルは、100\% ではなく $p_n(\bm{x})$ の確率でターゲットクラスに変更され、$p_n(\bm{x})$ の値は、ターゲットクラスが他のクラスよりもわずかに大きい確率になるように特別に設計されている。 いくつかの既存のバックドア攻撃に関する実証研究は、我々の戦略がこれらの攻撃のステルス性を大幅に改善し、同時に高い攻撃成功率を達成できることを示している。 さらに当社の戦略では,lsbas\footnote{source codeの適用される数と有効数を操作することで,設計出力の予測確率を手作業で制御することが可能です。

By injecting a small number of poisoned samples into the training set, backdoor attacks aim to make the victim model produce designed outputs on any input injected with pre-designed backdoors. In order to achieve a high attack success rate using as few poisoned training samples as possible, most existing attack methods change the labels of the poisoned samples to the target class. This practice often results in severe over-fitting of the victim model over the backdoors, making the attack quite effective in output control but easier to be identified by human inspection or automatic defense algorithms. In this work, we proposed a label-smoothing strategy to overcome the over-fitting problem of these attack methods, obtaining a \textit{Label-Smoothed Backdoor Attack} (LSBA). In the LSBA, the label of the poisoned sample $\bm{x}$ will be changed to the target class with a probability of $p_n(\bm{x})$ instead of 100\%, and the value of $p_n(\bm{x})$ is specifically designed to make the prediction probability the target class be only slightly greater than those of the other classes. Empirical studies on several existing backdoor attacks show that our strategy can considerably improve the stealthiness of these attacks and, at the same time, achieve a high attack success rate. In addition, our strategy makes it able to manually control the prediction probability of the design output through manipulating the applied and activated number of LSBAs\footnote{Source code will be published at \url{https://github.com/v-mipeng/LabelSmoothedAttack.git}}.
翻訳日:2022-02-26 17:14:03 公開日:2022-02-19
# (参考訳) 深層強化学習における形状アドバイス

Shaping Advice in Deep Reinforcement Learning ( http://arxiv.org/abs/2202.09489v1 )

ライセンス: CC BY 4.0
Baicen Xiao, Bhaskar Ramasubramanian, Radha Poovendran(参考訳) 強化学習は、タスクを完了するために環境と対話するエージェントを伴う。 環境が与える報酬が少なすぎると、エージェントは行動の質について即座にフィードバックを受けられなくなり、ポリシーの学習に影響を及ぼす。 本稿では,シングルエージェントとマルチエージェントの強化学習において,「シェーピングアドバイス」と呼ばれる追加の報酬を加えて,環境からの報酬信号を強化する手法を提案する。 シェーピングアドバイスは、連続する時間ステップにおけるポテンシャル関数の差として特定される。 それぞれのポテンシャル関数は、エージェントの観察と行動の関数である。 ポテンシャル関数の使用は、任意の状態から始まり、同じ状態に戻るときの総ポテンシャルが常に0に等しいという洞察に支えられている。 提案手法は,環境報酬によって指定されたタスクの完了をエージェントが妨げない,という理論解析と実験的な検証を通じて示す。 理論的には、整形アドバイスを用いた場合の政策勾配と値関数の収束は、整形アドバイスがない場合のこれらの量の収束を意味する。 単一エージェント強化学習(SAS)におけるシェーピングアドバイスと、多エージェント強化学習(SAM)におけるシェーピングアドバイスという2つのアルゴリズムを設計する。 SASとSAMでアドバイスを作成するには、トレーニング開始時に一度だけ指定する必要がある。 実験により,単エージェント環境における2つのタスクと,スパース報酬を有するマルチエージェント環境における3つのタスクについて,SASとSAMを評価した。 我々は,シェーピングアドバイスを使用すれば,エージェントがタスクを迅速に完了するためのポリシーを学習し,シェーピングアドバイスを使用しないアルゴリズムよりも高い報酬が得られることを観察する。

Reinforcement learning involves agents interacting with an environment to complete tasks. When rewards provided by the environment are sparse, agents may not receive immediate feedback on the quality of actions that they take, thereby affecting learning of policies. In this paper, we propose to methods to augment the reward signal from the environment with an additional reward termed shaping advice in both single and multi-agent reinforcement learning. The shaping advice is specified as a difference of potential functions at consecutive time-steps. Each potential function is a function of observations and actions of the agents. The use of potential functions is underpinned by an insight that the total potential when starting from any state and returning to the same state is always equal to zero. We show through theoretical analyses and experimental validation that the shaping advice does not distract agents from completing tasks specified by the environment reward. Theoretically, we prove that the convergence of policy gradients and value functions when using shaping advice implies the convergence of these quantities in the absence of shaping advice. We design two algorithms- Shaping Advice in Single-agent reinforcement learning (SAS) and Shaping Advice in Multi-agent reinforcement learning (SAM). Shaping advice in SAS and SAM needs to be specified only once at the start of training, and can easily be provided by non-experts. Experimentally, we evaluate SAS and SAM on two tasks in single-agent environments and three tasks in multi-agent environments that have sparse rewards. We observe that using shaping advice results in agents learning policies to complete tasks faster, and obtain higher rewards than algorithms that do not use shaping advice.
翻訳日:2022-02-26 17:00:24 公開日:2022-02-19
# (参考訳) 変換符号化:同変表現のための単純な目的

Transformation Coding: Simple Objectives for Equivariant Representations ( http://arxiv.org/abs/2202.10930v1 )

ライセンス: CC BY 4.0
Mehran Shakerinava, Arnab Kumar Mondal, Siamak Ravanbakhsh(参考訳) 簡単な目的を通した均質な深層埋め込みを求める深層表現学習への単純な非生成的アプローチを提案する。 既存の等価ネットワークとは対照的に、我々の変換符号化アプローチはフィードフォワード層やアーキテクチャの選択を制約せず、入力空間上で未知のグループアクションを可能にする。 本稿では、ユークリッド群、直交群、ユニタリ群といった異なるリー群に対する変換符号化対象をいくつか紹介する。 積群を使用する場合、表現は分解され、切り離される。 異なる変換に対する追加情報の存在が変換符号化における歪みを改善することを示す。 強化学習を含む下流タスクの質的および定量的にコード化することで学習した表現を評価する。

We present a simple non-generative approach to deep representation learning that seeks equivariant deep embedding through simple objectives. In contrast to existing equivariant networks, our transformation coding approach does not constrain the choice of the feed-forward layer or the architecture and allows for an unknown group action on the input space. We introduce several such transformation coding objectives for different Lie groups such as the Euclidean, Orthogonal and the Unitary groups. When using product groups, the representation is decomposed and disentangled. We show that the presence of additional information on different transformations improves disentanglement in transformation coding. We evaluate the representations learnt by transformation coding both qualitatively and quantitatively on downstream tasks, including reinforcement learning.
翻訳日:2022-02-26 16:27:15 公開日:2022-02-19
# (参考訳) Automungeによる数値エンコーディングオプション

Numeric Encoding Options with Automunge ( http://arxiv.org/abs/2202.09496v1 )

ライセンス: CC BY 4.0
Nicholas J. Teague(参考訳) 表データを使った機械学習の主流的プラクティスは、数値集合のスケーリング以外の機能エンジニアリングがディープニューラルネットワークのコンテキストにおいて過剰であるという点で当然のことだ。 本稿では、グラフデータパイプライン用Automungeオープンソースpythonライブラリプラットフォームで利用可能な数値変換の選択肢を調査することで、ディープラーニングにおける数値ストリームのエンコーディングの拡張による潜在的なメリットについて論じる。 Automunge変換オプションには、正規化、ビンニング、ノイズ注入、デリバティブなどが含まれる。 これらの手法のファミリツリー変換集合への集約は、未知の解釈の数値集合を符号化するために用いられるように、様々な情報内容の複数の構成で機械学習に数値特徴を提示するために用いられる。 実験は、表型学習のためのノイズインジェクションによるデータ拡張に対する新しい一般化解の実現を実証する。

Mainstream practice in machine learning with tabular data may take for granted that any feature engineering beyond scaling for numeric sets is superfluous in context of deep neural networks. This paper will offer arguments for potential benefits of extended encodings of numeric streams in deep learning by way of a survey of options for numeric transformations as available in the Automunge open source python library platform for tabular data pipelines, where transformations may be applied to distinct columns in "family tree" sets with generations and branches of derivations. Automunge transformation options include normalization, binning, noise injection, derivatives, and more. The aggregation of these methods into family tree sets of transformations are demonstrated for use to present numeric features to machine learning in multiple configurations of varying information content, as may be applied to encode numeric sets of unknown interpretation. Experiments demonstrate the realization of a novel generalized solution to data augmentation by noise injection for tabular learning, as may materially benefit model performance in applications with underserved training data.
翻訳日:2022-02-26 15:47:27 公開日:2022-02-19
# (参考訳) Automungeでパースされたカテゴリエンコーディング

Parsed Categoric Encodings with Automunge ( http://arxiv.org/abs/2202.09498v1 )

ライセンス: CC BY 4.0
Nicholas J. Teague(参考訳) タブ形式のデータ前処理のためのAutomungeのオープンソースのpythonライブラリプラットフォームは、数値エンコーディングと欠落したデータ入力による機能エンジニアリングデータ変換を自動化し、列のプロパティに適合するベース上で、推論などのその後のデータパイプラインへの一貫性と効率の確保を目的としている。 変換ライブラリには、自動文字列解析によって有界な分類文字列集合から構造を抽出する手法が含まれており、一意値の集合におけるエントリ間の比較を解析して、ブール重複検出アクティベーションの付加列によってエンコードされる文字サブセットの重複を特定するか、あるいは、文字列エントリを識別された重複分割で置き換える。 さらに文字列解析オプションは、非有界なカテゴリ集合にも適用でき、エントリや検索関数から数値的なサブストリングパーティションを抽出して特定のサブストリングパーティションの存在を特定する。 これらの手法の「ファミリーツリー」変換集合への集約は、人間の介入なしに機械学習のためのカテゴリ文字列セットエンコーディングを作成するように、列内のエントリのセットに関連するカテゴリ文字列合成から構造を自動的に抽出するために使用される。

The Automunge open source python library platform for tabular data pre-processing automates feature engineering data transformations of numerical encoding and missing data infill to received tidy data on bases fit to properties of columns in a designated train set for consistent and efficient application to subsequent data pipelines such as for inference, where transformations may be applied to distinct columns in "family tree" sets with generations and branches of derivations. Included in the library of transformations are methods to extract structure from bounded categorical string sets by way of automated string parsing, in which comparisons between entries in the set of unique values are parsed to identify character subset overlaps which may be encoded by appended columns of boolean overlap detection activations or by replacing string entries with identified overlap partitions. Further string parsing options, which may also be applied to unbounded categoric sets, include extraction of numeric substring partitions from entries or search functions to identify presence of specified substring partitions. The aggregation of these methods into "family tree" sets of transformations are demonstrated for use to automatically extract structure from categoric string compositions in relation to the set of entries in a column, such as may be applied to prepare categoric string set encodings for machine learning without human intervention.
翻訳日:2022-02-26 15:04:47 公開日:2022-02-19
# (参考訳) セッションベース推薦のためのグラフスプリングネットワークと情報アンカー選択

Graph Spring Network and Informative Anchor Selection for Session-based Recommendation ( http://arxiv.org/abs/2202.09502v1 )

ライセンス: CC BY 4.0
Zizhuo Zhang and Bang Wang(参考訳) セッションベースレコメンデーション(sbr)は、進行中の匿名セッションの次の項目を予測することを目的としている。 SBRの最大の課題は、アイテム間のリッチな関係をキャプチャし、IDベースのアイテム埋め込みを学習してそのような関係をキャプチャする方法である。 近年の研究では,まずセッションからアイテムグラフを構築し,グラフからのアイテム埋め込みを符号化するためにグラフニューラルネットワーク(GNN)を用いる。 このようなグラフベースのアプローチは性能改善を実現しているが、そのGNNはSBRタスクのIDベースの埋め込み学習には適していない。 本稿では,そのようなIDに基づく埋め込み学習の目的は,ノードの埋め込みが,隣接ノードの埋め込み空間に類似しているような,ある種の‘textit{neighborhood affinity’をキャプチャすることである,と論じる。 我々は,グラフスプリングネットワーク(GSN)と呼ばれる新しいグラフニューラルネットワークを提案し,アイテムグラフにIDベースのアイテム埋め込みを学習し,埋め込み空間における近傍親和性を最適化する。 さらに,複数のgnn層を積み重ねても,グラフ内の2つの項目ノードの潜在的な関係をエンコードするには不十分である可能性がある。 本稿では,まず情報的アンカーを選択し,そのアンカーに対するアイテムの潜在的な関係を符号化する戦略を提案する。 要約すると、SBRタスクのためのGSN-IASモデル(Graph Spring Network and Informative Anchor Selection)を提案する。 まず,各セッションにおける項目の共起を記述した項目グラフを構築した。 我々は、IDベースのアイテム埋め込み学習のためのGSNを設計し、情報アンカーを選択するためのtextit{item entropy}尺度を提案する。 次に,アンカーとの関係をエンコードする教師なし学習機構を設計する。 次に,共有ゲートリカレントユニット(gru)ネットワークを用いて2つのセッション表現を学習し,次の2つのアイテム予測を行う。 最後に,2つの予測を融合して最終推薦を行う適応的決定融合戦略を設計する。

Session-based recommendation (SBR) aims at predicting the next item for an ongoing anonymous session. The major challenge of SBR is how to capture richer relations in between items and learn ID-based item embeddings to capture such relations. Recent studies propose to first construct an item graph from sessions and employ a Graph Neural Network (GNN) to encode item embedding from the graph. Although such graph-based approaches have achieved performance improvements, their GNNs are not suitable for ID-based embedding learning for the SBR task. In this paper, we argue that the objective of such ID-based embedding learning is to capture a kind of \textit{neighborhood affinity} in that the embedding of a node is similar to that of its neighbors' in the embedding space. We propose a new graph neural network, called Graph Spring Network (GSN), for learning ID-based item embedding on an item graph to optimize neighborhood affinity in the embedding space. Furthermore, we argue that even stacking multiple GNN layers may not be enough to encode potential relations for two item nodes far-apart in a graph. In this paper, we propose a strategy that first selects some informative item anchors and then encode items' potential relations to such anchors. In summary, we propose a GSN-IAS model (Graph Spring Network and Informative Anchor Selection) for the SBR task. We first construct an item graph to describe items' co-occurrences in all sessions. We design the GSN for ID-based item embedding learning and propose an \textit{item entropy} measure to select informative anchors. We then design an unsupervised learning mechanism to encode items' relations to anchors. We next employ a shared gated recurrent unit (GRU) network to learn two session representations and make two next item predictions. Finally, we design an adaptive decision fusion strategy to fuse two predictions to make the final recommendation.
翻訳日:2022-02-26 14:43:31 公開日:2022-02-19
# (参考訳) 量子グラフコンピューティングから量子グラフ学習へ:調査

From Quantum Graph Computing to Quantum Graph Learning: A Survey ( http://arxiv.org/abs/2202.09506v1 )

ライセンス: CC BY 4.0
Yehui Tang, Junchi Yan, Hancock Edwin(参考訳) 量子コンピューティング(QC)は、量子物理学に基礎を置く新しい計算パラダイムである。 注目すべき進歩は、量子計算力を利用する一連の量子ベースのアルゴリズムの誕生を駆動するものである。 本稿では,グラフ関連タスクのためのqcの開発を目標とした調査を行う。 まず,量子力学とグラフ理論の相関関係を詳述し,量子コンピュータは,グラフに関連するいくつかの問題に対して古典的システムでは効率的に生成できない有用な解を生成することができることを示した。 その実用性と幅広い適用性について,様々なタスク用に設計された典型的なグラフ学習手法について概観する。 これらの強力な手法に着想を得て、グラフ構造を特徴づけるための高度な量子アルゴリズムが提案されていることに留意する。 我々は、今後の研究に期待が触媒となる量子グラフ学習のスナップショットを示す。 さらに、グラフ学習における量子アルゴリズムの課題と、より柔軟で汎用的な量子グラフ学習ソルバに向けた今後の方向性について論じる。

Quantum computing (QC) is a new computational paradigm whose foundations relate to quantum physics. Notable progress has been made, driving the birth of a series of quantum-based algorithms that take advantage of quantum computational power. In this paper, we provide a targeted survey of the development of QC for graph-related tasks. We first elaborate the correlations between quantum mechanics and graph theory to show that quantum computers are able to generate useful solutions that can not be produced by classical systems efficiently for some problems related to graphs. For its practicability and wide-applicability, we give a brief review of typical graph learning techniques designed for various tasks. Inspired by these powerful methods, we note that advanced quantum algorithms have been proposed for characterizing the graph structures. We give a snapshot of quantum graph learning where expectations serve as a catalyst for subsequent research. We further discuss the challenges of using quantum algorithms in graph learning, and future directions towards more flexible and versatile quantum graph learning solvers.
翻訳日:2022-02-26 14:17:46 公開日:2022-02-19
# (参考訳) 適応正規化逆訓練によるstackelbergゲームとしてのロバスト強化学習

Robust Reinforcement Learning as a Stackelberg Game via Adaptively-Regularized Adversarial Training ( http://arxiv.org/abs/2202.09514v1 )

ライセンス: CC BY-SA 4.0
Peide Huang, Mengdi Xu, Fei Fang, Ding Zhao(参考訳) Robust Reinforcement Learning (RL)は、モデルエラーや敵攻撃によるパフォーマンス向上に焦点を当てており、RLエージェントの実際のデプロイを容易にする。 Robust Adversarial Reinforcement Learning (RARL)は、堅牢なRLのための最も人気のあるフレームワークの1つである。 しかし、既存の文献の多くは、RARLをナッシュ均衡を解の概念としてゼロサム同時ゲームとしてモデル化しており、これはRL配置のシーケンシャルな性質を見落とし、過度に保守的なエージェントを生成し、トレーニング不安定を誘導することができる。 本稿では,RRL-Stackと呼ばれる汎用スタックベルグゲームモデルであるロバストRLの階層的な新しい定式化を導入し,シーケンシャルな性質を定式化し,ロバストトレーニングにさらなる柔軟性を提供する。 我々は,rrlスタックの解法としてstackelbergポリシー勾配アルゴリズムを開発し,敵の応答を考慮し,stackelberg学習ダイナミクスを活用する。 提案手法は,RLエージェントの堅牢な学習に役立てる,難解で解決可能な対向環境を生成する。 本アルゴリズムは,単エージェントロボット制御と多エージェントハイウェイ統合タスクにおいて,異なるテスト条件に対するトレーニング安定性とロバスト性を示す。

Robust Reinforcement Learning (RL) focuses on improving performances under model errors or adversarial attacks, which facilitates the real-life deployment of RL agents. Robust Adversarial Reinforcement Learning (RARL) is one of the most popular frameworks for robust RL. However, most of the existing literature models RARL as a zero-sum simultaneous game with Nash equilibrium as the solution concept, which could overlook the sequential nature of RL deployments, produce overly conservative agents, and induce training instability. In this paper, we introduce a novel hierarchical formulation of robust RL - a general-sum Stackelberg game model called RRL-Stack - to formalize the sequential nature and provide extra flexibility for robust training. We develop the Stackelberg Policy Gradient algorithm to solve RRL-Stack, leveraging the Stackelberg learning dynamics by considering the adversary's response. Our method generates challenging yet solvable adversarial environments which benefit RL agents' robust learning. Our algorithm demonstrates better training stability and robustness against different testing conditions in the single-agent robotics control and multi-agent highway merging tasks.
翻訳日:2022-02-26 14:01:58 公開日:2022-02-19
# (参考訳) 胸部x線写真からの肺炎検出のための古典量子畳み込みニューラルネットワーク

A Classical-Quantum Convolutional Neural Network for Detecting Pneumonia from Chest Radiographs ( http://arxiv.org/abs/2202.10452v1 )

ライセンス: CC BY 4.0
Viraj Kulkarni, Sanjesh Pawale, Amit Kharat(参考訳) 機械学習のための多くの量子コンピューティング技術が提案されているが、実世界のデータセットのパフォーマンスは研究されていない。 本稿では,変動量子回路を古典的ニューラルネットワークに統合し,胸部x線写真から肺炎を検出する方法について検討する。 古典的畳み込みニューラルネットワークの一層を変分量子回路で置換し、ハイブリッドニューラルネットワークを作成する。 胸部X線写真を含む画像データセット上で両ネットワークをトレーニングし,その性能をベンチマークする。 ネットワークトレーニングにおけるランダムネスの異なる源の影響を緩和するために,複数のラウンドから結果をサンプリングする。 ハイブリッドネットワークは,従来のネットワークを異なる性能尺度で上回っており,これらの改善は統計的に有意であることを示す。 我々の研究は、社会や産業に関連する非自明な現実的な問題に対して、ニューラルネットワークの性能を大幅に向上させる量子コンピューティングの可能性の実験的な実証となる。

While many quantum computing techniques for machine learning have been proposed, their performance on real-world datasets remains to be studied. In this paper, we explore how a variational quantum circuit could be integrated into a classical neural network for the problem of detecting pneumonia from chest radiographs. We substitute one layer of a classical convolutional neural network with a variational quantum circuit to create a hybrid neural network. We train both networks on an image dataset containing chest radiographs and benchmark their performance. To mitigate the influence of different sources of randomness in network training, we sample the results over multiple rounds. We show that the hybrid network outperforms the classical network on different performance measures, and that these improvements are statistically significant. Our work serves as an experimental demonstration of the potential of quantum computing to significantly improve neural network performance for real-world, non-trivial problems relevant to society and industry.
翻訳日:2022-02-26 13:46:50 公開日:2022-02-19
# (参考訳) 非教師付きドメイン適応のためのBP-Triplet Net:ベイズ的視点

BP-Triplet Net for Unsupervised Domain Adaptation: A Bayesian Perspective ( http://arxiv.org/abs/2202.09541v1 )

ライセンス: CC BY 4.0
Shanshan Wang, Lei Zhang, Pichao Wang(参考訳) ディープメトリック学習(dml)メソッドの1つであるトリプレット損失は、同じクラスの例が異なるクラスの例よりも近い組込みを学ぶことである。 DMLをモチベーションとして,ベイズ学習の観点から教師なしドメイン適応(UDA)に有効なBP-Triplet Lossを提案し,そのモデルをBP-Triplet Netと命名した。 従来のUDAの計量学習に基づく手法では、ドメイン間のサンプルペアは等しく扱われるが、ドメインバイアスのため適切ではない。 本研究では,特徴学習とドメインアライメントの両面でのペアワイズサンプルの重要性を考慮し,ベイズ学習の観点から有効なUDAのためのBP-Triplet損失を推定する。 BP-Triplet損失は、ドメイン内およびドメイン間におけるペアワイズサンプルの重量を調整する。 特に、硬い対(硬い正の対と硬い負の対を含む)に自己参加することができる。 ドメインアライメントのための一般的に使用される対向損失とともに、ターゲットの擬似ラベルの品質が徐々に向上する。 本手法は理想源と目標仮説の結合誤差を低くした。 予測対象誤差は、ベンダビッドの定理に従って上界となる。 5つのベンチマークデータセット、手書き桁、Office31、ImageCLEF-DA、Office-Home、VisDA-2017の総合評価は、提案されたUDAアプローチの有効性を示している。

Triplet loss, one of the deep metric learning (DML) methods, is to learn the embeddings where examples from the same class are closer than examples from different classes. Motivated by DML, we propose an effective BP-Triplet Loss for unsupervised domain adaption (UDA) from the perspective of Bayesian learning and we name the model as BP-Triplet Net. In previous metric learning based methods for UDA, sample pairs across domains are treated equally, which is not appropriate due to the domain bias. In our work, considering the different importance of pair-wise samples for both feature learning and domain alignment, we deduce our BP-Triplet loss for effective UDA from the perspective of Bayesian learning. Our BP-Triplet loss adjusts the weights of pair-wise samples in intra domain and inter domain. Especially, it can self attend to the hard pairs (including hard positive pair and hard negative pair). Together with the commonly used adversarial loss for domain alignment, the quality of target pseudo labels is progressively improved. Our method achieved low joint error of the ideal source and target hypothesis. The expected target error can then be upper bounded following Ben-David s theorem. Comprehensive evaluations on five benchmark datasets, handwritten digits, Office31, ImageCLEF-DA, Office-Home and VisDA-2017 demonstrate the effectiveness of the proposed approach for UDA.
翻訳日:2022-02-26 13:17:39 公開日:2022-02-19
# (参考訳) 音楽ビデオからの感情予測 : 視覚・聴覚情報の感情応答に対する相対的寄与について

Predicting emotion from music videos: exploring the relative contribution of visual and auditory information to affective responses ( http://arxiv.org/abs/2202.10453v1 )

ライセンス: CC BY 4.0
Phoebe Chua (1), Dimos Makris (2), Dorien Herremans (2), Gemma Roig (3), Kat Agres (4) ((1) Department of Information Systems and Analytics, National University of Singapore, (2) Singapore University of Technology and Design, (3) Goethe University Frankfurt, (4) Yong Siew Toh Conservatory of Music, National University of Singapore)(参考訳) メディアコンテンツは徐々に生産され、配布され、複数のモダリティの組み合わせで消費されるようになっているが、個々のモダリティがメディアアイテムの知覚的感情にどのように寄与するかは、いまだによく分かっていない。 本稿では、感情的マルチメディアコンテンツ分析のための新しいデータセットであるMusicVideos(MuVi)について、聴覚と視覚のモダリティがメディアの知覚的感情にどのように寄与するかを研究する。 データは、音楽、視覚、オーディオヴィジュアルの3つの条件で、参加者に音楽映像を提示することで収集された。 参加者は、音楽ビデオのヴァレンスと覚醒、そして伝達される全体的な感情に注釈を付けました。 本稿では,データセットにおける重要尺度の詳細な記述統計と,各条件に対する特徴量分析の結果について述べる。 最後に,分離モダリティレーティング(PAIR)を付加した予測モデルを学習するための新しい伝達学習アーキテクチャを提案し,マルチモーダル感情認識を向上するためのモダリティ評価の可能性を示す。 その結果, 覚醒の知覚は主に聴覚情報に影響され, ヴァレンスの知覚はより主観的であり, 視覚情報と聴覚情報の両方に影響されることが示唆された。 データセットは公開されています。

Although media content is increasingly produced, distributed, and consumed in multiple combinations of modalities, how individual modalities contribute to the perceived emotion of a media item remains poorly understood. In this paper we present MusicVideos (MuVi), a novel dataset for affective multimedia content analysis to study how the auditory and visual modalities contribute to the perceived emotion of media. The data were collected by presenting music videos to participants in three conditions: music, visual, and audiovisual. Participants annotated the music videos for valence and arousal over time, as well as the overall emotion conveyed. We present detailed descriptive statistics for key measures in the dataset and the results of feature importance analyses for each condition. Finally, we propose a novel transfer learning architecture to train Predictive models Augmented with Isolated modality Ratings (PAIR) and demonstrate the potential of isolated modality ratings for enhancing multimodal emotion recognition. Our results suggest that perceptions of arousal are influenced primarily by auditory information, while perceptions of valence are more subjective and can be influenced by both visual and auditory information. The dataset is made publicly available.
翻訳日:2022-02-26 12:56:01 公開日:2022-02-19
# (参考訳) 暗黒環境における行動認識の深化:包括的ベンチマーク研究

Going Deeper into Recognizing Actions in Dark Environments: A Comprehensive Benchmark Study ( http://arxiv.org/abs/2202.09545v1 )

ライセンス: CC BY-SA 4.0
Yuecong Xu, Jianfei Yang, Haozhi Cao, Jianxiong Yin, Zhenghua Chen, Xiaoli Li, Zhengguo Li, Qianwen Xu(参考訳) 大規模なビデオデータセットの導入とディープニューラルネットワークの開発により、アクション認識(AR)は大幅に改善されているが、現実のシナリオにおける挑戦的な環境に対して堅牢なARモデルは、まだ探索されていない。 我々は,暗環境における行動認識の課題に注目し,監視や夜間の自律運転といった分野に適用できる。 直感的には、現在のディープネットワークとビジュアルエンハンスメント技術は、暗い環境でarを扱えるべきであるが、実際には必ずしもそうではないことが観察されている。 ダーク環境でarのソリューションを探求するために、私たちは、暗い環境におけるarモデルの堅牢性の評価と向上を目的として、ieee cvpr 2021でug2+ challenge track 2(ug2-2)を立ち上げました。 この課題は、ダークビデオarのタスクのための最初のデータセットであるaridデータセットの上に構築され、拡張し、完全かつ半監督された方法でそのようなタスクに取り組むためのモデルをガイドする。 現在のARモデルと拡張手法を利用したベースライン結果が報告され、このタスクの難易度を改善の余地で正当化する。 研究コミュニティからの積極的な参加により、参加者のソリューションに顕著な進歩が見られ、一方、これらのソリューションの分析は、暗黒環境におけるARの課題に取り組むための可能な方向の特定に役立っている。

While action recognition (AR) has gained large improvements with the introduction of large-scale video datasets and the development of deep neural networks, AR models robust to challenging environments in real-world scenarios are still under-explored. We focus on the task of action recognition in dark environments, which can be applied to fields such as surveillance and autonomous driving at night. Intuitively, current deep networks along with visual enhancement techniques should be able to handle AR in dark environments, however, it is observed that this is not always the case in practice. To dive deeper into exploring solutions for AR in dark environments, we launched the UG2+ Challenge Track 2 (UG2-2) in IEEE CVPR 2021, with a goal of evaluating and advancing the robustness of AR models in dark environments. The challenge builds and expands on top of a novel ARID dataset, the first dataset for the task of dark video AR, and guides models to tackle such a task in both fully and semi-supervised manners. Baseline results utilizing current AR models and enhancement methods are reported, justifying the challenging nature of this task with substantial room for improvements. Thanks to the active participation from the research community, notable advances have been made in participants' solutions, while analysis of these solutions helped better identify possible directions to tackle the challenge of AR in dark environments.
翻訳日:2022-02-26 12:26:19 公開日:2022-02-19
# (参考訳) SODA: 建設における深層学習のためのサイトオブジェクト検出dAtaset

SODA: Site Object Detection dAtaset for Deep Learning in Construction ( http://arxiv.org/abs/2202.09554v1 )

ライセンス: CC BY 4.0
Rui Duan, Hui Deng, Mao Tian, Yichuan Deng, Jiarui Lin(参考訳) コンピュータビジョンに基づくディープラーニング物体検出アルゴリズムは,様々な物体の認識を支援するために十分に強力に開発された。 現在、オブジェクト検出のための一般的なデータセットは存在するが、建設業界にはまだ大規模なオープンソースのデータセットが欠けている。 そこで本稿では,建設現場を対象とする大規模画像データセットであるsoda(site object detection dataset)を開発し,作業者,材料,機械,レイアウトによって分類された15種類のオブジェクトクラスを含む。 まず、2万以上の画像が、異なる場所条件、気象条件、建設段階の複数の建設現場から収集され、異なる角度と視点がカバーされた。 慎重なスクリーニングと処理の後、286,201個のオブジェクトを含む19,846個の画像が得られた。 統計的分析により、このデータセットは多様性と容積の点で有利であることが示されている。 ディープラーニング(YOLO v3/YOLO v4)に基づく2つの大規模オブジェクト検出アルゴリズムによるさらなる評価も、典型的な構築シナリオに対するデータセットの実現可能性を示し、最大mAPは81.47%である。 そこで本研究では,建設業界におけるディープラーニングに基づく物体検出手法開発のための大規模画像データセットを作成し,それに対応するアルゴリズムのさらなる評価のための性能ベンチマークを構築した。

Computer vision-based deep learning object detection algorithms have been developed sufficiently powerful to support the ability to recognize various objects. Although there are currently general datasets for object detection, there is still a lack of large-scale, open-source dataset for the construction industry, which limits the developments of object detection algorithms as they tend to be data-hungry. Therefore, this paper develops a new large-scale image dataset specifically collected and annotated for the construction site, called Site Object Detection dAtaset (SODA), which contains 15 kinds of object classes categorized by workers, materials, machines, and layout. Firstly, more than 20,000 images were collected from multiple construction sites in different site conditions, weather conditions, and construction phases, which covered different angles and perspectives. After careful screening and processing, 19,846 images including 286,201 objects were then obtained and annotated with labels in accordance with predefined categories. Statistical analysis shows that the developed dataset is advantageous in terms of diversity and volume. Further evaluation with two widely-adopted object detection algorithms based on deep learning (YOLO v3/ YOLO v4) also illustrates the feasibility of the dataset for typical construction scenarios, achieving a maximum mAP of 81.47%. In this manner, this research contributes a large-scale image dataset for the development of deep learning-based object detection methods in the construction industry and sets up a performance benchmark for further evaluation of corresponding algorithms in this area.
翻訳日:2022-02-26 12:25:12 公開日:2022-02-19
# (参考訳) HDAM:畳み込みニューラルネットワークのためのヒューリスティック差分注意モジュール

HDAM: Heuristic Difference Attention Module for Convolutional Neural Networks ( http://arxiv.org/abs/2202.09556v1 )

ライセンス: CC BY 4.0
Yu Xue and Ziming Yuan(参考訳) 注意機構は畳み込みニューラルネットワークを強化する上で最も重要な事前知識の1つである。 ほとんどの注意機構は畳み込み層に縛り付けられ、局所的またはグローバルな文脈情報を用いて入力を再分類する。 これは一般的な注意戦略設計手法である。 グローバルなコンテキスト情報はネットワーク全体の分布を考えるのに役立つが、ローカルなコンテキスト情報はより一般的である。 文脈情報により、ネットワークは特定の受容領域の平均値または最大値に注意を向ける。 本稿では,最も注目される機構と異なり,ヒューリスティック差分注意モジュールであるHDAMを用いた新しい注意機構を提案する。 HDAMの入力再分類は、平均値と最大値ではなく、ローカルとグローバルのコンテキスト情報の違いに基づいている。 同時に、異なる層がより適切な局所受容フィールドサイズを有し、局所受容フィールド設計の拡張性を高めるために、遺伝的アルゴリズムを用いて局所受容フィールドをヒューリスティックに生成する。 まず、HDAMは、対応する文脈情報として、グローバルおよびローカルな受容フィールドの平均値を抽出する。 そして、グローバルとローカルのコンテキスト情報の違いを算出する。 最後に、HDAMはこの差を使って入力を校正する。 さらに,遺伝的アルゴリズムのヒューリスティックな能力を用いて,各層の局所受容野サイズを探索する。 CIFAR-10 と CIFAR-100 を用いた実験により,HDAM は他のアテンション機構よりも少ないパラメータで高い精度が得られることが示された。 我々はpythonライブラリpytorchでhdamを実装し、コードとモデルは公開される予定だ。

The attention mechanism is one of the most important priori knowledge to enhance convolutional neural networks. Most attention mechanisms are bound to the convolutional layer and use local or global contextual information to recalibrate the input. This is a popular attention strategy design method. Global contextual information helps the network to consider the overall distribution, while local contextual information is more general. The contextual information makes the network pay attention to the mean or maximum value of a particular receptive field. Different from the most attention mechanism, this article proposes a novel attention mechanism with the heuristic difference attention module, HDAM. HDAM's input recalibration is based on the difference between the local and global contextual information instead of the mean and maximum values. At the same time, to make different layers have a more suitable local receptive field size and increase the exibility of the local receptive field design, we use genetic algorithm to heuristically produce local receptive fields. First, HDAM extracts the mean value of the global and local receptive fields as the corresponding contextual information. Then the difference between the global and local contextual information is calculated. Finally HDAM uses this difference to recalibrate the input. In addition, we use the heuristic ability of genetic algorithm to search for the local receptive field size of each layer. Our experiments on CIFAR-10 and CIFAR-100 show that HDAM can use fewer parameters than other attention mechanisms to achieve higher accuracy. We implement HDAM with the Python library, Pytorch, and the code and models will be publicly available.
翻訳日:2022-02-26 12:10:33 公開日:2022-02-19
# (参考訳) MAP-Elitesによるゲノム空間のイリュージョン

Illuminating the Space of Enemies Through MAP-Elites ( http://arxiv.org/abs/2202.09615v1 )

ライセンス: CC BY 4.0
Breno M. F. Viana (1), Leonardo T. Pereira (1), Claudio F. M. Toledo (1) ((1) Universidade de S\~ao Paulo)(参考訳) アクションアドベンチャーゲームには克服すべき課題がいくつかある。 敵のゴールは、ライフポイントを取ることでプレイヤーの進行を妨げることであり、彼らがこの進行を妨げる方法は、異なる種類の敵に対して異なるものである。 本稿では,敵の難易度を目標とする,手続き的に敵を発生させる進化的アプローチの拡張版を紹介する。 提案手法は,質を損なうことなく多様な敵を生成できるマップイーライト人口を組み込むことにより,敵生成研究を前進させる。 計算実験では、ほとんどの場合、MAP-Elitesのほとんどの敵を1秒未満で収束させた。 また,敵が生成したアクションアドベンチャーゲームプロトタイプをプレイしたプレイヤーを対象に実験を行った。 この実験は、プレイヤーがプレイしたほとんどのレベルを楽しんだことを示し、我々は敵を容易、中、あるいは対面しにくいと認識することに成功しました。

Action-Adventure games have several challenges to overcome, where the most common are enemies. The enemies' goal is to hinder the players' progression by taking life points, and the way they hinder this progress is distinct for different kinds of enemies. In this context, this paper introduces an extended version of an evolutionary approach for procedurally generating enemies that target the enemy's difficulty as the goal. Our approach advances the enemy generation research by incorporating a MAP-Elites population to generate diverse enemies without losing quality. The computational experiment showed the method converged most enemies in the MAP-Elites in less than a second for most cases. Besides, we experimented with players who played an Action-Adventure game prototype with enemies we generated. This experiment showed that the players enjoyed most levels they played, and we successfully created enemies perceived as easy, medium, or hard to face.
翻訳日:2022-02-26 11:59:06 公開日:2022-02-19
# (参考訳) CALCS 2021共有タスク: コード切替データの機械翻訳

CALCS 2021 Shared Task: Machine Translation for Code-Switched Data ( http://arxiv.org/abs/2202.09625v1 )

ライセンス: CC BY 4.0
Shuguang Chen, Gustavo Aguilar, Anirudh Srinivasan, Mona Diab and Thamar Solorio(参考訳) これまで、コードスイッチング文学における取り組みは、言語識別、POS、NER、構文解析に重点を置いてきた。 本稿では,コード切り替わったソーシャルメディアデータの機械翻訳について述べる。 コミュニティ共有タスクを作成します。 参加には2つのモダリティを提供しています。 監督された設定では、参加者は英語をヒンディー語(英:Hindi- English)に単一方向に翻訳する。 教師なしの設定については、英語とスペイン語(Eng-Spanglish)、英語と現代標準アラビア語(Eng-MSAEA)の2つの言語対を提供する。 コード交換言語の評価データをキュレートする上での洞察と課題を共有します。 さらに、共有タスク内のすべての言語ペアのベースラインも提供します。 共有タスクのリーダーボードは、5つの異なるチームに対応する12の個別のシステム投稿で構成される。 最高成績は英語の12.67%のBLEUスコアと英語の25.72%のBLEUスコアである。

To date, efforts in the code-switching literature have focused for the most part on language identification, POS, NER, and syntactic parsing. In this paper, we address machine translation for code-switched social media data. We create a community shared task. We provide two modalities for participation: supervised and unsupervised. For the supervised setting, participants are challenged to translate English into Hindi-English (Eng-Hinglish) in a single direction. For the unsupervised setting, we provide the following language pairs: English and Spanish-English (Eng-Spanglish), and English and Modern Standard Arabic-Egyptian Arabic (Eng-MSAEA) in both directions. We share insights and challenges in curating the "into" code-switching language evaluation data. Further, we provide baselines for all language pairs in the shared task. The leaderboard for the shared task comprises 12 individual system submissions corresponding to 5 different teams. The best performance achieved is 12.67% BLEU score for English to Hinglish and 25.72% BLEU score for MSAEA to English.
翻訳日:2022-02-26 11:47:50 公開日:2022-02-19
# (参考訳) Echofilter: Tidal Energy Streamsにおける後処理エコーソーダデータの自動化,標準化,タイムラインを改善するディープラーニングセグメンテーションモデル

Echofilter: A Deep Learning Segmentation Model Improves the Automation, Standardization, and Timeliness for Post-Processing Echosounder Data in Tidal Energy Streams ( http://arxiv.org/abs/2202.09648v1 )

ライセンス: CC BY-SA 4.0
Scott C. Lowe, Louise P. McGarry, Jessica Douglas, Jason Newport, Sageev Oore, Christopher Whidden and Daniel J. Hasselman(参考訳) 潮流中の魚類の存在量と分布を理解することは,生息地への潮流エネルギー装置の導入によって生じるリスクを評価する上で重要である。 しかし、潮位エネルギー開発に好適な場所となる印象的な潮流は、しばしば非常に乱流であり、水に空気を流入させ、エコーフォアデータの解釈を複雑にしている。 汚染された空気からの帰還によって汚染された水柱の一部は、生物学的分析に使用されるデータから除外されなければならない。 非連続性, 深度動的, 多孔性, 広帯域な境界を0m/sから5m/sまでの潮流速度で同定するための単一アルゴリズムの適用は不十分である。 本研究は, ファンディ湾の潮流エネルギー実証場での事例研究を用いて, 訓練された空気が水柱を貫通した範囲の自動検出の, 明瞭で一貫性があり, 実質的かつ測定可能な深層学習モデルの開発と応用について述べる。 モデルであるEchofilterは, 乱流条件の動的範囲に強く応答し, 境界位置の微細なニュアンスに敏感であり, 移動体下面の平均誤差0.32m, 静止上面データ0.5-1.0mの空気境界線を生成した。 このモデルのアノテーションは、人間のセグメンテーション(モバイル向け下向きのjaccardインデックス:98.8%、固定型上向き:93-95%)と高いレベルの一致があった。 これにより、現在利用可能なアルゴリズムが設定した行を手動で編集するのに要する時間に比べて、手動編集に要する時間が50%削減された。 初期自動配置の改善により、モデルの実装はライン配置の標準化と再現性を大幅に向上させた。

Understanding the abundance and distribution of fish in tidal energy streams is important for assessing the risk presented by the introduction of tidal energy devices into the habitat. However, the impressive tidal currents that make sites favorable for tidal energy development are often highly turbulent and entrain air into the water, complicating the interpretation of echosounder data. The portion of the water column contaminated by returns from entrained air must be excluded from data used for biological analyses. Application of a single algorithm to identify the depth-of-penetration of entrained-air is insufficient for a boundary that is discontinuous, depth-dynamic, porous, and widely variable across the tidal flow speeds which can range from 0 to 5m/s. Using a case study at a tidal energy demonstration site in the Bay of Fundy, we describe the development and application of deep learning models that produce a pronounced, consistent, substantial, and measurable improvement of the automated detection of the extent to which entrained-air has penetrated the water column. Our model, Echofilter, was highly responsive to the dynamic range of turbulence conditions and sensitive to the fine-scale nuances in the boundary position, producing an entrained-air boundary line with an average error of 0.32m on mobile downfacing and 0.5-1.0m on stationary upfacing data. The model's annotations had a high level of agreement with the human segmentation (mobile downfacing Jaccard index: 98.8%; stationary upfacing: 93-95%). This resulted in a 50% reduction in the time required for manual edits compared to the time required to manually edit the line placed by currently available algorithms. Because of the improved initial automated placement, the implementation of the models generated a marked increase in the standardization and repeatability of line placement.
翻訳日:2022-02-26 11:34:11 公開日:2022-02-19
# (参考訳) 多段K平均クラスタリングを用いたfMRIデータの機能解析

Functional Parcellation of fMRI data using multistage k-means clustering ( http://arxiv.org/abs/2202.11206v1 )

ライセンス: CC BY 4.0
Harshit Parmar, Brian Nutter, Rodney Long, Sameer Antani, Sunanda Mitra(参考訳) 目的: 静止状態の研究によって得られたfMRI(Function Magnetic Resonance Imaging)データを用いて脳内の自然活動に関する情報を得る。 静止状態fmriデータの解析と解釈のアプローチの1つは、時間的ゆらぎに基づく脳全体の空間的および機能的に均質なパーセル化を必要とする。 クラスタリングはしばしば機能解析を生成するために使われる。 しかし、fMRIデータに使用する主要なクラスタリングアルゴリズムには制限がある。 一般的に使われるパーセレーションスキームの中で、クラスタ内の機能的類似性と解剖学的領域との整合との間にトレードオフが存在する。 アプローチ: 本研究では, 高構造的, 機能的均一性を示す脳のパーセルレーションを得るために, 静止状態とタスクfMRIデータをクラスタリングするアルゴリズムを提案する。 クラスタリングは4次元fMRIデータに特化して設計されたマルチステージバイナリk平均クラスタリングアルゴリズムによって実行される。 このマルチステージk平均アルゴリズムの結果は、異なるアルゴリズムを修正・組み合わせることで、それらの制限を克服しながら異なる手法の強みを生かすことができることを示している。 結果: 多段k平均法による静止状態fMRIデータのクラスタリング出力は,空間的および機能的均一性の観点から,単純なk平均や機能的アトラスよりも優れていることが示された。 クラスタはまた、一般的に識別可能な脳ネットワークに対応している。 タスクfMRIでは、クラスタリング出力が一次および二次活性化領域を特定し、異なる脳領域にわたる様々な血行動態反応に関する情報を提供する。 結論: 多段階k-平均アプローチは、静止状態fMRIデータを用いて脳の機能的パーセレーションを提供することができる。 この方法はモデルフリーであり、休息状態とタスクfmriの両方に適用可能なデータ駆動である。

Purpose: Functional Magnetic Resonance Imaging (fMRI) data acquired through resting-state studies have been used to obtain information about the spontaneous activations inside the brain. One of the approaches for analysis and interpretation of resting-state fMRI data require spatially and functionally homogenous parcellation of the whole brain based on underlying temporal fluctuations. Clustering is often used to generate functional parcellation. However, major clustering algorithms, when used for fMRI data, have their limitations. Among commonly used parcellation schemes, a tradeoff exists between intra-cluster functional similarity and alignment with anatomical regions. Approach: In this work, we present a clustering algorithm for resting state and task fMRI data which is developed to obtain brain parcellations that show high structural and functional homogeneity. The clustering is performed by multistage binary k-means clustering algorithm designed specifically for the 4D fMRI data. The results from this multistage k-means algorithm show that by modifying and combining different algorithms, we can take advantage of the strengths of different techniques while overcoming their limitations. Results: The clustering output for resting state fMRI data using the multistage k-means approach is shown to be better than simple k-means or functional atlas in terms of spatial and functional homogeneity. The clusters also correspond to commonly identifiable brain networks. For task fMRI, the clustering output can identify primary and secondary activation regions and provide information about the varying hemodynamic response across different brain regions. Conclusion: The multistage k-means approach can provide functional parcellations of the brain using resting state fMRI data. The method is model-free and is data driven which can be applied to both resting state and task fMRI.
翻訳日:2022-02-26 10:41:00 公開日:2022-02-19
# (参考訳) 分散還元型確率的加速原始双対アルゴリズム

A Variance-Reduced Stochastic Accelerated Primal Dual Algorithm ( http://arxiv.org/abs/2202.09688v1 )

ライセンス: CC BY 4.0
Bugra Can, Mert Gurbuzbalaban, Necdet Serhat Aybat(参考訳) この研究では、強い凸(scscsc)saddle point (sp)問題$\min_{x\in\mathbb{r}^{d_x}}\max_{y\in\mathbb{r}^{d_y}}f(x,y)$ ここで$f$は$l$-smooth、$f(.,y)$は$y$ごとに$\mu$-strongly convex、$f(x,.)$は$x$ごとに$\mu$-strongly concaveである。 このような問題は、例えば$\textit{distributionally robust}$ ERMのように、ロバストな経験的リスク最小化(ERM)の文脈で機械学習において頻繁に発生する。 偏りのない確率的一階のオラクルにアクセスできると仮定すると、zhangらによって最近導入された確率的加速原始双対(sapd)アルゴリズムを考える。 勾配雑音に対する頑健な手法としてのSCSC SP問題に対する[2021]。 特にSAPDは、運動量パラメータが 0 に設定されたときの特別なケースとして有名な確率勾配勾配上昇(SGDA)を回復し、運動量パラメータが適切に調整されたときの加速率、すなわち、$\kappa \triangleq L/\mu$依存を SGDA に対して $\kappa^2$ から $\kappa$ に改善できる。 我々はリチャードソン・ロームバーグ外挿に基づくSAPDの効率的な分散還元戦略を提案し、本手法がSAPDの実際と理論の両方において改善されていることを示す。

In this work, we consider strongly convex strongly concave (SCSC) saddle point (SP) problems $\min_{x\in\mathbb{R}^{d_x}}\max_{y\in\mathbb{R}^{d_y}}f(x,y)$ where $f$ is $L$-smooth, $f(.,y)$ is $\mu$-strongly convex for every $y$, and $f(x,.)$ is $\mu$-strongly concave for every $x$. Such problems arise frequently in machine learning in the context of robust empirical risk minimization (ERM), e.g. $\textit{distributionally robust}$ ERM, where partial gradients are estimated using mini-batches of data points. Assuming we have access to an unbiased stochastic first-order oracle we consider the stochastic accelerated primal dual (SAPD) algorithm recently introduced in Zhang et al. [2021] for SCSC SP problems as a robust method against gradient noise. In particular, SAPD recovers the well-known stochastic gradient descent ascent (SGDA) as a special case when the momentum parameter is set to zero and can achieve an accelerated rate when the momentum parameter is properly tuned, i.e., improving the $\kappa \triangleq L/\mu$ dependence from $\kappa^2$ for SGDA to $\kappa$. We propose efficient variance-reduction strategies for SAPD based on Richardson-Romberg extrapolation and show that our method improves upon SAPD both in practice and in theory.
翻訳日:2022-02-25 16:11:03 公開日:2022-02-19
# (参考訳) 言語に美的要素はありますか?

Is there an aesthetic component of language? ( http://arxiv.org/abs/2202.09689v1 )

ライセンス: CC BY 4.0
Harshit Parmar, Jeffrey P. Williams(参考訳) すべての人間の言語話者は、文法的な装置を用いて帰属的特質、感情、意見を表現し、言論における話題のメタコンポジットを提供する。 言語学者は一般に、「表現」が何であるかを正確に定義しているにもかかわらず、このカテゴリーを「表現」と呼ぶ。 表現力の解明は、言語原理としての表現性の性質に関するかなりの憶測を引き起こした。 具体的には、数人の学者が「普通」または「自然」モーフォ・シンタックスの表現詞の「特別」または「未熟」な性質を指摘している。

Speakers of all human languages make use of grammatical devices to express attributional qualities, feelings, and opinions as well as to provide meta-commentary on topics in discourse. In general, linguists refer to this category as 'expressives'in spite of the fact that defining exactly what 'expressives' are remains elusive. The elusiveness of expressives has given rise to considerable speculation about the nature of expressivity as a linguistic principle. Specifically, several scholars have pointed out the 'special' or 'unusual' nature of expressives vis-a-vis 'normal' or 'natural' morpho-syntax.
翻訳日:2022-02-25 14:52:50 公開日:2022-02-19
# (参考訳) MACRONYM:マルチ言語とマルチドメインの頭字語抽出のための大規模データセット

MACRONYM: A Large-Scale Dataset for Multilingual and Multi-Domain Acronym Extraction ( http://arxiv.org/abs/2202.09694v1 )

ライセンス: CC BY 4.0
Amir Pouran Ben Veyseh, Nicole Meister, Seunghyun Yoon, Rajiv Jain, Franck Dernoncourt, Thien Huu Nguyen(参考訳) 頭字語抽出は、様々なNLPアプリケーションに必要なテキスト中の頭字語とその拡張形式を特定するタスクである。 近年のこの課題の大きな進歩にもかかわらず、既存のAE研究の限界は、それらが英語と特定の領域(すなわち、科学と生物医学)に限定されていることである。 そのため、他の言語やドメインにおけるAEの課題は主に未解明である。 複数の言語やドメインにおける注釈付きデータセットの欠如は、この分野の研究を妨げる大きな問題となっている。 この制限に対処するため,多言語多ドメインAEのための新しいデータセットを提案する。 具体的には、6つの異なる言語と2つのドメイン、すなわち法と科学の27,200の文が、手動でAEに注釈付けされる。 提案したデータセットに対する広範な実験により、異なる言語と異なる学習環境におけるAEには固有の課題があり、多言語および多ドメインAEのさらなる研究の必要性を強調した。

Acronym extraction is the task of identifying acronyms and their expanded forms in texts that is necessary for various NLP applications. Despite major progress for this task in recent years, one limitation of existing AE research is that they are limited to the English language and certain domains (i.e., scientific and biomedical). As such, challenges of AE in other languages and domains is mainly unexplored. Lacking annotated datasets in multiple languages and domains has been a major issue to hinder research in this area. To address this limitation, we propose a new dataset for multilingual multi-domain AE. Specifically, 27,200 sentences in 6 typologically different languages and 2 domains, i.e., Legal and Scientific, is manually annotated for AE. Our extensive experiments on the proposed dataset show that AE in different languages and different learning settings has unique challenges, emphasizing the necessity of further research on multilingual and multi-domain AE.
翻訳日:2022-02-25 14:51:57 公開日:2022-02-19
# 量子不均一な分散ディープラーニングアーキテクチャ:モデル、議論、応用

Quantum Heterogeneous Distributed Deep Learning Architectures: Models, Discussions, and Applications ( http://arxiv.org/abs/2202.11200v1 )

ライセンス: Link先を確認
Yunseok Kwak, Won Joon Yun, Jae Pyoung Kim, Hyunhee Cho, Minseok Choi, Soyi Jung, Joongheon Kim(参考訳) ディープラーニング(DL)はすでに、さまざまなデータ処理タスクのための最先端技術になっている。 しかし、データセキュリティと計算負荷の問題は、高いデータと計算能力に依存するため頻繁に発生する。 この問題を解決するために、量子ディープラーニング(QDL)と分散ディープラーニング(DDL)が登場し、計算オーバーヘッドを減らし、データセキュリティを強化して既存のDLメソッドを補完している。 さらに、これらの利点を組み合わせて最大化する量子分散ディープラーニング(QDDL)技術が注目されている。 QDLは、ローカルデバイスやサーバ上のディープラーニング計算を量子ディープラーニングに置き換えることで、計算上の利益を得る。 一方,既存の分散学習構造の利点に加えて,サーバとクライアント間の量子セキュア通信プロトコルを利用することで,データセキュリティを向上させることができる。 様々な可能性を確認するために多くの試みがなされているが、QDDLの研究はまだ初期段階である。 本稿では,これまで研究されてきたモデル構造とその導入と促進の限界について論じる。 また、これまでの応用研究の分野と今後の課題、新しい方法論の可能性についても論じている。

Deep learning (DL) has already become a state-of-the-art technology for various data processing tasks. However, data security and computational overload problems frequently occur due to their high data and computational power dependence. To solve this problem, quantum deep learning (QDL) and distributed deep learning (DDL) are emerging to complement existing DL methods by reducing computational overhead and strengthening data security. Furthermore, a quantum distributed deep learning (QDDL) technique that combines these advantages and maximizes them is in the spotlight. QDL takes computational gains by replacing deep learning computations on local devices and servers with quantum deep learning. On the other hand, besides the advantages of the existing distributed learning structure, it can increase data security by using a quantum secure communication protocol between the server and the client. Although many attempts have been made to confirm and demonstrate these various possibilities, QDDL research is still in its infancy. This paper discusses the model structure studied so far and its possibilities and limitations to introduce and promote these studies. It also discusses the areas of applied research so far and in the future and the possibilities of new methodologies.
翻訳日:2022-02-24 15:57:08 公開日:2022-02-19
# 非有界共変量による個人的回帰

Differentially Private Regression with Unbounded Covariates ( http://arxiv.org/abs/2202.11199v1 )

ライセンス: Link先を確認
Jason Milionis, Alkis Kalavasis, Dimitris Fotakis, Stratis Ioannidis(参考訳) 最小二乗適合,二元回帰,非有界共変量付き線形回帰の古典回帰設定に対して,計算効率が高く,微分プライベートなアルゴリズムを提供する。 我々の研究に先立ち、そのような回帰設定におけるプライバシーの制約は、共変量に対する強い優先的境界の下で研究された。 ガウス境界の事例を考察し、平均および共分散推定(kamath et al., 2019; karwa and vadhan, 2018)に関する最近の微分プライベート手法をサブガウス体制に拡張する。 上記の古典回帰設定に対して微分プライベートアルゴリズムを導出する新しい技術解析を提供する。 二項回帰の場合、ロジスティック回帰と線形分離可能なSVMの基本的および広く研究されているモデルを捉え、真の回帰ベクトルの偏りのない推定をスケーリング係数まで学習する。

We provide computationally efficient, differentially private algorithms for the classical regression settings of Least Squares Fitting, Binary Regression and Linear Regression with unbounded covariates. Prior to our work, privacy constraints in such regression settings were studied under strong a priori bounds on covariates. We consider the case of Gaussian marginals and extend recent differentially private techniques on mean and covariance estimation (Kamath et al., 2019; Karwa and Vadhan, 2018) to the sub-gaussian regime. We provide a novel technical analysis yielding differentially private algorithms for the above classical regression settings. Through the case of Binary Regression, we capture the fundamental and widely-studied models of logistic regression and linearly-separable SVMs, learning an unbiased estimate of the true regression vector, up to a scaling factor.
翻訳日:2022-02-24 15:02:35 公開日:2022-02-19
# k平均アルゴリズム出力のためのクラスタリング保存変換

A Clustering Preserving Transformation for k-Means Algorithm Output ( http://arxiv.org/abs/2202.10455v1 )

ライセンス: Link先を確認
Mieczys{\l}aw A. K{\l}opotek(参考訳) 本稿では,$k$-meansアルゴリズムから得られたクラスタ集合のクラスタリング保存変換について紹介する。 この変換は、既存のデータから新しいラベル付きdata{}setを生成するのに使うことができる。 クラスタ内のデータポイントを移動でき、クラスタ間のデータポイントがより近くなる可能性があるため、Kleinbergの公理ベースの一貫性変換の方が柔軟である。

This note introduces a novel clustering preserving transformation of cluster sets obtained from $k$-means algorithm. This transformation may be used to generate new labeled data{}sets from existent ones. It is more flexible that Kleinberg axiom based consistency transformation because data points in a cluster can be moved away and datapoints between clusters may come closer together.
翻訳日:2022-02-23 16:20:08 公開日:2022-02-19
# 動的グラフニューラルネットワークによるマルチモーダルwsnデータフローの新しい異常検出法

A Novel Anomaly Detection Method for Multimodal WSN Data Flow via a Dynamic Graph Neural Network ( http://arxiv.org/abs/2202.10454v1 )

ライセンス: Link先を確認
Qinghao Zhang and Miao Ye and Hongbing Qiu and Yong Wang and Xiaofang Deng(参考訳) 無線センサネットワーク(WSN)データストリームの時間的特徴と空間的特徴を分析してシステム異常を識別するために,異常検出が広く用いられている。 現在、グラフニューラルネットワーク(GNN)はWSNデータストリーム上で異常検出を行う最先端の手法として人気がある。 しかし、gnnに基づく既存の異常検出手法では、マルチノード、マルチモーダル、マルチタイムなどのwsnデータストリームの時間的および空間的特徴を同時に考慮せず、その効果に重大な影響を与えている。 本稿では,wsnデータフローの時間的特徴,異なるモード間の相関特性,センサノード位置間の空間的特徴を分離的に抽出するために3つのgnnを用いるマルチモーダルwsnデータフローのための新しい異常検出モデルを提案する。 具体的には、まず、各センサノードから抽出された時間的特徴及びモーダル相関特徴を1つのベクトル表現に融合させ、その空間的特徴、すなわちノードの空間的位置関係をさらに集約し、最後に、WSNノードの現在の時系列データを予測し、融合特徴に応じて異常状態を同定する。 公開データセットで得られたシミュレーション結果から,提案手法はロバスト性の観点から既存手法を大幅に改善でき,そのf1スコアは0.90に達し,長短メモリ(lstm)を有するグラフ畳み込みネットワーク(gcn)よりも14.2%高かった。

Anomaly detection is widely used to distinguish system anomalies by analyzing the temporal and spatial features of wireless sensor network (WSN) data streams; it is one of critical technique that ensures the reliability of WSNs. Currently, graph neural networks (GNNs) have become popular state-of-the-art methods for conducting anomaly detection on WSN data streams. However, the existing anomaly detection methods based on GNNs do not consider the temporal and spatial features of WSN data streams simultaneously, such as multi-node, multi-modal and multi-time features, seriously impacting their effectiveness. In this paper, a novel anomaly detection model is proposed for multimodal WSN data flows, where three GNNs are used to separately extract the temporal features of WSN data flows, the correlation features between different modes and the spatial features between sensor node positions. Specifically, first, the temporal features and modal correlation features extracted from each sensor node are fused into one vector representation, which is further aggregated with the spatial features, i.e., the spatial position relationships of the nodes; finally, the current time-series data of WSN nodes are predicted, and abnormal states are identified according to the fusion features. The simulation results obtained on a public dataset show that the proposed approach is able to significantly improve upon the existing methods in terms of its robustness, and its F1 score reaches 0.90, which is 14.2% higher than that of the graph convolution network (GCN) with long short-term memory (LSTM).
翻訳日:2022-02-23 15:03:29 公開日:2022-02-19
# スケールデータの自動モデル選択によるCPU/GPUアーキテクチャ上の高密度・スパースデータの分散メモリ外NMF

Distributed Out-of-Memory NMF of Dense and Sparse Data on CPU/GPU Architectures with Automatic Model Selection for Exascale Data ( http://arxiv.org/abs/2202.09518v1 )

ライセンス: Link先を確認
Ismael Boureima, Manish Bhattarai, Maksim Eren, Erik Skau, Philip Romero, Stephan Eidenbenz, Boian Alexandrov(参考訳) グローバルに出現するデータセットのサイズと複雑さが爆発的に増大するため、効率的でスケーラブルなビッグデータ分析メソッドの必要性はこれまで以上に重要になっている。 非負行列因子化(Non negative Matrix Factorization, NMF)は、次元の減少、潜在特徴抽出、ブラインドソース分離、データマイニング、機械学習のためのよく知られた非教師なし学習手法である。 本稿では,異種CPU/GPUアーキテクチャのための分散メモリ外NMF方式 pyDNMF-GPU を提案する。 提案手法は,CUDAストリームを用いたGPUとホスト間のローカルデータ転送に伴うレイテンシを低減し,NCCLプリミティブによる集団通信(ノード内およびノード間)に伴うレイテンシを低減する。 さらに、スパースおよび密行列の乗算はgpuコアで大幅に高速化され、スケーラビリティが向上する。 実験では、密度10e-6の11エクサバイトサイズのスパースマトリクスと密度340テラバイトサイズのマトリクスを分解する場合、最大4096個のマルチgpuクラスタノードと約25,000gpuで、単一のgpu上での最大76倍の改善率を測定した。 最後に,本手法を自動モデル選択手法と統合する。 この統合により、非常に大きなスパースで密度の高いデータの中で説明可能な潜在構造を分析し、圧縮し、発見できる新しいツールを導入する。

The need for efficient and scalable big-data analytics methods is more essential than ever due to the exploding size and complexity of globally emerging datasets. Nonnegative Matrix Factorization (NMF) is a well-known explainable unsupervised learning method for dimensionality reduction, latent feature extraction, blind source separation, data mining, and machine learning. In this paper, we introduce a new distributed out-of-memory NMF method, named pyDNMF-GPU, designed for modern heterogeneous CPU/GPU architectures that is capable of factoring exascale-sized dense and sparse matrices. Our method reduces the latency associated with local data transfer between the GPU and host using CUDA streams, and reduces the latency associated with collective communications (both intra-node and inter-node) via NCCL primitives. In addition, sparse and dense matrix multiplications are significantly accelerated with GPU cores, resulting in good scalability. We set new benchmarks for the size of the data being analyzed: in experiments, we measure up to 76x improvement on a single GPU over running on a single 18 core CPU and we show good weak scaling on up to 4096 multi-GPU cluster nodes with approximately 25,000 GPUs, when decomposing a dense 340 Terabyte-size matrix and a 11 Exabyte-size sparse matrix of density 10e-6. Finally, we integrate our method with an automatic model selection method. With this integration, we introduce a new tool that is capable of analyzing, compressing, and discovering explainable latent structures in extremely large sparse and dense data.
翻訳日:2022-02-23 12:25:18 公開日:2022-02-19
# GraphRNNリンク予測による自閉症判別レベルの改善

Improving the Level of Autism Discrimination through GraphRNN Link Prediction ( http://arxiv.org/abs/2202.09538v1 )

ライセンス: Link先を確認
Haonan Sun, Qiang He, Shouliang Qi, Yudong Yao, Yueyang Teng(参考訳) データセットは自閉症の研究における深層学習の鍵である。 しかし、ABIDE (Autism Brain Imaging Data Exchange) のような現在のデータセットにおけるサンプルの量と不均一性のため、認識研究は不十分である。 従来の研究は主に、特徴選択法とデータ強化を最適化して精度を向上させることに焦点を当てていた。 本稿では,graphrnnを用いて実脳ネットワークのエッジ分布を学習し,識別モデルに対するインセンティブ効果を有する合成データを生成する。 実験の結果,オリジナルデータと合成データの組み合わせはニューラルネットワークの識別を大幅に改善することがわかった。 例えば、最も重要な効果は50層のResNetであり、最高の生成モデルはGraphRNNであり、生成データ強化のないモデル参照実験と比較して精度を32.51%向上させる。 生成したデータは自閉症患者の学習したエッジ接続分布と典型的機能的接続から得られたものであるが、疾患のメカニズムと発達のさらなる理解のために構築的な重要性を持つオリジナルのデータよりも優れた効果を有する。

Dataset is the key of deep learning in Autism disease research. However, due to the few quantity and heterogeneity of samples in current dataset, for example ABIDE (Autism Brain Imaging Data Exchange), the recognition research is not effective enough. Previous studies mostly focused on optimizing feature selection methods and data reinforcement to improve accuracy. This paper is based on the latter technique, which learns the edge distribution of real brain network through GraphRNN, and generates the synthetic data which has incentive effect on the discriminant model. The experimental results show that the combination of original and synthetic data greatly improves the discrimination of the neural network. For instance, the most significant effect is the 50-layer ResNet, and the best generation model is GraphRNN, which improves the accuracy by 32.51% compared with the model reference experiment without generation data reinforcement. Because the generated data comes from the learned edge connection distribution of Autism patients and typical controls functional connectivity, but it has better effect than the original data, which has constructive significance for further understanding of disease mechanism and development.
翻訳日:2022-02-23 12:24:47 公開日:2022-02-19
# バロメトリック触覚センサと時間畳み込みニューラルネットワークを用いたスリップ検出の学習

Learning to Detect Slip with Barometric Tactile Sensors and a Temporal Convolutional Neural Network ( http://arxiv.org/abs/2202.09549v1 )

ライセンス: Link先を確認
Abhinav Grover and Philippe Nadeau and Christopher Grebe and Jonathan Kelly(参考訳) 触覚フィードバックによって物体のすべりを知覚する能力により、人間は安定した握りの維持を含む複雑な操作を実現できる。 多くのアプリケーションに触覚情報の有用性があるにもかかわらず、触覚センサーは産業用ロボティクスにはまだ広く導入されていない。 本稿では,バロメトリック・触覚センサを用いてスリップを検出する学習手法を提案する。 これらのセンサーは高い耐久性と信頼性を含む多くの望ましい特性を持ち、安価な市販部品で作られている。 我々は時相畳み込みニューラルネットワークを訓練してスリップ検出を行い,スリップ動作の速度と方向に対する堅牢性を示しながら高い検出精度を実現する。 さらに,様々な共通対象を含む2つの操作タスクで検出器をテストし,訓練中に見ない実世界のシナリオへの一般化が成功したことを示す。 データ駆動学習と組み合わせたバロメトリック触覚センシング技術は,スリップ補償などの操作作業に適している,と我々は主張する。

The ability to perceive object slip via tactile feedback enables humans to accomplish complex manipulation tasks including maintaining a stable grasp. Despite the utility of tactile information for many applications, tactile sensors have yet to be widely deployed in industrial robotics settings; part of the challenge lies in identifying slip and other events from the tactile data stream. In this paper, we present a learning-based method to detect slip using barometric tactile sensors. These sensors have many desirable properties including high durability and reliability, and are built from inexpensive, off-the-shelf components. We train a temporal convolution neural network to detect slip, achieving high detection accuracies while displaying robustness to the speed and direction of the slip motion. Further, we test our detector on two manipulation tasks involving a variety of common objects and demonstrate successful generalization to real-world scenarios not seen during training. We argue that barometric tactile sensing technology, combined with data-driven learning, is suitable for many manipulation tasks such as slip compensation.
翻訳日:2022-02-23 12:24:28 公開日:2022-02-19
# 医療用インターネットにおける機械学習による侵入検知手法の検討

Survey of Machine Learning Based Intrusion Detection Methods for Internet of Medical Things ( http://arxiv.org/abs/2202.09657v1 )

ライセンス: Link先を確認
Ayoub Si-Ahmed, Mohammed Ali Al-Garadi and Narhimene Boustia(参考訳) インターネット・オブ・メディカル・モノのインターネット(Internet of Medical Things, IoMT)は、医療専門家が患者の健康状態のリアルタイムかつ恒久的なモニタリングと、早期の疾患検出を可能にするセンサーを用いて収集された生理的データのリモート分析を行う、モノのインターネット(Internet of Things)の応用である。 しかし、データ転送における無線通信の利用は、このデータをサイバー攻撃に晒し、このデータの機密性や個人性は攻撃者にとって大きな関心事となるかもしれない。 ストレージや計算能力に制限のある機器における従来のセキュリティ手法の使用は効果がない。 本稿では, iomtセキュリティのための機械学習(ml)に基づく侵入検知システムの利用について, 総合的な調査を行った。 iomtセキュリティのセキュリティ要件であるiomtの汎用的3層アーキテクチャを提示した。 我々は、IoMTセキュリティに影響を与える様々な脅威をレビューし、MLに基づいて各ソリューションで使用される利点、欠点、方法、データセットを特定する。 そして、IoMTの各層にMLを適用する際の課題と制限を提供し、今後の研究の方向性として役立てることができる。

Internet of Medical Things (IoMT) represents an application of the Internet of Things, where health professionals perform remote analysis of physiological data collected using sensors that are associated with patients, allowing real-time and permanent monitoring of the patient's health condition and the detection of possible diseases at an early stage. However, the use of wireless communication for data transfer exposes this data to cyberattacks, and the sensitive and private nature of this data may represent a prime interest for attackers. The use of traditional security methods on equipment that is limited in terms of storage and computing capacity is ineffective. In this context, we have performed a comprehensive survey to investigate the use of the intrusion detection system based on machine learning (ML) for IoMT security. We presented the generic three-layer architecture of IoMT, the security requirement of IoMT security. We review the various threats that can affect IoMT security and identify the advantage, disadvantages, methods, and datasets used in each solution based on ML. Then we provide some challenges and limitations of applying ML on each layer of IoMT, which can serve as direction for future study.
翻訳日:2022-02-23 12:24:11 公開日:2022-02-19
# spnet:共用デコーダとピラミッド状損失に基づく網膜血管セグメンテーションのための新しい深層ニューラルネットワーク

SPNet: A novel deep neural network for retinal vessel segmentation based on shared decoder and pyramid-like loss ( http://arxiv.org/abs/2202.09515v1 )

ライセンス: Link先を確認
Geng-Xin Xu, Chuan-Xian Ren(参考訳) 網膜血管像の分画は網膜症の診断に重要である。 近年,畳み込みニューラルネットワークは血管構造の抽出に有意な能力を示している。 しかし, 膜厚の不一致やぼやけた境界のため, 網膜血管の毛細血管や縁部の分節化は依然として困難である。 本稿では,この問題を解決するために,共用デコーダとピラミッド状損失(spnet)に基づく網膜血管セグメンテーションのための新しい深層ニューラルネットワークを提案する。 具体的には,マルチスケールのセマンティック情報をキャプチャするデコーダ共有機構を導入し,多様なスケールの特徴マップを重み付きデコーダモジュールのシーケンスでデコードする。 また, 血管の毛細血管と縁部の特徴を明らかにするために, 復号相における空間情報を分解する残差ピラミッド構造を定義した。 ピラミッド状損失関数は、可能セグメンテーションエラーを段階的に補償するように設計されている。 公開ベンチマークによる実験の結果,提案手法は,特に毛細血管や血管輪郭の領域において,バックボーンネットワークや最先端の手法よりも優れていた。 さらに、クロスデータセットのパフォーマンスは、SPNetがより強力な一般化能力を示すことを示す。

Segmentation of retinal vessel images is critical to the diagnosis of retinopathy. Recently, convolutional neural networks have shown significant ability to extract the blood vessel structure. However, it remains challenging to refined segmentation for the capillaries and the edges of retinal vessels due to thickness inconsistencies and blurry boundaries. In this paper, we propose a novel deep neural network for retinal vessel segmentation based on shared decoder and pyramid-like loss (SPNet) to address the above problems. Specifically, we introduce a decoder-sharing mechanism to capture multi-scale semantic information, where feature maps at diverse scales are decoded through a sequence of weight-sharing decoder modules. Also, to strengthen characterization on the capillaries and the edges of blood vessels, we define a residual pyramid architecture which decomposes the spatial information in the decoding phase. A pyramid-like loss function is designed to compensate possible segmentation errors progressively. Experimental results on public benchmarks show that the proposed method outperforms the backbone network and the state-of-the-art methods, especially in the regions of the capillaries and the vessel contours. In addition, performances on cross-datasets verify that SPNet shows stronger generalization ability.
翻訳日:2022-02-23 10:32:26 公開日:2022-02-19
# C2N:実世界の騒音モデリング

C2N: Practical Generative Noise Modeling for Real-World Denoising ( http://arxiv.org/abs/2202.09533v1 )

ライセンス: Link先を確認
Geonwoon Jang, Wooseok Lee, Sanghyun Son, Kyoung Mu Lee(参考訳) 学習に基づく画像復調法は, ノイズやクリーンな画像が与えられたり, サンプルが所定のノイズモデル(例えばガウス)から合成されたりする状況に縛られている。 最近の生成ノイズモデリング手法は、実世界の雑音の未知の分布をシミュレートすることを目的としているが、いくつかの制限がある。 実用的なシナリオでは、ノイズ発生器は、ペアノイズとクリーンイメージを用いることなく、一般的なノイズ分布と複雑なノイズ分布をシミュレートすることを学ばなければならない。 しかし,既存の手法は実世界の雑音の非現実的な仮定に基づいて構築されているため,予測不可能なパターンを生成する傾向があり,複雑なノイズマップを表現できない。 そこで本研究では,複雑な実世界の雑音を模倣するc2nというクリーン・ツー・ノイズ画像生成フレームワークを提案する。 我々は,C2Nの騒音発生器を実世界の騒音特性の成分に応じて構築し,幅広い騒音を正確に表現する。 当社のC2Nと組み合わせることで、既存の教師なしメソッドよりも大きなマージンで、現実世界のベンチマークに挑戦する上で優れています。

Learning-based image denoising methods have been bounded to situations where well-aligned noisy and clean images are given, or samples are synthesized from predetermined noise models, e.g., Gaussian. While recent generative noise modeling methods aim to simulate the unknown distribution of real-world noise, several limitations still exist. In a practical scenario, a noise generator should learn to simulate the general and complex noise distribution without using paired noisy and clean images. However, since existing methods are constructed on the unrealistic assumption of real-world noise, they tend to generate implausible patterns and cannot express complicated noise maps. Therefore, we introduce a Clean-to-Noisy image generation framework, namely C2N, to imitate complex real-world noise without using any paired examples. We construct the noise generator in C2N accordingly with each component of real-world noise characteristics to express a wide range of noise accurately. Combined with our C2N, conventional denoising CNNs can be trained to outperform existing unsupervised methods on challenging real-world benchmarks by a large margin.
翻訳日:2022-02-23 10:30:42 公開日:2022-02-19
# Sparse-View CT再構成のための軽量デュアルドメインアテンションフレームワーク

A Lightweight Dual-Domain Attention Framework for Sparse-View CT Reconstruction ( http://arxiv.org/abs/2202.09609v1 )

ライセンス: Link先を確認
Chang Sun, Ken Deng, Yitong Liu, Hongwen Yang(参考訳) CTは臨床診断において重要な役割を担っている。 放射線が患者に悪影響を及ぼすため、放射線線量も可能な限り減少することが期待されている。 スパースサンプリングは有効な方法であるが, 再構成CT画像に深刻なアーティファクトが生じるため, スパース・ビューCT画像再構成が普及し, 課題となっている。 モバイルデバイスの普及に伴い、軽量・リアルタイムネットワークの要件は急速に増加している。 本稿では,caganと呼ばれる新しい軽量ネットワークを設計し,並列ビームスパースビューctのためのデュアルドメイン再構成パイプラインを提案する。 CAGANは、特徴の空間情報を保存するコーディネート・アテンション・ユニットを組み合わせた対向的自動エンコーダである。 また、Shuffle Blocksの適用により、性能を犠牲にすることなくパラメータを4分の1削減できる。 ラドン領域では、CAGANは補間されたデータとフリンジフリー投影データの間のマッピングを学習する。 復元されたラドンデータを画像に再構成した後、その詳細を復元する訓練を受けた第2のCAGANに画像を送り込み、高品質な画像を得る。 実験の結果、CAGANはモデルの複雑さとパフォーマンスのバランスが良く、私たちのパイプラインはDD-NetとDuDoNetより優れています。

Computed Tomography (CT) plays an essential role in clinical diagnosis. Due to the adverse effects of radiation on patients, the radiation dose is expected to be reduced as low as possible. Sparse sampling is an effective way, but it will lead to severe artifacts on the reconstructed CT image, thus sparse-view CT image reconstruction has been a prevailing and challenging research area. With the popularity of mobile devices, the requirements for lightweight and real-time networks are increasing rapidly. In this paper, we design a novel lightweight network called CAGAN, and propose a dual-domain reconstruction pipeline for parallel beam sparse-view CT. CAGAN is an adversarial auto-encoder, combining the Coordinate Attention unit, which preserves the spatial information of features. Also, the application of Shuffle Blocks reduces the parameters by a quarter without sacrificing its performance. In the Radon domain, the CAGAN learns the mapping between the interpolated data and fringe-free projection data. After the restored Radon data is reconstructed to an image, the image is sent into the second CAGAN trained for recovering the details, so that a high-quality image is obtained. Experiments indicate that the CAGAN strikes an excellent balance between model complexity and performance, and our pipeline outperforms the DD-Net and the DuDoNet.
翻訳日:2022-02-23 10:30:20 公開日:2022-02-19
# 単体画像評価のための教師なし学習フレームワーク

An Unsupervised Attentive-Adversarial Learning Framework for Single Image Deraining ( http://arxiv.org/abs/2202.09635v1 )

ライセンス: Link先を確認
Wei Liu, Rui Jiang, Cheng Chen, Tao Lu and Zixiang Xiong(参考訳) 低レベルのコンピュータビジョンタスクでは、シングルイメージのデアライニングが重要なトピックとなっている。 大気のヴェイリング効果(霧に似た雨の蓄積によって生じる)は通常、雨とともに現れる。 深層学習に基づく単一画像デライニング手法の多くは,この効果を無視して雨害除去に重点を置いており,低品質なデライニング性能をもたらす。 また、これらの手法は合成データのみに基づいて訓練されるため、実際の降雨画像を考慮に入れない。 以上の課題に対処するため, 降雨量と降雨量の両方を同時に把握しながら, 合成画像と実降雨画像の両方を訓練する, 単一画像デライニングのための教師なし学習フレームワーク (UALF) を提案する。 UALFはRain-fog2Clean(R2C)変換ブロックとC2R変換ブロックで構成される。 r2cでは,降雨フォグの融合特性をよりよく評価し,高品質な流水性能を達成するため,空間的特徴の相関を学習し,大域的・局所的な降雨フォグ情報の自己相似性を活用すべく,注意型降雨フォグ特徴抽出ネットワーク(arfe)を採用している。 さらに,c2rの変形能力を向上させるために,雨画像分解モデルと混合判別器を組み込んで,より詳細なテクスチャを保存し,雨季特徴分離再編成ネットワーク(rfdr)を設計する。 ベンチマークのrain-fogとrain datasetに関する広範囲な実験は、ualfが最先端のレーディング手法を上回っていることを示している。 また、UALFの有効性をさらに実証するため、実証性能評価実験も実施する。

Single image deraining has been an important topic in low-level computer vision tasks. The atmospheric veiling effect (which is generated by rain accumulation, similar to fog) usually appears with the rain. Most deep learning-based single image deraining methods mainly focus on rain streak removal by disregarding this effect, which leads to low-quality deraining performance. In addition, these methods are trained only on synthetic data, hence they do not take into account real-world rainy images. To address the above issues, we propose a novel unsupervised attentive-adversarial learning framework (UALF) for single image deraining that trains on both synthetic and real rainy images while simultaneously capturing both rain streaks and rain accumulation features. UALF consists of a Rain-fog2Clean (R2C) transformation block and a Clean2Rain-fog (C2R) transformation block. In R2C, to better characterize the rain-fog fusion feature and to achieve high-quality deraining performance, we employ an attention rain-fog feature extraction network (ARFE) to exploit the self-similarity of global and local rain-fog information by learning the spatial feature correlations. Moreover, to improve the transformation ability of C2R, we design a rain-fog feature decoupling and reorganization network (RFDR) by embedding a rainy image degradation model and a mixed discriminator to preserve richer texture details. Extensive experiments on benchmark rain-fog and rain datasets show that UALF outperforms state-of-the-art deraining methods. We also conduct defogging performance evaluation experiments to further demonstrate the effectiveness of UALF
翻訳日:2022-02-23 10:29:59 公開日:2022-02-19
# 概念空間をナビゲートする; 人工知能の新しいアプローチ

Navigating Conceptual Space; A new take on Artificial General Intelligence ( http://arxiv.org/abs/2202.09646v1 )

ライセンス: Link先を確認
Per R. Leikanger(参考訳) エドワード・C・トールマンは情報の説明に満足できない強化学習を発見し、学習と行動を明確に区別することを提案した。 トルマンの潜在学習と認知地図に関する考えは、最終的に、現在概念空間と呼ばれる、概念とアイデアが点や形を作ることのできる幾何学的表現へと繋がった。 現代の神経科学から概念空間の理論を模擬し,認識をエミュレートするための有効なアプローチとして自律ナビゲーションを提案する。 しかし、高次元ユークリッド空間における自律航法の実現は、技術においては容易ではない。 本研究は,NeoRLナビゲーションがタスクに有効であるかどうかを考察し,Kelbling氏のロボットナビゲーションに対する懸念を取り入れた上で,NeoRLアプローチがナビゲーションのモダリティにまたがる一般性,経験を考慮した構成,複数のユークリッド次元での学習における有効性を検証する。 我々は,NeoRL学習がAIにおけるRLよりも生物学習に類似していることに気付き,エミュレートされた認知への道として概念空間のNeoRLナビゲーションを提案する。

Edward C. Tolman found reinforcement learning unsatisfactory for explaining intelligence and proposed a clear distinction between learning and behavior. Tolman's ideas on latent learning and cognitive maps eventually led to what is now known as conceptual space, a geometric representation where concepts and ideas can form points or shapes.Active navigation between ideas - reasoning - can be expressed directly as purposive navigation in conceptual space. Assimilating the theory of conceptual space from modern neuroscience, we propose autonomous navigation as a valid approach for emulated cognition. However, achieving autonomous navigation in high-dimensional Euclidean spaces is not trivial in technology. In this work, we explore whether neoRL navigation is up for the task; adopting Kaelbling's concerns for efficient robot navigation, we test whether the neoRL approach is general across navigational modalities, compositional across considerations of experience, and effective when learning in multiple Euclidean dimensions. We find neoRL learning to be more resemblant of biological learning than of RL in AI, and propose neoRL navigation of conceptual space as a plausible new path toward emulated cognition.
翻訳日:2022-02-23 10:25:26 公開日:2022-02-19
# TransDreamer: トランスフォーマーワールドモデルによる強化学習

TransDreamer: Reinforcement Learning with Transformer World Models ( http://arxiv.org/abs/2202.09481v1 )

ライセンス: Link先を確認
Chang Chen, Yi-Fu Wu, Jaesik Yoon, Sungjin Ahn(参考訳) ドリーマーエージェントは、サンプル効率、再利用可能な知識、安全な計画など、モデルベース強化学習(MBRL)の様々な利点を提供する。 しかし、その世界モデルとポリシーネットワークは、リカレントニューラルネットワークの限界を継承しているため、MBRLフレームワークが最近のトランスフォーマーの進歩とそれに伴う課題からどのような恩恵を受けることができるのか、重要な疑問である。 本稿ではTransDreamerと呼ばれる変換器を用いたMBRLエージェントを提案する。 まず,動的予測にトランスフォーマーを利用する世界モデルであるTransformer State-Space Modelを紹介する。 次に、この世界モデルをトランスフォーマーベースのポリシーネットワークで共有し、トランスフォーマーベースのRLエージェントのトレーニングにおける安定性を得る。 実験では,提案モデルを2次元視覚rlタスクと3次元ファーストパーソン視覚rlタスクに適用し,メモリベース推論に長距離メモリアクセスを要求できることを示した。 これらの複雑なタスクにおいて,提案モデルがdreamerよりも優れていることを示す。

The Dreamer agent provides various benefits of Model-Based Reinforcement Learning (MBRL) such as sample efficiency, reusable knowledge, and safe planning. However, its world model and policy networks inherit the limitations of recurrent neural networks and thus an important question is how an MBRL framework can benefit from the recent advances of transformers and what the challenges are in doing so. In this paper, we propose a transformer-based MBRL agent, called TransDreamer. We first introduce the Transformer State-Space Model, a world model that leverages a transformer for dynamics predictions. We then share this world model with a transformer-based policy network and obtain stability in training a transformer-based RL agent. In experiments, we apply the proposed model to 2D visual RL and 3D first-person visual RL tasks both requiring long-range memory access for memory-based reasoning. We show that the proposed model outperforms Dreamer in these complex tasks.
翻訳日:2022-02-23 09:57:53 公開日:2022-02-19
# コンセプトドリフト検出のための異なるメトリック選択の適合性

Suitability of Different Metric Choices for Concept Drift Detection ( http://arxiv.org/abs/2202.09486v1 )

ライセンス: Link先を確認
Fabian Hinder, Valerie Vaquet, Barbara Hammer(参考訳) 概念ドリフト(concept drift)の概念は、観測データの基礎となる分布が時間とともに変化する現象を指す。 多くの教師なしのドリフト検出手法は、2つの時間窓のサンプル分布のばらつきを測定することに依拠している。 これは、前処理(特徴抽出、潜在空間への埋め込みなど)の後に、または推定された特徴(平均、分散、条件付き確率など)について直接行うことができる。 ほとんどのドリフト検出法は、使用するメトリック、このメトリックの見積もり方法、決定しきい値の発見方法で区別することができる。 本稿では,異なるメトリクスの文脈におけるドリフト誘起信号の構造特性を解析する。 異なる種類の推定器とメトリクスを理論的および経験的に比較し、単一の計量成分の関連性について検討する。 さらに,新しい選択を提案し,いくつかの実験で適合性を示す。

The notion of concept drift refers to the phenomenon that the distribution, which is underlying the observed data, changes over time; as a consequence machine learning models may become inaccurate and need adjustment. Many unsupervised approaches for drift detection rely on measuring the discrepancy between the sample distributions of two time windows. This may be done directly, after some preprocessing (feature extraction, embedding into a latent space, etc.), or with respect to inferred features (mean, variance, conditional probabilities etc.). Most drift detection methods can be distinguished in what metric they use, how this metric is estimated, and how the decision threshold is found. In this paper, we analyze structural properties of the drift induced signals in the context of different metrics. We compare different types of estimators and metrics theoretically and empirically and investigate the relevance of the single metric components. In addition, we propose new choices and demonstrate their suitability in several experiments.
翻訳日:2022-02-23 09:57:38 公開日:2022-02-19
# 能動的知識探索のための確率的プログラミングイディオム

A Probabilistic Programming Idiom for Active Knowledge Search ( http://arxiv.org/abs/2202.09555v1 )

ライセンス: Link先を確認
Malte R. Damgaard and Rasmus Pedersen and Thomas Bak(参考訳) 本稿では,環境に関する新しい知識を取得する問題に対して,確率的プログラミングイディオムを導出し,実装する。 イディオムは現代の確率プログラミング言語を用いて実装されている。 アクティブマッピングとロボット探索の特定の問題に対するアルゴリズムを実装し,このイディオムの有用性を実証する。 最後に,houseexpoデータセットを用いた大規模シミュレーションによる実装機能の評価を行った。

In this paper, we derive and implement a probabilistic programming idiom for the problem of acquiring new knowledge about an environment. The idiom is implemented utilizing a modern probabilistic programming language. We demonstrate the utility of this idiom by implementing an algorithm for the specific problem of active mapping and robot exploration. Finally, we evaluate the functionality of the implementation through an extensive simulation study utilizing the HouseExpo dataset.
翻訳日:2022-02-23 09:53:17 公開日:2022-02-19
# ロボットのいない訓練ロボット:マスター・ツー・ロボット政策伝達のための深層模倣学習

Training Robots without Robots: Deep Imitation Learning for Master-to-Robot Policy Transfer ( http://arxiv.org/abs/2202.09574v1 )

ライセンス: Link先を確認
Heecheol Kim, Yoshiyuki Ohmura, Akihiko Nagakubo, and Yasuo Kuniyoshi(参考訳) 深層模倣学習(deep imitation learning)は、学習操作スキルの実証サンプルのみを必要とするため、デクスタースロボット操作の有望な方法である。 本稿では,ボトル開口などの力フィードバックを必要とするタスクに対して,深い模倣学習を適用した。 しかし、遠隔操作のような単純な視覚フィードバックシステムは、演算子に強制フィードバックを提供しないため、適用できない。 双方向遠隔操作は力フィードバックによる実演に使われてきたが、これは高価で複雑な双方向ロボットシステムを必要とする。 本稿では,ロボットを必要とせず,力覚フィードバックに基づく操作タスクをロボットに教えることができる新しいマスタ・トゥ・ロボット(M2R)トランスファー学習システムを提案する。 人間はロボットアームの運動パラメータに似た低コストのコントローラーを使ってタスクを直接デモンストレーションする。 このコントローラを使うと、オペレーターは高価なバイラテラルシステムなしで自然に力のフィードバックを感じることができる。 さらに、M2R転送システムは、視線に基づく模倣学習フレームワークと簡単な校正手法を用いて、マスターとロボットのドメインギャップを克服することができる。 これを証明するために,本システムでは,マスターデモのみの強制フィードバックを必要とするボトルキャップ開放作業で評価を行った。

Deep imitation learning is a promising method for dexterous robot manipulation because it only requires demonstration samples for learning manipulation skills. In this paper, deep imitation learning is applied to tasks that require force feedback, such as bottle opening. However, simple visual feedback systems, such as teleoperation, cannot be applied because they do not provide force feedback to operators. Bilateral teleoperation has been used for demonstration with force feedback; however, this requires an expensive and complex bilateral robot system. In this paper, a new master-to-robot (M2R) transfer learning system is presented that does not require robots but can still teach dexterous force feedback-based manipulation tasks to robots. The human directly demonstrates a task using a low-cost controller that resembles the kinematic parameters of the robot arm. Using this controller, the operator can naturally feel the force feedback without any expensive bilateral system. Furthermore, the M2R transfer system can overcome domain gaps between the master and robot using the gaze-based imitation learning framework and a simple calibration method. To demonstrate this, the proposed system was evaluated on a bottle-cap-opening task that requires force feedback only for the master demonstration.
翻訳日:2022-02-23 09:51:57 公開日:2022-02-19
# ValAsp: Answer Set Programmingにおけるデータ検証ツール

ValAsp: a tool for data validation in Answer Set Programming ( http://arxiv.org/abs/2202.09626v1 )

ライセンス: Link先を確認
Mario Alviano, Carmine Dodaro, Arnel Zamayla(参考訳) 複雑なソフトウェアの開発には、バグや予期しない動作を迅速に特定し修正できるように、フェールファーストアプローチを促進するツールが必要である。 データ検証ツールは、コンピュータプログラマの日を節約できる。 事実、不正なデータの処理は、せいぜいリソースの浪費であり、問題に気付かれずに間違った結果がビジネスに使われている場合、最悪の事態です。 応答セットプログラミング(asp)は例外ではないが、よりよいパフォーマンスを求める試みは、本質的にデータを検証することができないシステムを生み出した。 入出力データが最終的に外部ツールによって検証されるという単純な仮定の下でも、無効なデータはプログラムの他の部分に現れ、設計されたソフトウェアの他のモジュールが突然壊れるまで検出されない。 本稿では、ASPプログラムのデータ検証の問題を形式化し、データ検証を規定する言語を導入し、通常のプログラムでデータ検証を注入するツールであるtextsc{valasp}を提示する。 提案手法は、データが有効であるかのように振る舞う場合、デプロイされたシステムに遅延を課すことなく、コーディング時にフェールファスト技術を促進する。 バリデーションは、YAML、ASP、Pythonを使用してステートメントの観点で指定できる。 さらに、提案手法は命令型プログラミング言語のデータ検証にaspを使用する可能性を開く。 TPLPの受容についての検討

The development of complex software requires tools promoting fail-fast approaches, so that bugs and unexpected behavior can be quickly identified and fixed. Tools for data validation may save the day of computer programmers. In fact, processing invalid data is a waste of resources at best, and a drama at worst if the problem remains unnoticed and wrong results are used for business. Answer Set Programming (ASP) is not an exception, but the quest for better and better performance resulted in systems that essentially do not validate data. Even under the simplistic assumption that input/output data are eventually validated by external tools, invalid data may appear in other portions of the program, and go undetected until some other module of the designed software suddenly breaks. This paper formalizes the problem of data validation for ASP programs, introduces a language to specify data validation, and presents \textsc{valasp}, a tool to inject data validation in ordinary programs. The proposed approach promotes fail-fast techniques at coding time without imposing any lag on the deployed system if data are pretended to be valid. Validation can be specified in terms of statements using YAML, ASP and Python. Additionally, the proposed approach opens the possibility to use ASP for validating data of imperative programming languages. Under consideration for acceptance in TPLP.
翻訳日:2022-02-23 09:51:36 公開日:2022-02-19
# 密集した交通の交差点をナビゲートするマルチタスク安全強化学習

Multi-task Safe Reinforcement Learning for Navigating Intersections in Dense Traffic ( http://arxiv.org/abs/2202.09644v1 )

ライセンス: Link先を確認
Yuqi Liu, Qichao Zhang, Dongbin Zhao(参考訳) 未保護の左折、右折、そして密集した交通の直行を含むマルチタスクの交差点ナビゲーションは、自動運転にとって依然として難しい課題である。 人間のドライバーにとって、他のインタラクティブな車両との交渉スキルは安全性と効率を保証する鍵となる。 しかし、マルチタスク交差点ナビゲーションにおける自動運転車の安全性と効率のバランスをとることは困難である。 本稿では,他のトラヒック参加者と対話する場合の安全性と効率を向上させるため,社会的注意を伴うマルチタスク安全強化学習を定式化する。 特に、ソーシャルアテンションモジュールは、交渉車両の状態に焦点を合わせるために使用される。 さらに、安全ネゴシエーションを保証するために、マルチタスク強化学習フレームワークにセーフティレイヤが追加されている。 シミュレータSUMOと豊富な交通流とCARLAとを高忠実度車両モデルと比較することにより,提案アルゴリズムがマルチタスク交差点ナビゲーションにおいて一貫した交通効率で安全性を向上できることを示す。

Multi-task intersection navigation including the unprotected turning left, turning right, and going straight in dense traffic is still a challenging task for autonomous driving. For the human driver, the negotiation skill with other interactive vehicles is the key to guarantee safety and efficiency. However, it is hard to balance the safety and efficiency of the autonomous vehicle for multi-task intersection navigation. In this paper, we formulate a multi-task safe reinforcement learning with social attention to improve the safety and efficiency when interacting with other traffic participants. Specifically, the social attention module is used to focus on the states of negotiation vehicles. In addition, a safety layer is added to the multi-task reinforcement learning framework to guarantee safe negotiation. We compare the experiments in the simulator SUMO with abundant traffic flows and CARLA with high-fidelity vehicle models, which both show that the proposed algorithm can improve safety with consistent traffic efficiency for multi-task intersection navigation.
翻訳日:2022-02-23 09:51:14 公開日:2022-02-19
# PMP-Net++:変換器強化多段階移動経路によるポイントクラウド補完

PMP-Net++: Point Cloud Completion by Transformer-Enhanced Multi-step Point Moving Paths ( http://arxiv.org/abs/2202.09507v1 )

ライセンス: Link先を確認
Xin Wen, Peng Xiang, Yan-Pei Cao, Pengfei Wan, Wen Zheng, Yu-Shen Liu(参考訳) 不完全な3D形状の欠落部分を予測するために、クラウドの完了を指示する。 一般的な戦略は、不完全な入力に応じて完全な形状を生成することである。 しかし,不規則点の詳細なトポロジーや構造は抽出された潜在コードを用いて生成過程において捉えにくいため,無秩序点雲は高品質な3次元形状の生成を劣化させる。 我々は、完了を点雲変形過程として定式化することでこの問題に対処する。 具体的には,地球移動体の挙動を模倣する新しいニューラルネットワーク pmp-net++ を設計した。 点移動経路(pmps)の総距離が最短となるような、不完全入力の各点を全点クラウドに移動させる。 したがって、PMP-Net++は点移動距離の制約に従って各点について独自のPMPを予測する。 ネットワークは点レベルの厳密でユニークな対応を学習し、予測された完全形状の品質を向上させる。 さらに,移動ポイントはネットワークが学習するポイント単位の機能に大きく依存するので,pmp-net++の完成性能を大幅に向上させるトランスフォーマティブエンハンスド表現学習ネットワークも導入する。 我々は、形状完備化に関する包括的な実験を行い、さらにポイントクラウドアップサンプリングの応用を探求し、最先端のポイントクラウドコンプリート/アップサンプリング手法に対するPMP-Net++の非自明な改善を示す。

Point cloud completion concerns to predict missing part for incomplete 3D shapes. A common strategy is to generate complete shape according to incomplete input. However, unordered nature of point clouds will degrade generation of high-quality 3D shapes, as detailed topology and structure of unordered points are hard to be captured during the generative process using an extracted latent code. We address this problem by formulating completion as point cloud deformation process. Specifically, we design a novel neural network, named PMP-Net++, to mimic behavior of an earth mover. It moves each point of incomplete input to obtain a complete point cloud, where total distance of point moving paths (PMPs) should be the shortest. Therefore, PMP-Net++ predicts unique PMP for each point according to constraint of point moving distances. The network learns a strict and unique correspondence on point-level, and thus improves quality of predicted complete shape. Moreover, since moving points heavily relies on per-point features learned by network, we further introduce a transformer-enhanced representation learning network, which significantly improves completion performance of PMP-Net++. We conduct comprehensive experiments in shape completion, and further explore application on point cloud up-sampling, which demonstrate non-trivial improvement of PMP-Net++ over state-of-the-art point cloud completion/up-sampling methods.
翻訳日:2022-02-23 09:11:02 公開日:2022-02-19
# 単一画像復調のためのホロスティックアテンションフュージョン対応ネットワーク

Holistic Attention-Fusion Adversarial Network for Single Image Defogging ( http://arxiv.org/abs/2202.09553v1 )

ライセンス: Link先を確認
Wei Liu, Cheng Chen, Rui Jiang, Tao Lu and Zixiang Xiong(参考訳) 逆学習に基づく画像復号法はコンピュータビジョンにおいて顕著な性能のために広く研究されている。 しかし、既存のほとんどの手法は、同一シーンの鮮明で合成された霧の画像をペアで訓練するため、実例のデファジグ能力に制限がある。 加えて、鮮やかな色と豊かなテクストの詳細を保持することに制限がある。 これらの問題に対処するため,我々は,単一画像認識のための新しい生成型adversarial networkであるholistic attention-fusion adversarial network (haan)を開発した。 HAANはFog2FogフリーブロックとFogfree2Fogブロックで構成される。 各ブロックには3つの学習ベースのモジュール、すなわち霧除去、色覚回復、霧合成があり、互いに制約をかけ、高品質な画像を生成する。 HAANは、霧画像といくつかの派生画像との全体的チャネル-空間的特徴相関を学習することにより、テクスチャと構造情報の自己相似性を利用するように設計されている。 また,霧合成モジュールでは,新しいスカイセグメンテーションネットワークを用いた大気光最適化に着目し,大気散乱モデルを用いて生成品質の向上を導く。 合成と実世界の両方のデータセットに対する大規模な実験により、HAANは定量的精度と主観的視覚的品質の点で最先端のデファッジ手法より優れていることが示された。

Adversarial learning-based image defogging methods have been extensively studied in computer vision due to their remarkable performance. However, most existing methods have limited defogging capabilities for real cases because they are trained on the paired clear and synthesized foggy images of the same scenes. In addition, they have limitations in preserving vivid color and rich textual details in defogging. To address these issues, we develop a novel generative adversarial network, called holistic attention-fusion adversarial network (HAAN), for single image defogging. HAAN consists of a Fog2Fogfree block and a Fogfree2Fog block. In each block, there are three learning-based modules, namely, fog removal, color-texture recovery, and fog synthetic, that are constrained each other to generate high quality images. HAAN is designed to exploit the self-similarity of texture and structure information by learning the holistic channel-spatial feature correlations between the foggy image with its several derived images. Moreover, in the fog synthetic module, we utilize the atmospheric scattering model to guide it to improve the generative quality by focusing on an atmospheric light optimization with a novel sky segmentation network. Extensive experiments on both synthetic and real-world datasets show that HAAN outperforms state-of-the-art defogging methods in terms of quantitative accuracy and subjective visual quality.
翻訳日:2022-02-23 09:10:38 公開日:2022-02-19
# Tripartite: より精密な分割によるタックルノイズラベル

Tripartite: Tackle Noisy Labels by a More Precise Partition ( http://arxiv.org/abs/2202.09579v1 )

ライセンス: Link先を確認
Xuefeng Liang, Longshan Yao, Xingyu Liu, Ying Zhou(参考訳) 大規模データセットのサンプルは、さまざまな理由から誤ってラベル付けされ、Deep Neural Networksはノイズの多いラベルデータに簡単に適合する。 この問題に対処するため、キーポイントは、これらのノイズラベルの害を緩和することである。 既存の多くの手法は、トレーニングデータを損失値の観点からクリーンでノイズの多いサブセットに分割し、ノイズの多いラベルデータを処理しようとする。 優れたパフォーマンスを妨げる理由の1つは、ハードサンプルである。 硬いサンプルは、ラベルが清潔かうるさいかにかかわらず、常に比較的大きな損失を被っているため、これらの手法はそれらを正確に分割することができなかった。 代わりに、トレーニングデータをより正確に3つのサブセット(ハード、ノイズ、クリーン)に分割するTripartiteソリューションを提案する。 分割基準は、2つのネットワークの一貫性のない予測と、ネットワークと与えられたラベルの予測の不整合に基づいている。 ノイズラベルの害を最小限に抑えつつ,ノイズラベルデータの価値を最大化するために,ハードデータに低重学習,ノイズラベルデータに自己教師学習を適用する。 広範な実験により、tripartiteはノイズの多いラベルデータをより正確にフィルタリングでき、5つのベンチマークデータセット、特に実世界のデータセットにおいて、最先端のメソッドよりも優れています。

Samples in large-scale datasets may be mislabeled due to various reasons, and Deep Neural Networks can easily over-fit to the noisy label data. To tackle this problem, the key point is to alleviate the harm of these noisy labels. Many existing methods try to divide training data into clean and noisy subsets in terms of loss values, and then process the noisy label data varied. One of the reasons hindering a better performance is the hard samples. As hard samples always have relatively large losses whether their labels are clean or noisy, these methods could not divide them precisely. Instead, we propose a Tripartite solution to partition training data more precisely into three subsets: hard, noisy, and clean. The partition criteria are based on the inconsistent predictions of two networks, and the inconsistency between the prediction of a network and the given label. To minimize the harm of noisy labels but maximize the value of noisy label data, we apply a low-weight learning on hard data and a self-supervised learning on noisy label data without using the given labels. Extensive experiments demonstrate that Tripartite can filter out noisy label data more precisely, and outperforms most state-of-the-art methods on five benchmark datasets, especially on real-world datasets.
翻訳日:2022-02-23 09:10:17 公開日:2022-02-19
# GANにおける領域に基づく意味的因子化

Region-Based Semantic Factorization in GANs ( http://arxiv.org/abs/2202.09649v1 )

ライセンス: Link先を確認
Jiapeng Zhu, Yujun Shen, Yinghao Xu, Deli Zhao, Qifeng Chen(参考訳) GAN(Generative Adversarial Networks)の潜在領域における意味発見の急速な進歩にもかかわらず、既存のアプローチはグローバル属性の発見に限られるか、ローカル属性を識別するために複数のセグメンテーションマスクに依存している。 本研究では,任意の画像領域に関してGANが学習した潜在意味論を分解するアルゴリズムを提案する。 具体的には,事前学習したganを用いた局所操作の課題を再検討し,二元最適化問題として領域に基づく意味発見を定式化する。 適切に定義された一般化されたレイリー商を通して、アノテーションや訓練なしにそのような問題を解決することができる。 様々な最先端のGANモデルによる実験結果から, 精度制御, 領域の堅牢性, 実装速度, 使用の簡易性など, 従来の技術よりも優れていることが示唆された。

Despite the rapid advancement of semantic discovery in the latent space of Generative Adversarial Networks (GANs), existing approaches either are limited to finding global attributes or rely on a number of segmentation masks to identify local attributes. In this work, we present a highly efficient algorithm to factorize the latent semantics learned by GANs concerning an arbitrary image region. Concretely, we revisit the task of local manipulation with pre-trained GANs and formulate region-based semantic discovery as a dual optimization problem. Through an appropriately defined generalized Rayleigh quotient, we manage to solve such a problem without any annotations or training. Experimental results on various state-of-the-art GAN models demonstrate the effectiveness of our approach, as well as its superiority over prior arts regarding precise control, region robustness, speed of implementation, and simplicity of use.
翻訳日:2022-02-23 09:09:55 公開日:2022-02-19
# MSSNet:シングルイメージデブリのためのマルチスケールネットワーク

MSSNet: Multi-Scale-Stage Network for Single Image Deblurring ( http://arxiv.org/abs/2202.09652v1 )

ライセンス: Link先を確認
Kiyeon Kim, Seungyong Lee, Sunghyun Cho(参考訳) ディープラーニングに先立つ従来の単一画像のデブロアリング手法のほとんどは、粗いスケールでシャープな画像を推定し、より細かいスケールで徐々に洗練する粗大なスキームを採用している。 このスキームはいくつかのディープラーニングベースのアプローチにも採用されているが、近年では従来の粗大なアプローチよりも品質と計算時間の両方で優れた性能を示しており、従来の粗大な手法は時代遅れのように見える。 本稿では、粗大化方式を再検討し、その性能を劣化させる従来の粗大化手法の欠陥を分析する。 そこで本研究では,本研究で提案するマルチスケールステージネットワーク(mssnet,multi-scale-stage network)を提案する。 特に、MSSNetは、ブラースケールを反映したステージ構成、スケール間情報伝搬方式、ピクセルシャッフルベースのマルチスケール方式の3つの新しい技術コンポーネントを採用している。 実験の結果,MSSNetは品質,ネットワークサイズ,計算時間の観点から最先端の性能を実現していることがわかった。

Most of traditional single image deblurring methods before deep learning adopt a coarse-to-fine scheme that estimates a sharp image at a coarse scale and progressively refines it at finer scales. While this scheme has also been adopted to several deep learning-based approaches, recently a number of single-scale approaches have been introduced showing superior performance to previous coarse-to-fine approaches both in quality and computation time, making the traditional coarse-to-fine scheme seemingly obsolete. In this paper, we revisit the coarse-to-fine scheme, and analyze defects of previous coarse-to-fine approaches that degrade their performance. Based on the analysis, we propose Multi-Scale-Stage Network (MSSNet), a novel deep learning-based approach to single image deblurring that adopts our remedies to the defects. Specifically, MSSNet adopts three novel technical components: stage configuration reflecting blur scales, an inter-scale information propagation scheme, and a pixel-shuffle-based multi-scale scheme. Our experiments show that MSSNet achieves the state-of-the-art performance in terms of quality, network size, and computation time.
翻訳日:2022-02-23 09:09:38 公開日:2022-02-19
# 二重ロバスト分布型オフポリティ評価と学習

Doubly Robust Distributionally Robust Off-Policy Evaluation and Learning ( http://arxiv.org/abs/2202.09667v1 )

ライセンス: Link先を確認
Nathan Kallus, Xiaojie Mao, Kaiwen Wang, Zhengyuan Zhou(参考訳) off-policy evaluation and learning (ope/l) はオフラインの観測データを使用してより良い意思決定を行う。 OPE/Lは、データ生成環境とポリシーがデプロイされる場所との相違に敏感である。 最近の研究では、分布的にロバストなope/l (drope/l) がこの問題に対処するために提案されているが、提案は逆プロペンシティ重み付けに依拠している。 バニラ OPE/L の場合、これは二重堅牢 (DR) 法で解決されるが、最悪の場合の予測を含むより複雑な DROPE/L に自然に拡張されるわけではない。 本稿では,KL分割不確実性集合を用いたDROPE/Lの最初のDRアルゴリズムを提案する。 評価のために,局所的な2重ロバストなdrope (ldr$^2$ope) を提案し,その半パラメトリック効率を弱い製品率条件下で証明する。 特に、ローカライズ技術のおかげで、LDR$^2$OPEは、バニラOPEのDRメソッドのように、少数のレグレッションのみを適合させる必要がある。 学習のために,CDR$^2$OPL (Continuum Doubly Robust DROPL) を提案し,回帰の継続を含む積率条件の下では,未知の正則性が非パラメトリックに推定された場合でも,高速な後悔率$\mathcal{O}(N^{-1/2}) を満足することを示す。 さらに、我々の結果を一般の$f$-divergence不確実集合に拡張する。 シミュレーションにおけるアルゴリズムの利点を説明します。

Off-policy evaluation and learning (OPE/L) use offline observational data to make better decisions, which is crucial in applications where experimentation is necessarily limited. OPE/L is nonetheless sensitive to discrepancies between the data-generating environment and that where policies are deployed. Recent work proposed distributionally robust OPE/L (DROPE/L) to remedy this, but the proposal relies on inverse-propensity weighting, whose regret rates may deteriorate if propensities are estimated and whose variance is suboptimal even if not. For vanilla OPE/L, this is solved by doubly robust (DR) methods, but they do not naturally extend to the more complex DROPE/L, which involves a worst-case expectation. In this paper, we propose the first DR algorithms for DROPE/L with KL-divergence uncertainty sets. For evaluation, we propose Localized Doubly Robust DROPE (LDR$^2$OPE) and prove its semiparametric efficiency under weak product rates conditions. Notably, thanks to a localization technique, LDR$^2$OPE only requires fitting a small number of regressions, just like DR methods for vanilla OPE. For learning, we propose Continuum Doubly Robust DROPL (CDR$^2$OPL) and show that, under a product rate condition involving a continuum of regressions, it enjoys a fast regret rate of $\mathcal{O}(N^{-1/2})$ even when unknown propensities are nonparametrically estimated. We further extend our results to general $f$-divergence uncertainty sets. We illustrate the advantage of our algorithms in simulations.
翻訳日:2022-02-23 08:46:43 公開日:2022-02-19
# 言語横断要約のためのモデルとデータセット

Models and Datasets for Cross-Lingual Summarisation ( http://arxiv.org/abs/2202.09583v1 )

ライセンス: Link先を確認
Laura Perez-Beltrachini and Mirella Lapata(参考訳) 対象言語における多文要約に関連するソース言語において,長い文書を含む言語間要約コーパスを提案する。 コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語のための12の言語対と指示をカバーしており、その作成方法は他のいくつかの言語にも適用できる。 言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導き出す。 提案した言語間要約タスクを自動メトリクスで分析し,人間の研究で検証する。 データセットの有用性を説明するために,マルチリンガル事前学習モデルを用いた教師あり,ゼロショット,少数ショット,ドメイン外シナリオの実験を報告する。

We present a cross-lingual summarisation corpus with long documents in a source language associated with multi-sentence summaries in a target language. The corpus covers twelve language pairs and directions for four European languages, namely Czech, English, French and German, and the methodology for its creation can be applied to several other languages. We derive cross-lingual document-summary instances from Wikipedia by combining lead paragraphs and articles' bodies from language aligned Wikipedia titles. We analyse the proposed cross-lingual summarisation task with automatic metrics and validate it with a human study. To illustrate the utility of our dataset we report experiments with multi-lingual pre-trained models in supervised, zero- and few-shot, and out-of-domain scenarios.
翻訳日:2022-02-23 08:44:37 公開日:2022-02-19
# MixKG:知識グラフにおける厳密な負のサンプルの混合

MixKG: Mixing for harder negative samples in knowledge graph ( http://arxiv.org/abs/2202.09606v1 )

ライセンス: Link先を確認
Feihu Che, Guohua Yang, Pengpeng Shao, Dawei Zhang, Jianhua Tao(参考訳) 知識グラフ埋め込み~(KGE)は、多くの実世界の応用のための低次元ベクトルへの実体と関係を表現することを目的としている。 実体と関係の表現は、正と負の三重項の対比によって学習される。 したがって、高品質な負のサンプルはKGEでは極めて重要である。 しかし、現在のKGEモデルは単純な負のサンプリング法に依存しており、情報的な負の三重項を得るのが困難である。 さらに、これらの手法は既存の実体を用いてのみ負の三重項を構成できるため、より強固な負の三重項を探索するポテンシャルが制限される。 これらの問題に対処するために,知識グラフに対してより難しい負のサンプルを生成するために混合演算を採用し,より安価で効果的な方法であるmixkgを導入する。 技術的には、MixKGはまず、サンプリングされた陰性のうち硬い負の三つ子をフィルタリングする2種類の基準を提案する。 次に、MixKGは、対選択した硬質負の凸結合を介して硬質負のサンプルを合成する。 2つの公開データセットと4つの古典的KGE手法の実験は、MixKGが以前の負サンプリングアルゴリズムよりも優れていることを示している。

Knowledge graph embedding~(KGE) aims to represent entities and relations into low-dimensional vectors for many real-world applications. The representations of entities and relations are learned via contrasting the positive and negative triplets. Thus, high-quality negative samples are extremely important in KGE. However, the present KGE models either rely on simple negative sampling methods, which makes it difficult to obtain informative negative triplets; or employ complex adversarial methods, which requires more training data and strategies. In addition, these methods can only construct negative triplets using the existing entities, which limits the potential to explore harder negative triplets. To address these issues, we adopt mixing operation in generating harder negative samples for knowledge graphs and introduce an inexpensive but effective method called MixKG. Technically, MixKG first proposes two kinds of criteria to filter hard negative triplets among the sampled negatives: based on scoring function and based on correct entity similarity. Then, MixKG synthesizes harder negative samples via the convex combinations of the paired selected hard negatives. Experiments on two public datasets and four classical KGE methods show MixKG is superior to previous negative sampling algorithms.
翻訳日:2022-02-23 08:41:37 公開日:2022-02-19
# 人-物相互作用検出の一般化のための軽量物体カテゴリー免疫

Highlighting Object Category Immunity for the Generalization of Human-Object Interaction Detection ( http://arxiv.org/abs/2202.09492v1 )

ライセンス: Link先を確認
Xinpeng Liu, Yong-Lu Li, Cewu Lu(参考訳) ヒューマン・オブジェクト・インタラクション(hoi)検出は、活動理解において重要な役割を果たす。 構成学習問題(人間-動詞-対象)として、その一般化について研究する。 しかし、広く使われている平均平均精度(mAP)は構成一般化をうまくモデル化できない。 そこで本研究では,mAP の補完として mPD (mean Performance Degradation) を提案する。 意外なことに、mPDは従来の手法が一般的にあまり一般化していないことを明らかにしている。 mPD をキューとして,HOI の一般化を促進するために Object Category (OC) Immunity を提案する。 モデルは、列車のセットに過度にフィットするショートカットとして、刺激的なオブジェクトとバーブの相関を学習するのを防ぐ。 OC免疫性を実現するために,OC免疫の入力を分離し,OC免疫表現を抽出し,不確実な定量化を活用して未知の物体に一般化するOC免疫ネットワークを提案する。 従来の実験とゼロショット実験の両方において,本手法は良好な改善を実現する。 一般化を徹底的に評価するために,我々は,新しい,より難しいベンチマークを設計した。 コードはhttps://github.com/foruck/oc-immunityで入手できる。

Human-Object Interaction (HOI) detection plays a core role in activity understanding. As a compositional learning problem (human-verb-object), studying its generalization matters. However, widely-used metric mean average precision (mAP) fails to model the compositional generalization well. Thus, we propose a novel metric, mPD (mean Performance Degradation), as a complementary of mAP to evaluate the performance gap among compositions of different objects and the same verb. Surprisingly, mPD reveals that previous methods usually generalize poorly. With mPD as a cue, we propose Object Category (OC) Immunity to boost HOI generalization. The idea is to prevent model from learning spurious object-verb correlations as a short-cut to over-fit the train set. To achieve OC-immunity, we propose an OC-immune network that decouples the inputs from OC, extracts OC-immune representations, and leverages uncertainty quantification to generalize to unseen objects. In both conventional and zero-shot experiments, our method achieves decent improvements. To fully evaluate the generalization, we design a new and more difficult benchmark, on which we present significant advantage. The code is available at https://github.com/Foruck/OC-Immunity.
翻訳日:2022-02-23 08:40:06 公開日:2022-02-19
# ポリトピックマトリックス因子分解:決定的最大化に基づく基準と識別可能性

Polytopic Matrix Factorization: Determinant Maximization Based Criterion and Identifiability ( http://arxiv.org/abs/2202.09638v1 )

ライセンス: Link先を確認
Gokcan Tatli and Alper T. Erdogan(参考訳) 本稿では,新しいデータ分解手法として,ポリトピックマトリックスファクトリゼーション(PMF)を導入する。 このフレームワークでは,ポリトープから引き出された潜在ベクトルの未知の線形変換として入力データをモデル化する。 この意味で、本論文は、入力行列を全列ランク行列とポリトープからのサンプルを列ベクトルとして含む行列の積としてモデル化する半構造化データモデルを考える。 ポリトープの選択は、潜在成分の想定される特徴とその相互関係を反映している。 因子分解の基準として,潜在ベクトルのサンプル自己相関行列に対する決定行列最大化(det-max)を提案する。 我々は, 潜伏ベクトルの凸殻に, 特定の密度制約のあるポリトープの最大体積の楕円体を含むような, 識別可能性の十分な条件を導入する。 Det-Max criterion と提案した識別性条件に基づいて、PMF フレームワークの特定の対称性の制限条件を満たす全てのポリトープを示す。 無限に多くのポリトープ選択を持つことは、潜在ベクトルを特徴づける柔軟性の形式を提供する。 特に、不均一な特徴を持つ潜在ベクトルを定義することができ、部分ベクトルレベルで非負性や疎性などの属性を割り当てることができる。 この記事では、ポリトープ選択と対応する特徴表現の関連性を示す例を示す。

We introduce Polytopic Matrix Factorization (PMF) as a novel data decomposition approach. In this new framework, we model input data as unknown linear transformations of some latent vectors drawn from a polytope. In this sense, the article considers a semi-structured data model, in which the input matrix is modeled as the product of a full column rank matrix and a matrix containing samples from a polytope as its column vectors. The choice of polytope reflects the presumed features of the latent components and their mutual relationships. As the factorization criterion, we propose the determinant maximization (Det-Max) for the sample autocorrelation matrix of the latent vectors. We introduce a sufficient condition for identifiability, which requires that the convex hull of the latent vectors contains the maximum volume inscribed ellipsoid of the polytope with a particular tightness constraint. Based on the Det-Max criterion and the proposed identifiability condition, we show that all polytopes that satisfy a particular symmetry restriction qualify for the PMF framework. Having infinitely many polytope choices provides a form of flexibility in characterizing latent vectors. In particular, it is possible to define latent vectors with heterogeneous features, enabling the assignment of attributes such as nonnegativity and sparsity at the subvector level. The article offers examples illustrating the connection between polytope choices and the corresponding feature representations.
翻訳日:2022-02-23 08:14:59 公開日:2022-02-19
# 通信のないマルチプレイヤーマルチアーマバンドにおけるインスタンス依存保証者のパレートフロンティア

The Pareto Frontier of Instance-Dependent Guarantees in Multi-Player Multi-Armed Bandits with no Communication ( http://arxiv.org/abs/2202.09653v1 )

ライセンス: Link先を確認
Allen Liu, Mark Sellke(参考訳) 確率的マルチプレイヤー・マルチアーム・バンディット問題について検討した。 この問題では、$m$プレイヤーが協力して$k > m$ armsの報酬を最大化する。 しかし、プレイヤーはコミュニケーションが取れず、同時に同じ腕を引っ張ると罰を受ける(例:報酬を受けない)。 ここで$\Delta$は$m$-thと$m+1$-stのベストアームのギャップである。 このような保証は、プレイヤーが意図的な衝突を通じて暗黙的にコミュニケーションできるモデルで最近達成された。 コミュニケーションが全くない状態では、このような保証は驚くべきことに達成不可能であることを示します。 実際、$\Delta$のいくつかのレジームに対して最適な$\tilde{O}(1/\Delta)$後悔を得ることは、必然的に他のレジームにおける厳密な準最適後悔を意味する。 私たちの主な結果は、通信なしで可能なparetoの最適インスタンス依存トレードオフの完全な特徴付けです。 このアルゴリズムはbubeck, budzinski, and the second authorのそれを一般化し,同じ強い非衝突特性を享受する。

We study the stochastic multi-player multi-armed bandit problem. In this problem, $m$ players cooperate to maximize their total reward from $K > m$ arms. However the players cannot communicate and are penalized (e.g. receive no reward) if they pull the same arm at the same time. We ask whether it is possible to obtain optimal instance-dependent regret $\tilde{O}(1/\Delta)$ where $\Delta$ is the gap between the $m$-th and $m+1$-st best arms. Such guarantees were recently achieved in a model allowing the players to implicitly communicate through intentional collisions. We show that with no communication at all, such guarantees are, surprisingly, not achievable. In fact, obtaining the optimal $\tilde{O}(1/\Delta)$ regret for some regimes of $\Delta$ necessarily implies strictly sub-optimal regret in other regimes. Our main result is a complete characterization of the Pareto optimal instance-dependent trade-offs that are possible with no communication. Our algorithm generalizes that of Bubeck, Budzinski, and the second author and enjoys the same strong no-collision property, while our lower bound is based on a topological obstruction and holds even under full information.
翻訳日:2022-02-23 08:14:39 公開日:2022-02-19
# 凸凸鞍点問題の一般化的楽観的解法

Generalized Optimistic Methods for Convex-Concave Saddle Point Problems ( http://arxiv.org/abs/2202.09674v1 )

ライセンス: Link先を確認
Ruichen Jiang, Aryan Mokhtari(参考訳) 楽観的勾配法は凸凹サドル問題を解くための効率的な一階法として人気が高まっている。 反復の複雑さを分析するために、最近の研究(arxiv:1901.08511]は、楽観的勾配法を近位点法の近似として解釈する興味深い視点を提案した。 本稿では,このアプローチに従い,楽観主義の基本概念を蒸留し,楽観的勾配法を特殊ケースとして包含する一般化楽観的手法を提案する。 汎用フレームワークは,複合目的関数を用いた制約付き鞍点問題を扱うことができ,ブレグマン距離を持つ任意のノルムを扱うことができる。 さらに,平滑度係数を知らずにステップズを選択する適応ライン探索手法を開発した。 我々は,本手法を一階,二階,高階のオラクルでインスタンス化し,大域的な反復複雑性境界を与える。 目的関数が凸凸であれば、我々の$p$-th-order method(p\geq 1$)の平均イテレートが$\mathcal{o}(1/n^\frac{p+1}{2})$で収束することを示す。 When the objective function is further strongly-convex-strongly-concave, we prove a complexity bound of $\mathcal{O}(\frac{L_1}{\mu}\log\frac{1}{\epsilon})$ for our first-order method and a bound of $\mathcal{O}((L_p D^\frac{p-1}{2}/\mu)^{\frac{2}{p+1}}+\log\log\frac{1}{\epsilon})$ for our $p$-th-order method ($p\geq 2$) respectively, where $L_p$ ($p\geq 1$) is the Lipschitz constant of the $p$-th-order derivative, $\mu$ is the strongly-convex parameter, and $D$ is the initial Bregman distance to the saddle point. さらに, 線形探索方式は, 平均的に1イテレーションあたりのサブプロブレム解数に対して, ほぼ一定回数の呼び出ししか必要とせず, 実装に特に適する一階法と二階法が成立する。

The optimistic gradient method has seen increasing popularity as an efficient first-order method for solving convex-concave saddle point problems. To analyze its iteration complexity, a recent work [arXiv:1901.08511] proposed an interesting perspective that interprets the optimistic gradient method as an approximation to the proximal point method. In this paper, we follow this approach and distill the underlying idea of optimism to propose a generalized optimistic method, which encompasses the optimistic gradient method as a special case. Our general framework can handle constrained saddle point problems with composite objective functions and can work with arbitrary norms with compatible Bregman distances. Moreover, we also develop an adaptive line search scheme to select the stepsizes without knowledge of the smoothness coefficients. We instantiate our method with first-order, second-order and higher-order oracles and give sharp global iteration complexity bounds. When the objective function is convex-concave, we show that the averaged iterates of our $p$-th-order method ($p\geq 1$) converge at a rate of $\mathcal{O}(1/N^\frac{p+1}{2})$. When the objective function is further strongly-convex-strongly-concave, we prove a complexity bound of $\mathcal{O}(\frac{L_1}{\mu}\log\frac{1}{\epsilon})$ for our first-order method and a bound of $\mathcal{O}((L_p D^\frac{p-1}{2}/\mu)^{\frac{2}{p+1}}+\log\log\frac{1}{\epsilon})$ for our $p$-th-order method ($p\geq 2$) respectively, where $L_p$ ($p\geq 1$) is the Lipschitz constant of the $p$-th-order derivative, $\mu$ is the strongly-convex parameter, and $D$ is the initial Bregman distance to the saddle point. Moreover, our line search scheme provably only requires an almost constant number of calls to a subproblem solver per iteration on average, making our first-order and second-order methods particularly amenable to implementation.
翻訳日:2022-02-23 08:14:20 公開日:2022-02-19
# SAGE:内視鏡に先立って外観と幾何学を備えたSLAM

SAGE: SLAM with Appearance and Geometry Prior for Endoscopy ( http://arxiv.org/abs/2202.09487v1 )

ライセンス: Link先を確認
Xingtong Liu, Zhaoshuo Li, Masaru Ishii, Gregory D. Hager, Russell H. Taylor, Mathias Unberath(参考訳) 内視鏡では、多くの応用(例えば手術ナビゲーション)が、内視鏡を同時に追跡し、観察された解剖学の密度の高い3D形状を単眼内視鏡ビデオから再構成するリアルタイムな手法の恩恵を受ける。 この目的のために、学習に基づく外観と最適化可能な幾何先行と因子グラフ最適化を組み合わせた同時局所化マッピングシステムを開発した。 外観と幾何学の事前は、SLAMシステムのコアコンポーネントであるペアワイドイメージアライメントのタスクをマスターするために、エンドツーエンドの微分可能なトレーニングパイプラインで明示的に学習される。 実験では,提案するスラムシステムは,内視鏡で一般的に見られるテクスチャ不足や照明変化の課題を頑健に処理できることが示されている。 このシステムは、目に見えない内視鏡や被験者によく一般化し、最先端の機能ベースのSLAMシステムと比較して好適に機能する。 コードリポジトリはhttps://github.com/lppllppl920/sage-slam.gitで入手できる。

In endoscopy, many applications (e.g., surgical navigation) would benefit from a real-time method that can simultaneously track the endoscope and reconstruct the dense 3D geometry of the observed anatomy from a monocular endoscopic video. To this end, we develop a Simultaneous Localization and Mapping system by combining the learning-based appearance and optimizable geometry priors and factor graph optimization. The appearance and geometry priors are explicitly learned in an end-to-end differentiable training pipeline to master the task of pair-wise image alignment, one of the core components of the SLAM system. In our experiments, the proposed SLAM system is shown to robustly handle the challenges of texture scarceness and illumination variation that are commonly seen in endoscopy. The system generalizes well to unseen endoscopes and subjects and performs favorably compared with a state-of-the-art feature-based SLAM system. The code repository is available at https://github.com/lppllppl920/SAGE-SLAM.git.
翻訳日:2022-02-23 07:56:11 公開日:2022-02-19
# ベイジアンディープニューラルネットワークにおける1000以上のモンテカルロイテレーションのグラフ再パラメータ化

Graph Reparameterizations for Enabling 1000+ Monte Carlo Iterations in Bayesian Deep Neural Networks ( http://arxiv.org/abs/2202.09478v1 )

ライセンス: Link先を確認
Jurijs Nazarovs, Ronak R. Mehta, Vishnu Suresh Lokhande, Vikas Singh(参考訳) 深層モデルにおける不確実性の推定は、多くの実世界のアプリケーションで必須であり、ここ数年の開発から恩恵を受けてきた。 最近の証拠は、単純なガウスの定式化に依存する既存の解が十分でないことを示唆している。 しかし、他の分布への移動はモンテカルロサンプリング(MC)のサンプリングを必要とし、KLの発散など量を推定する:入力データとモデルの両方の次元が大きくなるにつれて、高価でスケールが悪くなる可能性がある。 これは計算グラフの構造に直接関係しており、必要となるMCサンプル数の関数として線形に成長することができる。 本稿では,これらの計算グラフを記述するためのフレームワークを構築し,そのグラフサイズが独立であるか,あるいはmcサンプル数に弱いだけ依存できる確率族を同定する。 これらの族は分布の大きなクラスと直接対応している。 経験上、私たちはコンピュータビジョンで使われるより大きなアーキテクチャのmc近似の多くのイテレーションを実行でき、自信のある精度、トレーニングの安定性、メモリおよびトレーニング時間でパフォーマンスが測定される。

Uncertainty estimation in deep models is essential in many real-world applications and has benefited from developments over the last several years. Recent evidence suggests that existing solutions dependent on simple Gaussian formulations may not be sufficient. However, moving to other distributions necessitates Monte Carlo (MC) sampling to estimate quantities such as the KL divergence: it could be expensive and scales poorly as the dimensions of both the input data and the model grow. This is directly related to the structure of the computation graph, which can grow linearly as a function of the number of MC samples needed. Here, we construct a framework to describe these computation graphs, and identify probability families where the graph size can be independent or only weakly dependent on the number of MC samples. These families correspond directly to large classes of distributions. Empirically, we can run a much larger number of iterations for MC approximations for larger architectures used in computer vision with gains in performance measured in confident accuracy, stability of training, memory and training time.
翻訳日:2022-02-23 07:55:09 公開日:2022-02-19
# 機械学習における相互性

Reciprocity in Machine Learning ( http://arxiv.org/abs/2202.09480v1 )

ライセンス: Link先を確認
Mukund Sundararajan (Google), Walid Krichene (Google Research)(参考訳) 機械学習は普及している。 Spotify、Instagram、YouTubeなどのレコメンドシステムや、睡眠パターンや病気のリスクを予測するモデルを通じて医療システムを動かしている。 個人はこれらのモデルにデータを提供し、その恩恵を受ける。 これらの貢献(影響の流出)と利益(影響の流入)は相反するだろうか? 本稿では,前述した訓練データの影響の尺度に基づいて,流出量,流入量,相互関係の尺度を提案する。 我々の最初の理論および実験の結果は、ある分布的仮定の下で、モデルのいくつかのクラスは概逆的であることを示している。 我々はいくつかのオープンな方向で締めくくる。

Machine learning is pervasive. It powers recommender systems such as Spotify, Instagram and YouTube, and health-care systems via models that predict sleep patterns, or the risk of disease. Individuals contribute data to these models and benefit from them. Are these contributions (outflows of influence) and benefits (inflows of influence) reciprocal? We propose measures of outflows, inflows and reciprocity building on previously proposed measures of training data influence. Our initial theoretical and empirical results indicate that under certain distributional assumptions, some classes of models are approximately reciprocal. We conclude with several open directions.
翻訳日:2022-02-23 07:54:50 公開日:2022-02-19
# 4-fifthsルールは異なる影響ではない:アルゴリズム的公平さにおける認識論的不法侵入の悲惨な物語

The four-fifths rule is not disparate impact: a woeful tale of epistemic trespassing in algorithmic fairness ( http://arxiv.org/abs/2202.09519v1 )

ライセンス: Link先を確認
Elizabeth Anne Watkins and Michael McKenna and Jiahao Chen(参考訳) コンピュータ科学者は、単純化し一般化する抽象概念を作成するように訓練される。 しかし、重要な文脈の詳細を省略する時期尚早な抽象化は、他の文脈との関係を誤って主張することで、認識論的不法侵入のリスクを生じさせる。 我々は、責任あるAIの分野が4/5ルール(すなわち4/5ルールまたは80%ルール)を異なるインパクト差別法の一部分として抽象化して、不完全なシナコドーチェを生み出した方法を研究する。 この計量は、元の4/5規則に欠落していた倫理的害に対する新しい非行のニュアンスと新しいポテンシャルを誤って導入する。 また、この分野が4/5ルールを一般的なAIフェアネスソフトウェアツールキットに符号化する際の害の可能性を増幅したかを調査した。 法的ニュアンスの有害な消去は、特にai倫理の学際的な分野において、コンピュータ科学者が生み出した抽象概念を自己批判的に再評価するように促すことである。

Computer scientists are trained to create abstractions that simplify and generalize. However, a premature abstraction that omits crucial contextual details creates the risk of epistemic trespassing, by falsely asserting its relevance into other contexts. We study how the field of responsible AI has created an imperfect synecdoche by abstracting the four-fifths rule (a.k.a. the 4/5 rule or 80% rule), a single part of disparate impact discrimination law, into the disparate impact metric. This metric incorrectly introduces a new deontic nuance and new potentials for ethical harms that were absent in the original 4/5 rule. We also survey how the field has amplified the potential for harm in codifying the 4/5 rule into popular AI fairness software toolkits. The harmful erasure of legal nuances is a wake-up call for computer scientists to self-critically re-evaluate the abstractions they create and use, particularly in the interdisciplinary field of AI ethics.
翻訳日:2022-02-23 07:54:42 公開日:2022-02-19
# (参考訳) petci: 中国語のイディオムの並列英語翻訳データセット

PETCI: A Parallel English Translation Dataset of Chinese Idioms ( http://arxiv.org/abs/2202.09509v1 )

ライセンス: CC BY 4.0
Kenan Tang (The University of Chicago)(参考訳) イディオムは中国語で重要な言語現象であるが、イディオム翻訳は非常に難しい。 現在の機械翻訳モデルはイディオム翻訳では性能が悪く、イディオムは多くの翻訳データセットではスパースである。 我々は,中国語のイディオムの並行翻訳データセットであるPETCIについて,人間と機械の両方によるイディオム翻訳を改善することを目的とした。 データセットは人間と機械の努力を活用することで構築される。 ベースライン生成モデルは、翻訳を改善するのに不満足な能力を示すが、構造対応分類モデルは優れた翻訳を区別する上で優れた性能を示す。 さらに、PETCIのサイズは専門知識なしで容易に拡大できる。 PETCIは言語学習者や機械翻訳システムに有用である。

Idioms are an important language phenomenon in Chinese, but idiom translation is notoriously hard. Current machine translation models perform poorly on idiom translation, while idioms are sparse in many translation datasets. We present PETCI, a parallel English translation dataset of Chinese idioms, aiming to improve idiom translation by both human and machine. The dataset is built by leveraging human and machine effort. Baseline generation models show unsatisfactory abilities to improve translation, but structure-aware classification models show good performance on distinguishing good translations. Furthermore, the size of PETCI can be easily increased without expertise. Overall, PETCI can be helpful to language learners and machine translation systems.
翻訳日:2022-02-22 21:46:56 公開日:2022-02-19
# (参考訳) ニューラルネットワーク重みのビットワイズトレーニング

Bit-wise Training of Neural Network Weights ( http://arxiv.org/abs/2202.09571v1 )

ライセンス: CC BY 4.0
Cristian Ivan(参考訳) 本稿では,ニューラルネットワークの重みを表す個々のビットを学習するアルゴリズムを提案する。 この方法では任意のビット深度で整数値で重みをトレーニングでき、余分な制約や正規化を伴わずにスパースネットワークを自然に発見できる。 コンボリューションネットワークと残留ネットワークの標準トレーニングと比較して,完全接続ネットワークと類似の性能を有する標準トレーニング技術よりも優れた結果を示す。 ビットを選択的にトレーニングすることで、高い精度を達成する最大の貢献は最初の3つの重要なビットによって与えられるのに対し、残りは本質的な正規化をもたらすことが分かりました。 その結果、ネットワークの90\%以上は、その精度に影響を与えずに任意のコードを保存できる。 これらのコードはランダムノイズ、バイナリファイル、あるいはトレーニング済みのネットワークの重みですらある。

We introduce an algorithm where the individual bits representing the weights of a neural network are learned. This method allows training weights with integer values on arbitrary bit-depths and naturally uncovers sparse networks, without additional constraints or regularization techniques. We show better results than the standard training technique with fully connected networks and similar performance as compared to standard training for convolutional and residual networks. By training bits in a selective manner we found that the biggest contribution to achieving high accuracy is given by the first three most significant bits, while the rest provide an intrinsic regularization. As a consequence more than 90\% of a network can be used to store arbitrary codes without affecting its accuracy. These codes may be random noise, binary files or even the weights of previously trained networks.
翻訳日:2022-02-22 21:31:30 公開日:2022-02-19
# (参考訳) トランスフォーマーに基づく言語モデルにおける毒性の緩和のためのリワードモデリング

Reward Modeling for Mitigating Toxicity in Transformer-based Language Models ( http://arxiv.org/abs/2202.09662v1 )

ライセンス: CC BY 4.0
Farshid Faal, Jia Yuan Yu, Ketra Schmitt(参考訳) トランスフォーマティブベースの言語モデルは、フルーエントテキストを生成することができ、様々な自然言語生成タスクに効率的に適応することができる。 しかし、大規模な未ラベルのウェブテキストコーパスで事前訓練された言語モデルは、有害な内容の変性と社会的偏見の挙動に悩まされ、結果として安全な展開を妨げることが示されている。 言語モデルの毒性を軽減するために様々な解毒法が提案されたが、これらの方法は、性別、人種、宗教に関連する特定の社会的アイデンティティを含むプロンプトを条件に、言語モデルの解毒に苦慮した。 本研究では,言語モデルにおける毒性軽減のための強化学習に基づくReinforce-Detoxifyを提案する。 言語モデルにおける安全性の課題に対処し、有害な内容を検出し、有害性予測における社会的アイデンティティに対する意図しない偏見を軽減する新しい報酬モデルを提案する。 実験により,Reinforce-Detoxify法は,自動評価尺度において既存のデトックス化手法よりも優れており,言語モデルデトックス化における我々のアプローチの能力は,生成コンテンツにおける社会的アイデンティティに対する意図しない偏見に劣ることが示された。

Transformer-based language models are able to generate fluent text and be efficiently adapted across various natural language generation tasks. However, language models that are pretrained on large unlabeled web text corpora have been shown to suffer from degenerating toxic content and social bias behaviors, consequently hindering their safe deployment. Various detoxification methods were proposed to mitigate the language model's toxicity; however, these methods struggled to detoxify language models when conditioned on prompts that contain specific social identities related to gender, race, or religion. In this study, we propose Reinforce-Detoxify; A reinforcement learning-based method for mitigating toxicity in language models. We address the challenge of safety in language models and propose a new reward model that is able to detect toxic content and mitigate unintended bias towards social identities in toxicity prediction. The experiments demonstrate that the Reinforce-Detoxify method for language model detoxification outperforms existing detoxification approaches in automatic evaluation metrics, indicating the ability of our approach in language model detoxification and less prone to unintended bias toward social identities in generated content.
翻訳日:2022-02-22 21:20:20 公開日:2022-02-19
# (参考訳) オフライン強化学習のための正規化インシシシトポリシー

A Regularized Implicit Policy for Offline Reinforcement Learning ( http://arxiv.org/abs/2202.09673v1 )

ライセンス: CC BY 4.0
Shentao Yang, Zhendong Wang, Huangjie Zheng, Yihao Feng, Mingyuan Zhou(参考訳) オフライン強化学習は、環境とのさらなるインタラクションなしに、固定データセットからの学習を可能にする。 環境相互作用の欠如により、政策トレーニングはトレーニングデータセットから遠く離れた状態-作用ペアに対して脆弱になり、報奨行動の欠如につながる。 より効果的なエージェントを訓練するために、フレキシブルだが規則化された完全単純ポリシーの学習を支援するフレームワークを提案する。 さらに,jensen-shannon 発散と積分確率計量の双対形式に関して正則化のための古典的ポリシーマッチング法の簡単な修正を提案する。 理論的には、ポリシーマッチングアプローチの正しさと、修正の正しさと良好な有限サンプル特性を示す。 GAN構造によるフレームワークの効率的なインスタンス化と,静的データセットを超えたロバストな一般化のための状態-アクションマッピングを円滑にするための技術が提供される。 d4rlデータセットに関する広範な実験とアブレーションの研究は、我々のフレームワークとアルゴリズム設計の有効性を検証する。

Offline reinforcement learning enables learning from a fixed dataset, without further interactions with the environment. The lack of environmental interactions makes the policy training vulnerable to state-action pairs far from the training dataset and prone to missing rewarding actions. For training more effective agents, we propose a framework that supports learning a flexible yet well-regularized fully-implicit policy. We further propose a simple modification to the classical policy-matching methods for regularizing with respect to the dual form of the Jensen--Shannon divergence and the integral probability metrics. We theoretically show the correctness of the policy-matching approach, and the correctness and a good finite-sample property of our modification. An effective instantiation of our framework through the GAN structure is provided, together with techniques to explicitly smooth the state-action mapping for robust generalization beyond the static dataset. Extensive experiments and ablation study on the D4RL dataset validate our framework and the effectiveness of our algorithmic designs.
翻訳日:2022-02-22 20:53:28 公開日:2022-02-19
# (参考訳) 高次元ベイズネットワーク構造学習のための並列サンプリング

Parallel Sampling for Efficient High-dimensional Bayesian Network Structure Learning ( http://arxiv.org/abs/2202.09691v1 )

ライセンス: CC BY 4.0
Zhigao Guo, Anthony C. Constantinou(参考訳) ベイズネットワークの構造を学習するスコアベースのアルゴリズムは、正確な解と近似解の両方に利用できる。 近似学習は変数の数ではスケールが良くなるが、高次元データが存在する場合には計算コストがかかる。 本稿では、候補親集合(cpss)上で並列サンプリングを行う近似アルゴリズムについて述べるとともに、高次元データから構造学習を行うための最先端アルゴリズムであるminobsの拡張と見なすことができる。 修正アルゴリズムはParallel Sampling MINOBS (PS-MINOBS) と呼ばれ、各変数のCPSをサンプリングすることでグラフを構成する。 サンプリングは、各変数に対してベイズスコアで順序付けられた場合、CPSの分布が半正規であるという仮定の下で並列に実行される。 半正規分布からサンプリングすることで、サンプリングされたCPSがより高いスコアを生み出す可能性が高いことが保証される。 実験結果から,提案アルゴリズムは両方のアルゴリズムが同一のランタイム限界に制限されている場合,MINOBSよりも高いスコア構造が発見された。

Score-based algorithms that learn the structure of Bayesian networks can be used for both exact and approximate solutions. While approximate learning scales better with the number of variables, it can be computationally expensive in the presence of high dimensional data. This paper describes an approximate algorithm that performs parallel sampling on Candidate Parent Sets (CPSs), and can be viewed as an extension of MINOBS which is a state-of-the-art algorithm for structure learning from high dimensional data. The modified algorithm, which we call Parallel Sampling MINOBS (PS-MINOBS), constructs the graph by sampling CPSs for each variable. Sampling is performed in parallel under the assumption the distribution of CPSs is half-normal when ordered by Bayesian score for each variable. Sampling from a half-normal distribution ensures that the CPSs sampled are likely to be those which produce the higher scores. Empirical results show that, in most cases, the proposed algorithm discovers higher score structures than MINOBS when both algorithms are restricted to the same runtime limit.
翻訳日:2022-02-22 20:52:21 公開日:2022-02-19
# (参考訳) 触覚回復

Punctuation Restoration ( http://arxiv.org/abs/2202.09695v1 )

ライセンス: CC BY 4.0
Viet Dac Lai, Amir Pouran Ben Veyseh, Franck Dernoncourt, Thien Huu Nguyen(参考訳) ライブストリーミングビデオの増加を考えると,音声の自動認識と後処理は,効率的なデータ管理や知識マイニングに不可欠である。 このプロセスの重要なステップは、ビデオの転写から句や文境界などの基本的なテキスト構造を復元する句の復元である。 本研究は,ライブストリーミング映像における句読点復元のためのbehanceprと呼ばれる新しい人間の注釈付きコーパスを提案する。 我々のbehancepr実験は,この領域における句読点復元の課題を実証するものである。 さらに,人気のある自然言語処理ツールキットでは,ライブストリーミング動画の非punctuated transcriptでは文境界を検出できないため,この領域で頑健なモデルを開発するためのさらなる研究が求められている。

Given the increasing number of livestreaming videos, automatic speech recognition and post-processing for livestreaming video transcripts are crucial for efficient data management as well as knowledge mining. A key step in this process is punctuation restoration which restores fundamental text structures such as phrase and sentence boundaries from the video transcripts. This work presents a new human-annotated corpus, called BehancePR, for punctuation restoration in livestreaming video transcripts. Our experiments on BehancePR demonstrate the challenges of punctuation restoration for this domain. Furthermore, we show that popular natural language processing toolkits are incapable of detecting sentence boundary on non-punctuated transcripts of livestreaming videos, calling for more research effort to develop robust models for this area.
翻訳日:2022-02-22 20:16:55 公開日:2022-02-19
# 化学構造認識のための画像-グラフ変換器

Image-to-Graph Transformers for Chemical Structure Recognition ( http://arxiv.org/abs/2202.09580v1 )

ライセンス: Link先を確認
Sanghyun Yoo, Ohyun Kwon, Hoshik Lee(参考訳) 何十年もの間、化学知識はテキストで出版され、例えばそのような自然言語のテキストを構造化形式に変換するなど、多くの試みがなされてきた。 画像で一般的に表現される発見化学物質は最も重要な部分であるが、文学における画像からの分子構造の正しい認識は、しばしば複雑さを減らし、多くの異なるスタイルで描画されるため、難しい問題である。 本稿では,画像から分子構造を抽出するための深層学習モデルを提案する。 提案モデルは,分子画像を直接対応するグラフに変換するように設計されており,非原子記号を略語として扱うことができる。 また、エンド・ツー・エンドの学習アプローチでは、様々なソースから多くのオープンイメージと分子のペアデータを完全に活用できるため、他のツールよりも画像スタイルの変動に対して堅牢である。 実験の結果,本モデルでは,文献から収集したベンチマークデータセットと大規模分子画像に対して,既存のモデルよりも17.1 %と12.8 %の相対的改善が得られた。

For several decades, chemical knowledge has been published in written text, and there have been many attempts to make it accessible, for example, by transforming such natural language text to a structured format. Although the discovered chemical itself commonly represented in an image is the most important part, the correct recognition of the molecular structure from the image in literature still remains a hard problem since they are often abbreviated to reduce the complexity and drawn in many different styles. In this paper, we present a deep learning model to extract molecular structures from images. The proposed model is designed to transform the molecular image directly into the corresponding graph, which makes it capable of handling non-atomic symbols for abbreviations. Also, by end-to-end learning approach it can fully utilize many open image-molecule pair data from various sources, and hence it is more robust to image style variation than other tools. The experimental results show that the proposed model outperforms the existing models with 17.1 % and 12.8 % relative improvement for well-known benchmark datasets and large molecular images that we collected from literature, respectively.
翻訳日:2022-02-22 16:29:32 公開日:2022-02-19
# 離散ステイン演算子による勾配推定

Gradient Estimation with Discrete Stein Operators ( http://arxiv.org/abs/2202.09497v1 )

ライセンス: Link先を確認
Jiaxin Shi, Yuhao Zhou, Jessica Hwang, Michalis K. Titsias, Lester Mackey(参考訳) 分布のパラメータに関する期待の勾配を近似するグラディエント推定は、多くの機械学習問題の解の中心である。 しかし、分布が離散である場合、最も一般的な勾配推定器は過度の分散に悩まされる。 勾配推定の品質を向上させるため,離散分布に対するスタイン演算子に基づく分散低減手法を提案する。 次に、この手法を用いて、REINFORCE残高推定のための柔軟な制御変数を構築する。 我々の制御変数は、分散を最小限に抑えるためにオンラインで適応することができ、ターゲット関数の余分な評価を必要としない。 線形変分オートエンコーダの訓練などのベンチマーク生成モデルタスクにおいて、勾配推定器は、同じ数の関数評価を持つ最先端推定器よりもかなり低い分散を実現する。

Gradient estimation -- approximating the gradient of an expectation with respect to the parameters of a distribution -- is central to the solution of many machine learning problems. However, when the distribution is discrete, most common gradient estimators suffer from excessive variance. To improve the quality of gradient estimation, we introduce a variance reduction technique based on Stein operators for discrete distributions. We then use this technique to build flexible control variates for the REINFORCE leave-one-out estimator. Our control variates can be adapted online to minimize the variance and do not require extra evaluations of the target function. In benchmark generative modeling tasks such as training binary variational autoencoders, our gradient estimator achieves substantially lower variance than state-of-the-art estimators with the same number of function evaluations.
翻訳日:2022-02-22 16:14:27 公開日:2022-02-19
# Decoupled Prediction Interval Networks を用いた精度予測と不確かさ推定

Accurate Prediction and Uncertainty Estimation using Decoupled Prediction Interval Networks ( http://arxiv.org/abs/2202.09664v1 )

ライセンス: Link先を確認
Kinjal Patel, Steven Waslander(参考訳) 精度を犠牲にすることなく、回帰に基づく予測の不確かさを確実に推定できるネットワークアーキテクチャを提案する。 現状の不確実性アルゴリズムは、平均二乗誤差最適化に匹敵する予測精度を達成するか、ネットワーク予測のばらつきを過小評価するかのどちらかである。 本稿では,両者を同時に実現可能な疎結合ネットワークアーキテクチャを提案する。 予測と予測間隔(PI)の推定の学習を2段階の学習プロセスに分解することで、これを実現する。 我々は、PI範囲内の対象ラベルの比率を所望のカバレッジで、最適化平均推定の周囲のPI範囲を学習するために、カスタム損失関数を使用する。 提案手法と,現在最先端の不確実性定量化アルゴリズムを合成データセットとUCIベンチマークで比較し,予測誤差を23~34%削減し,95%の予測区間被覆確率(PICP)を9つのUCIベンチマークデータセット中7つに維持した。 また、アクティブラーニングの評価により予測の不確実性の品質を検証し、uciベンチマークで17~36%の誤差低減を示す。

We propose a network architecture capable of reliably estimating uncertainty of regression based predictions without sacrificing accuracy. The current state-of-the-art uncertainty algorithms either fall short of achieving prediction accuracy comparable to the mean square error optimization or underestimate the variance of network predictions. We propose a decoupled network architecture that is capable of accomplishing both at the same time. We achieve this by breaking down the learning of prediction and prediction interval (PI) estimations into a two-stage training process. We use a custom loss function for learning a PI range around optimized mean estimation with a desired coverage of a proportion of the target labels within the PI range. We compare the proposed method with current state-of-the-art uncertainty quantification algorithms on synthetic datasets and UCI benchmarks, reducing the error in the predictions by 23 to 34% while maintaining 95% Prediction Interval Coverage Probability (PICP) for 7 out of 9 UCI benchmark datasets. We also examine the quality of our predictive uncertainty by evaluating on Active Learning and demonstrating 17 to 36% error reduction on UCI benchmarks.
翻訳日:2022-02-22 16:14:12 公開日:2022-02-19
# 断続拡散確率モデル

Truncated Diffusion Probabilistic Models ( http://arxiv.org/abs/2202.09671v1 )

ライセンス: Link先を確認
Huangjie Zheng, Pengcheng He, Weizhu Chen, Mingyuan Zhou(参考訳) フォワードマルコフ拡散チェーンを用いて、データを徐々にノイズ分布にマッピングし、拡散確率モデルは、逆マルコフ拡散チェーンを推論してデータを生成する方法を学び、フォワード拡散過程を反転させる。 競争力のあるデータ生成性能を得るためには、トレーニングだけでなく生成にも計算集約的な長い拡散チェーンが必要である。 計算効率を著しく向上させるため,データのランダムノイズへの拡散の要件を廃止し,前方拡散チェーンの廃止を提案する。 その結果、ランダムノイズではなく暗黙の生成分布から逆拡散連鎖を開始し、そのパラメータを切断された前方拡散連鎖によって破損したデータの分布と整合させることで学習する。 実験結果から, 減少拡散確率モデルは, 生成性能および必要な逆拡散ステップ数の観点から, 非停止拡散確率モデルに対して一貫した改善をもたらすことがわかった。

Employing a forward Markov diffusion chain to gradually map the data to a noise distribution, diffusion probabilistic models learn how to generate the data by inferring a reverse Markov diffusion chain to invert the forward diffusion process. To achieve competitive data generation performance, they demand a long diffusion chain that makes them computationally intensive in not only training but also generation. To significantly improve the computation efficiency, we propose to truncate the forward diffusion chain by abolishing the requirement of diffusing the data to random noise. Consequently, we start the inverse diffusion chain from an implicit generative distribution, rather than random noise, and learn its parameters by matching it to the distribution of the data corrupted by the truncated forward diffusion chain. Experimental results show our truncated diffusion probabilistic models provide consistent improvements over the non-truncated ones in terms of the generation performance and the number of required inverse diffusion steps.
翻訳日:2022-02-22 16:13:51 公開日:2022-02-19
# 学校における生徒の危険行動検出

student dangerous behavior detection in school ( http://arxiv.org/abs/2202.09550v1 )

ライセンス: Link先を確認
Huayi Zhou, Fei Jiang, Hongtao Lu(参考訳) 学校の生徒の安全を確保するためにビデオ監視システムが設置されている。 しかし、戦いや転倒などの危険な行動を発見することは、通常、不時な人間の観察に依存する。 本稿では,データセット不足,姿勢の混乱,キーフレームの検出,迅速な応答など,多くの課題に直面している学生の危険行動を自動的に検出することに焦点を当てる。 これらの課題に対処するために、我々はまず監視ビデオの場所とラベルを使って危険行動データセットを構築し、長いビデオのアクション認識をキーフレームの検出を避けるオブジェクト検出タスクに変換する。 そこで本研究では,マルチスケールのボディ特徴とキーポイントに基づくポーズ特徴を組み合わせた,新たなエンド・ツー・エンドの危険行動検出手法DangerDetを提案する。 ポーズと行動の相関性が高いため,行動分類の精度を向上させることができた。 私たちのデータセットでは、DangerDetは約11 FPSで71.0\% mAPを達成した。 正確性と時間的コストのバランスが良くなります。

Video surveillance systems have been installed to ensure the student safety in schools. However, discovering dangerous behaviors, such as fighting and falling down, usually depends on untimely human observations. In this paper, we focus on detecting dangerous behaviors of students automatically, which faces numerous challenges, such as insufficient datasets, confusing postures, keyframes detection and prompt response. To address these challenges, we first build a danger behavior dataset with locations and labels from surveillance videos, and transform action recognition of long videos to an object detection task that avoids keyframes detection. Then, we propose a novel end-to-end dangerous behavior detection method, named DangerDet, that combines multi-scale body features and keypoints-based pose features. We could improve the accuracy of behavior classification due to the highly correlation between pose and behavior. On our dataset, DangerDet achieves 71.0\% mAP with about 11 FPS. It keeps a better balance between the accuracy and time cost.
翻訳日:2022-02-22 15:55:47 公開日:2022-02-19
# Universal Deep Domain Adaptation Frameworkを用いたクロスセッションモータ画像のプライミング

Priming Cross-Session Motor Imagery Classification with A Universal Deep Domain Adaptation Framework ( http://arxiv.org/abs/2202.09559v1 )

ライセンス: Link先を確認
Zhengqing Miao, Xin Zhang, Carlo Menon, Yelong Zheng, Meirong Zhao, Dong Ming(参考訳) 運動画像(英: Motor image、MI)は、脳のコンピュータインタフェース(BCI)のパラダイムである。 脳波は信号と雑音の少ない非定常的であり、異なる脳波記録セッションから同じ参加者の運動画像タスクを分類することは一般的に困難である。 クロスセッションMI分類をドメイン適応問題と考えるのは直感的であるが、合理的かつ実現可能なアプローチは解明されていない。 本稿では,領域適応理論の数学的モデルに基づくクロスセッションMI分類のための,シームズ深部ドメイン適応(SDDA)フレームワークを提案する。 提案手法は,既存のニューラルネットワークの多くに対して,ネットワーク構造を変更せずに容易に適用することができる。 提案手法では,まずチャネル正規化とユークリッドアライメントを併用してドメイン不変量を構築した。 次に、ソースとターゲットドメインからの埋め込み機能を再生カーネルヒルベルト空間(RKHS)にマッピングし、それに従って整列する。 SDDAの一般化性を改善するために,コサインに基づく中心損失もフレームワークに統合された。 提案フレームワークは、2つのMI-EEG公開データセット(BCI Competition IIA, IIB)において、BCI研究分野(EEGNetとConvNet)から古典的で一般的な畳み込みニューラルネットワークを用いて検証された。 バニラのEEGNetとConvNetと比較して、提案されたSDDAフレームワークは、IIAデータセットでそれぞれ10.2%、IIBデータセットで5.5%、4.2%のMI分類精度を15.2%向上することができた。 最終MI分類精度はIIAデータセットで82.01%、IIBで87.52%に達した。

Motor imagery (MI) is a common brain computer interface (BCI) paradigm. EEG is non-stationary with low signal-to-noise, classifying motor imagery tasks of the same participant from different EEG recording sessions is generally challenging, as EEG data distribution may vary tremendously among different acquisition sessions. Although it is intuitive to consider the cross-session MI classification as a domain adaptation problem, the rationale and feasible approach is not elucidated. In this paper, we propose a Siamese deep domain adaptation (SDDA) framework for cross-session MI classification based on mathematical models in domain adaptation theory. The proposed framework can be easily applied to most existing artificial neural networks without altering the network structure, which facilitates our method with great flexibility and transferability. In the proposed framework, domain invariants were firstly constructed jointly with channel normalization and Euclidean alignment. Then, embedding features from source and target domain were mapped into the Reproducing Kernel Hilbert Space (RKHS) and aligned accordingly. A cosine-based center loss was also integrated into the framework to improve the generalizability of the SDDA. The proposed framework was validated with two classic and popular convolutional neural networks from BCI research field (EEGNet and ConvNet) in two MI-EEG public datasets (BCI Competition IV IIA, IIB). Compared to the vanilla EEGNet and ConvNet, the proposed SDDA framework was able to boost the MI classification accuracy by 15.2%, 10.2% respectively in IIA dataset, and 5.5%, 4.2% in IIB dataset. The final MI classification accuracy reached 82.01% in IIA dataset and 87.52% in IIB, which outperformed the state-of-the-art methods in the literature.
翻訳日:2022-02-22 15:55:31 公開日:2022-02-19
# 多様性を考慮した画像生成

Diversity aware image generation ( http://arxiv.org/abs/2202.09573v1 )

ライセンス: Link先を確認
Gabriel Turinici(参考訳) GANやVAEといった機械学習生成アルゴリズムは、トレーニングセットに類似したイメージを構築する際に、実際に顕著な結果を示す。 しかし、トレーニングデータベースの隠れ構造を理解することを中心に、新しい画像の生成を行い、その後に多次元の正規変数からの単なるサンプリングを行う。 特に、各サンプルは他のサンプルとは独立しており、同じ種類の画像を繰り返し提案することができる。 この欠点を解消するために、カーネルベースの測度表現法を提案し、この測度全体を近似し、その分布から既に引き出された対象から遠ざかることによって、所定の目標測度から新しい対象を生成できる。 これにより、生成された画像の多様性が向上する。 この方法は、いくつかの古典的な機械学習ベンチマークでテストされる。 \end{abstract}

The machine learning generative algorithms such as GAN and VAE show impressive results in practice when constructing images similar to those in a training set. However, the generation of new images builds mainly on the understanding of the hidden structure of the training database followed by a mere sampling from a multi-dimensional normal variable. In particular each sample is independent from the other ones and can repeatedly propose same type of images. To cure this drawback we propose a kernel-based measure representation method that can produce new objects from a given target measure by approximating the measure as a whole and even staying away from objects already drawn from that distribution. This ensures a better variety of the produced images. The method is tested on some classic machine learning benchmarks.\end{abstract}
翻訳日:2022-02-22 15:54:06 公開日:2022-02-19
# 破滅的な作用からシールドを学ぶ:同じ間違いを繰り返すことはない

Learning a Shield from Catastrophic Action Effects: Never Repeat the Same Mistake ( http://arxiv.org/abs/2202.09516v1 )

ライセンス: Link先を確認
Shahaf S. Shperberg, Bo Liu, Peter Stone(参考訳) 未知の環境で活動するエージェントは、少なくとも時には破滅的な結果をもたらすものを含む、学習中に間違いを犯さなければならない。 人間が破滅的な過ちを犯すと、ホットストーブに触れた幼児のように、二度と繰り返しないことを学ぶことが期待される。 本研究では,pomdp(pomdp-ca)と呼ばれる,状態と動作の対が破壊的(catastrophic)に分類される新しいタイプのpomdpについて考察する。 POMDP-CAで行動するエージェントは、どの(状態、行動)ペアが破滅的であるかについての事前知識を持っていないため、意味のあるポリシーを学習しようとするときに間違いを犯すことは確実である。 むしろ彼らの目標は、ミスを繰り返すことなく、報酬を最大化することです。 ミスの繰り返しを避ける最初のステップとして、エージェントが特定の状態から特定のアクションを実行するのを防ぐシールドの概念を活用します。 特に、エージェントがデータベースで犯す破滅的なミス(危険な状態とアクションのペア)を保存します。 エージェントはデータベースに現れるアクションを選択することを禁止される。 このアプローチは、エージェントのグループが同じ環境下で時間をかけてさまざまなタスクを実行する連続的な学習環境において特に有用である。 この設定では、グループ内の1つのエージェントが一度間違いを犯すと、グループ全体がその間違いを繰り返しないことを学ぶように、任意のエージェントのミスを保存する方法でタスク非依存のシールドを構築することができる。 本論文では,このシールドを用いたPPOアルゴリズムの変種であるShieldPPOを導入し,制御環境で実証的に評価する。 以上の結果から,ShieldPPOは安全強化学習文献のベースライン法とPPOよりも優れた性能を示した。

Agents that operate in an unknown environment are bound to make mistakes while learning, including, at least occasionally, some that lead to catastrophic consequences. When humans make catastrophic mistakes, they are expected to learn never to repeat them, such as a toddler who touches a hot stove and immediately learns never to do so again. In this work we consider a novel class of POMDPs, called POMDP with Catastrophic Actions (POMDP-CA) in which pairs of states and actions are labeled as catastrophic. Agents that act in a POMDP-CA do not have a priori knowledge about which (state, action) pairs are catastrophic, thus they are sure to make mistakes when trying to learn any meaningful policy. Rather, their aim is to maximize reward while never repeating mistakes. As a first step of avoiding mistake repetition, we leverage the concept of a shield which prevents agents from executing specific actions from specific states. In particular, we store catastrophic mistakes (unsafe pairs of states and actions) that agents make in a database. Agents are then forbidden to pick actions that appear in the database. This approach is especially useful in a continual learning setting, where groups of agents perform a variety of tasks over time in the same underlying environment. In this setting, a task-agnostic shield can be constructed in a way that stores mistakes made by any agent, such that once one agent in a group makes a mistake the entire group learns to never repeat that mistake. This paper introduces a variant of the PPO algorithm that utilizes this shield, called ShieldPPO, and empirically evaluates it in a controlled environment. Results indicate that ShieldPPO outperforms PPO, as well as baseline methods from the safe reinforcement learning literature, in a range of settings.
翻訳日:2022-02-22 15:50:20 公開日:2022-02-19
# ヘイトスピーチ検出のための深層学習 : 比較検討

Deep Learning for Hate Speech Detection: A Comparative Study ( http://arxiv.org/abs/2202.09517v1 )

ライセンス: Link先を確認
Jitendra Singh Malik, Guansong Pang, Anton van den Hengel(参考訳) ヘイトスピーチの自動検出は、特にソーシャルメディアにおいてヘイトスピーチの拡散と戦う重要なツールである。 このタスクには、近年のディープラーニングベースのアプローチの普及など、多くの方法が開発されている。 さまざまなデータセットも開発され、ヘイトスピーチ検出問題の様々な顕在化を実証している。 本稿では,最も一般的に使用される3つのデータセットを媒介とする,深層および浅層ヘイトスピーチ検出手法の大規模実証比較を行った。 私たちの目標は、この分野の進歩を照らし、現在の最先端の強みと弱みを特定することです。 特に,検出精度,計算効率,事前学習モデルの使用能力,領域一般化など,実用的な性能の測定に焦点をあてる。 そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。 コードとデータセットはhttps://github.com/jmjmalik22/hate-speech-detectionで入手できる。

Automated hate speech detection is an important tool in combating the spread of hate speech, particularly in social media. Numerous methods have been developed for the task, including a recent proliferation of deep-learning based approaches. A variety of datasets have also been developed, exemplifying various manifestations of the hate-speech detection problem. We present here a large-scale empirical comparison of deep and shallow hate-speech detection methods, mediated through the three most commonly used datasets. Our goal is to illuminate progress in the area, and identify strengths and weaknesses in the current state-of-the-art. We particularly focus our analysis on measures of practical performance, including detection accuracy, computational efficiency, capability in using pre-trained models, and domain generalization. In doing so we aim to provide guidance as to the use of hate-speech detection in practice, quantify the state-of-the-art, and identify future research directions. Code and dataset are available at https://github.com/jmjmalik22/Hate-Speech-Detection.
翻訳日:2022-02-22 15:15:39 公開日:2022-02-19
# 大規模実世界グラフにおける最大k-プレックスの一覧

Listing Maximal k-Plexes in Large Real-World Graphs ( http://arxiv.org/abs/2202.08737v2 )

ライセンス: Link先を確認
Zhengren Wang, Yi Zhou, Mingyu Xiao and Bakhadyr Khoussainov(参考訳) 大きなグラフで高密度なサブグラフをリストすることは、コミュニティ検出のような様々なネットワーク分析アプリケーションにおいて重要なタスクである。 最も密度の高いモデルであるクライクは広く研究されている。 しかし、実際には、データノイズなど、様々な理由でコミュニティが斜めに形成されることは滅多にない。 したがって、k$-plex、-graphは、最大$k$頂点を除いて全ての頂点に隣接し、リラックスしたcliqueバージョンとして導入される。 コヒーシブなコミュニティをよりよくシミュレートするために、接続された$k$-plexesに$k$を小さな$k$で強調することが多い。 本稿では,任意のサイズの最大$k$-plexes と最大$k$-plexes をリストアップする研究を継続する。 最初のコントリビューションはアルゴリズムリストプレックスで、各定数 $k$ に対して $o^*(\gamma^d)$ time で、$\gamma$ は$k$ に関連する値であるが 2 より厳密に小さい値であり、$d$ は実数グラフの頂点数 $n$ よりもはるかに少ないグラフの縮退性である。 2^n$の自明なバウンドと比較すると、改善は重要であり、我々のバウンドはすべての既知の結果より優れている。 実際には、構造ベースのプルールール、キャッシュ効率のよいデータ構造、並列技術など、所定のサイズの$k$プレックスの一覧化を高速化するために、いくつかの手法を用いる。 これら全ては、非常に実用的なアルゴリズムをもたらす。 実証的な結果は、我々のアプローチが最先端のソリューションを最大で桁違いに上回っていることを示している。

Listing dense subgraphs in large graphs plays a key task in varieties of network analysis applications like community detection. Clique, as the densest model, has been widely investigated. However, in practice, communities rarely form as cliques for various reasons, e.g., data noise. Therefore, $k$-plex, -- graph with each vertex adjacent to all but at most $k$ vertices, is introduced as a relaxed version of clique. Often, to better simulate cohesive communities, an emphasis is placed on connected $k$-plexes with small $k$. In this paper, we continue the research line of listing all maximal $k$-plexes and maximal $k$-plexes of prescribed size. Our first contribution is algorithm ListPlex that lists all maximal $k$-plexes in $O^*(\gamma^D)$ time for each constant $k$, where $\gamma$ is a value related to $k$ but strictly smaller than 2, and $D$ is the degeneracy of the graph that is far less than the vertex number $n$ in real-word graphs. Compared to the trivial bound of $2^n$, the improvement is significant, and our bound is better than all previously known results. In practice, we further use several techniques to accelerate listing $k$-plexes of a given size, such as structural-based prune rules, cache-efficient data structures, and parallel techniques. All these together result in a very practical algorithm. Empirical results show that our approach outperforms the state-of-the-art solutions by up to orders of magnitude.
翻訳日:2022-02-22 12:05:10 公開日:2022-02-19