このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211110となっている論文です。

PDF登録状況(公開日: 20211110)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) CEHR-BERT:予測タスクを改善するための構造化ERHデータからの時間情報の導入 [全文訳有]

CEHR-BERT: Incorporating temporal information from structured EHR data to improve prediction tasks ( http://arxiv.org/abs/2111.08585v1 )

ライセンス: CC BY 4.0
Chao Pang (1), Xinzhuo Jiang (1), Krishna S Kalluri (1), Matthew Spotnitz (1), RuiJun Chen (2), Adler Perotte (1), Karthik Natarajan (1) ((1) Columbia University Irving Medical Center, (2) Geisinger)(参考訳) 埋め込みアルゴリズムは、臨床表現型付けや疾患予測のような機械学習タスクを改善するための医療における臨床概念を表現するためにますます使われている。 最近の研究は、最先端の双方向エンコーダ表現を変換器(BERT)アーキテクチャから構造化電子健康記録(EHR)データに適応させ、コンテキスト化された概念埋め込みを生成するが、複数の臨床領域にまたがる時間的データを完全に組み込むことはできない。 そこで我々は,人工時間トークンを用いてBERTへの入力を増強し,時間,年齢,概念の埋め込みを取り入れ,訪問型のための新たな第2次学習目標を導入することで,ハイブリッドアプローチを用いて時間情報を統合する新たなBERT適応CEHR-BERTを開発した。 CEHR-BERTはコロンビア大学アーヴィング医療センター(英語版)-ヨーク長老派病院(英語版)の臨床データの一部に基づいて訓練され、30年以上にわたる2.4万の患者を含み、入院、死亡、新しい心不全(HF)診断、HF寛解といった予測タスクで4倍のクロスバリデーションを用いてテストされた。 ROC-AUCおよびPR-AUCの4つの予測タスクにおいて,CEHR-BERTは既存の最先端臨床BERT適応およびベースラインモデルよりも優れていた。 CEHR-BERTはまた、データセット全体においてトレーニングされた比較モデルよりも、わずか5%のパフォーマンスでトレーニングされたデータに対して、強力な転送学習能力を示した。 各時間成分の寄与をよりよく理解するためのアブレーション研究は、CEHR-BERTの人工時間トークンの組み込み、概念埋め込みによる時間と年齢の埋め込み、そして第2学習目標の追加は、今後のBERTベースの臨床埋め込みにとって有望なアプローチであることを示唆している。

Embedding algorithms are increasingly used to represent clinical concepts in healthcare for improving machine learning tasks such as clinical phenotyping and disease prediction. Recent studies have adapted state-of-the-art bidirectional encoder representations from transformers (BERT) architecture to structured electronic health records (EHR) data for the generation of contextualized concept embeddings, yet do not fully incorporate temporal data across multiple clinical domains. Therefore we developed a new BERT adaptation, CEHR-BERT, to incorporate temporal information using a hybrid approach by augmenting the input to BERT using artificial time tokens, incorporating time, age, and concept embeddings, and introducing a new second learning objective for visit type. CEHR-BERT was trained on a subset of Columbia University Irving Medical Center-York Presbyterian Hospital's clinical data, which includes 2.4M patients, spanning over three decades, and tested using 4-fold cross-validation on the following prediction tasks: hospitalization, death, new heart failure (HF) diagnosis, and HF readmission. Our experiments show that CEHR-BERT outperformed existing state-of-the-art clinical BERT adaptations and baseline models across all 4 prediction tasks in both ROC-AUC and PR-AUC. CEHR-BERT also demonstrated strong transfer learning capability, as our model trained on only 5% of data outperformed comparison models trained on the entire data set. Ablation studies to better understand the contribution of each time component showed incremental gains with every element, suggesting that CEHR-BERT's incorporation of artificial time tokens, time and age embeddings with concept embeddings, and the addition of the second learning objective represents a promising approach for future BERT-based clinical embeddings.
翻訳日:2021-11-21 15:51:05 公開日:2021-11-10
# (参考訳) 高次モーメントに対するハーン多項式の高速計算 [全文訳有]

Fast Computation of Hahn Polynomials for High Order Moments ( http://arxiv.org/abs/2111.07749v1 )

ライセンス: CC BY 4.0
Basheera M. Mahmmod, Sadiq H. Abdulhussain, Tom\'a\v{s} Suk, and Abir Hussain(参考訳) 離散ハーン多項式(DHP)とそのモーメントは、効率的な直交モーメントの1つと考えられ、画像処理や特徴抽出といった様々な科学分野に適用されている。 一般に、dhpはオブジェクト表現として使われるが、モーメント順序が大きくなると数値不安定の問題に苦しんでいる。 本稿では,ハーン直交基底の効率的な計算法を提案し,高次数に対して適用する。 本稿では、DHPの初期値とDHPパラメータの異なる値($\alpha$と$\beta$)を計算するための新しい数学的モデルを開発した。 さらに,DHP係数の生成を安定化させるために,適応しきい値を持つ2つの再帰アルゴリズムからなる手法を提案する。 計算コストと正確な生成が可能な最大サイズの観点から、最先端のアルゴリズムと比較される。 実験の結果,提案アルゴリズムは,パラメータ値($\alpha$および$\beta$)と多項式サイズの両方において,より優れた性能を示すことがわかった。

Discrete Hahn polynomials (DHPs) and their moments are considered to be one of the efficient orthogonal moments and they are applied in various scientific areas such as image processing and feature extraction. Commonly, DHPs are used as object representation; however, they suffer from the problem of numerical instability when the moment order becomes large. In this paper, an efficient method for computation of Hahn orthogonal basis is proposed and applied to high orders. This paper developed a new mathematical model for computing the initial value of the DHP and for different values of DHP parameters ($\alpha$ and $\beta$). In addition, the proposed method is composed of two recurrence algorithms with an adaptive threshold to stabilize the generation of the DHP coefficients. It is compared with state-of-the-art algorithms in terms of computational cost and the maximum size that can be correctly generated. The experimental results show that the proposed algorithm performs better in both parameters for wide ranges of parameter values of ($\alpha$ and $\beta$) and polynomial sizes.
翻訳日:2021-11-21 15:32:49 公開日:2021-11-10
# ニューラルシンボリックシステムに関する調査

A Survey on Neural-symbolic Systems ( http://arxiv.org/abs/2111.08164v1 )

ライセンス: Link先を確認
Dongran Yu, Bo Yang, Dayou Liu and Hui Wang(参考訳) 近年、ニューラルネットワークは、非常に効果的な学習を通じて優れた知覚知性を示しているが、その推論能力は乏しいままである。 対照的に、シンボリックシステムは効率的な推論を通じて例外的な認知知性を持つが、その学習能力は乏しい。 この場合、強力な学習と推論能力を通じて、知覚的および認知的知能の高い理想的知能システム(ニューラルシンボリックシステム)が研究コミュニティへの関心を高めます。 ニューラルネットワークの高速計算能力とシンボリックシステムの強力な表現能力を組み合わせたニューラルシンボリックシステムは、多領域タスクにおいて効果的な学習と推論を実行し、インテリジェントシステムにおける同時知覚と認識能力を示すことができる。 本稿では,4次元のニューラルシンボリックシステム(組み合わせの必要性,技術的課題,方法,応用)に関する最新の研究について調査する。 本稿は, 研究者に総合的かつ総合的な視点を与え, 芸術の現状を強調し, 機会を特定することにより, 新たな研究分野の展開を支援することを目的とする。

In recent years, neural systems have demonstrated superior perceptual intelligence through highly effective learning, but their reasoning capabilities remain poor. In contrast, symbolic systems have exceptional cognitive intelligence through efficient reasoning, but their learning capabilities are poor. In this case, an ideal intelligent system--a neural-symbolic system--with high perceptual and cognitive intelligence through powerful learning and reasoning capabilities gains a growing interest in the research community. Combining the fast computation ability of neural systems and the powerful expression ability of symbolic systems, neural-symbolic systems can perform effective learning and reasoning in multi-domain tasks, demonstrating concurrent perception and cognition capabilities in intelligent systems. This paper surveys the latest research in neural-symbolic systems along four dimensions: the necessity of combination, technical challenges, methods, and applications. This paper aims to help advance this emerging area of research by providing researchers with a holistic and comprehensive view, highlighting the state of art and identifying the opportunities.
翻訳日:2021-11-21 14:56:31 公開日:2021-11-10
# 密度に基づく特徴クラスタリングを用いた混合型データの特徴選択法

A Supervised Feature Selection Method For Mixed-Type Data using Density-based Feature Clustering ( http://arxiv.org/abs/2111.08169v1 )

ライセンス: Link先を確認
Xuyang Yan, Mrinmoy Sarkar, Biniam Gebru, Shabnam Nazmi, and Abdollah Homaifar(参考訳) 特徴選択法は高次元データの分類における高い計算オーバーヘッドと次元性の呪いに広く用いられている。 従来の特徴選択法は均質な特徴を扱うことにフォーカスしているが、現実世界のデータセットは通常、連続的特徴と離散的特徴の混合を持つ。 最近の混合型特徴選択研究では、クラスラベルに関連性の高い特徴のみを選択し、特徴間の冗長性を無視している。 適切な機能サブセットの決定もまた課題である。 本稿では, 密度ベース特徴クラスタリング(SFSDFC)を用いた教師付き特徴選択手法を提案し, 混合型データに対して適切な最終特徴サブセットを求める。 SFSDFCは、新しい密度に基づくクラスタリング法を用いて、特徴空間を不連続な特徴クラスタの集合に分解する。 そして、これらの特徴クラスタから最小限の冗長性を持つ重要な特徴のサブセットを得るために、効果的な特徴選択戦略を採用する。 13個の実世界のベンチマークデータセットを用いてSFSDFCで5つの最先端手法との比較実験を行い,SFSDFC法の有効性を正当化した。

Feature selection methods are widely used to address the high computational overheads and curse of dimensionality in classifying high-dimensional data. Most conventional feature selection methods focus on handling homogeneous features, while real-world datasets usually have a mixture of continuous and discrete features. Some recent mixed-type feature selection studies only select features with high relevance to class labels and ignore the redundancy among features. The determination of an appropriate feature subset is also a challenge. In this paper, a supervised feature selection method using density-based feature clustering (SFSDFC) is proposed to obtain an appropriate final feature subset for mixed-type data. SFSDFC decomposes the feature space into a set of disjoint feature clusters using a novel density-based clustering method. Then, an effective feature selection strategy is employed to obtain a subset of important features with minimal redundancy from those feature clusters. Extensive experiments as well as comparison studies with five state-of-the-art methods are conducted on SFSDFC using thirteen real-world benchmark datasets and results justify the efficacy of the SFSDFC method.
翻訳日:2021-11-21 14:56:15 公開日:2021-11-10
# 多クラステキスト分類と生成のための転送学習に基づくエントロピー最適化半教師付きベクトル量子化変分オートエンコーダモデル

Entropy optimized semi-supervised decomposed vector-quantized variational autoencoder model based on transfer learning for multiclass text classification and generation ( http://arxiv.org/abs/2111.08453v1 )

ライセンス: Link先を確認
Shivani Malhotra, Vinay Kumar and Alpana Agarwal(参考訳) 半教師付きテキスト分類はここ数年、研究の主要な焦点となっている。 研究の大部分は教師付き学習に基づいているが、その主な欠点は、実践的な応用においてラベル付きデータサンプルが利用できないことである。 深い生成モデルを訓練し、監督なしで包括的な表現を学ぶことは依然として重要な課題である。 連続潜伏変数は主に深層潜伏変数モデルで使用されるが、離散潜伏変数は理解可能性の向上と圧縮表現の改善により、研究者によって効果的に使用される。 本稿では,マルチクラステキスト分類とテキスト生成のための半教師付き離散潜在変数モデルを提案する。 提案モデルでは,ラベル付きインスタンスを少なくして有能な学習が可能な量子化トランスフォーマーモデルをトレーニングするために,転送学習という概念を採用している。 このモデルは分解ベクトル量子化手法を適用し、後方崩壊や指数崩壊のような問題を克服する。 シャノンエントロピーは分割されたサブエンコーダに使われ、可変DropConnectが適用され、最大情報を保持する。 さらに、損失関数の勾配はデコーダからエンコーダへのバックプロパゲーション中に適応的に修正され、モデルの性能が向上する。 ラベル付きインスタンスの変数数で提案したモデルの検証には,従来の3つの多様化範囲データセットが使用されている。 実験結果は,提案モデルが最先端モデルを著しく上回っていることを示している。

Semisupervised text classification has become a major focus of research over the past few years. Hitherto, most of the research has been based on supervised learning, but its main drawback is the unavailability of labeled data samples in practical applications. It is still a key challenge to train the deep generative models and learn comprehensive representations without supervision. Even though continuous latent variables are employed primarily in deep latent variable models, discrete latent variables, with their enhanced understandability and better compressed representations, are effectively used by researchers. In this paper, we propose a semisupervised discrete latent variable model for multi-class text classification and text generation. The proposed model employs the concept of transfer learning for training a quantized transformer model, which is able to learn competently using fewer labeled instances. The model applies decomposed vector quantization technique to overcome problems like posterior collapse and index collapse. Shannon entropy is used for the decomposed sub-encoders, on which a variable DropConnect is applied, to retain maximum information. Moreover, gradients of the Loss function are adaptively modified during backpropagation from decoder to encoder to enhance the performance of the model. Three conventional datasets of diversified range have been used for validating the proposed model on a variable number of labeled instances. Experimental results indicate that the proposed model has surpassed the state-of-the-art models remarkably.
翻訳日:2021-11-21 14:52:46 公開日:2021-11-10
# マルチモーダル感情分析のためのユニモーダルとクロスモーダルのダイナミクスの変調

Which is Making the Contribution: Modulating Unimodal and Cross-modal Dynamics for Multimodal Sentiment Analysis ( http://arxiv.org/abs/2111.08451v1 )

ライセンス: Link先を確認
Ying Zeng, Sijie Mai, Haifeng Hu(参考訳) マルチモーダル感情分析(MSA)は、マルチモーダルデータの利用により注目される。 MSAモデルの性能向上は、主に2つの問題によって妨げられている。 一方、近年のMSAはクロスモーダル力学の学習に重点を置いているが、MSAモデルの低限界を決定づけるユニモーダルネットワークの最適解の探索は無視されている。 一方で、各モダリティに隠されたノイズ情報は、正しいクロスモーダルダイナミクスの学習を妨げる。 上記の問題に対処するため, モダリティの寄与を識別し, ノイズ情報の影響を低減するために, モダリティとクロスモーダルのダイナミクスをよりよく学習するために, 新たな MSA フレームワーク \textbf{M}odulation \textbf{M}odel for \textbf{M}ultimodal \textbf{S}entiment \textbf{A}nalysis ({$ M^3SA $}) を提案する。 特に、変調損失は、各発話における個々のモダリティの信頼度に基づいて損失寄与を変調し、各ユニモーダルネットワークの最適な更新ソリューションを探索するように設計されている。 また,ノイズを明示的にフィルタリングしない既存の著作物とは異なり,モダリティフィルタモジュールを考案し,モダリティノイズを識別してフィルタし,正しいクロスモーダル埋め込みを学習する。 公開データセットに関する大規模な実験は、我々のアプローチが最先端のパフォーマンスを達成することを示す。

Multimodal sentiment analysis (MSA) draws increasing attention with the availability of multimodal data. The boost in performance of MSA models is mainly hindered by two problems. On the one hand, recent MSA works mostly focus on learning cross-modal dynamics, but neglect to explore an optimal solution for unimodal networks, which determines the lower limit of MSA models. On the other hand, noisy information hidden in each modality interferes the learning of correct cross-modal dynamics. To address the above-mentioned problems, we propose a novel MSA framework \textbf{M}odulation \textbf{M}odel for \textbf{M}ultimodal \textbf{S}entiment \textbf{A}nalysis ({$ M^3SA $}) to identify the contribution of modalities and reduce the impact of noisy information, so as to better learn unimodal and cross-modal dynamics. Specifically, modulation loss is designed to modulate the loss contribution based on the confidence of individual modalities in each utterance, so as to explore an optimal update solution for each unimodal network. Besides, contrary to most existing works which fail to explicitly filter out noisy information, we devise a modality filter module to identify and filter out modality noise for the learning of correct cross-modal embedding. Extensive experiments on publicly datasets demonstrate that our approach achieves state-of-the-art performance.
翻訳日:2021-11-21 14:31:15 公開日:2021-11-10
# 量子化ニューラルネットワークにおける信頼度とキャリブレーションの未熟なジレンマ

An Underexplored Dilemma between Confidence and Calibration in Quantized Neural Networks ( http://arxiv.org/abs/2111.08163v1 )

ライセンス: Link先を確認
Guoxuan Xia, Sangwon Ha, Tiago Azevedo, Partha Maji(参考訳) 現代の畳み込みニューラルネットワーク(CNN)は、目に見えない入力データのキャリブレーションに関して過信されていることが知られている。 つまり、彼らは正確さよりも自信を持っているのです。 予測される確率が下流の意思決定に使用される場合、これは望ましくない。 精度を考慮すると、CNNは計算とメモリコストの削減を目的とした量子化などの圧縮技術に対して驚くほど堅牢である。 このロバスト性は、現代CNNの校正行動によって部分的に説明でき、過信によって改善される可能性がある。 これは直感的な結果によるもので、信頼性の低い予測は、量子化後の変更が多いが、正確性は低い。 高い信頼性の予測はより正確だが、変更するのは難しいだろう。 これにより、量子化後の精度が最小限低下する。 これは、ニューラルネットワーク設計における潜在的な対立を示します。自信過剰によるキャリブレーションが悪化すると、量子化に対する堅牢性が向上します。 学習後の量子化をcifar-100およびimagenetデータセット上で様々なcnnに適用する実験を行う。

Modern convolutional neural networks (CNNs) are known to be overconfident in terms of their calibration on unseen input data. That is to say, they are more confident than they are accurate. This is undesirable if the probabilities predicted are to be used for downstream decision making. When considering accuracy, CNNs are also surprisingly robust to compression techniques, such as quantization, which aim to reduce computational and memory costs. We show that this robustness can be partially explained by the calibration behavior of modern CNNs, and may be improved with overconfidence. This is due to an intuitive result: low confidence predictions are more likely to change post-quantization, whilst being less accurate. High confidence predictions will be more accurate, but more difficult to change. Thus, a minimal drop in post-quantization accuracy is incurred. This presents a potential conflict in neural network design: worse calibration from overconfidence may lead to better robustness to quantization. We perform experiments applying post-training quantization to a variety of CNNs, on the CIFAR-100 and ImageNet datasets.
翻訳日:2021-11-21 14:29:46 公開日:2021-11-10
# (参考訳) 音楽知性に対する量子自然言語処理アプローチ

A Quantum Natural Language Processing Approach to Musical Intelligence ( http://arxiv.org/abs/2111.06741v1 )

ライセンス: CC BY 4.0
Eduardo Reck Miranda, Richie Yeung, Anna Pearson, Konstantinos Meichanetzidis, Bob Coecke(参考訳) 音楽の人工知能(AI)、特に音楽の作曲とインターネットによる商業化のための大規模データベースへのアクセスは、非常に進歩している。 我々は、この分野をさらに発展させ、構成に焦点をあてることに興味を持っている。 現在のブラックボックスAI手法とは対照的に、私たちは生成的音楽システムに関する解釈可能な構成的展望を擁護しています。 特に、音楽文法を動機とした自然言語処理(NLP)のための分散構成分類(DisCoCat)モデリングフレームワークからメソッドを輸入している。 量子コンピューティングは生まれたばかりの技術であり、将来音楽業界に影響を与える可能性が高い。 そこで我々は,新しい世代のインテリジェント音楽システムを開発するために,量子自然言語処理(QNLP)アプローチを開拓している。 この研究は、以前の量子ハードウェア上でのDisCoCat言語モデルの実験的実装に続くものである。 この章では、最初の概念実証であるQuanthovenを紹介します。 (a)異なる意味を伝達する音楽の分類を学ぶための量子コンピュータのプログラムが可能であることを示す。 (b)有意義な楽曲を作曲するシステムを開発するために、このような能力をどのように活用するかを示す。 音楽のコミュニケーションメディアとしての現在の理解と自然言語との関係に関する議論の後、その章は発展する技術に焦点を当てた。 (a)楽曲を量子回路としてエンコードし、 (b)量子分類器を設計する。 章はシステムで作成された構成のデモンストレーションで終わる。

There has been tremendous progress in Artificial Intelligence (AI) for music, in particular for musical composition and access to large databases for commercialisation through the Internet. We are interested in further advancing this field, focusing on composition. In contrast to current black-box AI methods, we are championing an interpretable compositional outlook on generative music systems. In particular, we are importing methods from the Distributional Compositional Categorical (DisCoCat) modelling framework for Natural Language Processing (NLP), motivated by musical grammars. Quantum computing is a nascent technology, which is very likely to impact the music industry in time to come. Thus, we are pioneering a Quantum Natural Language Processing (QNLP) approach to develop a new generation of intelligent musical systems. This work follows from previous experimental implementations of DisCoCat linguistic models on quantum hardware. In this chapter, we present Quanthoven, the first proof-of-concept ever built, which (a) demonstrates that it is possible to program a quantum computer to learn to classify music that conveys different meanings and (b) illustrates how such a capability might be leveraged to develop a system to compose meaningful pieces of music. After a discussion about our current understanding of music as a communication medium and its relationship to natural language, the chapter focuses on the techniques developed to (a) encode musical compositions as quantum circuits, and (b) design a quantum classifier. The chapter ends with demonstrations of compositions created with the system.
翻訳日:2021-11-16 01:21:25 公開日:2021-11-10
# (参考訳) 正規表現バイアスによる構造化テキスト認識の改善 [全文訳有]

Improving Structured Text Recognition with Regular Expression Biasing ( http://arxiv.org/abs/2111.06738v1 )

ライセンス: CC BY 4.0
Baoguang Shi, Wenfeng Cheng, Yijuan Lu, Cha Zhang, Dinei Florencio(参考訳) 本研究では,ある形式に従うテキストの認識の問題について検討し,偏見の正規表現(辞書)を指定することにより,構造化テキストの認識精度を向上させることを提案する。 バイアス付き認識器は、指定されたレジェクツにマッチするテキストを、他のテキストに対する一般的に小さな劣化のコストで、大幅に精度を向上する。 バイアスは、RegexをWFST(Weighted Finite-State Transducer)としてモデル化し、動的置換によってデコーダに注入することで実現される。 単一のハイパーパラメータがバイアス強度を制御する。 この方法は、既知のフォーマットやドメイン語彙からの単語を含むテキスト行を認識するのに有用である。 例えば、運転免許証番号、処方薬中の薬物名などである。 印刷および手書き構造化テキストのデータセットに対するレゲックスバイアスの有効性を実証し,その副作用を測定する。

We study the problem of recognizing structured text, i.e. text that follows certain formats, and propose to improve the recognition accuracy of structured text by specifying regular expressions (regexes) for biasing. A biased recognizer recognizes text that matches the specified regexes with significantly improved accuracy, at the cost of a generally small degradation on other text. The biasing is realized by modeling regexes as a Weighted Finite-State Transducer (WFST) and injecting it into the decoder via dynamic replacement. A single hyperparameter controls the biasing strength. The method is useful for recognizing text lines with known formats or containing words from a domain vocabulary. Examples include driver license numbers, drug names in prescriptions, etc. We demonstrate the efficacy of regex biasing on datasets of printed and handwritten structured text and measures its side effects.
翻訳日:2021-11-16 01:20:20 公開日:2021-11-10
# AnalogNets: ML-HW共設計によるノイズローバーなTinyMLモデルとアナログ・コンピュート・イン・メモリ・アクセラレータ

AnalogNets: ML-HW Co-Design of Noise-robust TinyML Models and Always-On Analog Compute-in-Memory Accelerator ( http://arxiv.org/abs/2111.06503v1 )

ライセンス: Link先を確認
Chuteng Zhou, Fernando Garcia Redondo, Julian B\"uchel, Irem Boybat, Xavier Timoneda Comas, S. R. Nandakumar, Shidhartha Das, Abu Sebastian, Manuel Le Gallo, Paul N. Whatmough(参考訳) IoTアプリケーションのTinyML認識タスクは、常に非常に高いエネルギー効率を必要とする。 非揮発性メモリ(NVM)を使用したアナログ・コンピュート・イン・メモリ(CiM)は高い効率を約束し、自己完結型のオンチップモデルストレージを提供する。 しかし、アナログCiMは、コンダクタンスドリフト、リード/ライトノイズ、固定アナログ-デジタルコンバータゲイン(ADC)など、新しい実践的考察を導入する。 これらの追加制約は、許容された精度の損失でアナログCiMにデプロイできるモデルを達成するために対処する必要がある。 この研究は、キーワードスポッティング(KWS)とビジュアルウェイクワード(VWW)の一般的な常時オンアプリケーションのための、$\textit{AnalogNets}$: TinyMLモデルを記述する。 モデルアーキテクチャはアナログCiMに特化して設計されており、アナログ非イデアリティや低精度データコンバータの予測時の精度を維持するための総合的なトレーニング手法を詳述する。 また,プログラム可能な最小領域位相変化メモリ(PCM)アナログCiMアクセラレータであるAON-CiMについて述べる。 実ハードウェアと同様に校正シミュレータ上でのアナログネットの評価を行い,kws/vwwの24時間ドリフト(8ビット)後の精度低下は0.8$\%$/1.2$$$$$$$であることを確認した。 14nmのAON-CiM加速器上で動作するアナログネットは、8ビットのアクティベーションを使用してKWS/VWWのワークロードに対して8.58/4.37 TOPS/Wを示し、57.39/25.69 TOPS/Wのアクティベーションは4ドルである。

Always-on TinyML perception tasks in IoT applications require very high energy efficiency. Analog compute-in-memory (CiM) using non-volatile memory (NVM) promises high efficiency and also provides self-contained on-chip model storage. However, analog CiM introduces new practical considerations, including conductance drift, read/write noise, fixed analog-to-digital (ADC) converter gain, etc. These additional constraints must be addressed to achieve models that can be deployed on analog CiM with acceptable accuracy loss. This work describes $\textit{AnalogNets}$: TinyML models for the popular always-on applications of keyword spotting (KWS) and visual wake words (VWW). The model architectures are specifically designed for analog CiM, and we detail a comprehensive training methodology, to retain accuracy in the face of analog non-idealities, and low-precision data converters at inference time. We also describe AON-CiM, a programmable, minimal-area phase-change memory (PCM) analog CiM accelerator, with a novel layer-serial approach to remove the cost of complex interconnects associated with a fully-pipelined design. We evaluate the AnalogNets on a calibrated simulator, as well as real hardware, and find that accuracy degradation is limited to 0.8$\%$/1.2$\%$ after 24 hours of PCM drift (8-bit) for KWS/VWW. AnalogNets running on the 14nm AON-CiM accelerator demonstrate 8.58/4.37 TOPS/W for KWS/VWW workloads using 8-bit activations, respectively, and increasing to 57.39/25.69 TOPS/W with $4$-bit activations.
翻訳日:2021-11-15 14:53:59 公開日:2021-11-10
# 病理画像合成のための多属性制御可能な生成モデル

A Multi-attribute Controllable Generative Model for Histopathology Image Synthesis ( http://arxiv.org/abs/2111.06398v1 )

ライセンス: Link先を確認
Jiarong Ye, Yuan Xue, Peter Liu, Richard Zaino, Keith Cheng, Xiaolei Huang(参考訳) 生成モデルは医用画像領域で様々な画像認識と合成タスクに応用されている。 しかし, 医用訓練支援などの重要な応用には, より制御可能な, 解釈可能な画像合成モデルが必要である。 本研究では,多属性入力に基づく高品質な病理画像を生成する属性認識画像合成モデルであるAttributeGANを実現するために,効率的な自己注意学習モジュールとコントラスト学習モジュールを活用して,最先端のジェネレーティブ・敵ネットワーク(GAN)を構築する。 既存の単一属性条件生成モデルと比較して,提案モデルは入力属性をよりよく反映し,属性値間のスムースな補間を可能にする。 尿路上皮癌の染色H&E画像を含む病理組織学的データセットについて実験を行い,本モデルと最先端モデルとの総合的定量的および定性的比較と,異なる変種との比較により,本モデルの有効性を実証した。 コードはhttps://github.com/k arenyy/MICCAI2021Att ributeGANで入手できる。

Generative models have been applied in the medical imaging domain for various image recognition and synthesis tasks. However, a more controllable and interpretable image synthesis model is still lacking yet necessary for important applications such as assisting in medical training. In this work, we leverage the efficient self-attention and contrastive learning modules and build upon state-of-the-art generative adversarial networks (GANs) to achieve an attribute-aware image synthesis model, termed AttributeGAN, which can generate high-quality histopathology images based on multi-attribute inputs. In comparison to existing single-attribute conditional generative models, our proposed model better reflects input attributes and enables smoother interpolation among attribute values. We conduct experiments on a histopathology dataset containing stained H&E images of urothelial carcinoma and demonstrate the effectiveness of our proposed model via comprehensive quantitative and qualitative comparisons with state-of-the-art models as well as different variants of our model. Code is available at https://github.com/k arenyyy/MICCAI2021At tributeGAN.
翻訳日:2021-11-15 14:16:33 公開日:2021-11-10
# 組織病理画像分類におけるヒストガンの選択的合成増強

Selective Synthetic Augmentation with HistoGAN for Improved Histopathology Image Classification ( http://arxiv.org/abs/2111.06399v1 )

ライセンス: Link先を確認
Yuan Xue, Jiarong Ye, Qianying Zhou, Rodney Long, Sameer Antani, Zhiyun Xue, Carl Cornwell, Richard Zaino, Keith Cheng, Xiaolei Huang(参考訳) 病理組織学的解析は, 先天性病変の診断基準である。 デジタル画像からの病理組織学的自動分類の目標は、管理された訓練を必要とする。 一方,全スライディング画像から抽出した画像パッチの正確な分類は,標準スライディングウィンドウに基づく組織学的スライド分類法に不可欠である。 これらの問題を緩和するために, クラスラベルを条件とした現実的な病理組織像パッチを合成するために, 慎重に設計された条件付きganモデル, ヒストガンを提案する。 また,提案したHistoGANが生成する新たな合成画像パッチを選択的に追加する新たな合成拡張フレームワークについても検討した。 与えられたラベルの信頼性と実際のラベル画像との特徴の類似性に基づいて合成画像を選択することにより,合成拡張に対する品質保証を提供する。 対象は頸部組織病理画像データセットと転移性癌を伴うリンパ節病理画像データセットの2つである。 ここでは,HistoGAN生成画像の選択的増強により,頚部病理組織学および転移性癌データセットの分類性能(それぞれ6.7%と2.8%の精度)が有意に向上したことを示す。

Histopathological analysis is the present gold standard for precancerous lesion diagnosis. The goal of automated histopathological classification from digital images requires supervised training, which requires a large number of expert annotations that can be expensive and time-consuming to collect. Meanwhile, accurate classification of image patches cropped from whole-slide images is essential for standard sliding window based histopathology slide classification methods. To mitigate these issues, we propose a carefully designed conditional GAN model, namely HistoGAN, for synthesizing realistic histopathology image patches conditioned on class labels. We also investigate a novel synthetic augmentation framework that selectively adds new synthetic image patches generated by our proposed HistoGAN, rather than expanding directly the training set with synthetic images. By selecting synthetic images based on the confidence of their assigned labels and their feature similarity to real labeled images, our framework provides quality assurance to synthetic augmentation. Our models are evaluated on two datasets: a cervical histopathology image dataset with limited annotations, and another dataset of lymph node histopathology images with metastatic cancer. Here, we show that leveraging HistoGAN generated images with selective augmentation results in significant and consistent improvements of classification performance (6.7% and 2.8% higher accuracy, respectively) for cervical histopathology and metastatic cancer datasets.
翻訳日:2021-11-15 14:16:14 公開日:2021-11-10
# 移動予測が可能な時空間都市知識グラフ

Spatio-Temporal Urban Knowledge Graph Enabled Mobility Prediction ( http://arxiv.org/abs/2111.03465v2 )

ライセンス: Link先を確認
Huandong Wang, Qiaohong Yu, Yu Liu, Depeng Jin, Yong Li(参考訳) モバイル通信技術の急速な発展に伴い、インターネットサービスプロバイダ(ISP)とアプリケーションサービスプロバイダ(ASP)によって、人間の移動軌道が大量に収集される。 一方で、知識グラフの台頭パラダイム(kg)は、大規模軌道データから構造化された「知識」を抽出するための有望な解決策を提供する。 本稿では,知識グラフ手法に基づくユーザの時空間的モビリティパターンのモデル化と,複数の情報源から抽出された「知識」に基づくユーザの将来の動きのコヒーシブな予測に着目する。 具体的には,新たなタイプの知識グラフ,すなわち時空間都市知識グラフ(STKG)を提案する。 モビリティ予測問題はSTKGの知識グラフ補完問題に変換される。 さらに,詳細なスコアリング機能を備えた複合埋め込みモデルを提案し,移動パターンの時間的ダイナミクスを考慮し,poiカテゴリを補助情報と背景知識として利用する知識グラフ補完問題を解くために,stkgにおける事実の妥当性を測定した。 広範囲な評価により,ユーザのモビリティ予測におけるモデルの高精度性,すなわち最先端のアルゴリズムと比較して精度を5.04%向上することを確認した。 また、背景知識や補助情報としてのPoIカテゴリは、精度で3.85%向上することで有用であることを確認した。 さらに,提案手法は従来の手法と比較して計算時間を43.12%以上削減することで,時間効率が向上することを示した。

With the rapid development of the mobile communication technology, mobile trajectories of humans are massively collected by Internet service providers (ISPs) and application service providers (ASPs). On the other hand, the rising paradigm of knowledge graph (KG) provides us a promising solution to extract structured "knowledge" from massive trajectory data. In this paper, we focus on modeling users' spatio-temporal mobility patterns based on knowledge graph techniques, and predicting users' future movement based on the "knowledge'' extracted from multiple sources in a cohesive manner. Specifically, we propose a new type of knowledge graph, i.e., spatio-temporal urban knowledge graph (STKG), where mobility trajectories, category information of venues, and temporal information are jointly modeled by the facts with different relation types in STKG. The mobility prediction problem is converted to the knowledge graph completion problem in STKG. Further, a complex embedding model with elaborately designed scoring functions is proposed to measure the plausibility of facts in STKG to solve the knowledge graph completion problem, which considers temporal dynamics of the mobility patterns and utilizes PoI categories as the auxiliary information and background knowledge. Extensive evaluations confirm the high accuracy of our model in predicting users' mobility, i.e., improving the accuracy by 5.04% compared with the state-of-the-art algorithms. In addition, PoI categories as the background knowledge and auxiliary information are confirmed to be helpful by improving the performance by 3.85% in terms of accuracy. Additionally, experiments show that our proposed method is time-efficient by reducing the computational time by over 43.12% compared with existing methods.
翻訳日:2021-11-14 15:11:15 公開日:2021-11-10
# (参考訳) コントラスト型半監督学習と完全監督学習の比較による病理組織学的研究 [全文訳有]

A Histopathology Study Comparing Contrastive Semi-Supervised and Fully Supervised Learning ( http://arxiv.org/abs/2111.05882v1 )

ライセンス: CC BY 4.0
Lantian Zhang (1 and 2), Mohamed Amgad (2), Lee A.D. Cooper (2) ((1) North Shore Country Day, Winnetka, IL, USA, (2) Department of Pathology, Northwestern University, Chicago, IL, USA)(参考訳) データラベリングは、しばしば計算病理モデルを開発する際に最も難しいタスクである。 病理学者の参加は正確なラベルを生成するために必要であり、大きなラベル付きデータセットに対する病理学者の時間と需要の制限は、患者レベルラベルを用いた弱い教師付き学習、機械支援アノテーション、アクティブラーニングなどの分野の研究につながっている。 本稿では,計算病理学におけるラベル付け負担を軽減するための自己教師型学習について検討する。 barlow twinsアプローチによる乳癌組織分類の文脈でこれを検討し,低データシナリオにおける自己スーパービジョンと事前訓練されたネットワークなどの代替手段を比較した。 本稿では,画像ネットワークの事前学習が,Barlow Twins を用いた自己教師型表現よりも優れていることを示す。

Data labeling is often the most challenging task when developing computational pathology models. Pathologist participation is necessary to generate accurate labels, and the limitations on pathologist time and demand for large, labeled datasets has led to research in areas including weakly supervised learning using patient-level labels, machine assisted annotation and active learning. In this paper we explore self-supervised learning to reduce labeling burdens in computational pathology. We explore this in the context of classification of breast cancer tissue using the Barlow Twins approach, and we compare self-supervision with alternatives like pre-trained networks in low-data scenarios. For the task explored in this paper, we find that ImageNet pre-trained networks largely outperform the self-supervised representations obtained using Barlow Twins.
翻訳日:2021-11-13 06:05:13 公開日:2021-11-10
# (参考訳) 不完全な情報ゲームにおける検索

Search in Imperfect Information Games ( http://arxiv.org/abs/2111.05884v1 )

ライセンス: CC BY 4.0
Martin Schmid(参考訳) この分野の初期から、価値関数による探索はコンピュータゲーム研究の基本的な概念であった。 1950年のチューリングのチェスアルゴリズムは2つの前進を考えることができ、シャノンの1950ドルのチェスに関する研究には、探索で使われる評価関数に関する広範なセクションが含まれている。 1959年のsamuel's checkersプログラムは、セルフプレイとブートストラップによって学習される検索と値関数をすでに組み合わせている。 td-gammonはこれらのアイデアを改善し、ニューラルネットワークを使ってこれらの複雑な値関数を学習します。 DeepBlue for ChessやAlphaGo for Goといった長きにわたる挑戦的なゲームにおいて、コンピュータが人間に優越するという驚くべきマイルストーンに、意思決定時検索と価値関数の組み合わせが存在している。 最近まで、(学習された)値関数による検索の強力なフレームワークは、完全な情報ゲームに限定されてきた。 多くの興味深い問題がエージェントの完全な環境情報を提供していないため、これは不運な制限であった。 本論文では,不完全な情報ゲームの音声検索を読者に導入する。

From the very dawn of the field, search with value functions was a fundamental concept of computer games research. Turing's chess algorithm from 1950 was able to think two moves ahead, and Shannon's work on chess from $1950$ includes an extensive section on evaluation functions to be used within a search. Samuel's checkers program from 1959 already combines search and value functions that are learned through self-play and bootstrapping. TD-Gammon improves upon those ideas and uses neural networks to learn those complex value functions -- only to be again used within search. The combination of decision-time search and value functions has been present in the remarkable milestones where computers bested their human counterparts in long standing challenging games -- DeepBlue for Chess and AlphaGo for Go. Until recently, this powerful framework of search aided with (learned) value functions has been limited to perfect information games. As many interesting problems do not provide the agent perfect information of the environment, this was an unfortunate limitation. This thesis introduces the reader to sound search for imperfect information games.
翻訳日:2021-11-13 06:00:48 公開日:2021-11-10
# (参考訳) Persia: ディープラーニングベースのレコメンダを最大100トリリオンパラメータまでスケールアップするハイブリッドシステム [全文訳有]

Persia: A Hybrid System Scaling Deep Learning Based Recommenders up to 100 Trillion Parameters ( http://arxiv.org/abs/2111.05897v1 )

ライセンス: CC0 1.0
Xiangru Lian, Binhang Yuan, Xuefeng Zhu, Yulong Wang, Yongjun He, Honghuan Wu, Lei Sun, Haodong Lyu, Chengjun Liu, Xing Dong, Yiqiao Liao, Mingnan Luo, Congfei Zhang, Jingru Xie, Haonan Li, Lei Chen, Renjie Huang, Jianying Lin, Chengchun Shu, Xuezhong Qiu, Zhishan Liu, Dongying Kong, Lei Yuan, Hai Yu, Sen Yang, Ce Zhang, Ji Liu(参考訳) ディープラーニングベースのモデルは、現在のプロダクションレコメンデータシステムのランドスケープを支配しています。 Furthermore, recent years have witnessed an exponential growth of the model scale--from Google's 2016 model with 1 billion parameters to the latest Facebook's model with 12 trillion parameters. Significant quality boost has come with each jump of the model capacity, which makes us believe the era of 100 trillion parameters is around the corner. However, the training of such models is challenging even within industrial scale data centers. This difficulty is inherited from the staggering heterogeneity of the training computation--the model's embedding layer could include more than 99.99% of the total model size, which is extremely memory-intensive; while the rest neural network is increasingly computation-intensiv e. このような巨大なモデルのトレーニングを支援するために、効率的な分散トレーニングシステムが必要である。 本稿では,最適化アルゴリズムと分散システムアーキテクチャの両方を慎重に設計することにより,この課題を解決する。 具体的には、トレーニング効率とトレーニング精度の両立を確保するために、埋め込み層と高密度ニューラルネットワークを異なる同期機構で処理するハイブリッドトレーニングアルゴリズムを設計し、このハイブリッドトレーニングアルゴリズムをサポートするために、persia(ハイブリッド加速度を用いた並列推奨トレーニングシステム)と呼ばれるシステムを構築する。 理論実証と100兆のパラメータに関する実証研究は、ペルシャのシステム設計と実装を正当化するために行われた。 私たちはpersiaを(https://github.com/ persiaml/persiaで)公開し、誰でも100兆のパラメータのスケールで推奨モデルを簡単にトレーニングできるようにしています。

Deep learning based models have dominated the current landscape of production recommender systems. Furthermore, recent years have witnessed an exponential growth of the model scale--from Google's 2016 model with 1 billion parameters to the latest Facebook's model with 12 trillion parameters. Significant quality boost has come with each jump of the model capacity, which makes us believe the era of 100 trillion parameters is around the corner. However, the training of such models is challenging even within industrial scale data centers. This difficulty is inherited from the staggering heterogeneity of the training computation--the model's embedding layer could include more than 99.99% of the total model size, which is extremely memory-intensive; while the rest neural network is increasingly computation-intensiv e. To support the training of such huge models, an efficient distributed training system is in urgent need. In this paper, we resolve this challenge by careful co-design of both the optimization algorithm and the distributed system architecture. Specifically, in order to ensure both the training efficiency and the training accuracy, we design a novel hybrid training algorithm, where the embedding layer and the dense neural network are handled by different synchronization mechanisms; then we build a system called Persia (short for parallel recommendation training system with hybrid acceleration) to support this hybrid training algorithm. Both theoretical demonstration and empirical study up to 100 trillion parameters have conducted to justified the system design and implementation of Persia. We make Persia publicly available (at https://github.com/P ersiaML/Persia) so that anyone would be able to easily train a recommender model at the scale of 100 trillion parameters.
翻訳日:2021-11-13 05:59:37 公開日:2021-11-10
# (参考訳) 重要度以上のスコア:特徴セマンティクスの可視化による表型mlの解釈 [全文訳有]

Beyond Importance Scores: Interpreting Tabular ML by Visualizing Feature Semantics ( http://arxiv.org/abs/2111.05898v1 )

ライセンス: CC BY 4.0
Amirata Ghorbani, Dina Berenbaum, Maor Ivgi, Yuval Dafna, James Zou(参考訳) 機械学習(ml)モデルは批判的な意思決定に広く使われているため、解釈性は活発な研究テーマになりつつある。 表データ(英: tabular data)は、医療や金融などの様々なアプリケーションにおいて最も一般的に使用されるデータモードの1つである。 表データで使用される既存の解釈可能性メソッドの多くは、機能インポータンススコア(ローカル(例)またはグローバル(モデル))のみを報告しているが、機能がどのように相互作用するかの解釈や可視化は提供していない。 表型データセット用に設計された新しいグローバル解釈手法であるfeature vectorsを導入することで,この制限に対処した。 機能の重要性に加えて、Feature Vectorsは直感的な機能可視化技術によって、機能間の固有のセマンティックな関係を発見する。 提案手法を実世界のデータセットに適用し,実験により実証的有用性を示す。 さらに,機能ベクタ用のpythonパッケージも提供しています。

Interpretability is becoming an active research topic as machine learning (ML) models are more widely used to make critical decisions. Tabular data is one of the most commonly used modes of data in diverse applications such as healthcare and finance. Much of the existing interpretability methods used for tabular data only report feature-importance scores -- either locally (per example) or globally (per model) -- but they do not provide interpretation or visualization of how the features interact. We address this limitation by introducing Feature Vectors, a new global interpretability method designed for tabular datasets. In addition to providing feature-importance, Feature Vectors discovers the inherent semantic relationship among features via an intuitive feature visualization technique. Our systematic experiments demonstrate the empirical utility of this new method by applying it to several real-world datasets. We further provide an easy-to-use Python package for Feature Vectors.
翻訳日:2021-11-13 05:19:06 公開日:2021-11-10
# (参考訳) 複数のデータセットにまたがる眼球運動によるユーザ識別に関する研究 [全文訳有]

An Extensive Study of User Identification via Eye Movements across Multiple Datasets ( http://arxiv.org/abs/2111.05901v1 )

ライセンス: CC BY 4.0
Sahar Mahdie Klim Al Zaidawi, Martin H.U. Prinzler, Jonas L\"uhrs and Sebastian Maneth(参考訳) いくつかの研究では、眼球運動特性に基づく生体認証が認証に利用できると報告されている。 本稿では,George と Routray が提案した手法の改良版に基づいて,複数のデータセットをまたいだ眼球運動によるユーザ識別について広範な研究を行う。 We analyzed our method with respect to several factors that affect the identification accuracy, such as the type of stimulus, the IVT parameters (used for segmenting the trajectories into fixation and saccades), adding new features such as higher-order derivatives of eye movements, the inclusion of blink information, template aging, age and gender.We find that three methods namely selecting optimal IVT parameters, adding higher-order derivatives features and including an additional blink classifier have a positive impact on the identification accuracy. 改善点は、いくつかのパーセンテージポイントから、データセットの1つで9パーセント向上しました。

Several studies have reported that biometric identification based on eye movement characteristics can be used for authentication. This paper provides an extensive study of user identification via eye movements across multiple datasets based on an improved version of method originally proposed by George and Routray. We analyzed our method with respect to several factors that affect the identification accuracy, such as the type of stimulus, the IVT parameters (used for segmenting the trajectories into fixation and saccades), adding new features such as higher-order derivatives of eye movements, the inclusion of blink information, template aging, age and gender.We find that three methods namely selecting optimal IVT parameters, adding higher-order derivatives features and including an additional blink classifier have a positive impact on the identification accuracy. The improvements range from a few percentage points, up to an impressive 9 % increase on one of the datasets.
翻訳日:2021-11-13 05:05:39 公開日:2021-11-10
# (参考訳) 野生でのダンス:ニューラルダイナミックな外観合成による単眼人間アニメーション [全文訳有]

Dance In the Wild: Monocular Human Animation with Neural Dynamic Appearance Synthesis ( http://arxiv.org/abs/2111.05916v1 )

ライセンス: CC BY 4.0
Tuanfeng Y. Wang and Duygu Ceylan and Krishna Kumar Singh and Niloy J. Mitra(参考訳) 動作中の人間の動的外観の合成は、ar/vrやビデオ編集といったアプリケーションにおいて中心的な役割を果たす。 この問題に対処する多くの手法が提案されているが、複雑なテクスチャと高ダイナミックな動きによるゆるい衣服の扱いは依然として困難である。 本稿では、このような課題に対処し、これまで見せられていない映像の高品質な結果を示すビデオベース外観合成手法を提案する。 具体的には、個人固有の動画ベースのモーションリターゲティングのタスクに、StyleGANベースのアーキテクチャを採用する。 本研究では,時間的コヒーレンシを改善するために,動的外観変化を捉えるためにジェネレータの重みを変調する新しい動きシグネチャを導入し,単一のフレームに基づくポーズ推定を正規化する。 提案手法を課題ビデオの集合上で評価し,その手法が質的かつ定量的に最先端のパフォーマンスを達成することを示す。

Synthesizing dynamic appearances of humans in motion plays a central role in applications such as AR/VR and video editing. While many recent methods have been proposed to tackle this problem, handling loose garments with complex textures and high dynamic motion still remains challenging. In this paper, we propose a video based appearance synthesis method that tackles such challenges and demonstrates high quality results for in-the-wild videos that have not been shown before. Specifically, we adopt a StyleGAN based architecture to the task of person specific video based motion retargeting. We introduce a novel motion signature that is used to modulate the generator weights to capture dynamic appearance changes as well as regularizing the single frame based pose estimates to improve temporal coherency. We evaluate our method on a set of challenging videos and show that our approach achieves state-of-the art performance both qualitatively and quantitatively.
翻訳日:2021-11-13 04:48:11 公開日:2021-11-10
# (参考訳) バイオメディカル領域における自動質問応答の最近の進歩

Recent Advances in Automated Question Answering In Biomedical Domain ( http://arxiv.org/abs/2111.05937v1 )

ライセンス: CC BY 4.0
Krishanu Das Baksi(参考訳) 自動質問回答システム(QA)の目的は,ユーザの質問に対する回答を,時間的に効率的に提供することである。 解答は通常、データベース(または知識ベース)または一般にコーパスと呼ばれる文書の集合に見出される。 過去数十年間、知識の獲得が急増しており、その結果、バイオメディシン分野における新しい科学論文が指数関数的に増加してきた。 そのため、ドメインの専門家であっても、ドメイン内のすべての情報を追跡することは困難になっている。 商用検索エンジンの改善により、ユーザはクエリを入力して、クエリに最も関連性の高いドキュメントの小さなセットと、いくつかのケースでドキュメントから関連するスニペットを取得することができる。 しかし、必要な情報や回答を手作業で探すのは、いまだに面倒で時間がかかります。 これにより、バイオメディシン領域におけるユーザが提供する自然言語質問に対する正確かつ正確な回答を見つけることを目的とした効率的なQAシステムの開発が必要となった。 本稿では,一般分野のQAシステム開発に使用される基本手法を紹介するとともに,ベンチマークデータセットや提案手法など,バイオメディカルQAシステムのさまざまな側面について,構造化データベースとテキストの収集の両方を用いて詳細に検討する。 また、現在のシステムの限界を探求し、さらなる進歩に向けた潜在的な道を探る。

The objective of automated Question Answering (QA) systems is to provide answers to user queries in a time efficient manner. The answers are usually found in either databases (or knowledge bases) or a collection of documents commonly referred to as the corpus. In the past few decades there has been a proliferation of acquisition of knowledge and consequently there has been an exponential growth in new scientific articles in the field of biomedicine. Therefore, it has become difficult to keep track of all the information in the domain, even for domain experts. With the improvements in commercial search engines, users can type in their queries and get a small set of documents most relevant for answering their query, as well as relevant snippets from the documents in some cases. However, it may be still tedious and time consuming to manually look for the required information or answers. This has necessitated the development of efficient QA systems which aim to find exact and precise answers to user provided natural language questions in the domain of biomedicine. In this paper, we introduce the basic methodologies used for developing general domain QA systems, followed by a thorough investigation of different aspects of biomedical QA systems, including benchmark datasets and several proposed approaches, both using structured databases and collection of texts. We also explore the limitations of current systems and explore potential avenues for further advancement.
翻訳日:2021-11-13 04:35:16 公開日:2021-11-10
# (参考訳) 人間とコンピュータにおける談話構造の新しいコーパス [全文訳有]

A Novel Corpus of Discourse Structure in Humans and Computers ( http://arxiv.org/abs/2111.05940v1 )

ライセンス: CC BY 4.0
Babak Hemmatian, Sheridan Feucht, Rachel Avram, Alexander Wey, Muskaan Garg, Kate Spitalnic, Carsten Eickhoff, Ellie Pavlick, Bjorn Sandstede, Steven Sloman(参考訳) 本稿では,意味節タイプとコヒーレンス関係にアノテートされた約27,000節からなる,人間とコンピュータが生成した文書445のコーパスについて述べる。 コーパスは、フォーマルな言論と非公式な言論の両方をカバーし、微調整のGPT-2(Zellers et al., 2019)とGPT-3(Brown et al., 2020)を用いて生成された文書を含んでいる。 本コーパスはテキスト生成の詳細な談話分析に有用であり,コンピュータ生成物語や議論の質の低下に関連していることを示す予備的な証拠を提供することにより,文章生成の詳細な談話分析に有用であることを示す。

We present a novel corpus of 445 human- and computer-generated documents, comprising about 27,000 clauses, annotated for semantic clause types and coherence relations that allow for nuanced comparison of artificial and natural discourse modes. The corpus covers both formal and informal discourse, and contains documents generated using fine-tuned GPT-2 (Zellers et al., 2019) and GPT-3(Brown et al., 2020). We showcase the usefulness of this corpus for detailed discourse analysis of text generation by providing preliminary evidence that less numerous, shorter and more often incoherent clause relations are associated with lower perceived quality of computer-generated narratives and arguments.
翻訳日:2021-11-13 04:34:10 公開日:2021-11-10
# (参考訳) クロス入力一貫性を持つ自己教師付きマルチオブジェクトトラッキング [全文訳有]

Self-Supervised Multi-Object Tracking with Cross-Input Consistency ( http://arxiv.org/abs/2111.05943v1 )

ライセンス: CC BY 4.0
Favyen Bastani, Songtao He, Sam Madden(参考訳) 本稿では,ラベルなしビデオのみを与えられたロバストマルチオブジェクトトラッキング(mot)モデルを学習するための自己教師あり学習手順を提案する。 色伝搬やサイクル整合性などの単一対象追跡に関する先行研究において、いくつかの自己超越学習信号が提案されているが、これらの信号は正確なMOTを達成するために必要なRNNモデルのトレーニングには直接適用できない。 そこで本研究では,同一映像列に対する2つの異なる入力を,各入力列の異なる情報を隠すことにより構築する,クロス入力一貫性と呼ばれる新しい自己スーパーバイザリー信号を提案する。 次に、各入力に対して独立してRNNモデルを適用することで、そのシーケンス内のトラックを計算し、2つの入力に対して一貫したトラックを生成するようにモデルを訓練する。 私たちはMOT17とKITTIで教師なしの手法を評価した -- 驚くべきことに、未ラベルのビデオのみをトレーニングしても、Tracktor++、FAMNet、GSM、mmMOTを含む過去1~2年で公表された4つの教師なしの手法よりも優れています。

In this paper, we propose a self-supervised learning procedure for training a robust multi-object tracking (MOT) model given only unlabeled video. While several self-supervisory learning signals have been proposed in prior work on single-object tracking, such as color propagation and cycle-consistency, these signals cannot be directly applied for training RNN models, which are needed to achieve accurate MOT: they yield degenerate models that, for instance, always match new detections to tracks with the closest initial detections. We propose a novel self-supervisory signal that we call cross-input consistency: we construct two distinct inputs for the same sequence of video, by hiding different information about the sequence in each input. We then compute tracks in that sequence by applying an RNN model independently on each input, and train the model to produce consistent tracks across the two inputs. We evaluate our unsupervised method on MOT17 and KITTI -- remarkably, we find that, despite training only on unlabeled video, our unsupervised approach outperforms four supervised methods published in the last 1--2 years, including Tracktor++, FAMNet, GSM, and mmMOT.
翻訳日:2021-11-13 04:27:48 公開日:2021-11-10
# (参考訳) ベイズニューラルネットワークにおける自己圧縮 [全文訳有]

Self-Compression in Bayesian Neural Networks ( http://arxiv.org/abs/2111.05950v1 )

ライセンス: CC BY 4.0
Giuseppina Carannante, Dimah Dera, Ghulam Rasool and Nidhal C. Bouaynaya(参考訳) 機械学習モデルは様々なタスクで人間レベルのパフォーマンスを達成している。 この成功は、計算とストレージのオーバヘッドのコストが高く、エッジデバイスへのデプロイを機械学習アルゴリズムが困難にする。 通常、メモリ使用量の削減とエネルギー消費の観点から定量化される性能の向上を優先して、部分的に精度を犠牲にしなければならない。 現在の方法は、パラメータの精度を下げたり、冗長なパラメータを排除してネットワークを圧縮する。 本稿では,ベイズフレームワークを用いたネットワーク圧縮に関する新たな知見を提案する。 ベイズ型ニューラルネットワークはモデルパラメータの冗長性を自動的に検出し,ネットワークの層間における不確かさの伝播と連動する自己圧縮を可能にする。 実験の結果,同一の精度を維持しつつ,ネットワーク自体が識別するパラメータを削除することで,ネットワークアーキテクチャを効果的に圧縮できることがわかった。

Machine learning models have achieved human-level performance on various tasks. This success comes at a high cost of computation and storage overhead, which makes machine learning algorithms difficult to deploy on edge devices. Typically, one has to partially sacrifice accuracy in favor of an increased performance quantified in terms of reduced memory usage and energy consumption. Current methods compress the networks by reducing the precision of the parameters or by eliminating redundant ones. In this paper, we propose a new insight into network compression through the Bayesian framework. We show that Bayesian neural networks automatically discover redundancy in model parameters, thus enabling self-compression, which is linked to the propagation of uncertainty through the layers of the network. Our experimental results show that the network architecture can be successfully compressed by deleting parameters identified by the network itself while retaining the same level of accuracy.
翻訳日:2021-11-13 04:11:37 公開日:2021-11-10
# (参考訳) 深部ニューラルネットワークにおけるエンサンブル密度伝播によるロバスト学習 [全文訳有]

Robust Learning via Ensemble Density Propagation in Deep Neural Networks ( http://arxiv.org/abs/2111.05953v1 )

ライセンス: CC BY 4.0
Giuseppina Carannante, Dimah Dera, Ghulam Rasool, Nidhal C. Bouaynaya, and Lyudmila Mihaylova(参考訳) 不確実、ノイズ、あるいは敵対的な環境での学習は、ディープニューラルネットワーク(DNN)にとって難しい課題である。 ベイズ推定と変分推論に基づく頑健な学習のための理論的基礎と効率的なアプローチを提案する。 本稿では,DNNの層内における密度伝搬の問題を定式化し,Ensemble Density Propagation (EnDP) 方式を用いて解決する。 EnDPアプローチによりベイズDNNの層にまたがる変動確率分布のモーメントを伝播することができ、モデルの出力における予測分布の平均と共分散を推定できる。 MNISTとCIFAR-10データセットを用いた実験は、ランダムノイズや対向攻撃に対するトレーニングモデルのロバスト性を大幅に改善したことを示す。

Learning in uncertain, noisy, or adversarial environments is a challenging task for deep neural networks (DNNs). We propose a new theoretically grounded and efficient approach for robust learning that builds upon Bayesian estimation and Variational Inference. We formulate the problem of density propagation through layers of a DNN and solve it using an Ensemble Density Propagation (EnDP) scheme. The EnDP approach allows us to propagate moments of the variational probability distribution across the layers of a Bayesian DNN, enabling the estimation of the mean and covariance of the predictive distribution at the output of the model. Our experiments using MNIST and CIFAR-10 datasets show a significant improvement in the robustness of the trained models to random noise and adversarial attacks.
翻訳日:2021-11-13 04:01:57 公開日:2021-11-10
# (参考訳) 長尾分類のための特徴生成 [全文訳有]

Feature Generation for Long-tail Classification ( http://arxiv.org/abs/2111.05956v1 )

ライセンス: CC BY 4.0
Rahul Vigneswaran and Marc T. Law and Vineeth N. Balasubramanian and Makarand Tapaswi(参考訳) 視覚の世界は自然にオブジェクトやシーンインスタンスの数に不均衡を示し、結果として \emph{long-tailed distribution} となる。 この不均衡は、ディープラーニングに基づく分類モデルに重大な課題をもたらす。 尾クラスのオーバーサンプリングは、この不均衡を解消しようとする。 しかし、限られた視覚的多様性は、表現能力の低いネットワークをもたらす。 これに対する単純なカウンターは、表現と分類器ネットワークを分離し、オーバーサンプリングを使用して分類器を訓練することである。 本稿では,同じ画像(と特徴)を繰り返しサンプリングするのではなく,テールカテゴリの分布を推定することで有意義な特徴を発生させる方向を探索する。 数ショット学習に関する最近の研究のアイデアに触発されて、分類器の訓練に使用される追加機能のサンプルを作成する。 CIFAR-100-LT(long-ta il)データセットとmini-ImageNet-LT(lon g-tail)を用いたいくつかの実験により,本手法の有効性を示し,新しい最先端技術を確立する。 また,t-sneビジュアライゼーションを用いた生成特徴の定性解析を行い,テールクラス分布の校正に用いる最近傍の分析を行った。 私たちのコードはhttps://github.com/r ahulvigneswaran/tail calibxで利用可能です。

The visual world naturally exhibits an imbalance in the number of object or scene instances resulting in a \emph{long-tailed distribution}. This imbalance poses significant challenges for classification models based on deep learning. Oversampling instances of the tail classes attempts to solve this imbalance. However, the limited visual diversity results in a network with poor representation ability. A simple counter to this is decoupling the representation and classifier networks and using oversampling only to train the classifier. In this paper, instead of repeatedly re-sampling the same image (and thereby features), we explore a direction that attempts to generate meaningful features by estimating the tail category's distribution. Inspired by ideas from recent work on few-shot learning, we create calibrated distributions to sample additional features that are subsequently used to train the classifier. Through several experiments on the CIFAR-100-LT (long-tail) dataset with varying imbalance factors and on mini-ImageNet-LT (long-tail), we show the efficacy of our approach and establish a new state-of-the-art. We also present a qualitative analysis of generated features using t-SNE visualizations and analyze the nearest neighbors used to calibrate the tail class distributions. Our code is available at https://github.com/r ahulvigneswaran/Tail CalibX.
翻訳日:2021-11-13 03:51:24 公開日:2021-11-10
# (参考訳) 個人化協調学習における線形高速化 [全文訳有]

Linear Speedup in Personalized Collaborative Learning ( http://arxiv.org/abs/2111.05968v1 )

ライセンス: CC BY 4.0
El Mahdi Chayti, Sai Praneeth Karimireddy, Sebastian U. Stich, Nicolas Flammarion, and Martin Jaggi(参考訳) フェデレート学習におけるパーソナライゼーションは、モデルのバイアス(潜在的に異なる他のユーザのデータを使用することによって導入される)を、その分散(任意のユーザ上の限られた量のデータのため)から引き離すことによって、モデルの精度を向上させることができる。 このトレードオフを最適にバランスさせるトレーニングアルゴリズムを開発するためには、理論基盤を拡張する必要がある。 本研究では、ユーザの目的である$f_0(x)$の確率的最適化としてパーソナライズされた協調学習問題を定式化するとともに、他のユーザの目標である$\{f_1(x), \dots, f_N(x)\}$へのアクセスを付与する。 この設定では,2つのアルゴリズムの収束保証 – 一般的なパーソナライズ手法である 'emph{weighted gradient averaging} と,新しい 'emph{bias correct} 法 – が与えられ,分散の低減のためにバイアスを最適にトレードオフし,線形スピードアップを達成できる条件を探索する。 さらに,理論的な知見を裏付ける効果についても実験的に検討した。

Personalization in federated learning can improve the accuracy of a model for a user by trading off the model's bias (introduced by using data from other users who are potentially different) against its variance (due to the limited amount of data on any single user). In order to develop training algorithms that optimally balance this trade-off, it is necessary to extend our theoretical foundations. In this work, we formalize the personalized collaborative learning problem as stochastic optimization of a user's objective $f_0(x)$ while given access to $N$ related but different objectives of other users $\{f_1(x), \dots, f_N(x)\}$. We give convergence guarantees for two algorithms in this setting -- a popular personalization method known as \emph{weighted gradient averaging}, and a novel \emph{bias correction} method -- and explore conditions under which we can optimally trade-off their bias for a reduction in variance and achieve linear speedup w.r.t.\ the number of users $N$. Further, we also empirically study their performance confirming our theoretical insights.
翻訳日:2021-11-13 03:33:47 公開日:2021-11-10
# (参考訳) PowerGridworld: 電力システムにおけるマルチエージェント強化学習フレームワーク [全文訳有]

PowerGridworld: A Framework for Multi-Agent Reinforcement Learning in Power Systems ( http://arxiv.org/abs/2111.05969v1 )

ライセンス: CC BY 4.0
David Biagioni, Xiangyu Zhang, Dylan Wald, Deepthi Vaidhynathan, Rohit Chintala, Jennifer King, Ahmed S. Zamzam(参考訳) 我々は,powergridworldソフトウェアパッケージをユーザに提供して,既存の強化学習(rl)のためのトレーニングフレームワークと容易に統合可能な,パワーシステムにフォーカスしたマルチエージェントジム環境を作成するための軽量でモジュール化されたカスタマイズ可能なフレームワークを提供する。 マルチエージェントRL (MARL) ポリシをトレーニングするためのフレームワークは数多く存在するが、特にグリッドレベルの変数とコストを定義するために電力フローソリューションを必要とする異種(複合型、マルチデバイス)のパワーシステムにおいて、環境自体を迅速にプロトタイプ化し開発することはできない。 PowerGridworldは、このギャップを埋めるためのオープンソースのソフトウェアパッケージだ。 PowerGridworld の重要な特徴を明らかにするために,OpenAI のマルチエージェント深層決定性ポリシー勾配 (MADDPG) と RLLib の近近性ポリシー最適化 (PPO) アルゴリズムの両方を用いて,MARL ポリシーの学習を行う。 どちらの場合でも、エージェントの少なくとも一部のサブセットは、報酬(負のコスト)構造の一部として各時間ステップのパワーフローソリューションの要素を組み込んでいる。

We present the PowerGridworld software package to provide users with a lightweight, modular, and customizable framework for creating power-systems-focuse d, multi-agent Gym environments that readily integrate with existing training frameworks for reinforcement learning (RL). Although many frameworks exist for training multi-agent RL (MARL) policies, none can rapidly prototype and develop the environments themselves, especially in the context of heterogeneous (composite, multi-device) power systems where power flow solutions are required to define grid-level variables and costs. PowerGridworld is an open-source software package that helps to fill this gap. To highlight PowerGridworld's key features, we present two case studies and demonstrate learning MARL policies using both OpenAI's multi-agent deep deterministic policy gradient (MADDPG) and RLLib's proximal policy optimization (PPO) algorithms. In both cases, at least some subset of agents incorporates elements of the power flow solution at each time step as part of their reward (negative cost) structures.
翻訳日:2021-11-13 02:47:03 公開日:2021-11-10
# (参考訳) Amazon SageMaker Model Parallelism - 大規模モデルトレーニングのための汎用的で柔軟なフレームワーク [全文訳有]

Amazon SageMaker Model Parallelism: A General and Flexible Framework for Large Model Training ( http://arxiv.org/abs/2111.05972v1 )

ライセンス: CC BY 4.0
Can Karakus, Rahul Huilgol, Fei Wu, Anirudh Subramanian, Cade Daniel, Derya Cavdar, Teng Xu, Haohan Chen, Arash Rahnama, Luis Quintela(参考訳) ディープラーニングモデルのサイズが急速に大きくなると、大規模モデルのトレーニングのためのシステムレベルのソリューションが求められます。 我々は、PyTorchと統合したソフトウェアライブラリであるAmazon SageMakerモデル並列性を示し、モデル並列性やその他のメモリ節約機能を使用して、大規模モデルのトレーニングを容易にする。 既存のソリューションとは対照的に、SageMakerライブラリの実装はずっと汎用的で柔軟で、任意のモデルアーキテクチャ上でパイプラインの並列処理を分割し、最小限のコード変更で実行することができ、また、テンソル並列処理のための汎用的で拡張可能なフレームワークを提供し、幅広いユースケースをサポートし、新しいトレーニングスクリプトに簡単に適用できるモジュラーを提供する。 ライブラリはまた、ネイティブのPyTorchユーザエクスペリエンスをはるかに大きく保存し、モジュールの再使用と動的グラフをサポートしながら、トレーニングステップの詳細を完全にコントロールする。 GPT-3, RoBERTa, BERT, およびニューラルコラボレーティブフィルタリングの性能を評価し, 既存のソリューションに対する競合性能を示す。

With deep learning models rapidly growing in size, systems-level solutions for large-model training are required. We present Amazon SageMaker model parallelism, a software library that integrates with PyTorch, and enables easy training of large models using model parallelism and other memory-saving features. In contrast to existing solutions, the implementation of the SageMaker library is much more generic and flexible, in that it can automatically partition and run pipeline parallelism over arbitrary model architectures with minimal code change, and also offers a general and extensible framework for tensor parallelism, which supports a wider range of use cases, and is modular enough to be easily applied to new training scripts. The library also preserves the native PyTorch user experience to a much larger degree, supporting module re-use and dynamic graphs, while giving the user full control over the details of the training step. We evaluate performance over GPT-3, RoBERTa, BERT, and neural collaborative filtering, and demonstrate competitive performance over existing solutions.
翻訳日:2021-11-13 02:37:06 公開日:2021-11-10
# (参考訳) ロジスティック回帰、決定木、ニューラルネットワークを用いたチェスエンドゲーム問題の分類 [全文訳有]

Classification of the Chess Endgame problem using Logistic Regression, Decision Trees, and Neural Networks ( http://arxiv.org/abs/2111.05976v1 )

ライセンス: CC BY 4.0
Mahmoud S. Fayed(参考訳) 本研究では,ロジスティック回帰,決定木,ニューラルネットワークなどのアルゴリズムを用いて,チェスエンドゲーム問題の分類を行った。 実験の結果,ニューラルネットワークが最良精度(85%)で決定木(79%)を提供することがわかった。 これらの実験では、Microsoft Azure Machine Learningをケーススタディとして、分類にVisual Programmingを使用しました。 私たちの実験では、このツールが強力で多くの時間を節約できることが示されています。 我々はまた、Ringという新しいプログラミング言語を使ったデータセットの可視化アプリケーションを開発した。実験では、この言語はPythonのようなシンプルな設計であり、オープンソースのGUI開発に適したVisual BasicのようなRADツールを統合している。

In this study we worked on the classification of the Chess Endgame problem using different algorithms like logistic regression, decision trees and neural networks. Our experiments indicates that the Neural Networks provides the best accuracy (85%) then the decision trees (79%). We did these experiments using Microsoft Azure Machine Learning as a case-study on using Visual Programming in classification. Our experiments demonstrates that this tool is powerful and save a lot of time, also it could be improved with more features that increase the usability and reduce the learning curve. We also developed an application for dataset visualization using a new programming language called Ring, our experiments demonstrates that this language have simple design like Python while integrates RAD tools like Visual Basic which is good for GUI development in the open-source world
翻訳日:2021-11-13 02:03:07 公開日:2021-11-10
# (参考訳) 不確実性推定による信頼できる医用セグメンテーション [全文訳有]

Trustworthy Medical Segmentation with Uncertainty Estimation ( http://arxiv.org/abs/2111.05978v1 )

ライセンス: CC BY 4.0
Giuseppina Carannante, Dimah Dera, Nidhal C.Bouaynaya, Rasool Ghulam, and Hassan M. Fathallah-Shaykh(参考訳) 深層学習(DL)は、正確さ、効率、客観性を考慮し、医療システムを再構築する上で大きな可能性を秘めている。 しかし, DLモデルのノイズやアウト・オブ・ディストリビューション入力に対する脆さは, 診療所への展開を妨げている。 ほとんどのシステムは、モデルの不確実性や信頼性に関するさらなる情報なしで点推定を生成する。 本稿では,セグメンテーションニューラルネットワーク,特にエンコーダ・デコーダアーキテクチャにおける不確実性定量化のための新しいベイズディープラーニングフレームワークを提案する。 提案フレームワークはテイラー級数近似を用いて、トレーニングデータから得られたモデルパラメータの分布の最初の2つのモーメント(平均と共分散)を伝播し学習する。 出力はセグメンテーションの画像とセグメンテーションの不確実性マップの2つのマップで構成される。 セグメンテーション決定の不確実性は予測分布の共分散行列によって把握される。 磁気共鳴画像とctスキャンから得られた医用画像分割データの枠組みについて検討した。 複数のベンチマークデータセットに対する実験により,提案手法は,最先端セグメンテーションモデルと比較して,ノイズや敵攻撃に対してより堅牢であることが示された。 さらに,提案フレームワークの不確実性マップは,ノイズやアーティファクト,敵の攻撃で破損したテスト入力画像のパッチと低信頼(あるいは同等に高い不確実性)を関連付ける。 これにより、不確実性マップに高い値を示すことによって、誤った予測を行う場合や、腫瘍などのセグメンテーション構造の一部を見逃す場合に、そのセグメンテーション決定を自己評価することができる。

Deep Learning (DL) holds great promise in reshaping the healthcare systems given its precision, efficiency, and objectivity. However, the brittleness of DL models to noisy and out-of-distribution inputs is ailing their deployment in the clinic. Most systems produce point estimates without further information about model uncertainty or confidence. This paper introduces a new Bayesian deep learning framework for uncertainty quantification in segmentation neural networks, specifically encoder-decoder architectures. The proposed framework uses the first-order Taylor series approximation to propagate and learn the first two moments (mean and covariance) of the distribution of the model parameters given the training data by maximizing the evidence lower bound. The output consists of two maps: the segmented image and the uncertainty map of the segmentation. The uncertainty in the segmentation decisions is captured by the covariance matrix of the predictive distribution. We evaluate the proposed framework on medical image segmentation data from Magnetic Resonances Imaging and Computed Tomography scans. Our experiments on multiple benchmark datasets demonstrate that the proposed framework is more robust to noise and adversarial attacks as compared to state-of-the-art segmentation models. Moreover, the uncertainty map of the proposed framework associates low confidence (or equivalently high uncertainty) to patches in the test input images that are corrupted with noise, artifacts or adversarial attacks. Thus, the model can self-assess its segmentation decisions when it makes an erroneous prediction or misses part of the segmentation structures, e.g., tumor, by presenting higher values in the uncertainty map.
翻訳日:2021-11-13 01:56:24 公開日:2021-11-10
# (参考訳) 自己監督型リアルタイムビデオ安定化 [全文訳有]

Self-Supervised Real-time Video Stabilization ( http://arxiv.org/abs/2111.05980v1 )

ライセンス: CC BY 4.0
Jinsoo Choi, Jaesik Park, In So Kweon(参考訳) ビデオは人気のメディア形式であり、最近オンラインビデオストリーミングが人気を集めている。 本研究では,リアルタイム映像安定化のための新しい手法を提案する。 私たちのフレームワークは自己監視的な方法でトレーニング可能で、特別なハードウェアセットアップ(ステレオリグ上の2つのカメラや、追加のモーションセンサー)でキャプチャされたデータを必要としない。 提案手法は,大域的安定性調整のための与えられたフレーム間の変換推定器と,空間的平滑化光フローによるシーンパララックス低減モジュールとからなる。 そして、マージン塗装モジュールは、安定化中に作成されたマージン領域を満たし、ポストクロッピングの量を減少させる。 これらの逐次ステップは、安定性を高めながら歪みとマージンの切り込みを最小にする。 したがって,最先端のリアルタイム映像安定化手法やカメラの軌道最適化を必要とするオフライン手法を上回っている。 提案手法は解像度によらず約24.3ミリ秒、41fps(例えば480pまたは1080p)である。

Videos are a popular media form, where online video streaming has recently gathered much popularity. In this work, we propose a novel method of real-time video stabilization - transforming a shaky video to a stabilized video as if it were stabilized via gimbals in real-time. Our framework is trainable in a self-supervised manner, which does not require data captured with special hardware setups (i.e., two cameras on a stereo rig or additional motion sensors). Our framework consists of a transformation estimator between given frames for global stability adjustments, followed by scene parallax reduction module via spatially smoothed optical flow for further stability. Then, a margin inpainting module fills in the missing margin regions created during stabilization to reduce the amount of post-cropping. These sequential steps reduce distortion and margin cropping to a minimum while enhancing stability. Hence, our approach outperforms state-of-the-art real-time video stabilization methods as well as offline methods that require camera trajectory optimization. Our method procedure takes approximately 24.3 ms yielding 41 fps regardless of resolution (e.g., 480p or 1080p).
翻訳日:2021-11-13 01:34:23 公開日:2021-11-10
# (参考訳) 言語間情報検索

Cross-language Information Retrieval ( http://arxiv.org/abs/2111.05988v1 )

ライセンス: CC BY-SA 4.0
Petra Galu\v{s}\v{c}\'akov\'a, Douglas W. Oard, Suraj Nair(参考訳) 2つの重要な仮定がランク付けされた検索の一般的な見方を形作っている:(1)検索者が見たい文書に現れる可能性のあるクエリの単語を選択できること、(2)検索した文書のランク付けは、検索者が検索したいものを認識できるので十分である。 検索対象の文書が、検索者が知らない言語に属する場合、どちらの仮定も真実ではない。 このような場合、CLIR(Cross-Language Information Retrieval)が必要である。 本章では,言語間情報検索技術の現状を概観し,いくつかのオープンな研究課題について概説する。

Two key assumptions shape the usual view of ranked retrieval: (1) that the searcher can choose words for their query that might appear in the documents that they wish to see, and (2) that ranking retrieved documents will suffice because the searcher will be able to recognize those which they wished to find. When the documents to be searched are in a language not known by the searcher, neither assumption is true. In such cases, Cross-Language Information Retrieval (CLIR) is needed. This chapter reviews the state of the art for cross-language information retrieval and outlines some open research questions.
翻訳日:2021-11-13 01:24:13 公開日:2021-11-10
# クロスモーダルアテンションを用いたマルチモーダルエンドツーエンドグループ感情認識

Multimodal End-to-End Group Emotion Recognition using Cross-Modal Attention ( http://arxiv.org/abs/2111.05890v1 )

ライセンス: Link先を確認
Lev Evtodienko(参考訳) グループレベルの感情を分類することは、映像の複雑さのために難しい課題であり、視覚だけでなく、音声情報も考慮すべきである。 既存のマルチモーダル感情認識の研究では、トレーニング済みのニューラルネットワークを特徴抽出器として使用し、抽出された特徴を融合させるという、バルクなアプローチを採用している。 しかし、このアプローチはマルチモーダルデータの属性を考慮せず、モデル全体の精度に不利な特定のタスクに対して特徴抽出器を微調整することはできない。 この結果、私たちの影響は2倍になります。 i) ニューラルネットワークの初期の層を、2つのモダリティの融合層を考慮に入れて適応させることができるモデルエンドツーエンドを訓練する。 (II) モデルの全層は感情認識の下流タスクのために微調整されていたため、ニューラルネットワークをゼロからトレーニングする必要はない。 我々のモデルは,VGAFデータセットベースラインよりも約8.5%高い60.37%の検証精度を達成し,既存の作業,オーディオ,ビデオのモダリティと競合する。

Classifying group-level emotions is a challenging task due to complexity of video, in which not only visual, but also audio information should be taken into consideration. Existing works on multimodal emotion recognition are using bulky approach, where pretrained neural networks are used as a feature extractors and then extracted features are being fused. However, this approach does not consider attributes of multimodal data and feature extractors cannot be fine-tuned for specific task which can be disadvantageous for overall model accuracy. To this end, our impact is twofold: (i) we train model end-to-end, which allows early layers of neural network to be adapted with taking into account later, fusion layers, of two modalities; (ii) all layers of our model was fine-tuned for downstream task of emotion recognition, so there were no need to train neural networks from scratch. Our model achieves best validation accuracy of 60.37% which is approximately 8.5% higher, than VGAF dataset baseline and is competitive with existing works, audio and video modalities.
翻訳日:2021-11-12 15:32:11 公開日:2021-11-10
# 臨床検体からの総合的深層学習に基づくCough解析システム : ポイント・オブ・ニード・コビッド・テストと重症度

A Generic Deep Learning Based Cough Analysis System from Clinically Validated Samples for Point-of-Need Covid-19 Test and Severity Levels ( http://arxiv.org/abs/2111.05895v1 )

ライセンス: Link先を確認
Javier Andreu-Perez, Humberto P\'erez-Espinosa, Eva Timonet, Mehrin Kiani, Manuel I. Gir\'on-P\'erez, Alma B. Benitez-Trinidad, Delaram Jarchi, Alejandro Rosales-P\'erez, Nick Gatzoulis, Orion F. Reyes-Galaviz, Alejandro Torres-Garc\'ia, Carlos A. Reyes-Garc\'ia, Zulfiqar Ali, Francisco Rivas(参考訳) 実験室分子検査8,380例(Covid-19陽性2,339例,Covid-19陰性6,041例)の臨床検査結果に基づいて,Covid-19の迅速スクリーニングツールの検出性能を評価する。 臨床検査では, 定量的RT-PCR(qRT-PCR)分析, サイクルしきい値, リンパ球数に基づいて臨床検査を行った。 提案手法は経験的モード分解(emd)に基づくアルゴリズムであり,それに続く音響特徴のテンソルに基づく分類と,deepcoughと呼ばれる畳み込み層を持つディープニューラルネットワーク分類器である。 DeepCoughの2つの異なるバージョン、すなわちDeepCough2DとDeepCough3Dのテンソル次元について検討した。 これらのメソッドは、匿名でこのテストを管理するために、マルチプラットフォームのWeb App CoughDetectにデプロイされている。 新型コロナウイルスの認識率は98.800.83%で、感度96.431.85%、特異性96.201.74%、重症度3つに81.08%5.05%であった。 新型ウイルスのロバストで高速かつポイント・オブ・ニーズな識別のためのwebツールと基盤アルゴリズムを提案することで,感染の迅速検出が容易になる。 われわれは、世界中の新型コロナウイルスのパンデミックを著しく阻害する可能性があると考えている。

We seek to evaluate the detection performance of a rapid primary screening tool of Covid-19 solely based on the cough sound from 8,380 clinically validated samples with laboratory molecular-test (2,339 Covid-19 positives and 6,041 Covid-19 negatives). Samples were clinically labeled according to the results and severity based on quantitative RT-PCR (qRT-PCR) analysis, cycle threshold, and lymphocytes count from the patients. Our proposed generic method is an algorithm based on Empirical Mode Decomposition (EMD) with subsequent classification based on a tensor of audio features and a deep artificial neural network classifier with convolutional layers called DeepCough'. Two different versions of DeepCough based on the number of tensor dimensions, i.e. DeepCough2D and DeepCough3D, have been investigated. These methods have been deployed in a multi-platform proof-of-concept Web App CoughDetect to administer this test anonymously. Covid-19 recognition results rates achieved a promising AUC (Area Under Curve) of 98.800.83%, sensitivity of 96.431.85%, and specificity of 96.201.74%, and 81.08%5.05% AUC for the recognition of three severity levels. Our proposed web tool and underpinning algorithm for the robust, fast, point-of-need identification of Covid-19 facilitates the rapid detection of the infection. We believe that it has the potential to significantly hamper the Covid-19 pandemic across the world.
翻訳日:2021-11-12 15:31:51 公開日:2021-11-10
# SPA-GCN:グラフ類似性計算のための効率よく柔軟なGCN加速器

SPA-GCN: Efficient and Flexible GCN Accelerator with an Application for Graph Similarity Computation ( http://arxiv.org/abs/2111.05936v1 )

ライセンス: Link先を確認
Atefeh Sohrabizadeh, Yuze Chi, Jason Cong(参考訳) 画像の深層学習のためのハードウェアアクセラレーションに関する研究は数多く行われているが、グラフを含む深層学習アプリケーションの高速化に焦点が当てられている。 不規則なメモリアクセスや動的並列性といったグラフのユニークな特徴は、アルゴリズムがcpuやgpuにマッピングされるときにいくつかの課題を課す。 これらの課題に対処するため,グラフ上のディープラーニングアルゴリズムのコア計算ユニットであるGraph Convolutional Networks (GCN) を高速化するための,SPA-GCNと呼ばれる柔軟なアーキテクチャを提案する。 アーキテクチャは、グラフのサイズが設計に重大な影響を与えるため、多くの小さなグラフを扱うために特化している。 この文脈では、ニューラルネットワークベースのグラフマッチングアルゴリズムであるSimGNNをケーススタディとして使用し、アーキテクチャの有効性を実証する。 実験により,SPA-GCNはマルチコアCPU実装やGPU実装と比較して高速に動作できることが示され,設計の効率性が示された。

While there have been many studies on hardware acceleration for deep learning on images, there has been a rather limited focus on accelerating deep learning applications involving graphs. The unique characteristics of graphs, such as the irregular memory access and dynamic parallelism, impose several challenges when the algorithm is mapped to a CPU or GPU. To address these challenges while exploiting all the available sparsity, we propose a flexible architecture called SPA-GCN for accelerating Graph Convolutional Networks (GCN), the core computation unit in deep learning algorithms on graphs. The architecture is specialized for dealing with many small graphs since the graph size has a significant impact on design considerations. In this context, we use SimGNN, a neural-network-based graph matching algorithm, as a case study to demonstrate the effectiveness of our architecture. The experimental results demonstrate that SPA-GCN can deliver a high speedup compared to a multi-core CPU implementation and a GPU implementation, showing the efficiency of our design.
翻訳日:2021-11-12 15:31:24 公開日:2021-11-10
# 解釈可能な機械学習によるメタマテリアルの隠れパターンの把握

How to See Hidden Patterns in Metamaterials with Interpretable Machine Learning ( http://arxiv.org/abs/2111.05949v1 )

ライセンス: Link先を確認
Zhi Chen, Alexander Ogren, Chiara Daraio, L. Catherine Brinson, Cynthia Rudin(参考訳) メタマテリアルは幾何学的ミクロ構造とメソ構造の複合材料であり、ポアソンの負の比や超低せん断抵抗など、珍しい物理的性質をもたらす。 周期的メタマテリアルは繰り返し単位セルで構成され、これらの単位セル内の幾何学的パターンは弾性波や音響波の伝播や制御分散に影響を与える。 本研究では,その動的特性を明らかにする材料単位セルのパターンを見つけるための,新しい解釈可能なマルチレゾリューション機械学習フレームワークを開発する。 具体的には、形状周波数特徴と単位セルテンプレートと呼ばれるメタマテリアルの2つの新しい解釈可能な表現を提案する。 これらの特徴クラスを使って構築された機械学習モデルは、動的材料特性を正確に予測することができる。 これらの特徴表現(特にユニットセルテンプレート)は、より高い解像度の設計で操作できる有用な特性を持っている。 形状周波数特徴や単位セルテンプレートを用いて,より微細な解像度設計空間に確実に移行可能な重要な粗いスケールパターンを学習することにより,粗いスケール物理を変えることなく,単位セルの微細な解像度特徴をほぼ自由に設計することができる。 このマルチレゾリューションアプローチにより、波の伝搬を許容または許容する周波数範囲(周波数帯域)を持つ材料を設計できる(周波数帯域ギャップ)。 1) 材料科学における一般的な機械学習アプローチとは異なり, モデルは解釈可能であること, (2) マルチレゾリューション特性を活用すること, (3) 設計柔軟性を提供すること, である。

Metamaterials are composite materials with engineered geometrical micro- and meso-structures that can lead to uncommon physical properties, like negative Poisson's ratio or ultra-low shear resistance. Periodic metamaterials are composed of repeating unit-cells, and geometrical patterns within these unit-cells influence the propagation of elastic or acoustic waves and control dispersion. In this work, we develop a new interpretable, multi-resolution machine learning framework for finding patterns in the unit-cells of materials that reveal their dynamic properties. Specifically, we propose two new interpretable representations of metamaterials, called shape-frequency features and unit-cell templates. Machine learning models built using these feature classes can accurately predict dynamic material properties. These feature representations (particularly the unit-cell templates) have a useful property: they can operate on designs of higher resolutions. By learning key coarse scale patterns that can be reliably transferred to finer resolution design space via the shape-frequency features or unit-cell templates, we can almost freely design the fine resolution features of the unit-cell without changing coarse scale physics. Through this multi-resolution approach, we are able to design materials that possess target frequency ranges in which waves are allowed or disallowed to propagate (frequency bandgaps). Our approach yields major benefits: (1) unlike typical machine learning approaches to materials science, our models are interpretable, (2) our approaches leverage multi-resolution properties, and (3) our approach provides design flexibility.
翻訳日:2021-11-12 15:31:06 公開日:2021-11-10
# レプリカ量子アドバンテージのための階層構造

A Hierarchy for Replica Quantum Advantage ( http://arxiv.org/abs/2111.05874v1 )

ライセンス: Link先を確認
Sitan Chen, Jordan Cotler, Hsin-Yuan Huang, Jerry Li(参考訳) 同時に$n$-qubit 状態 $\rho$ のレプリカを少なくとも$k$ で絡み合った測定を行うことができるとすれば、学習には少なくとも 2^n / k^2$ の測度を必要とする$\rho$ という性質が存在する。 しかし、同じ性質は、多くのレプリカ多項式を$k, n$で絡めて測定できるかどうかを知るために1つの測度しか必要としない。 上記各正の整数 $k$ に対して、より効率的に実行するために徐々に多くのレプリカを必要とするタスクの階層を得る。 我々は、この結果を確立するための強力な証明手法を導入し、量子状態の混合性をテストするための新しい境界を提供する。

We prove that given the ability to make entangled measurements on at most $k$ replicas of an $n$-qubit state $\rho$ simultaneously, there is a property of $\rho$ which requires at least order $2^n / k^2$ measurements to learn. However, the same property only requires one measurement to learn if we can make an entangled measurement over a number of replicas polynomial in $k, n$. Because the above holds for each positive integer $k$, we obtain a hierarchy of tasks necessitating progressively more replicas to be performed efficiently. We introduce a powerful proof technique to establish our results, and also use this to provide new bounds for testing the mixedness of a quantum state.
翻訳日:2021-11-12 15:28:25 公開日:2021-11-10
# 量子記憶の有無による学習の指数的分離

Exponential separations between learning with and without quantum memory ( http://arxiv.org/abs/2111.05881v1 )

ライセンス: Link先を確認
Sitan Chen, Jordan Cotler, Hsin-Yuan Huang, Jerry Li(参考訳) 量子記憶のパワーを量子系と力学の学習特性に応用し、物理学や化学において非常に重要である。 多くの最先端学習アルゴリズムは、追加の外部量子メモリへのアクセスを必要とする。 このような量子メモリは先入観を必要としないが、多くの場合、量子メモリを使わないアルゴリズムはそれよりもはるかに多くのデータを必要とする。 このトレードオフは、幅広い学習問題に固有のものであることを示す。 1) 量子ビット状態 rho に対して $m$ 可観測値を持つシャドウトモグラフィーを行うには, 量子メモリを持たないアルゴリズムでは, 最悪の場合には $\omega(\min(m, 2^n))$ の rho サンプルが必要となる。 対数的因子によると、これは[HKP20]の上界と一致し、[Aar18, AR19]の開問題を完全に解決する。 2) 物理力学の対称性を明らかにするとともに, 純粋性試験のための量子メモリと非量子メモリとの指数関数的分離を確立した。 我々の分離は[acq21]の以前の作業を改善し、一般化し、量子メモリなしでより広い種類のアルゴリズムを可能にする。 (3) 量子メモリとサンプルの複雑性のトレードオフについて述べる。 すべての$n$-qubit Pauliオブザーバブルの絶対値を推定するために、$k < n$ qubitsの量子メモリを持つアルゴリズムは少なくとも$\Omega(2^{(n-k)/3})$サンプルを必要とするが、$n$-qubitの量子メモリを用いるアルゴリズムは$O(n)$サンプルのみを必要とする。 私たちが示している分離は十分に大きく、例えば数十量子ビットで既に明らかである可能性がある。 これは量子メモリを用いた学習アルゴリズムの現実的な優位性を示すための具体的な道筋を提供する。

We study the power of quantum memory for learning properties of quantum systems and dynamics, which is of great importance in physics and chemistry. Many state-of-the-art learning algorithms require access to an additional external quantum memory. While such a quantum memory is not required a priori, in many cases, algorithms that do not utilize quantum memory require much more data than those which do. We show that this trade-off is inherent in a wide range of learning problems. Our results include the following: (1) We show that to perform shadow tomography on an $n$-qubit state rho with $M$ observables, any algorithm without quantum memory requires $\Omega(\min(M, 2^n))$ samples of rho in the worst case. Up to logarithmic factors, this matches the upper bound of [HKP20] and completely resolves an open question in [Aar18, AR19]. (2) We establish exponential separations between algorithms with and without quantum memory for purity testing, distinguishing scrambling and depolarizing evolutions, as well as uncovering symmetry in physical dynamics. Our separations improve and generalize prior work of [ACQ21] by allowing for a broader class of algorithms without quantum memory. (3) We give the first tradeoff between quantum memory and sample complexity. We prove that to estimate absolute values of all $n$-qubit Pauli observables, algorithms with $k < n$ qubits of quantum memory require at least $\Omega(2^{(n-k)/3})$ samples, but there is an algorithm using $n$-qubit quantum memory which only requires $O(n)$ samples. The separations we show are sufficiently large and could already be evident, for instance, with tens of qubits. This provides a concrete path towards demonstrating real-world advantage for learning algorithms with quantum memory.
翻訳日:2021-11-12 15:28:10 公開日:2021-11-10
# 適応戦略選択のための機械学習を用いたポートフォリオ管理のためのメタ手法

A Meta-Method for Portfolio Management Using Machine Learning for Adaptive Strategy Selection ( http://arxiv.org/abs/2111.05935v1 )

ライセンス: Link先を確認
Damian Kisiel and Denise Gorse(参考訳) 本研究は,バイオインフォマティクスなどの分野におけるメタアプローチの成功に触発された,新たなポートフォリオ管理手法であるMeta Portfolio Method (MPM)を提案する。 MPMはXGBoostを使用して、2つのリスクベースのポートフォリオ割り当て戦略、階層的リスクパリティ(HRP)とより古典的なナシブリスクパリティ(NRP)の切り替え方法を学ぶ。 MPMは、それぞれの戦略の最も優れた特徴(市場上昇時のNRPの急速な成長、市場混乱時の縮小に対するHRPの保護)をうまく活用できることが示されている。 その結果、MPMはシャープ比で測定されるように、優れたアウト・オブ・サンプルリスク・リワードプロファイルを持ち、さらに資産配分決定の高い解釈性を提供することが示された。

This work proposes a novel portfolio management technique, the Meta Portfolio Method (MPM), inspired by the successes of meta approaches in the field of bioinformatics and elsewhere. The MPM uses XGBoost to learn how to switch between two risk-based portfolio allocation strategies, the Hierarchical Risk Parity (HRP) and more classical Na\"ive Risk Parity (NRP). It is demonstrated that the MPM is able to successfully take advantage of the best characteristics of each strategy (the NRP's fast growth during market uptrends, and the HRP's protection against drawdowns during market turmoil). As a result, the MPM is shown to possess an excellent out-of-sample risk-reward profile, as measured by the Sharpe ratio, and in addition offers a high degree of interpretability of its asset allocation decisions.
翻訳日:2021-11-12 15:27:33 公開日:2021-11-10
# 価値感と持続可能なバスケットレコメンデーションのための多目的最適化

Multi-Objective Optimization for Value-Sensitive and Sustainable Basket Recommendations ( http://arxiv.org/abs/2111.05944v1 )

ライセンス: Link先を確認
Thomas Asikis(参考訳) 持続可能な消費は、サービスや製品の使用による環境および社会的影響を最小限にすることを目的としている。 サービスや製品の過剰消費は、商品やサービスへのアクセスがより困難になるにつれて、潜在的な天然資源の枯渇と社会的不平等につながる。 日常生活において、人はライフスタイルの選択を劇的に変え、個人の価値観や願望に逆らって、より持続可能な購入を達成することができる。 逆に、環境や個人の目標を達成しようとすると、潜在的なトレードオフが発生するため、個人価値を考慮しながら持続可能な消費を達成することがより複雑な作業である。 本稿では、消費者が個人的価値を尊重しながら購入の持続可能性を向上させることができるレコメンデーションシステムの価値感受性設計に焦点を当てる。 持続的消費に対する価値に敏感な推奨は、異なる持続可能性目標と個人的価値を表す多目的最適化問題として定式化されている。 新規かつ既存の多目的アルゴリズムはこの問題の解を計算する。 ソリューションは、消費者にパーソナライズされたサステナブルバスケットレコメンデーションとして提案されている。 これらの勧告は、関連する科学的および組織的なレポートから3つの確立された実世界のデータセットからなる合成データセットで評価される。 合成データセットは、製品価格、栄養価、温室効果ガスの排出や水のフットプリントなどの環境影響指標に関する定量的データを含む。 推奨されるバスケットは、消費者が購入したバスケットと非常によく似ており、持続可能性目標と健康、支出、味に関連する個人的価値の両方に対応している。 消費者がわずかな勧告を受諾しても、環境への影響は相当に減少する。

Sustainable consumption aims to minimize the environmental and societal impact of the use of services and products. Over-consumption of services and products leads to potential natural resource exhaustion and societal inequalities, as access to goods and services becomes more challenging. In everyday life, a person can simply achieve more sustainable purchases by drastically changing their lifestyle choices and potentially going against their personal values or wishes. Conversely, achieving sustainable consumption while accounting for personal values is a more complex task, as potential trade-offs arise when trying to satisfy environmental and personal goals. This article focuses on value-sensitive design of recommender systems, which enable consumers to improve the sustainability of their purchases while respecting their personal values. Value-sensitive recommendations for sustainable consumption are formalized as a multi-objective optimization problem, where each objective represents different sustainability goals and personal values. Novel and existing multi-objective algorithms calculate solutions to this problem. The solutions are proposed as personalized sustainable basket recommendations to consumers. These recommendations are evaluated on a synthetic dataset, which comprises three established real-world datasets from relevant scientific and organizational reports. The synthetic dataset contains quantitative data on product prices, nutritional values and environmental impact metrics, such as greenhouse gas emissions and water footprint. The recommended baskets are highly similar to consumer purchased baskets and aligned with both sustainability goals and personal values relevant to health, expenditure and taste. Even when consumers would accept only a fraction of recommendations, a considerable reduction of environmental impact is observed.
翻訳日:2021-11-12 15:06:55 公開日:2021-11-10
# Scaling ASRはゼロとほとんどショット学習を改善した

Scaling ASR Improves Zero and Few Shot Learning ( http://arxiv.org/abs/2111.05948v1 )

ライセンス: Link先を確認
Alex Xiao, Weiyi Zheng, Gil Keren, Duc Le, Frank Zhang, Christian Fuegen, Ozlem Kalinli, Yatharth Saraf, Abdelrahman Mohamed(参考訳) 120カ国の10の異なるソースから450万時間に及ぶ英語音声と、最大100億のパラメータのモデルを用いて、自動音声認識のためのスケールのフロンティアを探索する。 大規模データセットでもっとも有用なサンプルを見つけるために,トレーニングデータを効率的にスケールするためのデータ選択手法を提案する。 モデルサイズを効率的にスケールするために、スパーストランスデューサ損失やモデルシャーディングといった様々な最適化を利用する。 1-10Bパラメータのユニバーサル英語ASRモデルを訓練することにより、音声認識性能の限界を多くの領域に広げる。 さらに,本モデルでは,新しいドメインやスタイルの音声に対して,ゼロおよび少数ショットの能力を持つ強力な音声表現を学習し,複数の社内および公開ベンチマークで過去の結果を上回った。 脳損傷による障害のある話者に対して、私たちの最高のゼロショットモデルと少数ショットモデルはそれぞれ、AphasiaBankのテストセットで22%と60%の改善を実現し、パブリックなソーシャルメディアビデオで最高のパフォーマンスを実現しました。 さらに、同じユニバーサルモデルは、SPGISpeechファイナンシャルドメインデータセットの500倍少ないドメインデータで同等のパフォーマンスに達する。

With 4.5 million hours of English speech from 10 different sources across 120 countries and models of up to 10 billion parameters, we explore the frontiers of scale for automatic speech recognition. We propose data selection techniques to efficiently scale training data to find the most valuable samples in massive datasets. To efficiently scale model sizes, we leverage various optimizations such as sparse transducer loss and model sharding. By training 1-10B parameter universal English ASR models, we push the limits of speech recognition performance across many domains. Furthermore, our models learn powerful speech representations with zero and few-shot capabilities on novel domains and styles of speech, exceeding previous results across multiple in-house and public benchmarks. For speakers with disorders due to brain damage, our best zero-shot and few-shot models achieve 22% and 60% relative improvement on the AphasiaBank test set, respectively, while realizing the best performance on public social media videos. Furthermore, the same universal model reaches equivalent performance with 500x less in-domain data on the SPGISpeech financial-domain dataset.
翻訳日:2021-11-12 15:05:08 公開日:2021-11-10
# 雑音学習を用いたT1強調造影MRIにおける脳転移の検出

Advancing Brain Metastases Detection in T1-Weighted Contrast-Enhanced 3D MRI using Noisy Student-based Training ( http://arxiv.org/abs/2111.05959v1 )

ライセンス: Link先を確認
Engin Dikici, Xuan V. Nguyen, Matthew Bigelow, John. L. Ryu, and Luciano M. Prevedello(参考訳) 脳転移(BM)の早期発見は、がん患者の予後に肯定的な影響を及ぼす可能性がある。 本研究では,T1強調コントラスト強調3次元磁気共鳴画像(T1c)における小型BM(直径15mm未満)検出のためのフレームワークを開発した。 このフレームワークは、ラベル付きt1cデータを使用してトレーニングされた専用の畳み込みニューラルネットワーク(cnn)を使用しており、基底真理bmセグメンテーションは放射線学者によって提供された。 本研究の目的は,無ラベルのT1cデータ(BMセグメンテーションや検出のないデータ)の大量コーパスを利用するため,ノイズの多い学生による自己学習戦略でフレームワークを前進させることである。 その結果,(1)学生と教師のCNNアーキテクチャを記述し,(2)データとモデルノーミング機構を提示し,(3)学習したBM検出感度に影響を及ぼす新しい擬似ラベル戦略を導入する。 最後に,これらを利用した半教師付き学習戦略について述べる。 ラベル付き217とラベルなし1247のT1c試験を2倍のクロスバリデーションで行った。 ラベル付き試験のみを用いたフレームワークでは、90%のbm検出感度で9.23の偽陽性が得られたが、導入された学習戦略を用いたフレームワークでは、同じ感度で9%の偽検出率(すなわち8.44)が低下した。 さらに、ラベル付きデータセットの75%と50%を用いた実験はアルゴリズムの性能劣化(それぞれ12.19と13.89の偽陽性)をもたらしたが、ノイズの多い学生ベースのトレーニング戦略(それぞれ10.79と12.37の偽陽性)では影響は低かった。

The detection of brain metastases (BM) in their early stages could have a positive impact on the outcome of cancer patients. We previously developed a framework for detecting small BM (with diameters of less than 15mm) in T1-weighted Contrast-Enhanced 3D Magnetic Resonance images (T1c) to assist medical experts in this time-sensitive and high-stakes task. The framework utilizes a dedicated convolutional neural network (CNN) trained using labeled T1c data, where the ground truth BM segmentations were provided by a radiologist. This study aims to advance the framework with a noisy student-based self-training strategy to make use of a large corpus of unlabeled T1c data (i.e., data without BM segmentations or detections). Accordingly, the work (1) describes the student and teacher CNN architectures, (2) presents data and model noising mechanisms, and (3) introduces a novel pseudo-labeling strategy factoring in the learned BM detection sensitivity of the framework. Finally, it describes a semi-supervised learning strategy utilizing these components. We performed the validation using 217 labeled and 1247 unlabeled T1c exams via 2-fold cross-validation. The framework utilizing only the labeled exams produced 9.23 false positives for 90% BM detection sensitivity; whereas, the framework using the introduced learning strategy led to ~9% reduction in false detections (i.e., 8.44) for the same sensitivity level. Furthermore, while experiments utilizing 75% and 50% of the labeled datasets resulted in algorithm performance degradation (12.19 and 13.89 false positives respectively), the impact was less pronounced with the noisy student-based training strategy (10.79 and 12.37 false positives respectively).
翻訳日:2021-11-12 15:03:38 公開日:2021-11-10
# On-Drone Deeper-yet-Compatibl e Compressionを用いたライブビデオ分析

Towards Live Video Analytics with On-Drone Deeper-yet-Compatibl e Compression ( http://arxiv.org/abs/2111.06263v1 )

ライセンス: Link先を確認
Junpeng Guo and Chunyi Peng(参考訳) 本研究では,既存のコーデック上に構築されたリアルタイムドローンによるエッジ支援ビデオ解析を実現するDCC(Deeper-yet-Compa tible Compression)を提案する。 dccは、ドローンからエッジにストリーミングされたビデオを圧縮する重要な技術的問題に取り組んでいる。 DCCは、ストリーミングされたビデオのすべてのビットがビデオ分析に等しく価値があるわけではないという事実にインスパイアされている。 ドローン特有のコンテキストとオブジェクト検出からの中間ヒントを利用して、分析品質を維持するために必要な適応的忠実度を追求する。 車両検出の実証的な応用としてDCCを試作し,その効率性を代表シナリオで検証した。 DCCは、ベースラインアプローチで9.5倍、最先端の精度で19-683%の伝送量を削減した。

In this work, we present DCC(Deeper-yet-Compa tible Compression), one enabling technique for real-time drone-sourced edge-assisted video analytics built on top of the existing codec. DCC tackles an important technical problem to compress streamed video from the drone to the edge without scarifying accuracy and timeliness of video analytical tasks performed at the edge. DCC is inspired by the fact that not every bit in streamed video is equally valuable to video analytics, which opens new compression room over the conventional analytics-oblivious video codec technology. We exploit drone-specific context and intermediate hints from object detection to pursue adaptive fidelity needed to retain analytical quality. We have prototyped DCC in one showcase application of vehicle detection and validated its efficiency in representative scenarios. DCC has reduced transmission volume by 9.5-fold over the baseline approach and 19-683% over the state-of-the-art with comparable detection accuracy.
翻訳日:2021-11-12 15:02:17 公開日:2021-11-10
# ディープグラフニューラルネットワークを用いた格子フォノン振動周波数の予測

Predicting Lattice Phonon Vibrational Frequencies Using Deep Graph Neural Networks ( http://arxiv.org/abs/2111.05885v1 )

ライセンス: Link先を確認
Nghia Nguyen, Steph-Yves Louis, Lai Wei, Kamal Choudhary, Ming Hu, Jianjun Hu(参考訳) 格子振動周波数は超伝導と同様に熱伝導率や電気伝導率などの重要な材料特性と関係している。 しかし、密度汎関数理論(DFT)法による振動周波数の計算は、材料スクリーニングにおいて多数のサンプルを計算的に要求しすぎる。 本稿では,結晶構造からの結晶振動周波数を高精度に予測するディープグラフニューラルネットワークアルゴリズムを提案する。 このアルゴリズムはゼロパディング方式を用いて振動周波数スペクトルの可変次元に対処する。 15,000 と 35,552 のサンプルを持つ2 つのデータセットのベンチマーク研究により、予測の合計 R^2$ スコアはそれぞれ0.554 と 0.724 に達することが示された。 本研究は,結晶構造のフォノンスペクトル特性を,出力次元が一定であるフォノン密度(dos)と電子dosに加えて予測するディープグラフニューラルネットワークの能力を示す。

Lattice vibration frequencies are related to many important materials properties such as thermal and electrical conductivity as well as superconductivity. However, computational calculation of vibration frequencies using density functional theory (DFT) methods is too computationally demanding for a large number of samples in materials screening. Here we propose a deep graph neural network-based algorithm for predicting crystal vibration frequencies from crystal structures with high accuracy. Our algorithm addresses the variable dimension of vibration frequency spectrum using the zero padding scheme. Benchmark studies on two data sets with 15,000 and 35,552 samples show that the aggregated $R^2$ scores of the prediction reaches 0.554 and 0.724 respectively. Our work demonstrates the capability of deep graph neural networks to learn to predict phonon spectrum properties of crystal structures in addition to phonon density of states (DOS) and electronic DOS in which the output dimension is constant.
翻訳日:2021-11-12 15:00:02 公開日:2021-11-10
# Twitchにおけるチャンネル人気に関する研究

A study on Channel Popularity in Twitch ( http://arxiv.org/abs/2111.05939v1 )

ライセンス: Link先を確認
Ha Le, Junming Wu, Louis Yu, Melissa Lynn(参考訳) 過去数十年間、インターネットユーザーがリアルタイムイベントをオンラインでホストし、彼らの体験をライブでインタラクティブなオーディエンスと共有する必要性が高まってきた。 Twitchのようなオンラインストリーミングサービスは、何百万人ものユーザーを惹きつけている。 twitchでのストリーマーの人気予測についてはほとんど研究されていない。 本稿では,ストリーマーの人気に寄与する潜在的な要因について考察する。 ストリームデータは、twitchのapiを使って4週間にわたって一貫したトラッキングを通じて収集された。 ユーザの現在の視聴者数やフォロワー数、ストリームのジャンルなど、各ユーザのストリーミング情報が収集された。 その結果,ストリーミングセッションの頻度,コンテンツの種類,ストリームの長さが,セッション中に視聴者や購読者から得られる回数を決定する重要な要因であることが判明した。

In the past few decades, there has been an increasing need for Internet users to host real time events online and to share their experiences with live, interactive audiences. Online streaming services like Twitch have attracted millions of users to stream and to spectate. There have been few studies about the prediction of streamers' popularity on Twitch. In this paper, we look at potential factors that can contribute to the popularity of streamers. Streamer data was collected through consistent tracking using Twitch's API during a 4 weeks period. Each user's streaming information such as the number of current viewers and followers, the genre of the stream etc., were collected. From the results, we found that the frequency of streaming sessions, the types of content and the length of the streams are major factors in determining how much viewers and subscribers streamers can gain during sessions.
翻訳日:2021-11-12 14:59:48 公開日:2021-11-10
# データタイリングによるグラフニューラルネットワークトレーニング

Graph Neural Network Training with Data Tiering ( http://arxiv.org/abs/2111.05894v1 )

ライセンス: Link先を確認
Seung Won Min, Kun Wu, Mert Hidayeto\u{g}lu, Jinjun Xiong, Xiang Song, Wen-mei Hwu(参考訳) グラフニューラルネットワーク(gnns)は、グラフ構造化データから学ぶことに成功し、不正検出、推薦、ナレッジグラフ推論に応用されている。 しかし、GNNを効率的に訓練することは困難である。 1)GPUメモリ容量は限られており、大規模なデータセットには不十分である。 2) グラフベースのデータ構造は不規則なデータアクセスパターンを引き起こす。 本研究では,GNNトレーニングに先立って,より頻繁にアクセスされるデータを統計的に分析し,識別する手法を提案する。 我々のデータ階層化手法は,入力グラフの構造だけでなく,実際のGNNトレーニングプロセスから得られる洞察も活用し,より高い予測結果を得る。 また,データ階層化手法により,CPU-GPU通信のオーバーヘッドを最小化する新たなデータ配置とアクセス戦略も提供する。 また、マルチGPU GNNトレーニングも考慮し、マルチGPUシステムにおける戦略の有効性を実証する。 評価の結果,CPU-GPUのトラフィックを87~95%削減し,数十億のノードと数十億のエッジを持つグラフ上でGNNを1.6~2.1倍高速化した。

Graph Neural Networks (GNNs) have shown success in learning from graph-structured data, with applications to fraud detection, recommendation, and knowledge graph reasoning. However, training GNN efficiently is challenging because: 1) GPU memory capacity is limited and can be insufficient for large datasets, and 2) the graph-based data structure causes irregular data access patterns. In this work, we provide a method to statistical analyze and identify more frequently accessed data ahead of GNN training. Our data tiering method not only utilizes the structure of input graph, but also an insight gained from actual GNN training process to achieve a higher prediction result. With our data tiering method, we additionally provide a new data placement and access strategy to further minimize the CPU-GPU communication overhead. We also take into account of multi-GPU GNN training as well and we demonstrate the effectiveness of our strategy in a multi-GPU system. The evaluation results show that our work reduces CPU-GPU traffic by 87-95% and improves the training speed of GNN over the existing solutions by 1.6-2.1x on graphs with hundreds of millions of nodes and billions of edges.
翻訳日:2021-11-12 14:33:22 公開日:2021-11-10
# 正確な全周力知覚を有するソフトサムサイズ視覚センサ

A soft thumb-sized vision-based sensor with accurate all-round force perception ( http://arxiv.org/abs/2111.05934v1 )

ライセンス: Link先を確認
Huanbo Sun, Katherine J. Kuchenbecker, Georg Martius(参考訳) 視覚ベースの触覚センサーは、安価な高解像度カメラとコンピュータビジョン技術の成功により、ロボットタッチに有望なアプローチとして登場した。 しかし、それらの物理設計とそれらが提供する情報は、実際のアプリケーションの要件をまだ満たしていない。 我々は、堅牢で、ソフトで、低コストで、視覚ベースで、親指サイズの3D触覚センサーInsightを紹介した。 内部のモノクラーカメラの周りに構築されたセンサーは、感度、堅牢性、ソフトな接触を保証するために、堅いフレームに重畳されたエラストマーの1層のみをオーバーモールドする。 さらに、インサイトはコリメータを用いて測光ステレオと構造化光を組み合わせた最初のシステムであり、容易に交換できるフレキシブル外殻の3d変形を検出する。 力情報は、イメージを3次元接触力(通常およびせん断)の空間分布にマッピングするディープニューラルネットワークによって推測される。 insight の空間分解能は 0.4 mm で、力の大きさは 0.03 n 前後で、接触面積の異なる多数の接触に対して 0.03--2 n の範囲で5度前後の力方向精度を持つ。 提示されたハードウェアとソフトウェアの設計概念は、さまざまなロボット部品に移すことができる。

Vision-based haptic sensors have emerged as a promising approach to robotic touch due to affordable high-resolution cameras and successful computer-vision techniques. However, their physical design and the information they provide do not yet meet the requirements of real applications. We present a robust, soft, low-cost, vision-based, thumb-sized 3D haptic sensor named Insight: it continually provides a directional force-distribution map over its entire conical sensing surface. Constructed around an internal monocular camera, the sensor has only a single layer of elastomer over-molded on a stiff frame to guarantee sensitivity, robustness, and soft contact. Furthermore, Insight is the first system to combine photometric stereo and structured light using a collimator to detect the 3D deformation of its easily replaceable flexible outer shell. The force information is inferred by a deep neural network that maps images to the spatial distribution of 3D contact force (normal and shear). Insight has an overall spatial resolution of 0.4 mm, force magnitude accuracy around 0.03 N, and force direction accuracy around 5 degrees over a range of 0.03--2 N for numerous distinct contacts with varying contact area. The presented hardware and software design concepts can be transferred to a wide variety of robot parts.
翻訳日:2021-11-12 14:09:33 公開日:2021-11-10
# 雑音データの最小l1ノルム補間のためのタイト境界

Tight bounds for minimum l1-norm interpolation of noisy data ( http://arxiv.org/abs/2111.05987v1 )

ライセンス: Link先を確認
Guillaume Wang, Konstantin Donhauser, Fanny Yang(参考訳) 最小の$\ell_1$-norm補間器の予測誤差に対して、位数 $\sigma^2/\log(d/n)$ の上限と下限を一致させる。 我々の結果は、$d \gg n$ のときに無視できない項に密着しており、等方的特徴とスパース基底真理に対するノイズの最小ノルム補間の漸近的一貫性を暗示する最初の例である。 我々の研究は、少なくとも$\ell_2$-norm補間のための「良性過剰フィッティング」に関する文献を補完するものであり、その特徴が効果的に低次元である場合にのみ漸近的一貫性を達成することができる。

We provide matching upper and lower bounds of order $\sigma^2/\log(d/n)$ for the prediction error of the minimum $\ell_1$-norm interpolator, a.k.a. basis pursuit. Our result is tight up to negligible terms when $d \gg n$, and is the first to imply asymptotic consistency of noisy minimum-norm interpolation for isotropic features and sparse ground truths. Our work complements the literature on "benign overfitting" for minimum $\ell_2$-norm interpolation, where asymptotic consistency can be achieved only when the features are effectively low-dimensional.
翻訳日:2021-11-12 14:08:45 公開日:2021-11-10
# Traffic4cast -- 3DResNetとスパースUNetによる大規模交通予測

Traffic4cast -- Large-scale Traffic Prediction using 3DResNet and Sparse-UNet ( http://arxiv.org/abs/2111.05990v1 )

ライセンス: Link先を確認
Bo Wang, Reza Mohajerpoor, Chen Cai, Inhi Kim, Hai L. Vu(参考訳) IARAIコンペティションのTraffic4cast 2021は、以前得られた静的および動的トラフィック情報から、都市全体の短期的な高解像度トラフィック状態を予測することを目的としている。 その目的は、過去のデータポイントを用いて、複数の大都市のサブリージョンの平均交通速度と流れの正規化を予測する機械学習モデルを構築することである。 このモデルは、新しい都市に適用できるような方法で、汎用的なものになるはずである。 時空間的特徴学習とモデリング効率を考慮して,この競争における課題に対する3DResNetとスパースUNetのアプローチを検討する。 3DResNetベースのモデルは3D畳み込みを用いて時空間の特徴を学習し、逐次畳み込み層を適用して出力の時間的関係を強化する。 Sparse-UNetモデルは時空間特徴学習のバックボーンとしてスパース畳み込みを使用する。 後者のアルゴリズムは主に入力のゼロでないデータポイントにフォーカスするため、競合精度を維持しながら計算時間を劇的に短縮する。 この結果から,提案モデルがベースラインアルゴリズムよりもはるかに優れた性能を示した。 コードと事前トレーニングされたモデルはhttps://github.com/r esuly/traffic4cast-2 021で入手できる。

The IARAI competition Traffic4cast 2021 aims to predict short-term city-wide high-resolution traffic states given the static and dynamic traffic information obtained previously. The aim is to build a machine learning model for predicting the normalized average traffic speed and flow of the subregions of multiple large-scale cities using historical data points. The model is supposed to be generic, in a way that it can be applied to new cities. By considering spatiotemporal feature learning and modeling efficiency, we explore 3DResNet and Sparse-UNet approaches for the tasks in this competition. The 3DResNet based models use 3D convolution to learn the spatiotemporal features and apply sequential convolutional layers to enhance the temporal relationship of the outputs. The Sparse-UNet model uses sparse convolutions as the backbone for spatiotemporal feature learning. Since the latter algorithm mainly focuses on non-zero data points of the inputs, it dramatically reduces the computation time, while maintaining a competitive accuracy. Our results show that both of the proposed models achieve much better performance than the baseline algorithms. The codes and pretrained models are available at https://github.com/r esuly/Traffic4Cast-2 021.
翻訳日:2021-11-12 14:06:44 公開日:2021-11-10
# SyMetric: 視覚から推定される学習ハミルトンダイナミクスの質の測定

SyMetric: Measuring the Quality of Learnt Hamiltonian Dynamics Inferred from Vision ( http://arxiv.org/abs/2111.05986v1 )

ライセンス: Link先を確認
Irina Higgins, Peter Wirnsberger, Andrew Jaegle, Aleksandar Botev(参考訳) 最近提案されたモデルクラスでは、ハミルトニアン力学による事前情報を用いて、画像のような高次元の観測から潜在力学を学ぶことを試みている。 これらのモデルは、ロボティクスや自律運転のような分野において重要な可能性を持っているが、その性能を評価する良い方法はない。既存の手法は主に画像再構成の品質に依存しており、学習された潜伏するダイナミクスの質を常に反映しているわけではない。 本研究は,既存の尺度の問題点を実証的に強調し,基礎となるハミルトン力学が忠実に捕捉されたかどうかの2値指標を含む,一連の新しい尺度を開発し,Symphlecticity Metric または SyMetric と呼ぶ。 本手法は,ハミルトニアンダイナミクスの既知の特性を活かし,復元誤差よりも基礎となるダイナミクスを捉えるモデルの能力をより識別するものである。 我々は,SyMetricを用いて,画素から潜伏ダイナミクスを推定するための先行提案モデル(HGN)の性能を大幅に向上させるアーキテクチャ選択の集合を同定する。 オリジナルのHGNとは異なり、新しいHGN++は、いくつかのデータセットに物理的に意味のあるラテントを持つ解釈可能な位相空間を発見することができる。 さらに、13のデータセットのさまざまな範囲でかなり長いロールアウトに対して安定であり、データセットのサブセットの品質が低下することなく、本質的に無限の長さのロールアウトを生成する。

A recently proposed class of models attempts to learn latent dynamics from high-dimensional observations, like images, using priors informed by Hamiltonian mechanics. While these models have important potential applications in areas like robotics or autonomous driving, there is currently no good way to evaluate their performance: existing methods primarily rely on image reconstruction quality, which does not always reflect the quality of the learnt latent dynamics. In this work, we empirically highlight the problems with the existing measures and develop a set of new measures, including a binary indicator of whether the underlying Hamiltonian dynamics have been faithfully captured, which we call Symplecticity Metric or SyMetric. Our measures take advantage of the known properties of Hamiltonian dynamics and are more discriminative of the model's ability to capture the underlying dynamics than reconstruction error. Using SyMetric, we identify a set of architectural choices that significantly improve the performance of a previously proposed model for inferring latent dynamics from pixels, the Hamiltonian Generative Network (HGN). Unlike the original HGN, the new HGN++ is able to discover an interpretable phase space with physically meaningful latents on some datasets. Furthermore, it is stable for significantly longer rollouts on a diverse range of 13 datasets, producing rollouts of essentially infinite length both forward and backwards in time with no degradation in quality on a subset of the datasets.
翻訳日:2021-11-12 13:50:06 公開日:2021-11-10
# 残留スパイクニューラルネットワークを用いた高精度特徴抽出のための鍵

Keys to Accurate Feature Extraction Using Residual Spiking Neural Networks ( http://arxiv.org/abs/2111.05955v1 )

ライセンス: Link先を確認
Alex Vicente-Sola (1), Davide L. Manna (1), Paul Kirkland (1), Gaetano Di Caterina (1), Trevor Bihl (2) ((1) University of Strathclyde, (2) Air Force Research Laboratory)(参考訳) スパイキングニューラルネットワーク(snn)は、その時間的処理能力と低スワップ(サイズ、重量、パワー)、およびニューロモルフィックハードウェアにおけるエネルギー効率の高い実装により、従来のニューラルネットワーク(ann)に代わる興味深い選択肢となっている。 しかし、snsの訓練にかかわる課題は、その正確性と応用の観点から、その性能を制限している。 したがって、より正確な特徴抽出のための学習アルゴリズムとニューラルネットワークの改善は、SNN研究における現在の優先事項の1つである。 本稿では,現代のスパイク建築の鍵となる構成要素について述べる。 ベストパフォーマンスネットワークから抽出した画像分類データセットの異なる手法を実証的に比較する。 我々は、成功しているresnet(resnet)アーキテクチャのスパイクバージョンを設計し、さまざまなコンポーネントとトレーニング戦略をテストする。 本研究は,SNN設計の最先端技術を提供し,最適な視覚特徴抽出器を構築する際の情報選択を可能にした。 最後に、我々のネットワークはCIFAR-10(94.1%)とCIFAR-100(74.5%)のデータセットで以前のSNNアーキテクチャよりも優れており、DVS-CIFAR10(71.3%)の最先端と一致する。 コードはhttps://github.com/V icenteAlex/Spiking_R esNetで公開されている。

Spiking neural networks (SNNs) have become an interesting alternative to conventional artificial neural networks (ANN) thanks to their temporal processing capabilities and their low-SWaP (Size, Weight, and Power) and energy efficient implementations in neuromorphic hardware. However the challenges involved in training SNNs have limited their performance in terms of accuracy and thus their applications. Improving learning algorithms and neural architectures for a more accurate feature extraction is therefore one of the current priorities in SNN research. In this paper we present a study on the key components of modern spiking architectures. We empirically compare different techniques in image classification datasets taken from the best performing networks. We design a spiking version of the successful residual network (ResNet) architecture and test different components and training strategies on it. Our results provide a state of the art guide to SNN design, which allows to make informed choices when trying to build the optimal visual feature extractor. Finally, our network outperforms previous SNN architectures in CIFAR-10 (94.1%) and CIFAR-100 (74.5%) datasets and matches the state of the art in DVS-CIFAR10 (71.3%), with less parameters than the previous state of the art and without the need for ANN-SNN conversion. Code available at https://github.com/V icenteAlex/Spiking_R esNet.
翻訳日:2021-11-12 13:49:05 公開日:2021-11-10
# 生体信号処理と深層学習を用いた睡眠関連障害患者群の認識

Recognition of Patient Groups with Sleep Related Disorders using Bio-signal Processing and Deep Learning ( http://arxiv.org/abs/2111.05917v1 )

ライセンス: Link先を確認
Delaram Jarchi, Javier Andreu-Perez, Mehrin Kiani, Oldrich Vysata, Jiri Kuchynka, Ales Prochazka, Saeid Sane(参考訳) 睡眠障害の正確な診断は臨床評価や治療に不可欠である。 ポリソムノグラフィ (psg) は様々な睡眠障害の検出に長い間用いられてきた。 本研究では,心電図(ecg)と心電図(emg)を用いて呼吸・運動関連睡眠障害の診断を行った。 生体信号処理は、エントロピーと統計モーメントを利用したEMG特徴を抽出し、心電図から心拍数と呼吸関連特徴を確実に抽出するための同期ウェーブレット変換(SSWT)を用いた反復パルスピーク検出アルゴリズムを開発した。 ディープラーニングフレームワークは、EMGとECG機能を組み込むように設計されている。 この枠組みは、健常者、閉塞性睡眠時無呼吸症(OSA)患者、レスレス脚症候群(RLS)患者、およびOSAおよびRSS患者の4つのグループに分類されている。 提案したDeep Learning frameworkは平均精度72%,重み付きF1スコア0.57を定式化4クラス問題に適用した。

Accurately diagnosing sleep disorders is essential for clinical assessments and treatments. Polysomnography (PSG) has long been used for detection of various sleep disorders. In this research, electrocardiography (ECG) and electromayography (EMG) have been used for recognition of breathing and movement-related sleep disorders. Bio-signal processing has been performed by extracting EMG features exploiting entropy and statistical moments, in addition to developing an iterative pulse peak detection algorithm using synchrosqueezed wavelet transform (SSWT) for reliable extraction of heart rate and breathing-related features from ECG. A deep learning framework has been designed to incorporate EMG and ECG features. The framework has been used to classify four groups: healthy subjects, patients with obstructive sleep apnea (OSA), patients with restless leg syndrome (RLS) and patients with both OSA and RLS. The proposed deep learning framework produced a mean accuracy of 72% and weighted F1 score of 0.57 across subjects for our formulated four-class problem.
翻訳日:2021-11-12 13:46:25 公開日:2021-11-10
# GNNによる混雑予測のための一般化可能なクロスグラフ埋め込み

Generalizable Cross-Graph Embedding for GNN-based Congestion Prediction ( http://arxiv.org/abs/2111.05941v1 )

ライセンス: Link先を確認
Amur Ghose, Vincent Zhang, Yingxue Zhang, Dong Li, Wulong Liu, Mark Coates(参考訳) 現在、技術ノードのスケーリングにより、設計初期段階の正確な予測モデルは設計サイクルを大幅に削減することができる。 特に論理合成において,不適切な論理結合によるセル混雑の予測は,その後の物理実装の負担を軽減することができる。 論理合成段階における混雑予測にグラフニューラルネットワーク(GNN)を用いた手法が試みられている。 しかし、GNNのコアアイデアはメッセージパッシングフレームワーク上に構築されており、初期のロジック合成段階では実用的ではないため、適切なパフォーマンスを達成するには情報的なセル機能が必要である。 この制限に対処するために、ノード機能の品質を高めるために、与えられたネットリストへの埋め込みを直接学習できるフレームワークを提案する。 node2vec、line、deepwalkといった一般的なランダムウォークベースの埋め込みメソッドは、クロスグラフアライメントの問題と、見えないnetlistグラフへの貧弱な一般化に苦しんでいる。 このフレームワークでは,行列分解法を用いてネットリストグラフをまたいで一般化できるノード埋め込みを得るための優れた選択肢を提案する。 本稿では,並列トレーニングを保証し,大規模ネットリストのメモリ制限を満たすサブグラフレベルでの効率的なミニバッチトレーニング手法を提案する。 DREAMPLACE や OPENROAD などのオープンソース EDA ツールを,様々な利用可能な回路上で利用した。 ネットリスト上に学習した埋め込みとGNNを組み合わせることで、予測性能を改善し、新しい回路ラインに一般化し、トレーニングの効率化を実現し、実行時に90ドル以上節約できる可能性がある。

Presently with technology node scaling, an accurate prediction model at early design stages can significantly reduce the design cycle. Especially during logic synthesis, predicting cell congestion due to improper logic combination can reduce the burden of subsequent physical implementations. There have been attempts using Graph Neural Network (GNN) techniques to tackle congestion prediction during the logic synthesis stage. However, they require informative cell features to achieve reasonable performance since the core idea of GNNs is built on the message passing framework, which would be impractical at the early logic synthesis stage. To address this limitation, we propose a framework that can directly learn embeddings for the given netlist to enhance the quality of our node features. Popular random-walk based embedding methods such as Node2vec, LINE, and DeepWalk suffer from the issue of cross-graph alignment and poor generalization to unseen netlist graphs, yielding inferior performance and costing significant runtime. In our framework, we introduce a superior alternative to obtain node embeddings that can generalize across netlist graphs using matrix factorization methods. We propose an efficient mini-batch training method at the sub-graph level that can guarantee parallel training and satisfy the memory restriction for large-scale netlists. We present results utilizing open-source EDA tools such as DREAMPLACE and OPENROAD frameworks on a variety of openly available circuits. By combining the learned embedding on top of the netlist with the GNNs, our method improves prediction performance, generalizes to new circuit lines, and is efficient in training, potentially saving over $90 \%$ of runtime.
翻訳日:2021-11-12 13:33:00 公開日:2021-11-10
# ソフトセンシングトランスフォーマー:何百ものセンサーに1語の価値はある

Soft Sensing Transformer: Hundreds of Sensors are Worth a Single Word ( http://arxiv.org/abs/2111.05973v1 )

ライセンス: Link先を確認
Chao Zhang, Jaswanth Yella, Yu Huang, Xiaoye Qian, Sergei Petrov, Andrey Rzhetsky, Sthitie Bom(参考訳) 近年,AI技術の急速な発展に伴い,ソフトセンシング領域における深層学習モデルの研究が盛んに行われている。 研究者は数百のデータサンプルを100万パラメータモデルに適合させており、これらのモデルの有効性を行使するには不十分であり、産業アプリケーションで実装された場合、しばしば実行に失敗する。 この長期的課題を解決するため,我々はシーゲート技術を用いた大規模かつ高次元の時系列製造センサデータを提供する。 これらのデータセット上でのソフトセンシングトランスモデルによる産業用ビッグデータモデリングの課題と効果を実証する。 トランスフォーマーは、自然言語処理における最先端技術よりも優れており、それ以来、画像固有の帰納バイアスを導入することなくコンピュータビジョンへの直接適用でもうまく機能している。 文構造とセンサ読み取りの類似性を観察し、自然言語における文の類似性を用いて時系列で多変量センサ読み取りを行う。 高次元時系列データは、埋め込み文の同じ形状にフォーマットされ、トランスモデルに入力される。 その結果、トランスモデルは、自動エンコーダと長短期メモリ(LSTM)モデルに基づいて、ソフトセンシング分野のベンチマークモデルよりも優れていた。 私たちの知る限りでは、大規模な数値ソフトセンシングデータを用いて、オリジナルのトランスフォーマーモデルのパフォーマンスをベンチマークしたアカデミアや業界初のチームです。

With the rapid development of AI technology in recent years, there have been many studies with deep learning models in soft sensing area. However, the models have become more complex, yet, the data sets remain limited: researchers are fitting million-parameter models with hundreds of data samples, which is insufficient to exercise the effectiveness of their models and thus often fail to perform when implemented in industrial applications. To solve this long-lasting problem, we are providing large scale, high dimensional time series manufacturing sensor data from Seagate Technology to the public. We demonstrate the challenges and effectiveness of modeling industrial big data by a Soft Sensing Transformer model on these data sets. Transformer is used because, it has outperformed state-of-the-art techniques in Natural Language Processing, and since then has also performed well in the direct application to computer vision without introduction of image-specific inductive biases. We observe the similarity of a sentence structure to the sensor readings and process the multi-variable sensor readings in a time series in a similar manner of sentences in natural language. The high-dimensional time-series data is formatted into the same shape of embedded sentences and fed into the transformer model. The results show that transformer model outperforms the benchmark models in soft sensing field based on auto-encoder and long short-term memory (LSTM) models. To the best of our knowledge, we are the first team in academia or industry to benchmark the performance of original transformer model with large-scale numerical soft sensing data.
翻訳日:2021-11-12 13:32:32 公開日:2021-11-10
# マルチエージェント強化学習における吸収状態の利用と誤用について

On the Use and Misuse of Absorbing States in Multi-agent Reinforcement Learning ( http://arxiv.org/abs/2111.05992v1 )

ライセンス: Link先を確認
Andrew Cohen and Ervin Teng and Vincent-Pierre Berges and Ruo-Ping Dong and Hunter Henry and Marwan Mattar and Alexander Zook and Sujoy Ganguly(参考訳) 協調型マルチエージェント強化学習(MARL)におけるエージェントの生成と破壊は、重要な研究分野である。 現在のMARLアルゴリズムは、実験を通してグループ内のエージェントの数が固定されていると仮定することが多い。 しかし、多くの実用的な問題において、エージェントはチームメイトの前に終了することができる。 停止したエージェントは、自身の存在を超えて起こるグループの成功や失敗から学ぶ必要がある。 我々は、死後のクレジット割り当て問題として、残りのチームメイトが得た報酬からターミネートエージェントへの価値の伝達について言及する。 現在のMARL法は、エージェント群全体が終了状態に達するまでこれらのエージェントを吸収状態に配置することでこの問題に対処する。 吸収状態は、既存のアルゴリズムやAPIで修正することなく終了エージェントを処理できるが、実際の訓練効率とリソース使用の問題が存在する。 本研究は,完全連結ネットワークにおける玩具教師あり学習課題における吸収状態の量によって,サンプルの複雑さが増大するのに対して,注意は可変サイズ入力に対してより堅牢であることを示す。 そこで本研究では,吸収状態を持つ完全連結層ではなく,注意を用いた既存の最先端MARLアルゴリズムのアーキテクチャを提案する。 最後に,この新たなアーキテクチャは,エージェントがエピソード内で生成あるいは破棄されるタスクや,標準的なマルチエージェント・コーディネーションタスクにおいて,標準的なアーキテクチャを大幅に上回っていることを実証する。

The creation and destruction of agents in cooperative multi-agent reinforcement learning (MARL) is a critically under-explored area of research. Current MARL algorithms often assume that the number of agents within a group remains fixed throughout an experiment. However, in many practical problems, an agent may terminate before their teammates. This early termination issue presents a challenge: the terminated agent must learn from the group's success or failure which occurs beyond its own existence. We refer to propagating value from rewards earned by remaining teammates to terminated agents as the Posthumous Credit Assignment problem. Current MARL methods handle this problem by placing these agents in an absorbing state until the entire group of agents reaches a termination condition. Although absorbing states enable existing algorithms and APIs to handle terminated agents without modification, practical training efficiency and resource use problems exist. In this work, we first demonstrate that sample complexity increases with the quantity of absorbing states in a toy supervised learning task for a fully connected network, while attention is more robust to variable size input. Then, we present a novel architecture for an existing state-of-the-art MARL algorithm which uses attention instead of a fully connected layer with absorbing states. Finally, we demonstrate that this novel architecture significantly outperforms the standard architecture on tasks in which agents are created or destroyed within episodes as well as standard multi-agent coordination tasks.
翻訳日:2021-11-12 13:30:30 公開日:2021-11-10
# (参考訳) ニューラルネットワークを用いたCTスキャンにおけるユニバーサル病変検出 [全文訳有]

Universal Lesion Detection in CT Scans using Neural Network Ensembles ( http://arxiv.org/abs/2111.04886v2 )

ライセンス: CC BY 4.0
Tarun Mattikalli, Tejas Sudharshan Mathai, and Ronald M. Summers(参考訳) 臨床において、放射線科医は転移性病変と非転移性病変を区別する場合の病変の大きさに依存する。 病変サイズ測定の前提条件は、腫瘍の拡がりの下流評価を促進するため、その検出である。 しかし、ctスキャンでは病変の大きさや外観が異なり、放射線科医は多忙な臨床日に小さな病変を見逃すことが多い。 これらの課題を克服するために,NIH DeepLesionデータセットに存在する疑わしい病変を分類するために,最先端検出ニューラルネットワークを用いることを提案する。 さらに,False positives (FP) の最小化と検出精度の向上のために,バウンディングボックス融合技術を導入する。 最後に, 臨床用法と類似した臨床用法として, 65.17%, 感度91.67%の精度で画像4FPで, 病変の局在化に最適な検出モデルのアンサンブルを構築した。 本研究は,CT検査における病変検出法の現状を改善または維持するものである。

In clinical practice, radiologists are reliant on the lesion size when distinguishing metastatic from non-metastatic lesions. A prerequisite for lesion sizing is their detection, as it promotes the downstream assessment of tumor spread. However, lesions vary in their size and appearance in CT scans, and radiologists often miss small lesions during a busy clinical day. To overcome these challenges, we propose the use of state-of-the-art detection neural networks to flag suspicious lesions present in the NIH DeepLesion dataset for sizing. Additionally, we incorporate a bounding box fusion technique to minimize false positives (FP) and improve detection accuracy. Finally, to resemble clinical usage, we constructed an ensemble of the best detection models to localize lesions for sizing with a precision of 65.17% and sensitivity of 91.67% at 4 FP per image. Our results improve upon or maintain the performance of current state-of-the-art methods for lesion detection in challenging CT scans.
翻訳日:2021-11-12 12:12:33 公開日:2021-11-10
# (参考訳) 集中型Webクローリングのための新しいアウトリンクの予測 [全文訳有]

Prediction of new outlinks for focused Web crawling ( http://arxiv.org/abs/2111.05062v2 )

ライセンス: CC BY 4.0
Thi Kim Nhung Dang (1), Doina Bucur (1), Berk Atil (2), Guillaume Pitel (3), Frank Ruis (1), Hamidreza Kadkhodaei (1), and Nelly Litvak (1 and 4) ((1) University of Twente, The Netherlands, (2) Bogazici University, Turkey, (3) Exensa, France, (4) Eindhoven University of Technology, The Netherlands)(参考訳) 新しいハイパーリンクを発見することで、Webクローラーはインデックス化されていない新しいページを見つけることができる。 これは集中型クローラーにとって特に重要である。ウェブの特定の部分の包括的な分析を提供し、コンテンツの変更の発見よりも新しいページの発見を優先するためである。 文献では、ハイパーリンクとコンテンツの変化は、通常同時に考慮されている。 しかしながら、これらの2つのタイプの変更が必ずしも関連しているわけではないことを示す証拠もある。 さらに、変更の予測に関する多くの研究は、ページの長い履歴が利用可能であると仮定している。 本研究の目的は,新しいリンクを短時間の履歴を用いて効果的に検出する手法を提供することである。 この目的のために、私たちは1週間の間隔で10クロールのデータセットを使用します。 私たちの研究は3つの部分からなる。 まず,新しいアウトリンク数の実験的特性を解析することにより,データに対する洞察を得る。 これらの特性は、平均して時間とともに安定しているが、対象ページ(内部リンクと外部リンク)のドメイン内外へのハイパーリンクの出現には大きな差がある。 次に、リンク変更率、新しいリンクの存在、新しいリンクの数という3つのターゲットに対する統計モデルを提供する。 これらのモデルには、文献で以前に使われた機能と、本書で導入された新機能が含まれている。 特徴間の相関を解析し,その情報性について検討する。 注目すべき発見は、ターゲットページの履歴が利用できない場合、我々の新機能は、関連するページの履歴を表すもので、ターゲットページの新規リンクに対して最も予測的であることである。 最後に,集中型クローラのガイドラインとしてランク付け手法を提案し,新しいページを効率よく発見し,対応するターゲットに対して優れた性能を実現する。

Discovering new hyperlinks enables Web crawlers to find new pages that have not yet been indexed. This is especially important for focused crawlers because they strive to provide a comprehensive analysis of specific parts of the Web, thus prioritizing discovery of new pages over discovery of changes in content. In the literature, changes in hyperlinks and content have been usually considered simultaneously. However, there is also evidence suggesting that these two types of changes are not necessarily related. Moreover, many studies about predicting changes assume that long history of a page is available, which is unattainable in practice. The aim of this work is to provide a methodology for detecting new links effectively using a short history. To this end, we use a dataset of ten crawls at intervals of one week. Our study consists of three parts. First, we obtain insight in the data by analyzing empirical properties of the number of new outlinks. We observe that these properties are, on average, stable over time, but there is a large difference between emergence of hyperlinks towards pages within and outside the domain of a target page (internal and external outlinks, respectively). Next, we provide statistical models for three targets: the link change rate, the presence of new links, and the number of new links. These models include the features used earlier in the literature, as well as new features introduced in this work. We analyze correlation between the features, and investigate their informativeness. A notable finding is that, if the history of the target page is not available, then our new features, that represent the history of related pages, are most predictive for new links in the target page. Finally, we propose ranking methods as guidelines for focused crawlers to efficiently discover new pages, which achieve excellent performance with respect to the corresponding targets.
翻訳日:2021-11-12 12:07:37 公開日:2021-11-10
# (参考訳) スマートグリッドサイバーフィジカルセキュリティ強化のためのクロスレイヤ分散データ駆動フレームワーク [全文訳有]

Cross-Layered Distributed Data-driven Framework For Enhanced Smart Grid Cyber-Physical Security ( http://arxiv.org/abs/2111.05460v1 )

ライセンス: CC BY 4.0
Allen Starke, Keerthiraj Nagaraj, Cody Ruben, Nader Aljohani, Sheng Zou, Arturo Bretas, Janise McNair, Alina Zare(参考訳) スマートグリッド(sg)の研究と開発は、社会、経済、環境に大きな影響を与えるため、学界、産業、政府から多くの注目を集めてきた。 SGのセキュリティは、物理的プロセス制御を支援するための通信ネットワークへの依存が増加し、様々なサイバー脅威にさらされているため、非常に大きな課題である。 False Data Injection (FDI) 技術を用いて測定値を変更する攻撃に加えて、通信ネットワークに対する攻撃は、メッセージの傍受や不要なデータによる通信チャネルの浸水によって、電力システムのリアルタイム操作を妨害する可能性がある。 これらの攻撃に対処するには、クロスレイヤアプローチが必要だ。 本稿では,誤りsg測定データの検出と不整合なネットワーク間通信時間と伝送遅延を統合し,より信頼性が高く正確な異常検出と攻撃解釈を行うクロスレイヤーアンサンブルコルデット(cecd-as)というクロスレイヤー戦略を提案する。 数値計算の結果,cecd-asは,従来の物理ベースの状態推定や適応統計戦略を用いたアンサンブルコルデット,その他の機械学習分類に基づく検出手法など,sg計測データのみを使用する現在の手法と比較して,高いf1-scoreで複数の偽データインジェクション,dos(denial of service)およびman in the middle(mitm)攻撃を検出できることがわかった。

Smart Grid (SG) research and development has drawn much attention from academia, industry and government due to the great impact it will have on society, economics and the environment. Securing the SG is a considerably significant challenge due the increased dependency on communication networks to assist in physical process control, exposing them to various cyber-threats. In addition to attacks that change measurement values using False Data Injection (FDI) techniques, attacks on the communication network may disrupt the power system's real-time operation by intercepting messages, or by flooding the communication channels with unnecessary data. Addressing these attacks requires a cross-layer approach. In this paper a cross-layered strategy is presented, called Cross-Layer Ensemble CorrDet with Adaptive Statistics(CECD-AS), which integrates the detection of faulty SG measurement data as well as inconsistent network inter-arrival times and transmission delays for more reliable and accurate anomaly detection and attack interpretation. Numerical results show that CECD-AS can detect multiple False Data Injections, Denial of Service (DoS) and Man In The Middle (MITM) attacks with a high F1-score compared to current approaches that only use SG measurement data for detection such as the traditional physics-based State Estimation, Ensemble CorrDet with Adaptive Statistics strategy and other machine learning classification-based detection schemes.
翻訳日:2021-11-11 23:25:39 公開日:2021-11-10
# (参考訳) 劣化文書画像に対するPDEに基づくバイナライゼーションモデルの解析 [全文訳有]

Analysis of PDE-based binarization model for degraded document images ( http://arxiv.org/abs/2111.05471v1 )

ライセンス: CC BY 4.0
Uche A. Nnolim(参考訳) 本稿では,劣化文書画像に対するPDEに基づくバイナライゼーションモデルの結果について述べる。 このモデルは、その定式化においてエッジとバイナリソースの項を利用する。 以上の結果から,鮮やかなテキストや染みの少ない文書画像の有効性が示唆された。

This report presents the results of a PDE-based binarization model for degraded document images. The model utilizes an edge and binary source term in its formulation. Results indicate effectiveness for document images with bleed-through and faded text and stains to a lesser extent.
翻訳日:2021-11-11 23:00:35 公開日:2021-11-10
# (参考訳) 分散メモリの分散化に注意

Attention Approximates Sparse Distributed Memory ( http://arxiv.org/abs/2111.05498v1 )

ライセンス: CC BY 4.0
Trenton Bricken, Cengiz Pehlevan(参考訳) ディープラーニングでは注意が重要なメカニズムになっているが、なぜそんなにうまく機能するのかという直観は限られている。 そこで本研究では,Transformer Attentionが,生物学的に検証可能な連想記憶モデルであるKanerva's Sparse Distributed Memory (SDM)と密接に関連していることを示す。 我々は,これらの条件が事前学習した GPT2 Transformer モデルで満たされていることを確認した。 注意-sdmマップの意義について考察し,注意の計算と生物学的解釈について述べる。

While Attention has come to be an important mechanism in deep learning, there remains limited intuition for why it works so well. Here, we show that Transformer Attention can be closely related under certain data conditions to Kanerva's Sparse Distributed Memory (SDM), a biologically plausible associative memory model. We confirm that these conditions are satisfied in pre-trained GPT2 Transformer models. We discuss the implications of the Attention-SDM map and provide new computational and biological interpretations of Attention.
翻訳日:2021-11-11 22:56:32 公開日:2021-11-10
# (参考訳) 適応しきい値を用いた包括的話者検証 [全文訳有]

Inclusive Speaker Verification with Adaptive thresholding ( http://arxiv.org/abs/2111.05501v1 )

ライセンス: CC BY 4.0
Navdeep Jain, Hongcheng Wang(参考訳) 商業アプリケーションにおいて話者検証(SV)に基づくシステムを利用することは,性別,年齢,民族に関係なく,包括的体験を顧客に提供することが重要である。 本稿では、性別と年齢がsvに与える影響を分析し、性別と年齢の異なるグループにまたがる所望の共通誤受率(far)については、性別と年齢の異なるグループでは偽拒絶率(frr)が異なることを見出した。 希望する範囲で全ユーザに対してfrrを最適化するために,svのためのコンテキスト(性別,年齢)適応しきい値設定フレームワークを提案する。 コンテキストは、多くの実用的なアプリケーションのための事前情報として利用できる。 また,このような事前情報のない文脈をアルゴリズム的に導出する,結合性/年齢検出モデルを提案する。 提案手法は,より効率的な包摂的SVシステム構築に有効であることを示す。 具体的には, 性別別しきい値を用いて, Voxceleb1テストセットにおいて, 所望のFARに対して, FRRを低減できることを示す。 OGI児の音声コーパスの類似分析は、年齢別閾値を用いて、所望のFARに対する特定の年齢群に対するFRRを大幅に削減できることを示している。

While using a speaker verification (SV) based system in a commercial application, it is important that customers have an inclusive experience irrespective of their gender, age, or ethnicity. In this paper, we analyze the impact of gender and age on SV and find that for a desired common False Acceptance Rate (FAR) across different gender and age groups, the False Rejection Rate (FRR) is different for different gender and age groups. To optimize FRR for all users for a desired FAR, we propose a context (e.g. gender, age) adaptive thresholding framework for SV. The context can be available as prior information for many practical applications. We also propose a concatenated gender/age detection model to algorithmically derive the context in absence of such prior information. We experimentally show that our context-adaptive thresholding method is effective in building a more efficient inclusive SV system. Specifically, we show that we can reduce FRR for specific gender for a desired FAR on the voxceleb1 test set by using gender-specific thresholds. Similar analysis on OGI kids' speech corpus shows that by using an age-specific threshold, we can significantly reduce FRR for certain age groups for desired FAR.
翻訳日:2021-11-11 22:55:34 公開日:2021-11-10
# (参考訳) dacfl: 分散トポロジにおける動的平均コンセンサスに基づく連合学習 [全文訳有]

DACFL: Dynamic Average Consensus Based Federated Learning in Decentralized Topology ( http://arxiv.org/abs/2111.05505v1 )

ライセンス: CC BY 4.0
Zhikun Chen, Daofeng Li, Jinkang Zhu and Sihai Zhang(参考訳) Federated Learning(FL)は、中央パラメータサーバ(PS)が多くのローカルユーザをコーディネートして、グローバルに一貫したモデルをトレーニングする、急成長中の分散機械学習フレームワークである。 従来の連合学習は必然的にPSによる集中トポロジーに依存している。 結果としてPSが故障すると麻痺する。 このような単一障害、特にPSにおいて緩和するために、いくつかの既存の研究は、分散トポロジにおいてFLを促進するためにCDSGDやD-PSGDのような分散FL(DFL)の実装を提供してきた。 しかし、CDSGDにおけるユーザの最終モデルとD-PSGDにおけるネットワーク全体のモデル平均値との相違など、これらの手法にはまだいくつかの問題がある。 そこで本研究では,DACFLと呼ばれる新しいDFL実装を考案し,各ユーザが自身のトレーニングデータを用いてモデルをトレーニングし,その中間モデルを対称的かつ2倍の確率行列で隣人と交換する。 dacflは、各ユーザのローカルトレーニングの進捗を離散時間プロセスとして扱い、psがないときに \textit{average model} を追跡するために、first order dynamic average consensus (fodac) メソッドを使用する。 本稿では,DACFLの合理性を高めるために,i.dデータに基づく理論的収束解析も提供する。 mnist,fashion-mnist, cifar-10の実験結果は,時間不変および時間変動ネットワークトポロジーにおける解の実現可能性を検証するとともに,ほとんどの場合においてd-psgdおよびcdsgdよりもdacflの方が優れていることを宣言した。

Federated learning (FL) is a burgeoning distributed machine learning framework where a central parameter server (PS) coordinates many local users to train a globally consistent model. Conventional federated learning inevitably relies on a centralized topology with a PS. As a result, it will paralyze once the PS fails. To alleviate such a single point failure, especially on the PS, some existing work has provided decentralized FL (DFL) implementations like CDSGD and D-PSGD to facilitate FL in a decentralized topology. However, there are still some problems with these methods, e.g., significant divergence between users' final models in CDSGD and a network-wide model average necessity in D-PSGD. In order to solve these deficiency, this paper devises a new DFL implementation coined as DACFL, where each user trains its model using its own training data and exchanges the intermediate models with its neighbors through a symmetric and doubly stochastic matrix. The DACFL treats the progress of each user's local training as a discrete-time process and employs a first order dynamic average consensus (FODAC) method to track the \textit{average model} in the absence of the PS. In this paper, we also provide a theoretical convergence analysis of DACFL on the premise of i.i.d data to strengthen its rationality. The experimental results on MNIST, Fashion-MNIST and CIFAR-10 validate the feasibility of our solution in both time-invariant and time-varying network topologies, and declare that DACFL outperforms D-PSGD and CDSGD in most cases.
翻訳日:2021-11-11 22:46:31 公開日:2021-11-10
# (参考訳) 適応型複合勾配をもつ生成型逆ネットワークの訓練 [全文訳有]

Training Generative Adversarial Networks with Adaptive Composite Gradient ( http://arxiv.org/abs/2111.05508v1 )

ライセンス: CC BY 4.0
Huiqing Qi, Fang Li, Shengli Tan, Xiangyun Zhang(参考訳) 生成的敵ネットワークの幅広い応用は、訓練方法の成功の恩恵を受け、対象関数が局所的ミニマに収束することを保証する。 それでも、勾配に基づく手法の循環的挙動と、ヘッセン行列に基づくこれらの手法の高価な計算コストにより、効率的かつ競争的な訓練方法の設計は依然として難しい課題である。 本稿では,適切な条件下でのバイリニアゲームに線形収束する適応型コンポジットグラディエント(ACG)法を提案する。 理論と玩具関数実験は,提案手法が最近提案されているアルゴリズムよりも巡回動作を緩和し,収束を早めることを示唆する。 重要なことに、ACG法は双線型ゲームや一般ゲームにおいて安定な固定点を見つけるためにのみ用いられる。 ACG法は、各ステップの勾配を計算する必要がなく、将来のイテレーションで予測情報を利用することで勾配とヘッセンの計算コストを削減するため、新しい半勾配自由アルゴリズムである。 ACGと既存のアルゴリズムを線形GANと組み合わせて2種類のガウス実験を行った。 その結果, acgは従来のアルゴリズムと競合することがわかった。 DCGANを用いた4つの定値データセット(MNIST, Fashion-MNIST, CIFAR-10, CelebA)の実測実験により, ACG法はいくつかのベースラインより優れており, 本手法の優位性と有効性を示している。

The wide applications of Generative adversarial networks benefit from the successful training methods, guaranteeing that an object function converges to the local minima. Nevertheless, designing an efficient and competitive training method is still a challenging task due to the cyclic behaviors of some gradient-based ways and the expensive computational cost of these methods based on the Hessian matrix. This paper proposed the adaptive Composite Gradients (ACG) method, linearly convergent in bilinear games under suitable settings. Theory and toy-function experiments suggest that our approach can alleviate the cyclic behaviors and converge faster than recently proposed algorithms. Significantly, the ACG method is not only used to find stable fixed points in bilinear games as well as in general games. The ACG method is a novel semi-gradient-free algorithm since it does not need to calculate the gradient of each step, reducing the computational cost of gradient and Hessian by utilizing the predictive information in future iterations. We conducted two mixture of Gaussians experiments by integrating ACG to existing algorithms with Linear GANs. Results show ACG is competitive with the previous algorithms. Realistic experiments on four prevalent data sets (MNIST, Fashion-MNIST, CIFAR-10, and CelebA) with DCGANs show that our ACG method outperforms several baselines, which illustrates the superiority and efficacy of our method.
翻訳日:2021-11-11 21:54:14 公開日:2021-11-10
# (参考訳) 相互作用系における関係の潜在表現の発見 [全文訳有]

Discovering Latent Representations of Relations for Interacting Systems ( http://arxiv.org/abs/2111.05514v1 )

ライセンス: CC BY 4.0
Dohae Lee, Young Jin Oh, and In-Kwon Lee(参考訳) 実体が互いに相互作用するシステムは一般的である。 多くの相互作用するシステムでは、システムを解析するための重要な情報であるエンティティ間の関係を観察することは困難である。 近年,グラフニューラルネットワークを用いたエンティティ間の関係の発見への関心が高まっている。 しかし、関係の数が不明である場合や関係が複雑である場合、既存のアプローチを適用するのは難しい。 本稿では,関係の数が不明であるか,多種類の関係が存在する場合でも柔軟に適用可能なDiScovering Latent Relation (DSLR)モデルを提案する。 DSLRモデルの柔軟性は、離散変数ではなく潜在空間内のエンティティと、多くの種類の関係を扱うことができるデコーダの関係を表すエンコーダの設計概念から来ています。 実体間の様々な関係を持つ合成および実世界のグラフデータについて実験を行い、定性的および定量的な結果と他のアプローチとの比較を行った。 実験の結果,提案手法は未知数の複素関係を持つ動的グラフの解析に適していることがわかった。

Systems whose entities interact with each other are common. In many interacting systems, it is difficult to observe the relations between entities which is the key information for analyzing the system. In recent years, there has been increasing interest in discovering the relationships between entities using graph neural networks. However, existing approaches are difficult to apply if the number of relations is unknown or if the relations are complex. We propose the DiScovering Latent Relation (DSLR) model, which is flexibly applicable even if the number of relations is unknown or many types of relations exist. The flexibility of our DSLR model comes from the design concept of our encoder that represents the relation between entities in a latent space rather than a discrete variable and a decoder that can handle many types of relations. We performed the experiments on synthetic and real-world graph data with various relationships between entities, and compared the qualitative and quantitative results with other approaches. The experiments show that the proposed method is suitable for analyzing dynamic graphs with an unknown number of complex relations.
翻訳日:2021-11-11 21:24:17 公開日:2021-11-10
# (参考訳) 映像中の物体位置推定のための時空間メモリネットワーク [全文訳有]

Space-Time Memory Network for Sounding Object Localization in Videos ( http://arxiv.org/abs/2111.05526v1 )

ライセンス: CC BY 4.0
Sizhe Li, Yapeng Tian, Chenliang Xu(参考訳) 時間的同期と視覚と音の関連を活用することは、聴覚オブジェクトのロバストなローカライズに向けた重要なステップである。 そこで本研究では,映像中の物体位置を計測する時空間メモリネットワークを提案する。 音声と視覚のモダリティから、一様および横モードの両方の表現に対して時空間的注意を同時に学習することができる。 音声視覚オブジェクトの局所化に時空間学習を組み込むことの有効性を定量的かつ質的に示す。 本手法は,様々な複雑な視聴覚シーンを一般化し,最新の最先端手法を上回っていることを示す。

Leveraging temporal synchronization and association within sight and sound is an essential step towards robust localization of sounding objects. To this end, we propose a space-time memory network for sounding object localization in videos. It can simultaneously learn spatio-temporal attention over both uni-modal and cross-modal representations from audio and visual modalities. We show and analyze both quantitatively and qualitatively the effectiveness of incorporating spatio-temporal learning in localizing audio-visual objects. We demonstrate that our approach generalizes over various complex audio-visual scenes and outperforms recent state-of-the-art methods.
翻訳日:2021-11-11 21:06:06 公開日:2021-11-10
# (参考訳) ニューラルネットワークにおける軽量マシンアンラーニング [全文訳有]

Lightweight machine unlearning in neural network ( http://arxiv.org/abs/2111.05528v1 )

ライセンス: CC BY 4.0
Kongyang Chen, Yiwen Wang, Yao Huang(参考訳) 近年,機械学習ニューラルネットワークが人々の生活に深く浸透している。 コンビニエンスの価格としては、個人の個人情報も開示されるリスクがある。 忘れられる権利」は、個人が自分の同意に基づいて個人情報処理活動から同意を取り消す権利を有することを規定して、タイムリーに導入された。 この問題を解決するために、モデルが全てのプライベート情報のメモリを消去できる機械学習が提案されている。 モデル更新のためのリトレーニングや漸進的な学習を含む過去の研究は、しばしば余分なストレージスペースを取り込むか、ニューラルネットワークに適用するのが困難である。 本手法では, モデルへの無学習データの寄与が完全に排除されるまで, 対象モデルの重みの小さな摂動と, 残りのデータサブセットで訓練されたモデルの方向の反復を行うだけでよい。 本稿では,5つのデータセットを用いた実験により,機械学習における本手法の有効性が証明され,本手法は再学習よりも15倍高速である。

In recent years, machine learning neural network has penetrated deeply into people's life. As the price of convenience, people's private information also has the risk of disclosure. The "right to be forgotten" was introduced in a timely manner, stipulating that individuals have the right to withdraw their consent from personal information processing activities based on their consent. To solve this problem, machine unlearning is proposed, which allows the model to erase all memory of private information. Previous studies, including retraining and incremental learning to update models, often take up extra storage space or are difficult to apply to neural networks. Our method only needs to make a small perturbation of the weight of the target model and make it iterate in the direction of the model trained with the remaining data subset until the contribution of the unlearning data to the model is completely eliminated. In this paper, experiments on five datasets prove the effectiveness of our method for machine unlearning, and our method is 15 times faster than retraining.
翻訳日:2021-11-11 20:54:38 公開日:2021-11-10
# (参考訳) icdar 2021 文書視覚質問応答に関するコンペティション [全文訳有]

ICDAR 2021 Competition on Document VisualQuestion Answering ( http://arxiv.org/abs/2111.05547v1 )

ライセンス: CC BY 4.0
Rub\`en Tito, Minesh Mathew, C.V. Jawahar, Ernest Valveny, and Dimosthenis Karatzas(参考訳) 本報告では,ICDAR 2021版ドキュメント・ビジュアル・イシュー・チャレンジの結果について述べる。 このエディションは、Single Document VQAとDocument Collection VQAの以前のタスクを補完し、新たに導入されたInfographics VQAを補完する。 Infographics VQAは5000以上のインフォグラフィックイメージと30,000の質問応答ペアからなる新しいデータセットに基づいている。 Infographics VQAタスクで0.6120 ANLS、Document Collection VQAタスクで0.7743 ANLSL、Single Document VQAで0.8705 ANLSを獲得した。 本稿では,各タスクに使用するデータセットの要約,提案した各メソッドの説明,結果と性能分析について述べる。 DocVQA 2020チャレンジの第1版以降のSingle Document VQAの進捗状況も紹介されている。

In this report we present results of the ICDAR 2021 edition of the Document Visual Question Challenges. This edition complements the previous tasks on Single Document VQA and Document Collection VQA with a newly introduced on Infographics VQA. Infographics VQA is based on a new dataset of more than 5,000 infographics images and 30,000 question-answer pairs. The winner methods have scored 0.6120 ANLS in Infographics VQA task, 0.7743 ANLSL in Document Collection VQA task and 0.8705 ANLS in Single Document VQA. We present a summary of the datasets used for each task, description of each of the submitted methods and the results and analysis of their performance. A summary of the progress made on Single Document VQA since the first edition of the DocVQA 2020 challenge is also presented.
翻訳日:2021-11-11 20:34:05 公開日:2021-11-10
# (参考訳) dual self-supervision を用いた深い注意誘導グラフクラスタリング [全文訳有]

Deep Attention-guided Graph Clustering with Dual Self-supervision ( http://arxiv.org/abs/2111.05548v1 )

ライセンス: CC BY 4.0
Zhihao Peng and Hui Liu and Yuheng Jia and Junhui Hou(参考訳) 既存のディープ埋め込みクラスタリングは、機能埋め込みを学ぶための最も深いレイヤのみを考慮し、クラスタ割り当てから利用可能な識別情報をうまく利用できないため、パフォーマンスの制限が生じる。 そこで本研究では,DAGC(Double Self-supervision)を用いたディープアテンション誘導グラフクラスタリング手法を提案する。 具体的には、dagcはまず、各層におけるオートエンコーダとグラフ畳み込みネットワークの特徴を適応的に統合するためにヘテロゲニティ・アズ・アズ・フュージョンモジュールを使用し、その後、スケール・アズ・フュージョンモジュールを使用して異なる層にマルチスケールな特徴を動的に結合する。 このようなモジュールは、注意に基づくメカニズムを介して識別的特徴埋め込みを学習することができる。 さらに,クラスタ割り当てを利用してクラスタリング結果を直接取得する分散型融合モジュールを設計した。 クラスタ割り当てから識別情報を明らかにするために,三重項カルバックリーバ分岐損失を伴うソフトな自己スーパービジョン戦略と疑似スーパービジョン損失を伴うハード自己スーパービジョン戦略からなるデュアルセルフスーパービジョンソリューションを開発した。 広範な実験により,本手法が6つのベンチマークデータセットにおける最先端メソッドを一貫して上回っていることを確認した。 特に本手法は,最高のベースラインに対して18.14%以上改善する。

Existing deep embedding clustering works only consider the deepest layer to learn a feature embedding and thus fail to well utilize the available discriminative information from cluster assignments, resulting performance limitation. To this end, we propose a novel method, namely deep attention-guided graph clustering with dual self-supervision (DAGC). Specifically, DAGC first utilizes a heterogeneity-wise fusion module to adaptively integrate the features of an auto-encoder and a graph convolutional network in each layer and then uses a scale-wise fusion module to dynamically concatenate the multi-scale features in different layers. Such modules are capable of learning a discriminative feature embedding via an attention-based mechanism. In addition, we design a distribution-wise fusion module that leverages cluster assignments to acquire clustering results directly. To better explore the discriminative information from the cluster assignments, we develop a dual self-supervision solution consisting of a soft self-supervision strategy with a triplet Kullback-Leibler divergence loss and a hard self-supervision strategy with a pseudo supervision loss. Extensive experiments validate that our method consistently outperforms state-of-the-art methods on six benchmark datasets. Especially, our method improves the ARI by more than 18.14% over the best baseline.
翻訳日:2021-11-11 20:21:37 公開日:2021-11-10
# (参考訳) TomoSLAM:マイクロトモグラフィーにおける回転角補正のための因子グラフ最適化 [全文訳有]

TomoSLAM: factor graph optimization for rotation angle refinement in microtomography ( http://arxiv.org/abs/2111.05562v1 )

ライセンス: CC BY 4.0
Mark Griguletskii, Mikhail Chekanov, Oleg Shipitko(参考訳) CT(Computerd tomography)では、試料、検出器、信号源の相対軌道は、装置部品の意図的な事前プログラム運動によって引き起こされるため、伝統的に知られている。 しかし, メカニカルバックラッシュ, 回転センサ測定誤差により, 熱変形は所望の軌道と異なる。 これは断層再構成の結果の質に悪影響を及ぼす。 装置の校正や調整は、軌道の不正確さを完全に排除するものではないが、機器のメンテナンスコストを大幅に向上させる。 この問題に対する多くのアプローチは、復元過程における各プロジェクション(各時間ステップ)のサンプルに対するソースとセンサの位置の推定を自動的に改良することに基づいている。 異なる角度から物体の異なる画像を観察しながら位置修正を行う同様の問題は、ロボット工学(特に移動ロボットや自動運転車)でよく知られており、同時局在とマッピング(SLAM)と呼ばれている。 本研究の科学的新規性は、マイクロトモグラフィーにおける軌道改善の問題をSLAM問題として考察することである。 これは、X線プロジェクションからSURF(Speeded Up Robust Features)特徴を抽出し、ランダムサンプルコンセンサス(RANSAC)とのフィルタマッチングを行い、プロジェクション間の角度を計算し、ステッパーモータ制御信号と組み合わせて、回転角を改良することで実現される。

In computed tomography (CT), the relative trajectories of a sample, a detector, and a signal source are traditionally considered to be known, since they are caused by the intentional preprogrammed movement of the instrument parts. However, due to the mechanical backlashes, rotation sensor measurement errors, thermal deformations real trajectory differs from desired ones. This negatively affects the resulting quality of tomographic reconstruction. Neither the calibration nor preliminary adjustments of the device completely eliminates the inaccuracy of the trajectory but significantly increase the cost of instrument maintenance. A number of approaches to this problem are based on an automatic refinement of the source and sensor position estimate relative to the sample for each projection (at each time step) during the reconstruction process. A similar problem of position refinement while observing different images of an object from different angles is well known in robotics (particularly, in mobile robots and self-driving vehicles) and is called Simultaneous Localization And Mapping (SLAM). The scientific novelty of this work is to consider the problem of trajectory refinement in microtomography as a SLAM problem. This is achieved by extracting Speeded Up Robust Features (SURF) features from X-ray projections, filtering matches with Random Sample Consensus (RANSAC), calculating angles between projections, and using them in factor graph in combination with stepper motor control signals in order to refine rotation angles.
翻訳日:2021-11-11 20:01:53 公開日:2021-11-10
# (参考訳) 会話勧告:理論モデルと複雑度解析

Conversational Recommendation:Theor etical Model and Complexity Analysis ( http://arxiv.org/abs/2111.05578v1 )

ライセンス: CC BY 4.0
Tommaso Di Noia, Francesco Donini, Dietmar Jannach, FedelucioNarducci, Claudio Pomo(参考訳) リコメンダシステム(Recommender system)は、個々のユーザのニーズや嗜好に関する知識を用いて、パーソナライズされた方法で情報過負荷の状況に対する関心項目を見つけるのに役立つソフトウェアアプリケーションである。 対話型レコメンデーションアプローチでは、これらのニーズと嗜好は対話型マルチターンダイアログでシステムによって獲得される。 このようなダイアログを駆動する文献における一般的なアプローチは、望まれない項目の特徴や個々の項目に関する好みについて、徐々にユーザーに尋ねることである。 この文脈における中心的な研究目標は効率であり、満足のいく項目が見つかるまで必要な相互作用の数について評価される。 これは通常、ユーザに尋ねる最も良い質問について推測することで達成される。 現在、ダイアログ効率の研究はほとんど経験的であり、例えば、あるアプリケーションにおいて、質問を選択する1つの戦略が他の方法よりも優れていることを示すことを目的としている。 本研究は、理論的にドメインに依存しない会話レコメンデーションモデルを用いて実証的研究を補完する。 このモデルは、様々なアプリケーションシナリオをカバーするように設計されており、対話的アプローチの効率を形式的に、特に最適な相互作用戦略を考案する計算の複雑さに関して調査することができる。 このような理論的分析により、効率的な会話戦略を見つけることはNPハードであり、一般にはPSPACEであるが、特定の種類のカタログでは、上界はPolyLOGSPACEとなる。 実践的な観点からは、カタログ特性は個々の会話戦略の効率に強く影響を与えうるため、新しい戦略を設計する際に考慮すべきである。 実世界のデータセットから得られたデータセットに関する予備的な実証分析は、我々の発見と一致している。

Recommender systems are software applications that help users find items of interest in situations of information overload in a personalized way, using knowledge about the needs and preferences of individual users. In conversational recommendation approaches, these needs and preferences are acquired by the system in an interactive, multi-turn dialog. A common approach in the literature to drive such dialogs is to incrementally ask users about their preferences regarding desired and undesired item features or regarding individual items. A central research goal in this context is efficiency, evaluated with respect to the number of required interactions until a satisfying item is found. This is usually accomplished by making inferences about the best next question to ask to the user. Today, research on dialog efficiency is almost entirely empirical, aiming to demonstrate, for example, that one strategy for selecting questions is better than another one in a given application. With this work, we complement empirical research with a theoretical, domain-independent model of conversational recommendation. This model, which is designed to cover a range of application scenarios, allows us to investigate the efficiency of conversational approaches in a formal way, in particular with respect to the computational complexity of devising optimal interaction strategies. Through such a theoretical analysis we show that finding an efficient conversational strategy is NP-hard, and in PSPACE in general, but for particular kinds of catalogs the upper bound lowers to POLYLOGSPACE. From a practical point of view, this result implies that catalog characteristics can strongly influence the efficiency of individual conversational strategies and should therefore be considered when designing new strategies. A preliminary empirical analysis on datasets derived from a real-world one aligns with our findings.
翻訳日:2021-11-11 19:49:17 公開日:2021-11-10
# (参考訳) マルチフィデリティガウスプロセスを用いた安全なリアルタイム最適化 [全文訳有]

Safe Real-Time Optimization using Multi-Fidelity Gaussian Processes ( http://arxiv.org/abs/2111.05589v1 )

ライセンス: CC BY 4.0
Panagiotis Petsagkourakis, Benoit Chachuat, Ehecatl Antonio del Rio-Chanona(参考訳) 本稿では,不確実なプロセスのシステムモデルミスマッチを克服するリアルタイム最適化手法を提案する。 この研究の新規性は、微分自由最適化スキームと多忠実ガウス過程をベイズ最適化フレームワークに統合することにある。 提案されたスキームは、(既知の)過程モデルをエミュレートする2つのガウス過程と、測定による真の体系を用いる。 このように、低忠実度サンプルはモデルによって得られるが、高忠実度サンプルはシステムの測定によって得られる。 このフレームワークは、取得機能による探索を駆動しながら、非パラメトリックな方法でシステムの振舞いをキャプチャする。 システムの表現にガウス過程を使うことの利点は、不確実性定量化をリアルタイムで行う能力と、高い信頼性でチャンス制約を満たす能力である。 この結果は、半バッチフォトバイオリアクター最適化問題を含む数値ケーススタディで示される実用的なアプローチとなる。

This paper proposes a new class of real-time optimization schemes to overcome system-model mismatch of uncertain processes. This work's novelty lies in integrating derivative-free optimization schemes and multi-fidelity Gaussian processes within a Bayesian optimization framework. The proposed scheme uses two Gaussian processes for the stochastic system, one emulates the (known) process model, and another, the true system through measurements. In this way, low fidelity samples can be obtained via a model, while high fidelity samples are obtained through measurements of the system. This framework captures the system's behavior in a non-parametric fashion while driving exploration through acquisition functions. The benefit of using a Gaussian process to represent the system is the ability to perform uncertainty quantification in real-time and allow for chance constraints to be satisfied with high confidence. This results in a practical approach that is illustrated in numerical case studies, including a semi-batch photobioreactor optimization problem.
翻訳日:2021-11-11 19:48:08 公開日:2021-11-10
# (参考訳) 帆の風: 再利用可能な維持可能なオランダ海洋史知識グラフの開発 [全文訳有]

The Wind in Our Sails: Developing a Reusable and Maintainable Dutch Maritime History Knowledge Graph ( http://arxiv.org/abs/2111.05605v1 )

ライセンス: CC BY 4.0
Stijn Schouten, Victor de Boer, Lodewijk Petram, Marieke van Erp(参考訳) デジタルソースはかつてないほど普及しているが、効果的に利用するのは難しい。 デジタル化されたソースは、しばしば分散されるため、研究者は異なるソースの収集、解釈、調整に時間を費やすことになる。 知識グラフは、人間と機械がクエリできる唯一の接続された真実の情報源を提供することによって研究を加速することができる。 2つの設計テストサイクルの間に、歴史的海洋ドメインから4つのデータセットを知識グラフに変換する。 これらのサイクルの焦点は、他のlinked data conversionの取り組みで採用可能な、持続可能で使いやすいアプローチを作ることである。 さらに、我々のナレッジグラフは、海洋史家や他の興味のあるユーザーがオランダ東インド会社の日々の業務を統一ポータルを通じて調査できる。

Digital sources are more prevalent than ever but effectively using them can be challenging. One core challenge is that digitized sources are often distributed, thus forcing researchers to spend time collecting, interpreting, and aligning different sources. A knowledge graph can accelerate research by providing a single connected source of truth that humans and machines can query. During two design-test cycles, we convert four data sets from the historical maritime domain into a knowledge graph. The focus during these cycles is on creating a sustainable and usable approach that can be adopted in other linked data conversion efforts. Furthermore, our knowledge graph is available for maritime historians and other interested users to investigate the daily business of the Dutch East India Company through a unified portal.
翻訳日:2021-11-11 19:31:29 公開日:2021-11-10
# (参考訳) CLIP2TV:ビデオテキスト検索のためのトランスフォーマー方式に関する実証的研究 [全文訳有]

CLIP2TV: An Empirical Study on Transformer-based Methods for Video-Text Retrieval ( http://arxiv.org/abs/2111.05610v1 )

ライセンス: CC BY 4.0
Zijian Gao, Jingyu Liu, Sheng Chen, Dedan Chang, Hao Zhang, Jinwei Yuan(参考訳) 現代のビデオテキスト検索フレームワークは、ビデオエンコーダ、テキストエンコーダ、類似性ヘッドの3つの部分から構成されている。 視覚的およびテキスト的表現学習の成功により、ビデオテキスト検索の分野でもトランスフォーマーベースのエンコーダと融合法が採用されている。 本稿では,トランスフォーマー方式において重要な要素がどこにあるのかを検討するために,clip2tvを提案する。 これを実現するために,我々はまず,マルチモーダル学習に関する最近の研究を再検討し,その後,ビデオテキスト検索にいくつかの技術を導入する。 特に、CLIP2TVは、MSR-VTTデータセット上で52.9@R1を達成し、以前のSOTAよりも4.1%向上した。

Modern video-text retrieval frameworks basically consist of three parts: video encoder, text encoder and the similarity head. With the success on both visual and textual representation learning, transformer based encoders and fusion methods have also been adopted in the field of video-text retrieval. In this report, we present CLIP2TV, aiming at exploring where the critical elements lie in transformer based methods. To achieve this, We first revisit some recent works on multi-modal learning, then introduce some techniques into video-text retrieval, finally evaluate them through extensive experiments in different configurations. Notably, CLIP2TV achieves 52.9@R1 on MSR-VTT dataset, outperforming the previous SOTA result by 4.1%.
翻訳日:2021-11-11 19:19:04 公開日:2021-11-10
# (参考訳) 単一RGB画像からの形状推定のためのレバレッジ幾何学 [全文訳有]

Leveraging Geometry for Shape Estimation from a Single RGB Image ( http://arxiv.org/abs/2111.05615v1 )

ライセンス: CC BY 4.0
Florian Langer, Ignas Budvytis, Roberto Cipolla(参考訳) 単一のRGB画像から静的物体の3次元形状とポーズを予測することは、現代のコンピュータビジョンにおいて重要な研究領域である。 応用範囲は拡張現実からロボティクス、デジタルコンテンツ制作まで多岐にわたる。 通常、このタスクは直接オブジェクトの形状と不正確な予測によって実行される。 有望な研究方向は、大規模データベースからCADモデルを抽出し、画像に観察されたオブジェクトにアライメントすることで、意味のある形状予測を保証する。 しかし、既存の研究はオブジェクトの幾何学を考慮に入れておらず、特に目に見えないオブジェクトに対する不正確なオブジェクトポーズの予測に繋がる。 本稿では、rgb画像からレンダリングされたcadモデルへのクロスドメインキーポイントのマッチングが、直接予測によって得られたものと比較して、より正確なオブジェクトポーズ予測を可能にすることを示す。 さらに、キーポイントマッチングは、オブジェクトのポーズを推定するだけでなく、オブジェクト自体の形状を変更するためにも使用できることを示した。 オブジェクト検索だけで達成できる精度は、基本的に利用可能なCADモデルに限られているため、これは重要である。 形状適応は, 得られたCADモデルと観察された形状とのギャップを橋渡しする。 Pix3Dデータセットに挑戦するアプローチを示します。 提案する幾何形状予測は,実物では33.2から37.8に,見えない物では8.2から17.1に改善する。 さらに,提案する形状適応の際,cadモデルと密接に一致することなく,より正確な形状予測を行う。 コードはhttps://github.com/f lorianlanger/leverag ing_geometry_for_sha pe_estimationで公開されている。

Predicting 3D shapes and poses of static objects from a single RGB image is an important research area in modern computer vision. Its applications range from augmented reality to robotics and digital content creation. Typically this task is performed through direct object shape and pose predictions which is inaccurate. A promising research direction ensures meaningful shape predictions by retrieving CAD models from large scale databases and aligning them to the objects observed in the image. However, existing work does not take the object geometry into account, leading to inaccurate object pose predictions, especially for unseen objects. In this work we demonstrate how cross-domain keypoint matches from an RGB image to a rendered CAD model allow for more precise object pose predictions compared to ones obtained through direct predictions. We further show that keypoint matches can not only be used to estimate the pose of an object, but also to modify the shape of the object itself. This is important as the accuracy that can be achieved with object retrieval alone is inherently limited to the available CAD models. Allowing shape adaptation bridges the gap between the retrieved CAD model and the observed shape. We demonstrate our approach on the challenging Pix3D dataset. The proposed geometric shape prediction improves the AP mesh over the state-of-the-art from 33.2 to 37.8 on seen objects and from 8.2 to 17.1 on unseen objects. Furthermore, we demonstrate more accurate shape predictions without closely matching CAD models when following the proposed shape adaptation. Code is publicly available at https://github.com/f lorianlanger/leverag ing_geometry_for_sha pe_estimation .
翻訳日:2021-11-11 19:12:08 公開日:2021-11-10
# (参考訳) FabricFlowNet:フローベースのポリシーによる双方向の布操作 [全文訳有]

FabricFlowNet: Bimanual Cloth Manipulation with a Flow-based Policy ( http://arxiv.org/abs/2111.05623v1 )

ライセンス: CC BY 4.0
Thomas Weng, Sujay Bajracharya, Yufei Wang, Khush Agrawal, David Held(参考訳) 布の変形性に起因した課題である,目標指向の布操作の問題に対処する。 ビデオの動作推定に通常使用される手法である光フローは、観察とゴール画像間で対応する布のポーズを効果的に表現することもできます。 fabricflownet(ffn)は、フローを入力とアクション表現の両方として活用し、パフォーマンスを向上させる布の操作ポリシである。 FabricFlowNetはまた、望ましい目標に基づいて、双方向とシングルアームのアクションをエレガントに切り替える。 fabricflownetは、画像入力を行う最先端のモデルフリーおよびモデルベース布地操作ポリシーを著しく上回っている。 また,実世界における実世界実験を行い,実世界への効率的なシミュレートを実証した。 最後に,1枚の正方形の布をtシャツや長方形の布など他の布形に訓練する場合に一般化することを示す。 ビデオや他の補足資料はhttps://sites.google .com/view/fabricflow net.com/で入手できる。

We address the problem of goal-directed cloth manipulation, a challenging task due to the deformability of cloth. Our insight is that optical flow, a technique normally used for motion estimation in video, can also provide an effective representation for corresponding cloth poses across observation and goal images. We introduce FabricFlowNet (FFN), a cloth manipulation policy that leverages flow as both an input and as an action representation to improve performance. FabricFlowNet also elegantly switches between bimanual and single-arm actions based on the desired goal. We show that FabricFlowNet significantly outperforms state-of-the-art model-free and model-based cloth manipulation policies that take image input. We also present real-world experiments on a bimanual system, demonstrating effective sim-to-real transfer. Finally, we show that our method generalizes when trained on a single square cloth to other cloth shapes, such as T-shirts and rectangular cloths. Video and other supplementary materials are available at: https://sites.google .com/view/fabricflow net.
翻訳日:2021-11-11 19:02:30 公開日:2021-11-10
# (参考訳) 信頼できる研究環境(tre)と課題と機会からの機械学習モデル開示 [全文訳有]

Machine Learning Models Disclosure from Trusted Research Environments (TRE), Challenges and Opportunities ( http://arxiv.org/abs/2111.05628v1 )

ライセンス: CC BY 4.0
Esma Mansouri-Benssassi (1), Simon Rogers (2), Jim Smith (3), Felix Ritchie (3), Emily Jefferson (1) (1) University of Dundee (2) NHS National Services Scotland (3) University of the West of England(参考訳) trusted research environment (tre)は、研究者が機密データにアクセスできる安全で安全な環境である。 電子健康記録(EHR)、医用画像、ゲノムデータなどの医療データの成長と多様性により、一般の人工知能(AI)の利用が増加し、特に医療領域における機械学習(ML)のサブフィールドが拡大する。 これにより、トレーニングされた機械学習モデルなど、TREからの新しいタイプのアウトプットを開示したいという願望が生まれます。 TREの統計開示制御のための具体的なガイドラインやポリシーは存在するが、これらの新しいタイプの出力要求を十分にカバーしていない。 本稿では,TREにおける医療分野における機械学習の適用と公開に関する課題について述べる。 AIの導入がTREにもたらすさまざまな脆弱性について説明する。 また、トレーニングされたMLモデルの開示に関連するさまざまなタイプやリスクレベルについても紹介する。 最終的に、TREから機械学習出力を安全に開示するためのポリシーとツールを開発し、適応する新たな研究機会について説明する。

Trusted Research environments (TRE)s are safe and secure environments in which researchers can access sensitive data. With the growth and diversity of medical data such as Electronic Health Records (EHR), Medical Imaging and Genomic data, there is an increase in the use of Artificial Intelligence (AI) in general and the subfield of Machine Learning (ML) in particular in the healthcare domain. This generates the desire to disclose new types of outputs from TREs, such as trained machine learning models. Although specific guidelines and policies exists for statistical disclosure controls in TREs, they do not satisfactorily cover these new types of output request. In this paper, we define some of the challenges around the application and disclosure of machine learning for healthcare within TREs. We describe various vulnerabilities the introduction of AI brings to TREs. We also provide an introduction to the different types and levels of risks associated with the disclosure of trained ML models. We finally describe the new research opportunities in developing and adapting policies and tools for safely disclosing machine learning outputs from TREs.
翻訳日:2021-11-11 18:25:34 公開日:2021-11-10
# (参考訳) 双方向バランスを持つ並列物理形ニューラルネットワーク [全文訳有]

Parallel Physics-Informed Neural Networks with Bidirectional Balance ( http://arxiv.org/abs/2111.05641v1 )

ライセンス: CC BY 4.0
Yuhao Huang(参考訳) ディープラーニングの新たな技術として、物理情報ニューラルネットワーク(PINN)は工学における様々な偏微分方程式(PDE)の解法として広く用いられている。 しかし、実用的考察に基づくPDEは、複数の物理量と複雑な初期境界条件を含むため、PINNは間違った結果を返すことが多い。 ここでは, 多層布の伝熱問題を典型例とする。 強い相関を持つ複数の温度場によって結合され、変数の値は異なる次元間で非常に不均衡である。 古典ピンで解くことの潜在的な困難を解明し,双方向バランスを持つ並列物理形ニューラルネットワークを提案する。 詳しくは、並列解法フレームワークは、複数の多層知覚を通じて結合方程式に同期的に適合する。 さらに,データのフォワードプロセスと損失勾配のバックプロパゲーションプロセスのバランスをとるためのモジュールを2つ設計した。 この双方向バランスは、ネットワーク全体を安定的に収束させるだけでなく、PDEの様々な物理的条件を完全に学習するのに役立つ。 提案手法の有効性を検証するため,一連のアブレーション実験を行った。 その結果,本手法は解決不能な問題を解決可能とし,解決精度に優れることがわかった。

As an emerging technology in deep learning, physics-informed neural networks (PINNs) have been widely used to solve various partial differential equations (PDEs) in engineering. However, PDEs based on practical considerations contain multiple physical quantities and complex initial boundary conditions, thus PINNs often returns incorrect results. Here we take heat transfer problem in multilayer fabrics as a typical example. It is coupled by multiple temperature fields with strong correlation, and the values of variables are extremely unbalanced among different dimensions. We clarify the potential difficulties of solving such problems by classic PINNs, and propose a parallel physics-informed neural networks with bidirectional balance. In detail, our parallel solving framework synchronously fits coupled equations through several multilayer perceptions. Moreover, we design two modules to balance forward process of data and back-propagation process of loss gradient. This bidirectional balance not only enables the whole network to converge stably, but also helps to fully learn various physical conditions in PDEs. We provide a series of ablation experiments to verify the effectiveness of the proposed methods. The results show that our approach makes the PINNs unsolvable problem solvable, and achieves excellent solving accuracy.
翻訳日:2021-11-11 18:15:39 公開日:2021-11-10
# (参考訳) 社会的フラッド検出:方法・課題・分析

Social Fraud Detection Review: Methods, Challenges and Analysis ( http://arxiv.org/abs/2111.05645v1 )

ライセンス: CC BY 4.0
Saeedreza Shehnepoor, Roberto Togneri, Wei Liu, Mohammed Bennamoun(参考訳) ソーシャルレビューがウェブを席巻し、製品情報の信頼できる情報源となった。 人や企業は意思決定にそのような情報を使う。 企業はまた、ソーシャル情報を利用して偽情報を単一のユーザー、ユーザーグループ、または不正なコンテンツを生成するように訓練されたボットを使って拡散する。 多くの研究がユーザ行動に基づくアプローチを提案し、不正検出の課題に対処するためのテキストをレビューした。 総括的な文献レビューにおいて、レビュー自体、レビューを行うユーザ、レビュー中の項目の3つの重要な構成要素を考慮したフレームワークを用いて、社会不正検出をレビューする。 コンポーネント表現のために特徴が抽出されるにつれて、振る舞い、テキストベースの特徴とその組み合わせに基づいて機能レビューが提供される。 このフレームワークでは、教師なし、半教師なし、教師なし学習を含むアプローチの包括的な概要が提示される。 不正検出のための教師付きアプローチを導入し、古典とディープラーニングの2つのサブカテゴリに分類する。 ラベル付きデータセットの欠如を説明し、潜在的な解決策を提案する。 この分野の新しい研究者がより理解を深めるために,提案手法の各段階においてトピック分析と今後の方向性の概要が提供される。

Social reviews have dominated the web and become a plausible source of product information. People and businesses use such information for decision-making. Businesses also make use of social information to spread fake information using a single user, groups of users, or a bot trained to generate fraudulent content. Many studies proposed approaches based on user behaviors and review text to address the challenges of fraud detection. To provide an exhaustive literature review, social fraud detection is reviewed using a framework that considers three key components: the review itself, the user who carries out the review, and the item being reviewed. As features are extracted for the component representation, a feature-wise review is provided based on behavioral, text-based features and their combination. With this framework, a comprehensive overview of approaches is presented including supervised, semi-supervised, and unsupervised learning. The supervised approaches for fraud detection are introduced and categorized into two sub-categories; classical, and deep learning. The lack of labeled datasets is explained and potential solutions are suggested. To help new researchers in the area develop a better understanding, a topic analysis and an overview of future directions is provided in each step of the proposed systematic framework.
翻訳日:2021-11-11 18:00:34 公開日:2021-11-10
# (参考訳) アラビア語質問応答に対する事前学習型トランスフォーマーアプローチ : 比較検討 [全文訳有]

Pre-trained Transformer-Based Approach for Arabic Question Answering : A Comparative Study ( http://arxiv.org/abs/2111.05671v1 )

ライセンス: CC BY 4.0
Kholoud Alsubhi, Amani Jamal, Areej Alhothali(参考訳) 質問応答(QA)は自然言語処理(NLP)において最も困難だが広く研究されている問題の1つである。 質問回答(QA)システムは、与えられた質問に対する回答を作成しようとする。 これらの回答は、構造化されていないテキストや構造化されたテキストから生成できる。 したがって、QAはテキスト理解システムの評価に利用できる重要な研究領域であると考えられる。 大量のQA研究が英語に注がれ、最も高度な技術を調査し、最先端の成果を得た。 しかし、アラビア語のQAにおける研究努力の不足と大規模なベンチマークデータセットの欠如により、アラビア語の質問応答の進行がかなり遅い。 近年、多くの事前訓練された言語モデルがアラビア語のNLP問題に高い性能をもたらした。 本研究では、アラビア語-SQuAD、ARCD、AQAD、TyDiQA-GoldPの4つの読解データセットを用いて、アラビア語のQAに対する最先端の事前学習変換モデルを評価する。 AraBERTv2-baseモデル, AraBERTv0.2-largeモデル, AraELECTRAモデルの性能を微調整して比較した。 最後に、いくつかのモデルで得られた低性能な結果を理解し、解釈するための分析を行う。

Question answering(QA) is one of the most challenging yet widely investigated problems in Natural Language Processing (NLP). Question-answering (QA) systems try to produce answers for given questions. These answers can be generated from unstructured or structured text. Hence, QA is considered an important research area that can be used in evaluating text understanding systems. A large volume of QA studies was devoted to the English language, investigating the most advanced techniques and achieving state-of-the-art results. However, research efforts in the Arabic question-answering progress at a considerably slower pace due to the scarcity of research efforts in Arabic QA and the lack of large benchmark datasets. Recently many pre-trained language models provided high performance in many Arabic NLP problems. In this work, we evaluate the state-of-the-art pre-trained transformers models for Arabic QA using four reading comprehension datasets which are Arabic-SQuAD, ARCD, AQAD, and TyDiQA-GoldP datasets. We fine-tuned and compared the performance of the AraBERTv2-base model, AraBERTv0.2-large model, and AraELECTRA model. In the last, we provide an analysis to understand and interpret the low-performance results obtained by some models.
翻訳日:2021-11-11 17:59:33 公開日:2021-11-10
# (参考訳) 機械学習分類器におけるデータドリフトの自動検出 [全文訳有]

Automatically detecting data drift in machine learning classifiers ( http://arxiv.org/abs/2111.05672v1 )

ライセンス: CC BY 4.0
Samuel Ackerman, Orna Raz, Marcel Zalmanovici, Aviad Zlotnick(参考訳) 分類器やその他の統計に基づく機械学習(ML)技術は、トレーニングデータの様々な統計特性に基づいて一般化または学習する。 理論的あるいは実証的な性能保証をもたらす統計的MLの基礎となる前提は、トレーニングデータの分布が生産データ分布を表すことである。 この仮定はしばしば破られ、例えばデータの統計分布が変化する。 MLのパフォーマンス「データドリフト」や「ドリフト」に影響を与える変化を言う。 多くの分類技術は、結果に対する信頼度を測定する。 この尺度は実際のMLのパフォーマンスを反映していないかもしれない。 有名な例として、約60\%の信頼度で正しく分類されているパンダ画像があるが、ノイズが付加されると、99\%以上の信頼度を持つギボンに誤って分類される。 しかし,本報告では,データのドリフトを検出するために分類器の信頼度を計測できることを示唆している。 提案するラベルの分類と信頼性のみに基づくアプローチを提案し,データ分散やデータドリフトの原因となる可能性のある特徴空間の変更を警告する。 当社のアプローチは、モデル性能の低下を招き、しばしば不足または遅延する本番環境でのデータラベリングを必要としない。 3つの異なるデータセットと分類器を用いた実験により,この手法がデータドリフト検出に有効であることを示した。 これは特に、分類自体が正しいかもしれないし、正しいかもしれないし、モデル入力データを必要としないため奨励される。 偽陽性率(type-1エラー)を制御しながらドリフトを識別するために必要なデータ量を自動的に決定するために,逐次変化点テストの統計的アプローチをさらに検討する。

Classifiers and other statistics-based machine learning (ML) techniques generalize, or learn, based on various statistical properties of the training data. The assumption underlying statistical ML resulting in theoretical or empirical performance guarantees is that the distribution of the training data is representative of the production data distribution. This assumption often breaks; for instance, statistical distributions of the data may change. We term changes that affect ML performance `data drift' or `drift'. Many classification techniques compute a measure of confidence in their results. This measure might not reflect the actual ML performance. A famous example is the Panda picture that is correctly classified as such with a confidence of about 60\%, but when noise is added it is incorrectly classified as a Gibbon with a confidence of above 99\%. However, the work we report on here suggests that a classifier's measure of confidence can be used for the purpose of detecting data drift. We propose an approach based solely on classifier suggested labels and its confidence in them, for alerting on data distribution or feature space changes that are likely to cause data drift. Our approach identities degradation in model performance and does not require labeling of data in production which is often lacking or delayed. Our experiments with three different data sets and classifiers demonstrate the effectiveness of this approach in detecting data drift. This is especially encouraging as the classification itself may or may not be correct and no model input data is required. We further explore the statistical approach of sequential change-point tests to automatically determine the amount of data needed in order to identify drift while controlling the false positive rate (Type-1 error).
翻訳日:2021-11-11 17:44:15 公開日:2021-11-10
# (参考訳) COVID-19データセットにおける落とし穴の解明と再現 [全文訳有]

Explanatory Analysis and Rectification of the Pitfalls in COVID-19 Datasets ( http://arxiv.org/abs/2111.05679v1 )

ライセンス: CC BY 4.0
Samyak Prajapati, Japman Singh Monga, Shaanya Singh, Amrit Raj, Yuvraj Singh Champawat, Chandra Prakash(参考訳) 2020年の新型コロナウイルスのパンデミック以降、何百万人もの人々がこの致命的なウイルスに感染している。 ウイルスを検出できる自動検査方法を考案するために、多くの試みがなされている。 世界中の研究者が、胸部x線を使って新型コロナウイルスを検出するディープラーニングベースの手法を提案している。 しかし、研究者の大多数が使用しているChest X-Rayデータセットのバイアスの存在に関する疑問が提起されている。 本稿では,この問題に対処する2段階の方法論を提案する。 データセットにバイアスの存在を示すための方法論のステージ1の一部として、2つの実験が実施された。 その後,バイアスの影響を低減するため,画像分割,超解像,cnnベースのパイプラインと異なる画像拡張技術が,第2段階において提案されている。 InceptionResNetV2は、ヒストグラム等化で強化された胸部X線画像をトレーニングし、ステージ2で提案されたパイプラインを通過するとガンマ補正を行い、3クラス(Normal、Pneumonia、COVID-19)の分類タスクの最高精度は90.47%となった。

Since the onset of the COVID-19 pandemic in 2020, millions of people have succumbed to this deadly virus. Many attempts have been made to devise an automated method of testing that could detect the virus. Various researchers around the globe have proposed deep learning based methodologies to detect the COVID-19 using Chest X-Rays. However, questions have been raised on the presence of bias in the publicly available Chest X-Ray datasets which have been used by the majority of the researchers. In this paper, we propose a 2 staged methodology to address this topical issue. Two experiments have been conducted as a part of stage 1 of the methodology to exhibit the presence of bias in the datasets. Subsequently, an image segmentation, super-resolution and CNN based pipeline along with different image augmentation techniques have been proposed in stage 2 of the methodology to reduce the effect of bias. InceptionResNetV2 trained on Chest X-Ray images that were augmented with Histogram Equalization followed by Gamma Correction when passed through the pipeline proposed in stage 2, yielded a top accuracy of 90.47% for 3-class (Normal, Pneumonia, and COVID-19) classification task.
翻訳日:2021-11-11 17:29:55 公開日:2021-11-10
# (参考訳) 前方および後方伝播スパーシフィケーションによる効率的なニューラルネットワークトレーニング [全文訳有]

Efficient Neural Network Training via Forward and Backward Propagation Sparsification ( http://arxiv.org/abs/2111.05685v1 )

ライセンス: CC BY 4.0
Xiao Zhou, Weizhong Zhang, Zonghao Chen, Shizhe Diao, Tong Zhang(参考訳) スパーストレーニングはディープニューラルネットワークのトレーニング速度を加速し、特に大規模な現代のニューラルネットワークが大幅に過パラメータ化されているため、メモリ使用量を削減するための自然なアイデアである。 しかし、既存の手法のほとんどは、チェーンルールに基づく勾配(w.t.構造パラメータ)推定器が、少なくとも後向きの伝播ステップにおいて密度の高い計算を必要とするため、実際にはこの目標を達成することができない。 本稿では, 完全スパース・パスと後方パスを併用した効率的なスパーストレーニング手法を提案する。 まず,グローバルスパルシティ制約下での継続的最小化問題としてトレーニングプロセスを定式化する。 次に最適化プロセスを,重み更新と構造パラメータ更新に対応する2つのステップに分割する。 前回のステップでは、スパース構造を利用してスパースできる従来のチェーンルールを使用します。 後者では, チェーンルールに基づく勾配推定器を既存手法として使用する代わりに, 後方伝播を伴わない2つの前方通過しか必要とせず, 完全スパーストレーニングを実現する分散化政策勾配推定器を提案する。 勾配推定器の分散が有界であることを証明する。 実世界のデータセットに関する広範囲な実験の結果は、従来の方法と比べて、アルゴリズムはトレーニングプロセスを最大で1桁速く加速するのにはるかに効果的であることを示している。

Sparse training is a natural idea to accelerate the training speed of deep neural networks and save the memory usage, especially since large modern neural networks are significantly over-parameterized. However, most of the existing methods cannot achieve this goal in practice because the chain rule based gradient (w.r.t. structure parameters) estimators adopted by previous methods require dense computation at least in the backward propagation step. This paper solves this problem by proposing an efficient sparse training method with completely sparse forward and backward passes. We first formulate the training process as a continuous minimization problem under global sparsity constraint. We then separate the optimization process into two steps, corresponding to weight update and structure parameter update. For the former step, we use the conventional chain rule, which can be sparse via exploiting the sparse structure. For the latter step, instead of using the chain rule based gradient estimators as in existing methods, we propose a variance reduced policy gradient estimator, which only requires two forward passes without backward propagation, thus achieving completely sparse training. We prove that the variance of our gradient estimator is bounded. Extensive experimental results on real-world datasets demonstrate that compared to previous methods, our algorithm is much more effective in accelerating the training process, up to an order of magnitude faster.
翻訳日:2021-11-11 17:17:34 公開日:2021-11-10
# (参考訳) マルチスケール/不規則接線被覆によるロバスト復元 [全文訳有]

Robust reconstructions by multi-scale/irregula r tangential covering ( http://arxiv.org/abs/2111.05688v1 )

ライセンス: CC BY 4.0
Antoine Vacavant and Bertrand Kerautret and Fabien Feschet(参考訳) 本稿では,雑音の多いディジタル輪郭を幾何的に再構成するために,有形被覆アルゴリズム(minDSS)を用いる方法を提案する。 そのために、これまでの作品で紹介した最大のプリミティブによって、グラフィカルオブジェクトの表現を利用する。 輪郭の多元的および不規則な等化表現を計算することにより、1次元(一次元)間隔を求め、その後極大線分や円弧に分解した。 minDSSを最大プリミティブをサポートする1-D間隔のスパースで不規則なデータに適用することにより、入力ノイズオブジェクトを最小数のプリミティブを持つ直線または弧からなる巡回輪郭に再構成することができる。 本稿では,新しい完全パイプラインを説明し,合成データと実画像データの両方を考慮して実験評価を行う。 また,本手法は,最先端から選択した参照と,マルチスケール雑音評価プロセスを考慮したロバストな手法であることを示す。

In this paper, we propose an original manner to employ a tangential cover algorithm - minDSS - in order to geometrically reconstruct noisy digital contours. To do so, we exploit the representation of graphical objects by maximal primitives we have introduced in previous works. By calculating multi-scale and irregular isothetic representations of the contour, we obtained 1-D (one-dimensional) intervals, and achieved afterwards a decomposition into maximal line segments or circular arcs. By adapting minDSS to this sparse and irregular data of 1-D intervals supporting the maximal primitives, we are now able to reconstruct the input noisy objects into cyclic contours made of lines or arcs with a minimal number of primitives. In this work, we explain our novel complete pipeline, and present its experimental evaluation by considering both synthetic and real image data. We also show that this is a robust approach, with respect to selected references from state-of-the-art, and by considering a multi-scale noise evaluation process.
翻訳日:2021-11-11 16:56:32 公開日:2021-11-10
# (参考訳) Laplacian および Gaussian ピラミドを用いたマルチスケールシングルイメージデハージング [全文訳有]

Multi-Scale Single Image Dehazing Using Laplacian and Gaussian Pyramids ( http://arxiv.org/abs/2111.05700v1 )

ライセンス: CC0 1.0
Zhengguo Li, Haiyan Shu and Chaobing Zheng(参考訳) モデル駆動の単一画像デハジングは、その広範囲な応用により、様々な先行技術上で広く研究された。 オブジェクトの放射とヘイズの間のあいまいさと空域のノイズ増幅は、モデル駆動単一画像デハジングの2つの本質的な問題である。 本稿では,従来の問題に対処する暗直減衰前処理(DDAP)を提案する。 画像の微細な構造を維持しつつ、より小さな半径の重み付き誘導画像フィルタによりさらに形態的アーティファクトを低減できるddapによって引き起こされる形態的アーティファクトを低減できる新しいヘイズ線平均化法を提案する。 そこで,ラプラシアンピラミッドとグアッシアンピラミッドを用いて,ハザイ像を異なるレベルに分解し,異なるハズ除去法とノイズ低減法を適用して,ピラミッドの異なるレベルにおけるシーンの輝度を復元することで,後者の問題に対処するマルチスケールデヘイジングアルゴリズムを提案する。 得られたピラミッドは崩壊し、無煙像を復元する。 実験結果から,提案アルゴリズムは工芸デハジングアルゴリズムの状態よりも優れており,空域での騒音の増幅が防止されていることがわかった。

Model driven single image dehazing was widely studied on top of different priors due to its extensive applications. Ambiguity between object radiance and haze and noise amplification in sky regions are two inherent problems of model driven single image dehazing. In this paper, a dark direct attenuation prior (DDAP) is proposed to address the former problem. A novel haze line averaging is proposed to reduce the morphological artifacts caused by the DDAP which enables a weighted guided image filter with a smaller radius to further reduce the morphological artifacts while preserve the fine structure in the image. A multi-scale dehazing algorithm is then proposed to address the latter problem by adopting Laplacian and Guassian pyramids to decompose the hazy image into different levels and applying different haze removal and noise reduction approaches to restore the scene radiance at different levels of the pyramid. The resultant pyramid is collapsed to restore a haze-free image. Experiment results demonstrate that the proposed algorithm outperforms state of the art dehazing algorithms and the noise is indeed prevented from being amplified in the sky region.
翻訳日:2021-11-11 16:45:20 公開日:2021-11-10
# (参考訳) 先行知識とcnnを併用した単一画像デハジング [全文訳有]

Single image dehazing via combining the prior knowledge and CNNs ( http://arxiv.org/abs/2111.05701v1 )

ライセンス: CC BY 4.0
Yuwen Li, Chaobing Zheng, Shiqian Wu, Wangming Xu(参考訳) 先行知識と仮定に基づく既存の単一画像haze除去アルゴリズムを目標として,実用上の制約が多数存在し,ノイズやhalo増幅に支障をきたす可能性がある。 本稿では,事前知識と深層学習を組み合わせることで欠陥を低減できるエンド・ツー・エンドシステムを提案する。 ヘイズ画像をベース層と詳細層にまず重み付きガイド画像フィルタ(WGIF)を介して分解し、ベース層からエアライトを推定する。 そして、基地層画像を効率的な深部畳み込みネットワークに渡して送信マップを推定する。 空や濃厚なシーンのノイズを増幅することなく、カメラに近い物体を完全に復元するため、送信マップの値に基づいて適応戦略を提案する。 画素の送信マップが小さい場合は、最終的に、haze画像のベース層を使用して、大気散乱モデルを介してhazeフリー画像を回収する。 さもなければ、ヘイズ画像が用いられる。 実験により,提案手法は既存手法よりも優れた性能を示した。

Aiming at the existing single image haze removal algorithms, which are based on prior knowledge and assumptions, subject to many limitations in practical applications, and could suffer from noise and halo amplification. An end-to-end system is proposed in this paper to reduce defects by combining the prior knowledge and deep learning method. The haze image is decomposed into the base layer and detail layers through a weighted guided image filter (WGIF) firstly, and the airlight is estimated from the base layer. Then, the base layer image is passed to the efficient deep convolutional network for estimating the transmission map. To restore object close to the camera completely without amplifying noise in sky or heavily hazy scene, an adaptive strategy is proposed based on the value of the transmission map. If the transmission map of a pixel is small, the base layer of the haze image is used to recover a haze-free image via atmospheric scattering model, finally. Otherwise, the haze image is used. Experiments show that the proposed method achieves superior performance over existing methods.
翻訳日:2021-11-11 16:24:31 公開日:2021-11-10
# (参考訳) コードのモデルに対する対実的説明 [全文訳有]

Counterfactual Explanations for Models of Code ( http://arxiv.org/abs/2111.05711v1 )

ライセンス: CC BY-SA 4.0
J\"urgen Cito, Isil Dillig, Vijayaraghavan Murali, Satish Chandra(参考訳) 機械学習(ml)モデルは、多くのソフトウェアエンジニアリングタスクにおいてますます一般的な役割を果たす。 しかし、ほとんどのモデルは今や不透明なディープニューラルネットワークを使用しているため、なぜモデルが特定の結論に達したのか、モデルの予測にどのように作用するかを開発者が理解することは困難である。 この問題に触発された本研究では,ソースコードのモデルに対する反実的説明について考察する。 このような反事実的な説明は、モデルが「考えを変える」ソースコードに対する最小限の変更を構成する。 実世界の設定でソースコードのモデルに反実的説明生成を統合する。 本稿では,現実的かつ妥当な対実的説明を見つける能力と,モデル利用者に対するそのような説明の有用性の両方に影響を及ぼす考察について述べる。 一連の実験において,ソースコード上で動作するBERTアーキテクチャに基づく3つの異なるモデルに対するアプローチの有効性について検討した。

Machine learning (ML) models play an increasingly prevalent role in many software engineering tasks. However, because most models are now powered by opaque deep neural networks, it can be difficult for developers to understand why the model came to a certain conclusion and how to act upon the model's prediction. Motivated by this problem, this paper explores counterfactual explanations for models of source code. Such counterfactual explanations constitute minimal changes to the source code under which the model "changes its mind". We integrate counterfactual explanation generation to models of source code in a real-world setting. We describe considerations that impact both the ability to find realistic and plausible counterfactual explanations, as well as the usefulness of such explanation to the user of the model. In a series of experiments we investigate the efficacy of our approach on three different models, each based on a BERT-like architecture operating over source code.
翻訳日:2021-11-11 16:12:48 公開日:2021-11-10
# (参考訳) ドイツ科学誌からのメタデータ抽出のためのマルチモーダルアプローチ [全文訳有]

Multimodal Approach for Metadata Extraction from German Scientific Publications ( http://arxiv.org/abs/2111.05736v1 )

ライセンス: CC BY 4.0
Azeddine Bouabdallah, Jorge Gavilan, Jennifer Gerbl and Prayuth Patumcharoenpol(参考訳) 今日では、メタデータ情報は著者自身によって提出されることが多い。 しかし、既存の研究論文の大部分は、メタデータ情報の欠如や不完全なものである。 ドイツの科学論文には、メタデータの抽出を文書から抽出したメタデータの正確な分類方法を必要とする非自明なタスクとする、多種多様なレイアウトがある。 本稿では,ドイツ語の論文からメタデータを抽出するためのマルチモーダル深層学習手法を提案する。 自然言語処理と画像ビジョン処理を組み合わせることで,複数種類の入力データを考える。 このモデルは,他の最先端手法と比較して,メタデータ抽出の全体的な精度を向上させることを目的としている。 より信頼性の高い抽出を実現するために、空間的特徴と文脈的特徴の両方を活用することができる。 提案手法は,約8800の文書からなるデータセットを用いて学習し,F1スコアの0.923を得ることができた。

Nowadays, metadata information is often given by the authors themselves upon submission. However, a significant part of already existing research papers have missing or incomplete metadata information. German scientific papers come in a large variety of layouts which makes the extraction of metadata a non-trivial task that requires a precise way to classify the metadata extracted from the documents. In this paper, we propose a multimodal deep learning approach for metadata extraction from scientific papers in the German language. We consider multiple types of input data by combining natural language processing and image vision processing. This model aims to increase the overall accuracy of metadata extraction compared to other state-of-the-art approaches. It enables the utilization of both spatial and contextual features in order to achieve a more reliable extraction. Our model for this approach was trained on a dataset consisting of around 8800 documents and is able to obtain an overall F1-score of 0.923.
翻訳日:2021-11-11 15:55:29 公開日:2021-11-10
# (参考訳) マルチタスクニューラルプロセス [全文訳有]

Multi-Task Neural Processes ( http://arxiv.org/abs/2111.05820v1 )

ライセンス: CC BY 4.0
Jiayi Shen, Xiantong Zhen, Marcel Worring, Ling Shao(参考訳) ニューラルプロセスは、ニューラルネットワークと確率過程の強みを組み合わせた強力なニューラル潜在変数モデルのクラスとして最近登場した。 ネットワークの関数空間にコンテキストデータをエンコードできるため、マルチタスク学習におけるタスク関連性をモデル化する新しい方法を提供する。 その可能性を調べるために,マルチタスク学習のためのニューラルプロセスの新しい変種であるマルチタスクニューラルプロセスを開発した。 特に,各タスク改善のための帰納的バイアスを提供するために,関数空間内の関連するタスクから伝達可能な知識を探索する。 そのため、階層型ベイズ推論フレームワークにおいて、各タスクが関連するタスクが提供する共有知識を予測関数のコンテキストに組み込むことができるように、関数の先行を導出する。 マルチタスクニューラルプロセスはバニラニューラルプロセスのスコープを方法論的に拡張し、マルチタスク学習のための関数空間におけるタスク関連性を調べる新しい方法を提供する。 提案したマルチタスクニューラルプロセスは、ラベル付きデータとドメインシフトの存在下で、複数のタスクを学習することができる。 マルチタスク回帰および分類タスクのためのいくつかのベンチマークにおいて、広範囲な実験的評価を行う。 その結果,マルチタスク学習における有用な知識の伝達におけるマルチタスクニューラルプロセスの有効性が示され,マルチタスク分類や脳画像セグメンテーションにおいて優れた性能が得られた。

Neural processes have recently emerged as a class of powerful neural latent variable models that combine the strengths of neural networks and stochastic processes. As they can encode contextual data in the network's function space, they offer a new way to model task relatedness in multi-task learning. To study its potential, we develop multi-task neural processes, a new variant of neural processes for multi-task learning. In particular, we propose to explore transferable knowledge from related tasks in the function space to provide inductive bias for improving each individual task. To do so, we derive the function priors in a hierarchical Bayesian inference framework, which enables each task to incorporate the shared knowledge provided by related tasks into its context of the prediction function. Our multi-task neural processes methodologically expand the scope of vanilla neural processes and provide a new way of exploring task relatedness in function spaces for multi-task learning. The proposed multi-task neural processes are capable of learning multiple tasks with limited labeled data and in the presence of domain shift. We perform extensive experimental evaluations on several benchmarks for the multi-task regression and classification tasks. The results demonstrate the effectiveness of multi-task neural processes in transferring useful knowledge among tasks for multi-task learning and superior performance in multi-task classification and brain image segmentation.
翻訳日:2021-11-11 15:45:51 公開日:2021-11-10
# ヒストリカルマカク脳セクションにおけるニューロンの個別化のためのディープラーニングトポコーダ法の評価

Evaluation of Deep Learning Topcoders Method for Neuron Individualization in Histological Macaque Brain Section ( http://arxiv.org/abs/2111.05789v1 )

ライセンス: Link先を確認
Huaqian Wu, Nicolas Souedet, Zhenzhen You, Caroline Jan, C\'edric Clouchoux, and Thierry Delzescaux(参考訳) 細胞分化は、デジタル病理画像解析において重要な役割を担っている。 ディープラーニングは、セルの個別化を含むセグメンテーションタスクの効率的なツールと考えられている。 しかし、ディープラーニングモデルの精度は、巨大な偏りのないデータセットと手動のピクセルレベルのアノテーションに依存している。 さらに、ディープラーニングのほとんどのアプリケーションは、オンコロジーデータを処理するために開発されている。 これらの課題を克服するためです 一 点アノテーションのみを提供して画素レベルラベルを合成するパイプラインを確立すること。 二) 神経データに対して細胞個別化を行うためのアンサンブル深層学習アルゴリズムをテストした。 提案手法は,平均検出精度0.93で,オブジェクトレベルとピクセルレベルの両方で神経細胞を分割することに成功した。

Cell individualization has a vital role in digital pathology image analysis. Deep Learning is considered as an efficient tool for instance segmentation tasks, including cell individualization. However, the precision of the Deep Learning model relies on massive unbiased dataset and manual pixel-level annotations, which is labor intensive. Moreover, most applications of Deep Learning have been developed for processing oncological data. To overcome these challenges, i) we established a pipeline to synthesize pixel-level labels with only point annotations provided; ii) we tested an ensemble Deep Learning algorithm to perform cell individualization on neurological data. Results suggest that the proposed method successfully segments neuronal cells in both object-level and pixel-level, with an average detection accuracy of 0.93.
翻訳日:2021-11-11 15:28:12 公開日:2021-11-10
# ニューラルレンダリングの進歩

Advances in Neural Rendering ( http://arxiv.org/abs/2111.05849v1 )

ライセンス: Link先を確認
Ayush Tewari, Justus Thies, Ben Mildenhall, Pratul Srinivasan, Edgar Tretschk, Yifan Wang, Christoph Lassner, Vincent Sitzmann, Ricardo Martin-Brualla, Stephen Lombardi, Tomas Simon, Christian Theobalt, Matthias Niessner, Jonathan T. Barron, Gordon Wetzstein, Michael Zollhoefer, Vladislav Golyanik(参考訳) フォトリアリスティック画像とビデオの合成はコンピュータグラフィックスの中心であり、数十年の研究の中心となっている。 伝統的に、シーンの合成画像はラスタライズやレイトレーシングなどのレンダリングアルゴリズムを使って生成され、幾何や物質の性質の表現を入力として具体的に定義する。 集合的に、これらの入力は実際のシーンとレンダリングしたものを定義し、シーン表現(シーンは1つ以上のオブジェクトで構成される)と呼ばれる。 例としては、テクスチャを伴う三角形メッシュ(例えば、アーティストによって作成された)、ポイントクラウド(例えば、深度センサーから)、ボリュームグリッド(例えば、ctスキャンから)、暗黙的な表面機能(例えば、トランケートされた符号付き距離場)がある。 異なるレンダリング損失を用いた観察からのシーン表現の再構成は、逆グラフィックまたは逆レンダリングとして知られている。 ニューラルレンダリングは密接に関連しており、古典的なコンピュータグラフィックスと機械学習のアイデアを組み合わせて、現実世界の観察から画像を合成するためのアルゴリズムを作成する。 ニューラルレンダリングは、写真リアリスティック画像とビデオコンテンツを合成するという目標に向かって前進している。 近年では、学習可能なコンポーネントをレンダリングパイプラインに注入するさまざまな方法を示す何百もの出版物を通じて、この分野で大きな進歩を遂げています。 ニューラルレンダリングの進歩に関する最新のレポートは、古典的なレンダリング原理と学習された3Dシーン表現を組み合わせた手法に焦点を当てている。 これらの手法の重要な利点は、これらが3D一貫性を持ち、キャプチャされたシーンの新規な視点合成のような応用を可能にすることである。 静的シーンを処理する方法に加えて、非厳密な変形オブジェクトをモデリングするためのニューラルシーン表現もカバーしています。

Synthesizing photo-realistic images and videos is at the heart of computer graphics and has been the focus of decades of research. Traditionally, synthetic images of a scene are generated using rendering algorithms such as rasterization or ray tracing, which take specifically defined representations of geometry and material properties as input. Collectively, these inputs define the actual scene and what is rendered, and are referred to as the scene representation (where a scene consists of one or more objects). Example scene representations are triangle meshes with accompanied textures (e.g., created by an artist), point clouds (e.g., from a depth sensor), volumetric grids (e.g., from a CT scan), or implicit surface functions (e.g., truncated signed distance fields). The reconstruction of such a scene representation from observations using differentiable rendering losses is known as inverse graphics or inverse rendering. Neural rendering is closely related, and combines ideas from classical computer graphics and machine learning to create algorithms for synthesizing images from real-world observations. Neural rendering is a leap forward towards the goal of synthesizing photo-realistic image and video content. In recent years, we have seen immense progress in this field through hundreds of publications that show different ways to inject learnable components into the rendering pipeline. This state-of-the-art report on advances in neural rendering focuses on methods that combine classical rendering principles with learned 3D scene representations, often now referred to as neural scene representations. A key advantage of these methods is that they are 3D-consistent by design, enabling applications such as novel viewpoint synthesis of a captured scene. In addition to methods that handle static scenes, we cover neural scene representations for modeling non-rigidly deforming objects...
翻訳日:2021-11-11 15:28:01 公開日:2021-11-10
# HASA-net:非侵入型補聴器音声評価ネットワーク

HASA-net: A non-intrusive hearing-aid speech assessment network ( http://arxiv.org/abs/2111.05691v1 )

ライセンス: Link先を確認
Hsin-Tien Chiang, Yi-Chiao Wu, Cheng Yu, Tomoki Toda, Hsin-Min Wang, Yih-Chun Hu, Yu Tsao(参考訳) クリーンな参照を必要とせず、非侵入的音声評価法は客観的評価に大きな注目を集めている。 近年,ディープニューラルネットワーク(dnn)モデルが非インタラクティブな音声評価手法の構築に応用され,有望な性能を提供することが確認されている。 しかし、ほとんどのDNNベースのアプローチは、難聴要因を考慮せずに、通常の聴取者向けに設計されている。 本研究では,双方向長短記憶モデル(blstm)を用いて,入力音声信号と特定難聴パターンに応じて,音声品質と聴力スコアを同時に予測するdnnベースの補聴器音声評価ネットワーク(hasa-net)を提案する。 我々の知る限り、HASA-Netは、DNNに基づく統合型非侵襲的補聴器モデルを用いて、品質と知性の評価を取り入れた最初の研究である。 実験結果から,HASA-Netの予測音声品質と難聴度スコアは,2つのよく知られた難聴度評価指標,補聴器音質指標(HASQI),補聴器音質指標(HASPI)と高い相関を示した。

Without the need of a clean reference, non-intrusive speech assessment methods have caught great attention for objective evaluations. Recently, deep neural network (DNN) models have been applied to build non-intrusive speech assessment approaches and confirmed to provide promising performance. However, most DNN-based approaches are designed for normal-hearing listeners without considering hearing-loss factors. In this study, we propose a DNN-based hearing aid speech assessment network (HASA-Net), formed by a bidirectional long short-term memory (BLSTM) model, to predict speech quality and intelligibility scores simultaneously according to input speech signals and specified hearing-loss patterns. To the best of our knowledge, HASA-Net is the first work to incorporate quality and intelligibility assessments utilizing a unified DNN-based non-intrusive model for hearing aids. Experimental results show that the predicted speech quality and intelligibility scores of HASA-Net are highly correlated to two well-known intrusive hearing-aid evaluation metrics, hearing aid speech quality index (HASQI) and hearing aid speech perception index (HASPI), respectively.
翻訳日:2021-11-11 15:27:33 公開日:2021-11-10
# 分散還元と再スタートを用いた線形計画のための確率的原始双対法の線形収束

Linear Convergence of Stochastic Primal Dual Methods for Linear Programming Using Variance Reduction and Restarts ( http://arxiv.org/abs/2111.05530v1 )

ライセンス: Link先を確認
Haihao Lu, Jinwen Yang(参考訳) 近年,線形プログラミング(LP)における一階法への関心が高まっている。 本稿では,lpのような鋭い素対問題を解くために分散還元と再スタートを用いた確率的アルゴリズムを提案する。 提案手法は,高確率のシャープインスタンスに対して線形収束率を示し,既存の決定論的・確率的アルゴリズムの複雑性を向上できることを示す。 さらに,非制約双線形問題に対する効率的な座標ベースの確率オラクルを提案する。これは反復コストが$\mathcal O(1)$であり,フロップ数全体の精度が向上し,精度が向上する。

There is a recent interest on first-order methods for linear programming (LP). In this paper, we propose a stochastic algorithm using variance reduction and restarts for solving sharp primal-dual problems such as LP. We show that the proposed stochastic method exhibits a linear convergence rate for sharp instances with a high probability, which improves the complexity of the existing deterministic and stochastic algorithms. In addition, we propose an efficient coordinate-based stochastic oracle for unconstrained bilinear problems, which has $\mathcal O(1)$ per iteration cost and improves the total flop counts to reach a certain accuracy.
翻訳日:2021-11-11 15:24:50 公開日:2021-11-10
# 不均質性のための最適機械学習アルゴリズムの導出

Deducing of Optimal Machine Learning Algorithms for Heterogeneity ( http://arxiv.org/abs/2111.05558v1 )

ライセンス: Link先を確認
Omar Alfarisi, Zeyar Aung and Mohamed Sassi(参考訳) 最適な機械学習アルゴリズムを定義するには、選択するべき決定が容易ではなかった。 今後の研究者を支援するため,本論文では,アルゴリズムの最適点について述べる。 合成データセットを構築し、教師付き機械学習の実行を5つの異なるアルゴリズムで実行しました。 異種性については,ランダムフォレストを最善のアルゴリズムとして同定した。

For defining the optimal machine learning algorithm, the decision was not easy for which we shall choose. To help future researchers, we describe in this paper the optimal among the best of the algorithms. We built a synthetic data set and performed the supervised machine learning runs for five different algorithms. For heterogeneity, we identified Random Forest, among others, to be the best algorithm.
翻訳日:2021-11-11 15:24:38 公開日:2021-11-10
# ネットワーク上での表現学習のためのトピック認識潜在モデル

Topic-aware latent models for representation learning on networks ( http://arxiv.org/abs/2111.05576v1 )

ライセンス: Link先を確認
Abdulkadir \c{C}elikkanat and Fragkiskos D. Malliaros(参考訳) ネットワーク表現学習(nrl)手法は,ノード分類やリンク予測,クラスタリングなど,いくつかのグラフ解析問題に成功し,ここ数年で大きな注目を集めている。 このような手法は,ネットワークの構造情報が保存されるように,ネットワークの各頂点を低次元空間にマッピングすることを目的としている。 これらの方法はネットワークをノードシーケンスの集合に変換し、シーケンス内の各ノードのコンテキストを予測することによってノード表現を学習することを目的としている。 本稿では,トピックベース情報を用いたランダムウォークベースアプローチにより取得したノードの埋め込みを強化する汎用フレームワークであるTNEを紹介する。 自然言語処理における話題単語の埋め込みの概念と同様に、提案モデルはまず、様々な統計グラフモデルとコミュニティ検出手法を用いて、各ノードを潜在コミュニティに割り当て、拡張されたトピック認識表現を学習する。 提案手法はノード分類とリンク予測という2つのダウンストリームタスクで評価する。 実験の結果,ノードとコミュニティの埋め込みを組み込むことで,広く知られているNRLモデルよりも優れた性能が得られることが示された。

Network representation learning (NRL) methods have received significant attention over the last years thanks to their success in several graph analysis problems, including node classification, link prediction, and clustering. Such methods aim to map each vertex of the network into a low-dimensional space in a way that the structural information of the network is preserved. Of particular interest are methods based on random walks; such methods transform the network into a collection of node sequences, aiming to learn node representations by predicting the context of each node within the sequence. In this paper, we introduce TNE, a generic framework to enhance the embeddings of nodes acquired by means of random walk-based approaches with topic-based information. Similar to the concept of topical word embeddings in Natural Language Processing, the proposed model first assigns each node to a latent community with the favor of various statistical graph models and community detection methods and then learns the enhanced topic-aware representations. We evaluate our methodology in two downstream tasks: node classification and link prediction. The experimental results demonstrate that by incorporating node and community embeddings, we are able to outperform widely-known baseline NRL models.
翻訳日:2021-11-11 15:24:34 公開日:2021-11-10
# DeCOM: 制約付き多エージェント強化学習のための分解政策

DeCOM: Decomposed Policy for Constrained Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2111.05670v1 )

ライセンス: Link先を確認
Zhaoxing Yang, Rong Ding, Haiming Jin, Yifei Wei, Haoyi You, Guiyun Fan, Xiaoying Gan, Xinbing Wang(参考訳) 近年, マルチエージェント強化学習 (MARL) は, 様々な応用において顕著な性能を示した。 しかしながら、物理的制限、予算制限、その他多くの要因は、従来のMARLフレームワークでは扱えないマルチエージェントシステム(MAS)に \textit{constraints} を課す。 具体的には,期待されるチーム平均コストに対するさまざまな制約の下での期待チーム平均リターンを最大化するために,エージェントが \textit{cooperatively} で作業する制約付き仮面に注目し,そのような仮面に対して \textit{constrained cooperative marl} フレームワークである decom を開発した。 特に、DeCOMは各エージェントのポリシーを2つのモジュールに分解し、エージェント間の情報共有によりより良い協力を実現する。 さらに,このようなモジュール化により,DeCOMのトレーニングアルゴリズムは,本来の制約付き最適化を,報酬に対する制約なし最適化とコストに対する制約満足度問題に分離する。 その後、DeCOMはこれらの問題を計算的に効率的な方法で反復的に解決する。 また,DeCOMのポリシー更新アルゴリズムの収束に関する理論的保証も提供する。 最後に, 玩具と大規模(500エージェント)環境において, 各種コストでDeCOMの有効性を検証した。

In recent years, multi-agent reinforcement learning (MARL) has presented impressive performance in various applications. However, physical limitations, budget restrictions, and many other factors usually impose \textit{constraints} on a multi-agent system (MAS), which cannot be handled by traditional MARL frameworks. Specifically, this paper focuses on constrained MASes where agents work \textit{cooperatively} to maximize the expected team-average return under various constraints on expected team-average costs, and develops a \textit{constrained cooperative MARL} framework, named DeCOM, for such MASes. In particular, DeCOM decomposes the policy of each agent into two modules, which empowers information sharing among agents to achieve better cooperation. In addition, with such modularization, the training algorithm of DeCOM separates the original constrained optimization into an unconstrained optimization on reward and a constraints satisfaction problem on costs. DeCOM then iteratively solves these problems in a computationally efficient manner, which makes DeCOM highly scalable. We also provide theoretical guarantees on the convergence of DeCOM's policy update algorithm. Finally, we validate the effectiveness of DeCOM with various types of costs in both toy and large-scale (with 500 agents) environments.
翻訳日:2021-11-11 15:24:16 公開日:2021-11-10
# メンバーシップオラクルによる効率的なプロジェクションフリーオンライン凸最適化

Efficient Projection-Free Online Convex Optimization with Membership Oracle ( http://arxiv.org/abs/2111.05818v1 )

ライセンス: Link先を確認
Zakaria Mhammedi(参考訳) 制約付き凸最適化では、楕円体法や切断平面法に基づく既存の手法は周囲空間の次元とよく一致しない。 射影勾配 Descent のような別のアプローチはユークリッド球のような単純な凸集合に対してのみ計算上の利点を与え、ユークリッド射影を効率的に行うことができる。 他の集合の場合、投影のコストは高すぎる可能性がある。 これらの問題を回避すべく、有名なフランク・ウルフアルゴリズムに基づく代替手法が研究され、使用されている。 このようなメソッドはユークリッド射影の代わりに各イテレーションで線形最適化Oracleを使用し、前者は効率的に実行できる。 このような手法は、オンラインおよび確率最適化設定にも拡張されている。 しかし、フランク・ウルフアルゴリズムとその変種は、一般的な凸集合に対する後悔やレートの観点からは最適性能を達成できない。 さらに、彼らが使用しているLinear Optimization Oracleは、場合によっては計算コストも高い。 本稿では,frank-wolfe 型のアルゴリズムから離れ,ユークリッド球上の任意のアルゴリズム a を,元のアルゴリズム a の性能を犠牲にすることなく,球に含まれる制約付き集合 c 上のアルゴリズムに変換する新しい還元法を提案する。 我々の削減には、O(T log T) を T ラウンド後に C 上で Oracle に呼び出しる必要があり、C 上の線形最適化は不要である。 減算を用いて, オンライン凸最適化において, 繰り返し回数の観点から, 最適後悔境界(resp. rate)を回復する。 我々の保証は、環境空間の次元が大きい場合のオフライン凸最適化設定でも有用である。

In constrained convex optimization, existing methods based on the ellipsoid or cutting plane method do not scale well with the dimension of the ambient space. Alternative approaches such as Projected Gradient Descent only provide a computational benefit for simple convex sets such as Euclidean balls, where Euclidean projections can be performed efficiently. For other sets, the cost of the projections can be too high. To circumvent these issues, alternative methods based on the famous Frank-Wolfe algorithm have been studied and used. Such methods use a Linear Optimization Oracle at each iteration instead of Euclidean projections; the former can often be performed efficiently. Such methods have also been extended to the online and stochastic optimization settings. However, the Frank-Wolfe algorithm and its variants do not achieve the optimal performance, in terms of regret or rate, for general convex sets. What is more, the Linear Optimization Oracle they use can still be computationally expensive in some cases. In this paper, we move away from Frank-Wolfe style algorithms and present a new reduction that turns any algorithm A defined on a Euclidean ball (where projections are cheap) to an algorithm on a constrained set C contained within the ball, without sacrificing the performance of the original algorithm A by much. Our reduction requires O(T log T) calls to a Membership Oracle on C after T rounds, and no linear optimization on C is needed. Using our reduction, we recover optimal regret bounds [resp. rates], in terms of the number of iterations, in online [resp. stochastic] convex optimization. Our guarantees are also useful in the offline convex optimization setting when the dimension of the ambient space is large.
翻訳日:2021-11-11 15:23:54 公開日:2021-11-10
# PDE用物理増幅ディープサロゲート

Physics-enhanced deep surrogates for PDEs ( http://arxiv.org/abs/2111.05841v1 )

ライセンス: Link先を確認
Rapha\"el Pestourie, Youssef Mroueh, Chris Rackauckas, Payel Das, Steven G. Johnson(参考訳) 我々は、偏微分方程式(PDE)と類似モデルにより記述された複素物理系の高速サロゲートモデル(PEDS)を高速に開発するための「物理エンハンスドディープサロゲート(PEDS)」アプローチを提案し、低忠実度「粗い」ソルバとニューラルネットワークを結合して「粗い」インプットを生成する方法を示し、高忠実度数値ソルバの出力をグローバルに一致させる訓練を施した。 このように、低忠実度モデルの形で限られた物理知識を組み込むことで、PEDSサロゲートは、同じ精度で「ブラックボックス」ニューラルネットワークよりも少ないデータで、少なくとも$\sim 10\times$でトレーニングできることがわかった。 漸近的に、PEDSはブラックボックスサロゲートよりも急激なパワー法則で学習し、アクティブラーニングと組み合わせることでさらに恩恵を受ける。 本稿では,光メタマテリアルの設計に現れる電磁波散乱の例問題を用いて,提案手法の有効性と有用性を示す。

We present a "physics-enhanced deep-surrogate ("PEDS") approach towards developing fast surrogate models for complex physical systems described by partial differential equations (PDEs) and similar models: we show how to combine a low-fidelity "coarse" solver with a neural network that generates "coarsified'' inputs, trained end-to-end to globally match the output of an expensive high-fidelity numerical solver. In this way, by incorporating limited physical knowledge in the form of the low-fidelity model, we find that a PEDS surrogate can be trained with at least $\sim 10\times$ less data than a "black-box'' neural network for the same accuracy. Asymptotically, PEDS appears to learn with a steeper power law than black-box surrogates, and benefits even further when combined with active learning. We demonstrate feasibility and benefit of the proposed approach by using an example problem in electromagnetic scattering that appears in the design of optical metamaterials.
翻訳日:2021-11-11 15:23:26 公開日:2021-11-10
# 画像の持続的相同性に及ぼす解像度変化の影響

The Impact of Changes in Resolution on the Persistent Homology of Images ( http://arxiv.org/abs/2111.05663v1 )

ライセンス: Link先を確認
Teresa Heiss, Sarah Tymochko, Brittany Story, Ad\'elie Garin, Hoa Bui, Bea Bleile and Vanessa Robins(参考訳) デジタル画像は, マイクロスケールおよびマクロスケールでの材料特性の定量的解析を可能にするが, 画像取得時に適切な解像度を選択することは困難である。 高解像度は、与えられたサンプルに対してより長い画像取得とより大きなデータ要求を意味するが、解像度が低すぎると、重要な情報が失われる可能性がある。 本論文は,画像中の構造をすべての長さスケールで表現するトポロジカルデータ解析ツールである,永続的ホモロジーに対する解像度変化の影響について検討する。 関数や物体の形状、あるいは所定の解像度における密度分布に関する事前情報から、許容許容許容許容範囲内で得られる最も粗い分解能を選択する方法を提案する。 本稿では, 理論的境界が不明な多孔質材料から得られた説明的合成例とサンプルの数値ケーススタディを提案する。

Digital images enable quantitative analysis of material properties at micro and macro length scales, but choosing an appropriate resolution when acquiring the image is challenging. A high resolution means longer image acquisition and larger data requirements for a given sample, but if the resolution is too low, significant information may be lost. This paper studies the impact of changes in resolution on persistent homology, a tool from topological data analysis that provides a signature of structure in an image across all length scales. Given prior information about a function, the geometry of an object, or its density distribution at a given resolution, we provide methods to select the coarsest resolution yielding results within an acceptable tolerance. We present numerical case studies for an illustrative synthetic example and samples from porous materials where the theoretical bounds are unknown.
翻訳日:2021-11-11 15:23:04 公開日:2021-11-10
# 符号付き距離境界からポリゴンを抽出する高速アルゴリズムの理論的および経験的解析

Theoretical and empirical analysis of a fast algorithm for extracting polygons from signed distance bounds ( http://arxiv.org/abs/2111.05778v1 )

ライセンス: Link先を確認
Nenad Marku\v{s}(参考訳) 符号付き距離境界をポリゴンメッシュに変換する漸近的に高速な手法について検討する。 これは球面追跡(レイマーチングとも呼ばれる)と伝統的な多角化スキーム(例えばマーチングキューブ)を組み合わせることで達成される。 このアプローチをGridhoppingと呼びましょう。 我々は、$O(N^2\log N)$計算複雑性が$N^3$セルを持つ多角化格子であることを示す理論的および実験的証拠を提供する。 このアルゴリズムは、プリミティブな形状のセットと、機械学習によってポイントクラウドから生成される符号付き距離フィールドの両方でテストされる。 そのスピード、シンプルさ、ポータビリティを考えると、モデリングの段階でも、ストレージの形状圧縮でも有用である、と私たちは主張します。 コードはここにある。 https://github.com/n enadmarkus/gridhoppi ng

We investigate an asymptotically fast method for transforming signed distance bounds into polygon meshes. This is achieved by combining sphere tracing (also known as ray marching) and one of the traditional polygonization schemes (e.g., Marching cubes). Let us call this approach Gridhopping. We provide theoretical and experimental evidence that it is of the $O(N^2\log N)$ computational complexity for a polygonization grid with $N^3$ cells. The algorithm is tested on both a set of primitive shapes as well as signed distance fields generated from point clouds by machine learning. Given its speed, simplicity and portability, we argue that it could prove useful during the modelling stage as well as in shape compression for storage. The code is available here: https://github.com/n enadmarkus/gridhoppi ng
翻訳日:2021-11-11 15:21:56 公開日:2021-11-10
# サイレントからの構造:環境音からシーン構造を学ぶ

Structure from Silence: Learning Scene Structure from Ambient Sound ( http://arxiv.org/abs/2111.05846v1 )

ライセンス: Link先を確認
Ziyang Chen, Xixi Hu, Andrew Owens(参考訳) 天井のファンから時計の音まで、音はシーンを移動するごとに微妙に変わります。 これらの環境音が3dシーン構造に関する情報を伝達するかどうかと,マルチモーダルモデルに有用な学習信号を提供するかどうかを問う。 そこで本研究では,室内のさまざまな静かなシーンから,ペアオーディオとrgb-d記録のデータセットを収集する。 そして、音声のみを入力として、近くの壁までの距離を推定するモデルをトレーニングします。 また,これらの記録を用いて自己スーパービジョンによるマルチモーダル表現を学習し,画像と対応する音を関連付けるネットワークを訓練する。 これらの結果から,環境音はシーン構造に関する驚くほどの量の情報を伝達し,マルチモーダル特徴の学習に有用な信号であることが示唆された。

From whirling ceiling fans to ticking clocks, the sounds that we hear subtly vary as we move through a scene. We ask whether these ambient sounds convey information about 3D scene structure and, if so, whether they provide a useful learning signal for multimodal models. To study this, we collect a dataset of paired audio and RGB-D recordings from a variety of quiet indoor scenes. We then train models that estimate the distance to nearby walls, given only audio as input. We also use these recordings to learn multimodal representations through self-supervision, by training a network to associate images with their corresponding sounds. These results suggest that ambient sound conveys a surprising amount of information about scene structure, and that it is a useful signal for learning multimodal features.
翻訳日:2021-11-11 15:21:42 公開日:2021-11-10
# 反復支配排除のためのマルチエージェント学習:形式バリアと新しいアルゴリズム

Multi-Agent Learning for Iterative Dominance Elimination: Formal Barriers and New Algorithms ( http://arxiv.org/abs/2111.05486v1 )

ライセンス: Link先を確認
Jibang Wu, Haifeng Xu, Fan Yao(参考訳) 支配的行動は、通常の単エージェント決定決定のように自然(そしておそらく最も単純な)準最適行動の多重エージェント一般化である。 したがって、標準的なバンディット学習と同様に、マルチエージェントシステムにおける基本的な学習問題は、エージェントが未知のゲームにおいて支配的なすべてのアクションを効率的に排除できるかどうかを学習できるかどうかである。 驚くべきことに、一見単純なタスクにもかかわらず、私たちは非常に否定的な結果を示します。つまり、標準の後悔のアルゴリズム -- デュアル平均化アルゴリズムのファミリー全体を含む -- は、すべての支配的なアクションを排除するために、指数的に多くのラウンドを確実に取ります。 さらに、noスワップ後悔の強いアルゴリズムも同様の指数関数的非効率に苦しむ。 これらの障壁を克服するために, Exp3 を Diminishing Historical rewards ( Exp3-DH と呼ぶ) で調整するアルゴリズムを開発した。 すべてのエージェントがExp3-DH(つまりマルチエージェント学習における自己プレイ)を実行するとき、全ての支配的なアクションは多項式的に多くのラウンドで反復的に排除できる。 実験の結果,exp3-dhの効率がさらに向上し,最先端のバンディットアルゴリズムはゲーム内で学習するために開発されたものであっても,すべての支配的動作を効果的に排除できないことが示された。

Dominated actions are natural (and perhaps the simplest possible) multi-agent generalizations of sub-optimal actions as in standard single-agent decision making. Thus similar to standard bandit learning, a basic learning question in multi-agent systems is whether agents can learn to efficiently eliminate all dominated actions in an unknown game if they can only observe noisy bandit feedback about the payoff of their played actions. Surprisingly, despite a seemingly simple task, we show a quite negative result; that is, standard no regret algorithms -- including the entire family of Dual Averaging algorithms -- provably take exponentially many rounds to eliminate all dominated actions. Moreover, algorithms with the stronger no swap regret also suffer similar exponential inefficiency. To overcome these barriers, we develop a new algorithm that adjusts Exp3 with Diminishing Historical rewards (termed Exp3-DH); Exp3-DH gradually forgets history at carefully tailored rates. We prove that when all agents run Exp3-DH (a.k.a., self-play in multi-agent learning), all dominated actions can be iteratively eliminated within polynomially many rounds. Our experimental results further demonstrate the efficiency of Exp3-DH, and that state-of-the-art bandit algorithms, even those developed specifically for learning in games, fail to eliminate all dominated actions efficiently.
翻訳日:2021-11-11 15:21:29 公開日:2021-11-10
# (参考訳) サイバー脅威の理解可能なマルチモーダル検出のための枠組み [全文訳有]

A framework for comprehensible multi-modal detection of cyber threats ( http://arxiv.org/abs/2111.05764v1 )

ライセンス: CC BY 4.0
Jan Kohout, \v{C}en\v{e}k \v{S}karda, Kyrylo Shcherbin, Martin Kopp, Jan Brabec(参考訳) 企業環境における悪意ある活動の検出は非常に複雑な作業であり、その自動化の研究に多くの努力が注がれている。 しかし、既存の方法のほとんどは狭い範囲でしか動作せず、マルウェアの存在の証拠の断片のみを捕獲することしかできない。 その結果、このようなアプローチは、ドメインの専門家によるサイバー脅威の研究や説明方法と一致しない。 本稿では,これらの制約を議論し,異なるデータソースからの観測イベントを結合した検出フレームワークを設計する。 これにより、攻撃ライフサイクルに関する完全な洞察を提供し、インシデントの全スコープを特定するために、異なるテレメトリからのこのような観測の結合を必要とする脅威の検出を可能にする。 本研究は,企業ネットワークで発生した真のマルウェア感染のケーススタディに,フレームワークの適用性を示す。

Detection of malicious activities in corporate environments is a very complex task and much effort has been invested into research of its automation. However, vast majority of existing methods operate only in a narrow scope which limits them to capture only fragments of the evidence of malware's presence. Consequently, such approach is not aligned with the way how the cyber threats are studied and described by domain experts. In this work, we discuss these limitations and design a detection framework which combines observed events from different sources of data. Thanks to this, it provides full insight into the attack life cycle and enables detection of threats that require this coupling of observations from different telemetries to identify the full scope of the incident. We demonstrate applicability of the framework on a case study of a real malware infection observed in a corporate network.
翻訳日:2021-11-11 15:20:03 公開日:2021-11-10
# ResnestsとDenseNEsts: 表現保証を改善したブロックベースDNNモデル

ResNEsts and DenseNEsts: Block-based DNN Models with Improved Representation Guarantees ( http://arxiv.org/abs/2111.05496v1 )

ライセンス: Link先を確認
Kuan-Lin Chen, Ching-Hua Lee, Harinath Garudadri, Bhaskar D. Rao(参考訳) 残差ネットワーク(ResNets)が線形予測器よりも優れていることを示す文献で最近使われているモデルは、コンピュータビジョンで広く使われている標準のResNetと実際に異なる。 スカラー値出力や単一残差ブロックといった仮定に加えて、これらのモデルは最終アフィン層に供給する最後の残差表現において非線形性を持たない。 このような非線形性の違いを体系化し、線形推定特性を明らかにするために、標準レネットから最後の残差表現で非線形性を単純に落とすことで、残差非線形推定子(resnests)を定義する。 ボトルネックブロックを持つ幅広いリネストは、標準レネクタが達成しようとしている非常に望ましいトレーニング特性を常に保証できること、つまり、ブロックの追加は、同じ基底要素のセットを考えると、パフォーマンスを低下させないことを示している。 それを証明するために、まず、基礎学習と線形予測において結合問題によって制限される基底関数モデルとして認識する。 そして,予測重みを基礎学習から切り離すため,ブロックの追加による性能の悪化を常に保証する拡張ResNEst(A-ResNEst)と呼ばれる特殊なアーキテクチャを構築した。 その結果、a−レジストは、対応するベースを用いたレジストに対する経験的リスク下限を確立する。 以上の結果から,resnestsは機能再利用を減少させる問題があるが,入力空間を十分に拡大あるいは拡大することで回避でき,上述の望ましい特性をもたらす。 また,ResNetsより優れていることを示すDenseNetsに着想を得て,Densely connected linear Estimator (DenseNEst) と呼ばれる新しいモデルを提案する。 我々は,任意の DenseNEst が,ボトルネックブロックを持つワイド ResNEst として表現可能であることを示す。 ResNEstsとは異なり、DenseNEstsは特別なアーキテクチャの再設計なしに望ましい特性を示す。

Models recently used in the literature proving residual networks (ResNets) are better than linear predictors are actually different from standard ResNets that have been widely used in computer vision. In addition to the assumptions such as scalar-valued output or single residual block, these models have no nonlinearities at the final residual representation that feeds into the final affine layer. To codify such a difference in nonlinearities and reveal a linear estimation property, we define ResNEsts, i.e., Residual Nonlinear Estimators, by simply dropping nonlinearities at the last residual representation from standard ResNets. We show that wide ResNEsts with bottleneck blocks can always guarantee a very desirable training property that standard ResNets aim to achieve, i.e., adding more blocks does not decrease performance given the same set of basis elements. To prove that, we first recognize ResNEsts are basis function models that are limited by a coupling problem in basis learning and linear prediction. Then, to decouple prediction weights from basis learning, we construct a special architecture termed augmented ResNEst (A-ResNEst) that always guarantees no worse performance with the addition of a block. As a result, such an A-ResNEst establishes empirical risk lower bounds for a ResNEst using corresponding bases. Our results demonstrate ResNEsts indeed have a problem of diminishing feature reuse; however, it can be avoided by sufficiently expanding or widening the input space, leading to the above-mentioned desirable property. Inspired by the DenseNets that have been shown to outperform ResNets, we also propose a corresponding new model called Densely connected Nonlinear Estimator (DenseNEst). We show that any DenseNEst can be represented as a wide ResNEst with bottleneck blocks. Unlike ResNEsts, DenseNEsts exhibit the desirable property without any special architectural re-design.
翻訳日:2021-11-11 15:07:02 公開日:2021-11-10
# 言語間適応モデル-自然言語理解のためのメタラーニング

Cross-lingual Adaption Model-Agnostic Meta-Learning for Natural Language Understanding ( http://arxiv.org/abs/2111.05805v1 )

ライセンス: Link先を確認
Qianying Liu, Fei Cheng, Sadao Kurohashi(参考訳) 補助言語を用いたメタ学習は、言語間自然言語処理において有望な改善を示す。 しかし、以前の研究では、同じ言語からのメタトレーニングとメタテストのデータがサンプリングされ、言語間移動のモデルの性能が制限された。 本稿では,メタラーニング段階で直接言語間適応を行うXLA-MAMLを提案する。 自然言語推論と質問応答に関するゼロショットと少数ショットの実験を行った。 実験結果から,異なる言語,タスク,事前学習モデルにまたがる手法の有効性が示された。 また,サンプリング戦略や並列処理を含むメタラーニングのための言語横断的特徴の分析を行う。

Meta learning with auxiliary languages has demonstrated promising improvements for cross-lingual natural language processing. However, previous studies sample the meta-training and meta-testing data from the same language, which limits the ability of the model for cross-lingual transfer. In this paper, we propose XLA-MAML, which performs direct cross-lingual adaption in the meta-learning stage. We conduct zero-shot and few-shot experiments on Natural Language Inference and Question Answering. The experimental results demonstrate the effectiveness of our method across different languages, tasks, and pretrained models. We also give analysis on various cross-lingual specific settings for meta-learning including sampling strategy and parallelism.
翻訳日:2021-11-11 15:06:27 公開日:2021-11-10
# LUMINOUS: 身近なAIチャレンジのための屋内シーン生成

LUMINOUS: Indoor Scene Generation for Embodied AI Challenges ( http://arxiv.org/abs/2111.05527v1 )

ライセンス: Link先を確認
Yizhou Zhao, Kaixiang Lin, Zhiwei Jia, Qiaozi Gao, Govind Thattai, Jesse Thomason, Gaurav S.Sukhatme(参考訳) エンボディエージェントを訓練するための学習ベースの手法は通常、現実的なレイアウトを含む多くの高品質なシーンを必要とし、意味のある相互作用をサポートする。 しかしながら、現在のEmbodied AI(EAI)の課題は、限られたレイアウトでシミュレーションされた屋内シーンのみを提供する。 本稿では,最先端の室内シーン合成アルゴリズムを用いて,具体化されたai課題に対する大規模シミュレーションシーンを生成する,初の研究フレームワークであるluminousを提案する。 さらに, 複雑な家庭作業を支援する機能により, 室内シーンの質を自動的かつ定量的に評価する。 Luminousには新しいシーン生成アルゴリズム (Constrained Stochastic Scene Generation (CSSG)) が組み込まれている。 Luminousでは、EAIタスクエグゼキュータ、タスク命令生成モジュール、ビデオレンダリングツールキットが、Embodied AIエージェントのトレーニングと評価のために、新しいシーンの巨大なマルチモーダルデータセットを集合的に生成することができる。 広範囲な実験結果から、Luminousが生成したデータの有効性が示され、一般化と堅牢性に対するエンボディエージェントの包括的評価が可能となった。

Learning-based methods for training embodied agents typically require a large number of high-quality scenes that contain realistic layouts and support meaningful interactions. However, current simulators for Embodied AI (EAI) challenges only provide simulated indoor scenes with a limited number of layouts. This paper presents Luminous, the first research framework that employs state-of-the-art indoor scene synthesis algorithms to generate large-scale simulated scenes for Embodied AI challenges. Further, we automatically and quantitatively evaluate the quality of generated indoor scenes via their ability to support complex household tasks. Luminous incorporates a novel scene generation algorithm (Constrained Stochastic Scene Generation (CSSG)), which achieves competitive performance with human-designed scenes. Within Luminous, the EAI task executor, task instruction generation module, and video rendering toolkit can collectively generate a massive multimodal dataset of new scenes for the training and evaluation of Embodied AI agents. Extensive experimental results demonstrate the effectiveness of the data generated by Luminous, enabling the comprehensive assessment of embodied agents on generalization and robustness.
翻訳日:2021-11-11 15:06:18 公開日:2021-11-10
# look before you leap: 人間の介入による安全なモデルベース強化学習

Look Before You Leap: Safe Model-Based Reinforcement Learning with Human Intervention ( http://arxiv.org/abs/2111.05819v1 )

ライセンス: Link先を確認
Yunkun Xu, Zhenyu Liu, Guifang Duan, Jiangcheng Zhu, Xiaolong Bai, Jianrong Tan(参考訳) 安全性は、現実世界のシステムに深層強化学習を適用する主な課題の1つになっている。 現在、人的監視などの外部知識の取り込みは、エージェントが破滅的な状態を訪れないようにするための唯一の手段である。 本稿では,安全モデルに基づく強化学習のための新しい枠組みであるmbhiを提案する。 MBHIでは、人間のブロック決定を模倣するために教師付き学習者のアンサンブルが訓練されている。 人間による意思決定のプロセスと同様に、MBHIは環境へのアクションを実行する前に、動的モデルに想像上の軌道をロールアウトし、その安全性を見積もる。 想像力が大惨事に遭遇すると、MBHIは現在の行動を阻止し、効率的なMPC法を用いて安全ポリシーを出力する。 本手法をいくつかの安全タスクで評価した結果,MBHIは基準値と比較して試料効率とカタストロフィ数において優れた性能を示した。

Safety has become one of the main challenges of applying deep reinforcement learning to real world systems. Currently, the incorporation of external knowledge such as human oversight is the only means to prevent the agent from visiting the catastrophic state. In this paper, we propose MBHI, a novel framework for safe model-based reinforcement learning, which ensures safety in the state-level and can effectively avoid both "local" and "non-local" catastrophes. An ensemble of supervised learners are trained in MBHI to imitate human blocking decisions. Similar to human decision-making process, MBHI will roll out an imagined trajectory in the dynamics model before executing actions to the environment, and estimate its safety. When the imagination encounters a catastrophe, MBHI will block the current action and use an efficient MPC method to output a safety policy. We evaluate our method on several safety tasks, and the results show that MBHI achieved better performance in terms of sample efficiency and number of catastrophes compared to the baselines.
翻訳日:2021-11-11 15:05:59 公開日:2021-11-10
# トランスフォーマーはCNNよりロバストか?

Are Transformers More Robust Than CNNs? ( http://arxiv.org/abs/2111.05464v1 )

ライセンス: Link先を確認
Yutong Bai, Jieru Mei, Alan Yuille, Cihang Xie(参考訳) Transformerは視覚認識のための強力なツールとして登場した。 幅広いビジュアルベンチマークでの競合パフォーマンスの実証に加えて、最近の研究は、TransformerがConvolutions Neural Networks(CNN)よりもはるかに堅牢であると主張している。 しかしながら、驚くべきことにこれらの結論は、TransformerとCNNを異なるスケールで比較し、異なるトレーニングフレームワークで適用する不公平な実験的な設定から導かれる。 本稿では,トランスフォーマーとCNNの比較において,ロバストネス評価に着目した最初のフェア&インディース比較を提案する。 当社の統一トレーニングセットアップでは、敵のロバスト性を測定する場合、トランスフォーマーはcnnを上回るという以前の信念に最初に挑戦します。 さらに驚くべきことに、Transformersのトレーニングレシピを適切に採用すれば、Transformersが敵の攻撃から守るのと同じくらい、CNNが堅牢であることは明らかです。 アウト・オブ・ディストリビューション・サンプルの一般化については、(外部)大規模データセットの事前トレーニングは、トランスフォーマーがCNNよりも優れたパフォーマンスを実現するための基本的な要求ではないことを示す。 さらに,このような強固な一般化は,トランスフォーマーの自己着脱的なアーキテクチャが,他のトレーニング設定よりもメリットが大きいことを示唆する。 この作業によって、トランスフォーマーやcnnの堅牢性に関するコミュニティの理解とベンチマークが向上することを期待しています。 コードとモデルはhttps://github.com/y tongbai/ViTs-vs-CNNs で公開されている。

Transformer emerges as a powerful tool for visual recognition. In addition to demonstrating competitive performance on a broad range of visual benchmarks, recent works also argue that Transformers are much more robust than Convolutions Neural Networks (CNNs). Nonetheless, surprisingly, we find these conclusions are drawn from unfair experimental settings, where Transformers and CNNs are compared at different scales and are applied with distinct training frameworks. In this paper, we aim to provide the first fair & in-depth comparisons between Transformers and CNNs, focusing on robustness evaluations. With our unified training setup, we first challenge the previous belief that Transformers outshine CNNs when measuring adversarial robustness. More surprisingly, we find CNNs can easily be as robust as Transformers on defending against adversarial attacks, if they properly adopt Transformers' training recipes. While regarding generalization on out-of-distribution samples, we show pre-training on (external) large-scale datasets is not a fundamental request for enabling Transformers to achieve better performance than CNNs. Moreover, our ablations suggest such stronger generalization is largely benefited by the Transformer's self-attention-like architectures per se, rather than by other training setups. We hope this work can help the community better understand and benchmark the robustness of Transformers and CNNs. The code and models are publicly available at https://github.com/y tongbai/ViTs-vs-CNNs .
翻訳日:2021-11-11 15:05:42 公開日:2021-11-10
# 空間的変換を伴うスパース逆ビデオアタック

Sparse Adversarial Video Attacks with Spatial Transformations ( http://arxiv.org/abs/2111.05468v1 )

ライセンス: Link先を確認
Ronghui Mu, Wenjie Ruan, Leandro Soriano Marcolino, Qiang Ni(参考訳) 近年,画像に対する敵対的攻撃に多大な研究努力が集中している一方,敵対的ビデオ攻撃はめったに研究されていない。 本稿では,DeepSAVAと呼ばれるビデオに対する敵攻撃戦略を提案する。 本モデルでは, 対向距離を測定するために, 構造類似度指標(SSIM)を用いた統合最適化フレームワークによる加法摂動と空間変換の両方を含む。 本研究では,映像中の最も影響力のあるフレームの同定にベイズ最適化を利用する実効的で斬新な最適化手法を設計し,加法的および空間変換的な摂動を生成するために確率勾配降下(SGD)に基づく最適化を行う。 そうすることで、deepsavaは、攻撃成功率と敵対的転送可能性の両方の観点から最先端のパフォーマンスを保ちながら、人間のインセプティビリティを維持するために、ビデオに対して非常にスパースな攻撃を行うことができる。 さまざまな種類のディープニューラルネットワークとビデオデータセットに関する集中的な実験により、DeepSAVAの優位性が確認されました。

In recent years, a significant amount of research efforts concentrated on adversarial attacks on images, while adversarial video attacks have seldom been explored. We propose an adversarial attack strategy on videos, called DeepSAVA. Our model includes both additive perturbation and spatial transformation by a unified optimisation framework, where the structural similarity index (SSIM) measure is adopted to measure the adversarial distance. We design an effective and novel optimisation scheme which alternatively utilizes Bayesian optimisation to identify the most influential frame in a video and Stochastic gradient descent (SGD) based optimisation to produce both additive and spatial-transformed perturbations. Doing so enables DeepSAVA to perform a very sparse attack on videos for maintaining human imperceptibility while still achieving state-of-the-art performance in terms of both attack success rate and adversarial transferability. Our intensive experiments on various types of deep neural networks and video datasets confirm the superiority of DeepSAVA.
翻訳日:2021-11-11 15:03:35 公開日:2021-11-10
# 人物再識別のためのシーンの切り離し学習

Learning to Disentangle Scenes for Person Re-identification ( http://arxiv.org/abs/2111.05476v1 )

ライセンス: Link先を確認
Xianghao Zang, Ge Li, Wei Gao, Xiujun Shu(参考訳) 人物再同定(reid:person re-identification)タスクには、咬合やスケールの変動など、多くの課題がある。 既存の作品は通常、ワンブランチネットワークを使用することで解決しようとした。 このワンブランチネットワークは、様々な困難な問題に対して堅牢でなければならない。 本稿では,ReIDタスクの分割と分割を提案する。 本研究では,複数の自己超越操作を用いて,異なる課題をシミュレートし,異なるネットワークを用いて各課題に対処する。 具体的には, ランダム消去操作を用いて, 制御可能な特徴を持つ新しい画像を生成するために, 新たなランダムスケーリング演算を提案する。 異なるシーンを扱うために、1つのマスターブランチと2つのサーヴァントブランチを含む一般的なマルチブランチネットワークが導入される。 これらの分枝は協調的に学習し、異なる知覚能力を達成する。 このようにして、reidタスクの複雑なシーンを効果的に分離し、各ブランチの負担を軽減させる。 実験結果から,提案手法は3つのReIDベンチマークと2つの隠蔽されたReIDベンチマークに対して,最先端の性能を実現することを示した。 アブレーション研究は,提案手法と操作により,様々な場面における性能が著しく向上することを示した。

There are many challenging problems in the person re-identification (ReID) task, such as the occlusion and scale variation. Existing works usually tried to solve them by employing a one-branch network. This one-branch network needs to be robust to various challenging problems, which makes this network overburdened. This paper proposes to divide-and-conquer the ReID task. For this purpose, we employ several self-supervision operations to simulate different challenging problems and handle each challenging problem using different networks. Concretely, we use the random erasing operation and propose a novel random scaling operation to generate new images with controllable characteristics. A general multi-branch network, including one master branch and two servant branches, is introduced to handle different scenes. These branches learn collaboratively and achieve different perceptive abilities. In this way, the complex scenes in the ReID task are effectively disentangled, and the burden of each branch is relieved. The results from extensive experiments demonstrate that the proposed method achieves state-of-the-art performances on three ReID benchmarks and two occluded ReID benchmarks. Ablation study also shows that the proposed scheme and operations significantly improve the performance in various scenes.
翻訳日:2021-11-11 15:03:17 公開日:2021-11-10
# 境界ボックス認識の改良による手書き文字認識

Handwritten Digit Recognition Using Improved Bounding Box Recognition Technique ( http://arxiv.org/abs/2111.05483v1 )

ライセンス: Link先を確認
Arkaprabha Basu, M. Sathya(参考訳) このプロジェクトにはOCR(Optical Character Recognition)の技術が組み込まれており、コンピュータ科学の様々な研究分野が含まれている。 プロジェクトは、キャラクタの写真を撮り、それを処理して、人間の脳がさまざまな数字を認識するようにキャラクタのイメージを認識する。 このプロジェクトには、画像処理技術と機械学習の大きな研究領域の深いアイデアと、ニューラルネットワークと呼ばれる機械学習の構築ブロックが含まれている。 プロジェクトには2つの異なる部分がある。 訓練部は、様々な類似の文字セットを与えるが、全く同じではない子供に教育を施すことからなり、その成果がこれである。 このアイデアのように、多くの文字で新しく構築されたニューラルネットワークをトレーニングする必要があります。 この部分には、プロジェクトのニーズに応じて自己生成およびアップグレードされた新しいアルゴリズムが含まれている。 テスト部は、新しいデータセットのテストを含んでいる。 この部分は常にトレーニングの後に現れます。 最初は、子供にキャラクターの認識の仕方を教えなければならない。 そして、正しい答えを得たかどうかをテストしなければなりません。 そうでなければ、新しいデータセットと新しいエントリを提供することで、彼をもっと訓練する必要があります。 同じように、アルゴリズムもテストしなければならない。 プロジェクトには、オプティマイザテクニックやフィルタリングプロセスのような、統計のモデリング概念を必要とする多くの統計モデリングと最適化技術、フィルタリングやアルゴリズムの背後にある数学と予測がどのようにやって来るか、最終的に予測モデル作成の予測に実際に必要となるか、といったことを必要とする、統計モデリングと最適化のテクニックがあります。 機械学習アルゴリズムは予測とプログラミングの概念によって構築される。

The project comes with the technique of OCR (Optical Character Recognition) which includes various research sides of computer science. The project is to take a picture of a character and process it up to recognize the image of that character like a human brain recognize the various digits. The project contains the deep idea of the Image Processing techniques and the big research area of machine learning and the building block of the machine learning called Neural Network. There are two different parts of the project. Training part comes with the idea of to train a child by giving various sets of similar characters but not the totally same and to say them the output of this is this. Like this idea one has to train the newly built neural network with so many characters. This part contains some new algorithm which is self-created and upgraded as the project need. The testing part contains the testing of a new dataset .This part always comes after the part of the training .At first one has to teach the child how to recognize the character .Then one has to take the test whether he has given right answer or not. If not, one has to train him harder by giving new dataset and new entries. Just like that one has to test the algorithm also. There are many parts of statistical modeling and optimization techniques which come into the project requiring a lot of modeling concept of statistics like optimizer technique and filtering process, that how the mathematics and prediction behind that filtering or the algorithms comes after or which result one actually needs to and ultimately for the prediction of a predictive model creation. Machine learning algorithm is built by concepts of prediction and programming.
翻訳日:2021-11-11 15:02:59 公開日:2021-11-10
# マルチモーダル前腕登録のための構造特徴量アルゴリズム

A Structure Feature Algorithm for Multi-modal Forearm Registration ( http://arxiv.org/abs/2111.05485v1 )

ライセンス: Link先を確認
Jiaxin Li, Yan Ding, Weizhong Zhang, Yifan Zhao, Lingxi Guo, Zhe Yang(参考訳) 画像登録に基づく拡張現実技術は, 手術前準備や医療教育の便宜上, ますます普及しつつある。 本稿では,前腕画像とデジタル解剖モデルの登録について述べる。 本稿では, 前腕マルチモーダル画像のテクスチャ特性の違いから, 前腕に対する構造適合型マルチモーダル画像登録フレームワーク(FAM)に基づく前腕特徴表現曲線(FFRC)を提案する。

Augmented reality technology based on image registration is becoming increasingly popular for the convenience of pre-surgery preparation and medical education. This paper focuses on the registration of forearm images and digital anatomical models. Due to the difference in texture features of forearm multi-modal images, this paper proposes a forearm feature representation curve (FFRC) based on structure compliant multi-modal image registration framework (FAM) for the forearm.
翻訳日:2021-11-11 15:02:33 公開日:2021-11-10
# 終端畳み込みニューラルネットワークを用いたCTPA画像からの肺塞栓の自動検出

Automated Pulmonary Embolism Detection from CTPA Images Using an End-to-End Convolutional Neural Network ( http://arxiv.org/abs/2111.05506v1 )

ライセンス: Link先を確認
Yi Lin, Jianchao Su, Xiang Wang, Xiang Li, Jingen Liu, Kwang-Ting Cheng, Xin Yang(参考訳) CT肺血管造影(CTPA)画像から肺塞栓症(PEs)を自動的に検出する方法が要求されている。 既存の方法は、通常、他のステップの能力を考慮せずに、PE候補の検出と偽陽性除去のために別々のステップを使用する。 その結果、ほとんどの既存手法は許容できる感度を達成するために高い偽陽性率に悩まされる。 本研究では,両ステップを協調的に最適化したエンドツーエンドのトレーニング可能な畳み込みニューラルネットワーク(cnn)を提案する。 提案したCNNは3つの連結サブネットから構成される。 1)疑わしいPEを含む立方体を検出するための新しい3D候補提案ネットワーク 2 候補のための固定サイズの容器配置画像表現を生成する3次元空間変換サブネット及び 3)変換された立方体の3つの断面を入力とし、偽陽性を除去する2次元分類ネットワーク。 PEチャレンジから得られた20個のCTPAテストデータセットを用いて,0mm,2mm,5mmの各ボリュームあたりの偽陽性の感度を78.9%,80.7%,80.7%と評価した。 我々は,本システムについて,合計269emboliの129のctpaデータからなる独自のデータセットで評価した。 本システムでは,0mm,2mm,5mmの各体積あたりの偽陽性が63.2%,78.9%,86.8%であった。

Automated methods for detecting pulmonary embolisms (PEs) on CT pulmonary angiography (CTPA) images are of high demand. Existing methods typically employ separate steps for PE candidate detection and false positive removal, without considering the ability of the other step. As a result, most existing methods usually suffer from a high false positive rate in order to achieve an acceptable sensitivity. This study presents an end-to-end trainable convolutional neural network (CNN) where the two steps are optimized jointly. The proposed CNN consists of three concatenated subnets: 1) a novel 3D candidate proposal network for detecting cubes containing suspected PEs, 2) a 3D spatial transformation subnet for generating fixed-sized vessel-aligned image representation for candidates, and 3) a 2D classification network which takes the three cross-sections of the transformed cubes as input and eliminates false positives. We have evaluated our approach using the 20 CTPA test dataset from the PE challenge, achieving a sensitivity of 78.9%, 80.7% and 80.7% at 2 false positives per volume at 0mm, 2mm and 5mm localization error, which is superior to the state-of-the-art methods. We have further evaluated our system on our own dataset consisting of 129 CTPA data with a total of 269 emboli. Our system achieves a sensitivity of 63.2%, 78.9% and 86.8% at 2 false positives per volume at 0mm, 2mm and 5mm localization error.
翻訳日:2021-11-11 15:02:26 公開日:2021-11-10
# マルチ露光融合による画像からのサーベイシーンの3次元モデリング

3D modelling of survey scene from images enhanced with a multi-exposure fusion ( http://arxiv.org/abs/2111.05541v1 )

ライセンス: Link先を確認
Kwok-Leung Chan, Liping Li, Arthur Wing-Tak Leung, Ho-Yin Chan(参考訳) 現在の現場調査は全駅で行われている。 この手法は精度が高いが、連続監視が必要な場合には高いコストがかかる。 比較的安価なデジタルカメラを用いたフォトグラメトリに基づく技術は、多くの分野で広く応用されている。 ポイント測定に加えて、フォトグラメトリーはシーンの三次元(3d)モデルを作ることもできる。 高精度3dモデル再構成は高品質画像に依存する。 劣化した画像は再構成された3dモデルで大きなエラーをもたらす。 本稿では,画像の視認性の向上と,最終的には3次元シーンモデルの誤差を低減する手法を提案する。 アイデアはイメージデハジングから着想を得ている。 各原画像は、ガンマ補正操作と適応ヒストグラム等化により、まず複数の露光画像に変換する。 変換された画像は、局所的なバイナリパターンの計算によって解析される。 そして、局所パターン特徴の関数と画像彩度によって重み付けされた変換された画像画素の集合から生成される各画素により、画像が強化される。 ベンチマーク画像デハージングデータセットのパフォーマンス評価が実施されている。 野外および屋内での実験が実施されている。 分析の結果,この手法は屋外画像と屋内画像の両方に存在する異なる種類の劣化に作用することがわかった。 フォトグラムソフトウェアに入力すると、強調画像は3Dシーンモデルをサブミリ平均誤差で再構成することができる。

In current practice, scene survey is carried out by workers using total stations. The method has high accuracy, but it incurs high costs if continuous monitoring is needed. Techniques based on photogrammetry, with the relatively cheaper digital cameras, have gained wide applications in many fields. Besides point measurement, photogrammetry can also create a three-dimensional (3D) model of the scene. Accurate 3D model reconstruction depends on high quality images. Degraded images will result in large errors in the reconstructed 3D model. In this paper, we propose a method that can be used to improve the visibility of the images, and eventually reduce the errors of the 3D scene model. The idea is inspired by image dehazing. Each original image is first transformed into multiple exposure images by means of gamma-correction operations and adaptive histogram equalization. The transformed images are analyzed by the computation of the local binary patterns. The image is then enhanced, with each pixel generated from the set of transformed image pixels weighted by a function of the local pattern feature and image saturation. Performance evaluation has been performed on benchmark image dehazing datasets. Experimentations have been carried out on outdoor and indoor surveys. Our analysis finds that the method works on different types of degradation that exist in both outdoor and indoor images. When fed into the photogrammetry software, the enhanced images can reconstruct 3D scene models with sub-millimeter mean errors.
翻訳日:2021-11-11 15:02:02 公開日:2021-11-10
# 視覚・言語ナビゲーションのための可変長メモリ付きマルチモーダルトランス

Multimodal Transformer with Variable-length Memory for Vision-and-Language Navigation ( http://arxiv.org/abs/2111.05759v1 )

ライセンス: Link先を確認
Chuang Lin, Yi Jiang, Jianfei Cai, Lizhen Qu, Gholamreza Haffari, Zehuan Yuan(参考訳) 視覚言語ナビゲーション(英語: vision-and-language navigation、略称:vln)は、エージェントが目標位置へ移動するために言語命令に従う必要があるタスクである。 近年のTransformer-based VLN法は,マルチモーダル・クロスアテンション機構による視覚観察と言語指導の直接的な接続により,大きな進歩を遂げている。 しかし、これらの手法は通常、LSTMデコーダを使ったり、手動で設計された隠れ状態を使って繰り返し変換器を構築することで、時間的コンテキストを固定長ベクトルとして表現する。 本稿では,時間的文脈を明示的にモデル化し,視覚的に接地自然言語ナビゲーションを行うための可変長メモリ(mtvm)を用いたマルチモーダルトランスフォーマを提案する。 特に、mtvmは、エージェントが以前のアクティベーションを直接メモリバンクに保存することで、ナビゲーションの追跡を可能にする。 性能をさらに高めるために,ランダムマスキング命令を用いた時空間の協調表現の学習を支援するメモリアウェア一貫性損失を提案する。 一般的なR2RおよびCVDNデータセット上でMTVMを評価し,R2Rにおける成功率を2%向上させ,CVDNテストセット上でのゴールプロセスの1.6m削減を実現した。

Vision-and-Language Navigation (VLN) is a task that an agent is required to follow a language instruction to navigate to the goal position, which relies on the ongoing interactions with the environment during moving. Recent Transformer-based VLN methods have made great progress benefiting from the direct connections between visual observations and the language instruction via the multimodal cross-attention mechanism. However, these methods usually represent temporal context as a fixed-length vector by using an LSTM decoder or using manually designed hidden states to build a recurrent Transformer. Considering a single fixed-length vector is often insufficient to capture long-term temporal context, in this paper, we introduce Multimodal Transformer with Variable-length Memory (MTVM) for visually-grounded natural language navigation by modelling the temporal context explicitly. Specifically, MTVM enables the agent to keep track of the navigation trajectory by directly storing previous activations in a memory bank. To further boost the performance, we propose a memory-aware consistency loss to help learn a better joint representation of temporal context with random masked instructions. We evaluate MTVM on popular R2R and CVDN datasets, and our model improves Success Rate on R2R unseen validation and test set by 2% each, and reduce Goal Process by 1.6m on CVDN test set.
翻訳日:2021-11-11 15:00:46 公開日:2021-11-10
# twitter上での比較分析によるcovid-19ワクチン反応の理解

Understanding COVID-19 Vaccine Reaction through Comparative Analysis on Twitter ( http://arxiv.org/abs/2111.05823v1 )

ライセンス: Link先を確認
Yuesheng Luo and Mayank Kejriwal(参考訳) 新型コロナウイルス(covid-19)ワクチンは数ヵ月間利用可能だが、米国ではワクチンの難易度は高いままである。 問題の一部は、特に11月の大統領選挙以降、政治にも反映されている。 この期間に、twitterを含むソーシャルメディアの文脈でワクチンの迷信を理解することは、計算社会科学者と政策立案者の両方に貴重なガイダンスを提供することができる。 1つのTwitterコーパスを研究するのではなく、同じ、注意深く制御されたデータ収集とフィルタリング手法を用いて、2つの異なる期間(選挙前と数ヶ月後)に収集された2つのTwitterデータセットを比較検討することで、この問題の新たな見方を得る。 結果から,2020年秋から2021年春にかけて,政治から新型コロナウイルスワクチンへの議論に大きな変化が見られた。 クラスタリングと機械学習に基づく手法をサンプリングと定性分析と組み合わせることで、ワクチンの根本原因を詳細に解明し、そのいくつかは時間とともに重要(あるいは少ない)になってきた。 われわれはまた、この問題の激しい分極と政治を、昨年より強調している。

Although multiple COVID-19 vaccines have been available for several months now, vaccine hesitancy continues to be at high levels in the United States. In part, the issue has also become politicized, especially since the presidential election in November. Understanding vaccine hesitancy during this period in the context of social media, including Twitter, can provide valuable guidance both to computational social scientists and policy makers. Rather than studying a single Twitter corpus, this paper takes a novel view of the problem by comparatively studying two Twitter datasets collected between two different time periods (one before the election, and the other, a few months after) using the same, carefully controlled data collection and filtering methodology. Our results show that there was a significant shift in discussion from politics to COVID-19 vaccines from fall of 2020 to spring of 2021. By using clustering and machine learning-based methods in conjunction with sampling and qualitative analysis, we uncover several fine-grained reasons for vaccine hesitancy, some of which have become more (or less) important over time. Our results also underscore the intense polarization and politicization of this issue over the last year.
翻訳日:2021-11-11 15:00:22 公開日:2021-11-10
# コルモゴロフ錯体のレンズによるSGD

SGD Through the Lens of Kolmogorov Complexity ( http://arxiv.org/abs/2111.05478v1 )

ライセンス: Link先を確認
Gregory Schwartzman(参考訳) 確率的勾配降下 (sgd) がデータセット全体の分類精度(1-\epsilon)$を達成する解を見つけることを証明している。 1. 局所的な進捗) バッチよりもモデルの精度が一貫した改善がなされている。 (2.単純な関数を計算するモデル) モデルによって計算される関数は単純(コルモゴロフ複雑性が低い)である。 直観的には、sgd の \emph{local progress} は \emph{global progress} を意味する。 仮定 2 は、非パラメータモデルに対して自明に成立するので、我々の研究は、一般に対して最初の収束保証を与える: \emph{underparameterized models}。 さらに、これは完全に \emph{model agnostic} である最初の結果です - 特定のアーキテクチャやアクティベーション関数を持つためにモデルを必要とせず、ニューラルネットワークでさえないのです。 我々の分析では、Lov\'asz局所補題の文脈でモーサーとタルドスが最初に導入したエントロピー圧縮法を用いている。

We prove that stochastic gradient descent (SGD) finds a solution that achieves $(1-\epsilon)$ classification accuracy on the entire dataset. We do so under two main assumptions: (1. Local progress) There is consistent improvement of the model accuracy over batches. (2. Models compute simple functions) The function computed by the model is simple (has low Kolmogorov complexity). Intuitively, the above means that \emph{local progress} of SGD implies \emph{global progress}. Assumption 2 trivially holds for underparameterized models, hence, our work gives the first convergence guarantee for general, \emph{underparameterized models}. Furthermore, this is the first result which is completely \emph{model agnostic} - we don't require the model to have any specific architecture or activation function, it may not even be a neural network. Our analysis makes use of the entropy compression method, which was first introduced by Moser and Tardos in the context of the Lov\'asz local lemma.
翻訳日:2021-11-11 14:59:44 公開日:2021-11-10
# 乳癌分類のためのバイオマーカー遺伝子同定

Biomarker Gene Identification for Breast Cancer Classification ( http://arxiv.org/abs/2111.05546v1 )

ライセンス: Link先を確認
Sheetal Rajpal, Ankit Rajpal, Manoj Agarwal, Naveen Kumar(参考訳) BACKGROUND: 乳癌は、高い死亡率につながる女性の中で、最も多いがんの1つとして現れています。 乳癌の異質な性質のため、タイムリーな診断と治療のために、乳がんサブタイプに関連する異なる発現遺伝子を同定する必要がある。 OBJECTIVE: 署名として機能する4つの乳がんサブタイプのそれぞれに設定された小さな遺伝子を同定するために, 遺伝子同定のための新しいアルゴリズムを提案する。 方法: 本研究は解釈可能なAI手法を用いて, サブタイプ分類に使用されるディープニューラルネットワークによる予測を調査し, TCGA乳癌RNA配列データを用いてバイオマーカーを同定する。 RESULTS: 提案アルゴリズムは43個の差分表現された遺伝子シグネチャの発見に繋がった。 ニューラルネットワーク分類器を用いて,平均10倍精度0.91を達成した。 さらに、遺伝子セット解析により、ERBB2およびp53シグナル伝達経路におけるGRB7イベントのようないくつかの関連経路が明らかになった。 Pearson相関行列を用いて,各サブタイプにサブタイプ特異的な遺伝子が相関していることを示した。 結論: 提案手法により, 簡潔かつ臨床的に関連する遺伝子シグネチャセットを探索できる。

BACKGROUND: Breast cancer has emerged as one of the most prevalent cancers among women leading to a high mortality rate. Due to the heterogeneous nature of breast cancer, there is a need to identify differentially expressed genes associated with breast cancer subtypes for its timely diagnosis and treatment. OBJECTIVE: To identify a small gene set for each of the four breast cancer subtypes that could act as its signature, the paper proposes a novel algorithm for gene signature identification. METHODS: The present work uses interpretable AI methods to investigate the predictions made by the deep neural network employed for subtype classification to identify biomarkers using the TCGA breast cancer RNA Sequence data. RESULTS: The proposed algorithm led to the discovery of a set of 43 differentially expressed gene signatures. We achieved a competitive average 10-fold accuracy of 0.91, using neural network classifier. Further, gene set analysis revealed several relevant pathways, such as GRB7 events in ERBB2 and p53 signaling pathway. Using the Pearson correlation matrix, we noted that the subtype-specific genes are correlated within each subtype. CONCLUSIONS: The proposed technique enables us to find a concise and clinically relevant gene signature set.
翻訳日:2021-11-11 14:57:28 公開日:2021-11-10
# グラフ移植:node saliency-guided graph mixupと局所構造保存

Graph Transplant: Node Saliency-Guided Graph Mixup with Local Structure Preservation ( http://arxiv.org/abs/2111.05639v1 )

ライセンス: Link先を確認
Joonhyung Park, Hajin Shim, Eunho Yang(参考訳) グラフ構造データセットは通常、不規則なグラフサイズとコネクティビティを持ち、mixupのような最近のデータ拡張技術の使用は困難である。 この課題に取り組むために,データ空間に不規則なグラフを混合するグラフ移植と呼ばれるグラフレベルで,最初のmixupライクなグラフ拡張法を提案する。 グラフの様々なスケールで適切に定義するために,本手法は局所情報を保存可能な混合単位としてサブ構造を同定する。 コンテクストを特に考慮しないミックスアップ方式ではノイズを発生しやすいため,ノードサリエンシー情報を用いて有意義なサブグラフを選択し,ラベルを適応的に決定する。 異なるサイズのグラフ領域から,複数のグラフ分類ベンチマークデータセットを用いて,多様なGNNアーキテクチャを用いて手法を広範囲に検証する。 実験結果から,本手法が他の基本データ拡張ベースラインよりも一貫した優位性を示した。 また,グラフ変換によりロバスト性やモデル校正性能が向上することを示した。

Graph-structured datasets usually have irregular graph sizes and connectivities, rendering the use of recent data augmentation techniques, such as Mixup, difficult. To tackle this challenge, we present the first Mixup-like graph augmentation method at the graph-level called Graph Transplant, which mixes irregular graphs in data space. To be well defined on various scales of the graph, our method identifies the sub-structure as a mix unit that can preserve the local information. Since the mixup-based methods without special consideration of the context are prone to generate noisy samples, our method explicitly employs the node saliency information to select meaningful subgraphs and adaptively determine the labels. We extensively validate our method with diverse GNN architectures on multiple graph classification benchmark datasets from a wide range of graph domains of different sizes. Experimental results show the consistent superiority of our method over other basic data augmentation baselines. We also demonstrate that Graph Transplant enhances the performance in terms of robustness and model calibration.
翻訳日:2021-11-11 14:57:09 公開日:2021-11-10
# 連続プロキシラベルを用いたコントラスト学習における条件アライメントと一様性

Conditional Alignment and Uniformity for Contrastive Learning with Continuous Proxy Labels ( http://arxiv.org/abs/2111.05643v1 )

ライセンス: Link先を確認
Benoit Dufumier, Pietro Gori, Julie Victor, Antoine Grigis, Edouard Duchesnay(参考訳) 対照的な学習は、注釈付きデータを必要とせずに、自然画像と医学画像で印象的な結果を示している。 しかし、医学画像の特徴は、学習表現に活用できるメタデータ(年齢や性別など)が利用できることである。 本稿では,多次元メタデータを統合し,条件付きアライメントと大域的均一性という2つの特性を漸近的に最適化する。 Wang, 2020]と同様、条件付きアライメントは、類似したサンプルは類似した特徴を持つべきだが、メタデータは条件付きである。 代わりに、グローバルな均一性は、(正規化された)特徴が、メタデータとは独立して、単位超球面上に均一に分散されるべきであることを意味する。 本稿では,異なるメタデータを持つサンプルのみを撃退するメタデータに依存する条件付き一様性を定義することを提案する。 条件付きアライメントと均一性の両方の直接的な最適化は、CIFAR-100と脳MRIデータセットの両方での線形評価において、表現を改善することを示す。

Contrastive Learning has shown impressive results on natural and medical images, without requiring annotated data. However, a particularity of medical images is the availability of meta-data (such as age or sex) that can be exploited for learning representations. Here, we show that the recently proposed contrastive y-Aware InfoNCE loss, that integrates multi-dimensional meta-data, asymptotically optimizes two properties: conditional alignment and global uniformity. Similarly to [Wang, 2020], conditional alignment means that similar samples should have similar features, but conditionally on the meta-data. Instead, global uniformity means that the (normalized) features should be uniformly distributed on the unit hyper-sphere, independently of the meta-data. Here, we propose to define conditional uniformity, relying on the meta-data, that repel only samples with dissimilar meta-data. We show that direct optimization of both conditional alignment and uniformity improves the representations, in terms of linear evaluation, on both CIFAR-100 and a brain MRI dataset.
翻訳日:2021-11-11 14:56:52 公開日:2021-11-10
# グリーン自動機械学習に向けて:現状と今後の方向

Towards Green Automated Machine Learning: Status Quo and Future Directions ( http://arxiv.org/abs/2111.05850v1 )

ライセンス: Link先を確認
Tanja Tornede and Alexander Tornede and Jonas Hanselle and Marcel Wever and Felix Mohr and Eyke H\"ullermeier(参考訳) 自動機械学習(automl)は、機械学習アルゴリズムとそれらの構成の自動設定を、目の前の学習タスク(データセット)に合わせて、全体的な(ソフトウェア)ソリューション – マシンラーニングパイプライン – に置き換えることを目指している。 過去10年間で、AutoMLは数百のコントリビューションでホットな研究トピックになっている。 AutoMLは多くの可能性を提供しているが、非常にリソース集約的であることも知られている。 高リソース消費の主な原因は、多くのアプローチが良い候補を探しながら多くのMLパイプラインの(高価な)評価に依存していることである。 この問題はAutoML手法の研究の文脈で増幅されており、多くのデータセットとアプローチで大規模な実験が行われ、それぞれがランダム効果を除外するためにいくつかの繰り返し実行されている。 グリーンAIに関する最近の研究の精神の中で,この問題に対するAutoML研究者の意識を高め,治療の可能性について詳しく述べるために,本稿を執筆した。 この目的のために私たちは、automlに関するより持続可能な研究、すなわちアプローチ設計、ベンチマーク、研究インセンティブ、透明性の4つのカテゴリのアクションを特定します。

Automated machine learning (AutoML) strives for the automatic configuration of machine learning algorithms and their composition into an overall (software) solution - a machine learning pipeline - tailored to the learning task (dataset) at hand. Over the last decade, AutoML has become a hot research topic with hundreds of contributions. While AutoML offers many prospects, it is also known to be quite resource-intensive, which is one of its major points of criticism. The primary cause for a high resource consumption is that many approaches rely on the (costly) evaluation of many ML pipelines while searching for good candidates. This problem is amplified in the context of research on AutoML methods, due to large scale experiments conducted with many datasets and approaches, each of them being run with several repetitions to rule out random effects. In the spirit of recent work on Green AI, this paper is written in an attempt to raise the awareness of AutoML researchers for the problem and to elaborate on possible remedies. To this end, we identify four categories of actions the community may take towards more sustainable research on AutoML, namely approach design, benchmarking, research incentives, and transparency.
翻訳日:2021-11-11 14:56:29 公開日:2021-11-10
# データ駆動型SE支援AIモデル信号認識の強化とイントロスペクション

Data-Driven and SE-assisted AI Model Signal-Awareness Enhancement and Introspection ( http://arxiv.org/abs/2111.05827v1 )

ライセンス: Link先を確認
Sahil Suneja, Yufan Zhuang, Yunhui Zheng, Jim Laredo, Alessandro Morari(参考訳) ソースコード理解タスクのためのAIモデリングは大きな進歩を遂げており、本番開発パイプラインで採用されている。 しかし、特にモデルが実際にソースコードのタスク関連の側面を学習しているかどうかという信頼性の懸念が高まっている。 最近のモデルプローピングアプローチでは、多くのai for codeモデル、すなわち、タスク関連の信号をキャプチャしないモデルにおいて、信号認識の欠如が観察されているが、この問題を正すためのソリューションを提供していない。 本稿では,モデルの信号認識性を高めるためのデータ駆動アプローチについて考察する。 1) コード複雑性のSE概念とカリキュラム学習のAI技術を組み合わせる。 2) デルタデバッグをカスタマイズして簡易な信号保存プログラムを生成し,トレーニングデータセットに拡張することで,AIモデルにSEアシストを組み込む。 この手法により,モデル信号認識の最大4.8倍の改善を実現する。 コード複雑性の概念を用いて,データセットの観点から新たなモデル学習イントロスペクションアプローチを提案する。

AI modeling for source code understanding tasks has been making significant progress, and is being adopted in production development pipelines. However, reliability concerns, especially whether the models are actually learning task-related aspects of source code, are being raised. While recent model-probing approaches have observed a lack of signal awareness in many AI-for-code models, i.e. models not capturing task-relevant signals, they do not offer solutions to rectify this problem. In this paper, we explore data-driven approaches to enhance models' signal-awareness: 1) we combine the SE concept of code complexity with the AI technique of curriculum learning; 2) we incorporate SE assistance into AI models by customizing Delta Debugging to generate simplified signal-preserving programs, augmenting them to the training dataset. With our techniques, we achieve up to 4.8x improvement in model signal awareness. Using the notion of code complexity, we further present a novel model learning introspection approach from the perspective of the dataset.
翻訳日:2021-11-11 14:55:47 公開日:2021-11-10
# (参考訳) SwAMP: クロスモーダル検索のためのマルチモーダルペアのスワップアサインメント [全文訳有]

SwAMP: Swapped Assignment of Multi-Modal Pairs for Cross-Modal Retrieval ( http://arxiv.org/abs/2111.05814v1 )

ライセンス: CC BY 4.0
Minyoung Kim(参考訳) 我々は、データ内の関連するマルチモーダルペアによってのみトレーニングが管理されるクロスモーダル検索問題に取り組む。 対照的な学習は、このタスクでもっとも一般的なアプローチです。 しかし、学習のためのサンプリングの複雑さは、トレーニングデータポイントの数で2倍である。 さらに、異なるペアのインスタンスが自動的に無関係であるという仮定を間違える可能性がある。 そこで本研究では,未知クラスの自己ラベル付けに基づく新しい損失関数を提案する。 具体的には、各モダリティにおけるデータインスタンスのクラスラベルを予測し、他のモダリティにおける対応するインスタンスにそれらのラベルを割り当てることを目的とする。 これらのスワップラベルを用いて、教師付きクロスエントロピー損失を用いて各モダリティに対するデータ埋め込みを学習し、線形サンプリング複雑性をもたらす。 また、最新のバッチの埋め込みを格納するためのキューも維持し、クラスタリングの割り当てと埋め込み学習をオンライン形式で同時に行う。 これにより、オフラインクラスタリングのためのトレーニングデータ全体の間欠的エポックを注入する計算オーバーヘッドがなくなる。 本手法は,テキストベースビデオ検索,スケッチベース画像検索,画像テキスト検索など,いくつかの実世界のクロスモーダル検索問題に対して本手法を適用した。

We tackle the cross-modal retrieval problem, where the training is only supervised by the relevant multi-modal pairs in the data. The contrastive learning is the most popular approach for this task. However, its sampling complexity for learning is quadratic in the number of training data points. Moreover, it makes potentially wrong assumption that the instances in different pairs are automatically irrelevant. To address these issues, we propose a novel loss function that is based on self-labeling of the unknown classes. Specifically, we aim to predict class labels of the data instances in each modality, and assign those labels to the corresponding instances in the other modality (i.e., swapping the pseudo labels). With these swapped labels, we learn the data embedding for each modality using the supervised cross-entropy loss, hence leading to linear sampling complexity. We also maintain the queues for storing the embeddings of the latest batches, for which clustering assignment and embedding learning are done at the same time in an online fashion. This removes computational overhead of injecting intermittent epochs of entire training data sweep for offline clustering. We tested our approach on several real-world cross-modal retrieval problems, including text-based video retrieval, sketch-based image retrieval, and image-text retrieval, and for all these tasks our method achieves significant performance improvement over the contrastive learning.
翻訳日:2021-11-11 14:55:00 公開日:2021-11-10
# STNN-DDI:薬物と薬物の相互作用を予測するサブ構造対応テンソルニューラルネットワーク

STNN-DDI: A Substructure-aware Tensor Neural Network to Predict Drug-Drug Interactions ( http://arxiv.org/abs/2111.05708v1 )

ライセンス: Link先を確認
Hui Yu, ShiYu Zhao and JianYu Shi(参考訳) モチベーション(Motivation):多剤間相互作用(DDI)の計算予測は、多剤治療における予期せぬ副作用の軽減に役立つ。 既存の計算手法は刺激的な結果をもたらすが、薬物の作用は主にその化学的サブ構造に起因することを無視する。 加えて、その解釈性は依然として弱い。 結果: 本論文では, 局所的な化学構造(サブ構造)とDDIタイプとの相互作用が, 異なるサブ構造間の結合によって決定されることを示すことにより, DDI予測のための新しいサブ構造対応テンソルニューラルネットワークモデル(STNN-DDI)を設計する。 提案モデルは、サブ構造-サブ構造相互作用(ssi)空間を特徴づける(サブストラクチャ、インテレアクションタイプ、サブストラクチャ)トリプレットの3次元テンソルを学習する。 特定の化学的な意味を持つ事前定義されたサブ構造のリストによると、このSSI空間への薬物のマッピングにより、STNN-DDIは複数のタイプのDDI予測を、説明可能な方法で統一された形でトランスダクティブシナリオとインダクティブシナリオの両方で実行することができる。 深層学習に基づく最先端ベースラインとの融合は、AUC、AUPR、精度、精度を大幅に改善したSTNN-DDIの優位性を示す。 さらに重要なケーススタディでは、DDIの関心に関する薬物間の重要なサブ構造対を明らかにし、与えられたDDI内の相互作用タイプ固有のサブ構造対を明らかにすることによって、その解釈可能性を示す。 要約すると、STNN-DDIはDDIを予測し、薬物間の相互作用機構を説明する効果的なアプローチを提供する。

Motivation: Computational prediction of multiple-type drug-drug interaction (DDI) helps reduce unexpected side effects in poly-drug treatments. Although existing computational approaches achieve inspiring results, they ignore that the action of a drug is mainly caused by its chemical substructures. In addition, their interpretability is still weak. Results: In this paper, by supposing that the interactions between two given drugs are caused by their local chemical structures (sub-structures) and their DDI types are determined by the linkages between different substructure sets, we design a novel Substructure-ware Tensor Neural Network model for DDI prediction (STNN-DDI). The proposed model learns a 3-D tensor of (substructure, in-teraction type, substructure) triplets, which characterizes a substructure-substru cture interaction (SSI) space. According to a list of predefined substructures with specific chemical meanings, the mapping of drugs into this SSI space enables STNN-DDI to perform the multiple-type DDI prediction in both transductive and inductive scenarios in a unified form with an explicable manner. The compar-ison with deep learning-based state-of-the-art baselines demonstrates the superiority of STNN-DDI with the significant improvement of AUC, AUPR, Accuracy, and Precision. More importantly, case studies illustrate its interpretability by both revealing a crucial sub-structure pair across drugs regarding a DDI type of interest and uncovering interaction type-specific substructure pairs in a given DDI. In summary, STNN-DDI provides an effective approach to predicting DDIs as well as explaining the interaction mechanisms among drugs.
翻訳日:2021-11-11 14:28:37 公開日:2021-11-10
# 勾配は必要なだけではありません

Gradients are Not All You Need ( http://arxiv.org/abs/2111.05803v1 )

ライセンス: Link先を確認
Luke Metz, C. Daniel Freeman, Samuel S. Schoenholz, Tal Kachman(参考訳) 差別化可能なプログラミング技術はコミュニティで広く使われており、過去数十年の機械学習のルネッサンスに責任がある。 これらの方法は強力ですが、限界があります。 本稿では、リカレントニューラルネットワークや数値物理シミュレーションから学習したオプティマイザのトレーニングまで、さまざまな異なる状況に現れる一般的なカオスベースの障害モードについて論じる。 我々は、この失敗を研究中のシステムのヤコビアンスペクトルに遡り、この失敗が微分に基づく最適化アルゴリズムを損なうことを実践者がいつ期待するかの基準を提供する。

Differentiable programming techniques are widely used in the community and are responsible for the machine learning renaissance of the past several decades. While these methods are powerful, they have limits. In this short report, we discuss a common chaos based failure mode which appears in a variety of differentiable circumstances, ranging from recurrent neural networks and numerical physics simulation to training learned optimizers. We trace this failure to the spectrum of the Jacobian of the system under study, and provide criteria for when a practitioner might expect this failure to spoil their differentiation based optimization algorithms.
翻訳日:2021-11-11 14:28:05 公開日:2021-11-10
# 地域ベイズ最適化のための森林探索

Searching in the Forest for Local Bayesian Optimization ( http://arxiv.org/abs/2111.05834v1 )

ライセンス: Link先を確認
Difan Deng and Marius Lindauer(参考訳) サンプル効率のため、ベイズ最適化(BO)は高パラメータ最適化(HPO)のような高価なブラックボックス最適化問題を扱う一般的なアプローチとなっている。 最近の実証実験では、HPO問題の損失状況は、かつて想定されていたよりも良さが増す傾向にあり、例えば、一様および凸の場合、BOフレームワークが将来有望な局所領域に集中できるならば、より効率的であることが示されている。 本稿では,多くのHPO問題に遭遇する中規模構成空間に適した2段階アプローチBOinGを提案する。 最初の段階では、ランダムな森林を持つスケーラブルなグローバルサロゲートモデルを構築し、全体の景観構造を記述する。 さらに,上層木構造に対するボトムアップアプローチにより,有望な部分領域を選択する。 第2段階では、このサブリージョンの局所モデルを用いて、次に評価すべき点を提案する。 実証実験により、BOinGは典型的なHPO問題の構造を活用でき、特に合成機能やHPOによる中規模問題でよく機能することが示された。

Because of its sample efficiency, Bayesian optimization (BO) has become a popular approach dealing with expensive black-box optimization problems, such as hyperparameter optimization (HPO). Recent empirical experiments showed that the loss landscapes of HPO problems tend to be more benign than previously assumed, i.e. in the best case uni-modal and convex, such that a BO framework could be more efficient if it can focus on those promising local regions. In this paper, we propose BOinG, a two-stage approach that is tailored toward mid-sized configuration spaces, as one encounters in many HPO problems. In the first stage, we build a scalable global surrogate model with a random forest to describe the overall landscape structure. Further, we choose a promising subregion via a bottom-up approach on the upper-level tree structure. In the second stage, a local model in this subregion is utilized to suggest the point to be evaluated next. Empirical experiments show that BOinG is able to exploit the structure of typical HPO problems and performs particularly well on mid-sized problems from synthetic functions and HPO.
翻訳日:2021-11-11 14:27:55 公開日:2021-11-10
# 無視することを学ぶ:CNNの注意を振り返る

Learning to ignore: rethinking attention in CNNs ( http://arxiv.org/abs/2111.05684v1 )

ライセンス: Link先を確認
Firas Laakom, Kateryna Chumachenko, Jenni Raitoharju, Alexandros Iosifidis, and Moncef Gabbouj(参考訳) 近年,コンピュータビジョンタスクを解決するために,CNN(Convolutional Neural Networks)に注意機構を適用することへの関心が高まっている。 これらの方法のほとんどは、シーンの関連部分を明示的に識別し、ハイライトし、ネットワークのさらなるレイヤに参加者の画像を渡すことを学ぶ。 本稿では,このようなアプローチが最適でない可能性について論じる。 必然的に、画像のどの部分が関連しているかを明示的に学習することは、画像のどの部分が関連性が低いのかを学習するよりも、一般的には困難である。 実際、視覚領域では、無関係な特徴の容易に識別できるパターンが数多く存在する。 例えば、境界に近い画像領域は、分類タスクに有用な情報を含む可能性が低い。 そこで本研究では,CNNにおける注意機構を再構築し,参加学習ではなく無視学習を行うことを提案する。 具体的には、シーン内の無関係な情報を明示的に学習し、生成した表現でそれを抑制し、重要な属性のみを保持することを提案する。 この暗黙の注意制度は既存の注意機構に組み込むことができる。 本研究では,最近の注目手法であるSqueeze and Excitation(SE)ブロックとConvolutional Block Attention Module(CBAM)を用いて,このアイデアを検証する。 異なるデータセットとモデルアーキテクチャの実験結果から、暗黙の注意を無視する学習は、標準的なアプローチよりも優れたパフォーマンスをもたらすことが示された。

Recently, there has been an increasing interest in applying attention mechanisms in Convolutional Neural Networks (CNNs) to solve computer vision tasks. Most of these methods learn to explicitly identify and highlight relevant parts of the scene and pass the attended image to further layers of the network. In this paper, we argue that such an approach might not be optimal. Arguably, explicitly learning which parts of the image are relevant is typically harder than learning which parts of the image are less relevant and, thus, should be ignored. In fact, in vision domain, there are many easy-to-identify patterns of irrelevant features. For example, image regions close to the borders are less likely to contain useful information for a classification task. Based on this idea, we propose to reformulate the attention mechanism in CNNs to learn to ignore instead of learning to attend. Specifically, we propose to explicitly learn irrelevant information in the scene and suppress it in the produced representation, keeping only important attributes. This implicit attention scheme can be incorporated into any existing attention mechanism. In this work, we validate this idea using two recent attention methods Squeeze and Excitation (SE) block and Convolutional Block Attention Module (CBAM). Experimental results on different datasets and model architectures show that learning to ignore, i.e., implicit attention, yields superior performance compared to the standard approaches.
翻訳日:2021-11-11 14:26:56 公開日:2021-11-10
# Palette: 画像間拡散モデル

Palette: Image-to-Image Diffusion Models ( http://arxiv.org/abs/2111.05826v1 )

ライセンス: Link先を確認
Chitwan Saharia, William Chan, Huiwen Chang, Chris A. Lee, Jonathan Ho, Tim Salimans, David J. Fleet, Mohammad Norouzi(参考訳) 我々は条件付き拡散モデルを用いた画像から画像への変換のためのシンプルで一般的なフレームワークであるPaletteを紹介する。 画像から画像への変換に挑戦する4つのタスク(色付け、塗装、切り離し、JPEG圧縮)において、Paletteは強力なGANと回帰ベースラインを上回り、新たな最先端技術を確立する。 これはタスク固有のハイパーパラメータチューニング、アーキテクチャのカスタマイズ、あるいは補助的な損失なしに実現され、望ましい汎用性と柔軟性を示す。 L_2$対$L_1$損失がサンプルの多様性に与える影響を明らかにするとともに,経験的アーキテクチャ研究による自己意識の重要性を実証する。 重要な点は,imagenetに基づく統一評価プロトコルを提唱し,fid,インセプションスコア,resnet-50の分類精度,各種基準画像に対する知覚距離など,いくつかのサンプル品質スコアを報告することである。 我々は、この標準化評価プロトコルが、画像から画像への翻訳研究の進展において重要な役割を果たすことを期待している。 最後に,3つのタスク(着色,着色,JPEGデプレッション)で訓練された1つの一般パレットモデルが,タスク固有のスペシャリストよりも優れていることを示す。

We introduce Palette, a simple and general framework for image-to-image translation using conditional diffusion models. On four challenging image-to-image translation tasks (colorization, inpainting, uncropping, and JPEG decompression), Palette outperforms strong GAN and regression baselines, and establishes a new state of the art. This is accomplished without task-specific hyper-parameter tuning, architecture customization, or any auxiliary loss, demonstrating a desirable degree of generality and flexibility. We uncover the impact of using $L_2$ vs. $L_1$ loss in the denoising diffusion objective on sample diversity, and demonstrate the importance of self-attention through empirical architecture studies. Importantly, we advocate a unified evaluation protocol based on ImageNet, and report several sample quality scores including FID, Inception Score, Classification Accuracy of a pre-trained ResNet-50, and Perceptual Distance against reference images for various baselines. We expect this standardized evaluation protocol to play a critical role in advancing image-to-image translation research. Finally, we show that a single generalist Palette model trained on 3 tasks (colorization, inpainting, JPEG decompression) performs as well or better than task-specific specialist counterparts.
翻訳日:2021-11-11 14:25:32 公開日:2021-11-10
# 縦断データのクラスタリング:多種多様なアプローチに関するチュートリアル

Clustering of longitudinal data: A tutorial on a variety of approaches ( http://arxiv.org/abs/2111.05469v1 )

ライセンス: Link先を確認
Niek Den Teuling, Steffen Pauws, Edwin van den Heuvel(参考訳) 過去20年間で、縦断データにおける傾向の異なるグループを識別する手法が、多くの研究分野において注目されている。 研究者を支援するために,縦断クラスタリングに関する文献からのガイダンスを概説する。 さらに,グループベース軌道モデル (GBTM) や成長混合モデル (GMM) ,縦 k-means (KML) など,長手クラスタリングの手法を選択する。 メソッドは基本的なレベルで導入され、強度、制限、モデル拡張がリストアップされる。 近年のデータ収集の進展に伴い、これらの手法が集中型縦断データ(ILD)に適用可能であることに注意が向けられている。 rで利用可能なパッケージを用いて,合成データセット上での手法の適用例を示す。

During the past two decades, methods for identifying groups with different trends in longitudinal data have become of increasing interest across many areas of research. To support researchers, we summarize the guidance from the literature regarding longitudinal clustering. Moreover, we present a selection of methods for longitudinal clustering, including group-based trajectory modeling (GBTM), growth mixture modeling (GMM), and longitudinal k-means (KML). The methods are introduced at a basic level, and strengths, limitations, and model extensions are listed. Following the recent developments in data collection, attention is given to the applicability of these methods to intensive longitudinal data (ILD). We demonstrate the application of the methods on a synthetic dataset using packages available in R.
翻訳日:2021-11-11 14:24:54 公開日:2021-11-10
# (参考訳) 知識ベース質問応答における一般化への二段階アプローチ [全文訳有]

A Two-Stage Approach towards Generalization in Knowledge Base Question Answering ( http://arxiv.org/abs/2111.05825v1 )

ライセンス: CC BY 4.0
Srinivas Ravishankar, June Thai, Ibrahim Abdelaziz, Nandana Mihidukulasooriya, Tahira Naseem, Pavan Kapanipathi, Gaetano Rossilleo, Achille Fokoue(参考訳) 知識ベース質問回答(KBQA)の既存のアプローチは、アプローチに固有の仮定のために、あるいは異なる知識ベースで評価するために、非自明な変更を必要とするため、特定の知識ベースに焦点を当てている。 しかし、多くの一般的な知識ベースは、知識ベース全体の一般化を促進するために活用できる基礎となるスキーマの類似性を共有している。 この一般化を実現するため、2段階アーキテクチャに基づくKBQAフレームワークを導入し、セマンティックパーシングと知識ベース相互作用を明確に分離し、データセットと知識グラフ間の伝達学習を容易にする。 基礎となる知識ベースが異なるデータセットを事前トレーニングすることで、大幅なパフォーマンス向上とサンプル複雑性の低減が期待できる。 提案手法は,LC-QuAD (DBpedia), WebQSP (Freebase), SimpleQuestions (Wikidata), MetaQA (Wikimovies-KG) の同等ないし最先端のパフォーマンスを実現する。

Most existing approaches for Knowledge Base Question Answering (KBQA) focus on a specific underlying knowledge base either because of inherent assumptions in the approach, or because evaluating it on a different knowledge base requires non-trivial changes. However, many popular knowledge bases share similarities in their underlying schemas that can be leveraged to facilitate generalization across knowledge bases. To achieve this generalization, we introduce a KBQA framework based on a 2-stage architecture that explicitly separates semantic parsing from the knowledge base interaction, facilitating transfer learning across datasets and knowledge graphs. We show that pretraining on datasets with a different underlying knowledge base can nevertheless provide significant performance gains and reduce sample complexity. Our approach achieves comparable or state-of-the-art performance for LC-QuAD (DBpedia), WebQSP (Freebase), SimpleQuestions (Wikidata) and MetaQA (Wikimovies-KG).
翻訳日:2021-11-11 14:22:12 公開日:2021-11-10
# 多クラス分類を用いた法的事例の重要文同定

Important Sentence Identification in Legal Cases Using Multi-Class Classification ( http://arxiv.org/abs/2111.05721v1 )

ライセンス: Link先を確認
Sahan Jayasinghe, Lakith Rambukkanage, Ashan Silva, Nisansa de Silva, Amal Shehan Perera(参考訳) 自然言語処理(NLP)の進歩は、実践的応用や学術的関心の形で様々な領域に広がっている。 因みに、法域には大量のデータをテキスト形式で含んでいる。 したがって、分析的に要求される領域のニーズに対応するためにNLPを適用する必要がある。 訴訟における重要な文、事実、議論の特定は、法律専門家にとって退屈な作業である。 本研究では,判例における重要文を識別するための多級分類における文埋め込みの利用について,本事例における主要当事者の観点から検討する。 さらに、カテゴリー横断エントロピー損失の直接的な使用によって制限される精度を向上させるために、タスク固有の損失関数を定義する。

The advancement of Natural Language Processing (NLP) is spreading through various domains in forms of practical applications and academic interests. Inherently, the legal domain contains a vast amount of data in text format. Therefore it requires the application of NLP to cater to the analytically demanding needs of the domain. Identifying important sentences, facts and arguments in a legal case is such a tedious task for legal professionals. In this research we explore the usage of sentence embeddings for multi-class classification to identify important sentences in a legal case, in the perspective of the main parties present in the case. In addition, a task-specific loss function is defined in order to improve the accuracy restricted by the straightforward use of categorical cross entropy loss.
翻訳日:2021-11-11 14:08:42 公開日:2021-11-10
# prune once for all: スパース事前学習された言語モデル

Prune Once for All: Sparse Pre-Trained Language Models ( http://arxiv.org/abs/2111.05754v1 )

ライセンス: Link先を確認
Ofir Zafrir, Ariel Larey, Guy Boudoukh, Haihao Shen, Moshe Wasserblat(参考訳) トランスフォーマーベースの言語モデルは、自然言語処理の幅広いアプリケーションに適用される。 しかし、それらは非効率でデプロイが難しい。 近年、ターゲットハードウェア上での大規模変圧器モデルの実装効率を高めるために、多くの圧縮アルゴリズムが提案されている。 本研究では,ウェイトプルーニングとモデル蒸留を統合したスパース事前訓練型トランスフォーマー言語モデルの学習手法を提案する。 これらのスパース事前学習モデルは、疎度パターンを維持しながら、幅広いタスクの学習を伝達するために使用できる。 本手法は,3つの既知のアーキテクチャを用いて,スパース事前学習したBERT-Base,BERT-Large ,DistilBERTを作成する。 圧縮されたスパース事前学習モデルが、その知識を、最小限の精度で5つの下流自然言語タスクに伝達する方法を示す。 さらに,量子化アウェアトレーニングを用いて,スパースモデルの重みを8ビット精度まで圧縮する方法を示す。 例えば、SQuADv1.1で微調整して8ビットに量子化することで、エンコーダの圧縮比が$40$Xで、精度損失は$1\%以下となる。 我々の知る限り, BERT-Base, BERT-Large, DistilBERTの圧縮精度比は最も高い。

Transformer-based language models are applied to a wide range of applications in natural language processing. However, they are inefficient and difficult to deploy. In recent years, many compression algorithms have been proposed to increase the implementation efficiency of large Transformer-based models on target hardware. In this work we present a new method for training sparse pre-trained Transformer language models by integrating weight pruning and model distillation. These sparse pre-trained models can be used to transfer learning for a wide range of tasks while maintaining their sparsity pattern. We demonstrate our method with three known architectures to create sparse pre-trained BERT-Base, BERT-Large and DistilBERT. We show how the compressed sparse pre-trained models we trained transfer their knowledge to five different downstream natural language tasks with minimal accuracy loss. Moreover, we show how to further compress the sparse models' weights to 8bit precision using quantization-aware training. For example, with our sparse pre-trained BERT-Large fine-tuned on SQuADv1.1 and quantized to 8bit we achieve a compression ratio of $40$X for the encoder with less than $1\%$ accuracy loss. To the best of our knowledge, our results show the best compression-to-accur acy ratio for BERT-Base, BERT-Large, and DistilBERT.
翻訳日:2021-11-11 14:08:32 公開日:2021-11-10
# データの観点からのモデル不変性の一般化ベネフィットの理解

Understanding the Generalization Benefit of Model Invariance from a Data Perspective ( http://arxiv.org/abs/2111.05529v1 )

ライセンス: Link先を確認
Sicheng Zhu, Bang An, Furong Huang(参考訳) ある種のデータ変換の下で不変となるように開発された機械学習モデルは、実際に一般化の改善を示している。 しかし、なぜ不変性が一般化の恩恵を受けるのかという原則的な理解は限られている。 データセットが与えられると、モデル不変性がより良い一般化を保証する「適切な」データ変換を選択する原則的な方法がしばしば存在しない。 本稿では,変換によって誘導されるサンプル被覆,すなわち変換を用いてデータセット全体をほぼ復元可能なデータセットの代表的なサブセットを導入することで,モデル不変性の一般化効果について検討する。 任意のデータ変換に対して、サンプル被覆に基づく不変モデルに対する洗練された一般化境界を提供する。 また、データ変換集合の「適合性」を、変換によって引き起こされるサンプル被覆数、すなわち、その誘導されたサンプル被覆の最小サイズによって特徴づける。 我々は、小さなサンプル被覆数を持つ「相応しい」変換の一般化境界を締め付けることができることを示した。 さらに,提案したサンプル被覆数は経験的評価が可能であり,モデル不変性を向上させるために変換を選択するためのガイドを提供する。 複数のデータセットにおける実験において、一般的に使用される変換のサンプル被覆数を評価し、変換の集合(例えば3d-ビュー変換)のサンプル被覆数が、テストと不変モデルのトレーニング誤差との差が小さいことを示し、提案を検証する。

Machine learning models that are developed to be invariant under certain types of data transformations have shown improved generalization in practice. However, a principled understanding of why invariance benefits generalization is limited. Given a dataset, there is often no principled way to select "suitable" data transformations under which model invariance guarantees better generalization. This paper studies the generalization benefit of model invariance by introducing the sample cover induced by transformations, i.e., a representative subset of a dataset that can approximately recover the whole dataset using transformations. For any data transformations, we provide refined generalization bounds for invariant models based on the sample cover. We also characterize the "suitability" of a set of data transformations by the sample covering number induced by transformations, i.e., the smallest size of its induced sample covers. We show that we may tighten the generalization bounds for "suitable" transformations that have a small sample covering number. In addition, our proposed sample covering number can be empirically evaluated and thus provides a guide for selecting transformations to develop model invariance for better generalization. In experiments on multiple datasets, we evaluate sample covering numbers for some commonly used transformations and show that the smaller sample covering number for a set of transformations (e.g., the 3D-view transformation) indicates a smaller gap between the test and training error for invariant models, which verifies our propositions.
翻訳日:2021-11-11 14:08:09 公開日:2021-11-10
# BagBERT:マルチトピック分類のためのBERTベースのバッグスタッキング

BagBERT: BERT-based bagging-stacking for multi-topic classification ( http://arxiv.org/abs/2111.05808v1 )

ライセンス: Link先を確認
Lo\"ic Rakotoson, Charles Letaillieur, Sylvain Massip and Fr\'ejus Laleye(参考訳) 本稿では,Biocreative VIIにおけるCOVID-19文献アノテーションタスクについて述べる。 我々は,グローバルな非最適重みの知識を利用して,各ラベルの豊かな表現を構築するアプローチを提案した。 提案手法は,(1)弱訓練重みを特徴とするトレーニングデータの様々な初期化の詰め込み,(2)bert と roberta 組込みに基づく異種語彙モデルの積み重ね,の2段階からなる。 これらの弱い洞察の集約は、古典的なグローバル効率のモデルよりも優れている。 目的は、知識の豊かさをよりシンプルで軽いモデルに蒸留することである。 本システムは92.96のインスタンスベースのF1と91.35のラベルベースのマイクロF1を得る。

This paper describes our submission on the COVID-19 literature annotation task at Biocreative VII. We proposed an approach that exploits the knowledge of the globally non-optimal weights, usually rejected, to build a rich representation of each label. Our proposed approach consists of two stages: (1) A bagging of various initializations of the training data that features weakly trained weights, (2) A stacking of heterogeneous vocabulary models based on BERT and RoBERTa Embeddings. The aggregation of these weak insights performs better than a classical globally efficient model. The purpose is the distillation of the richness of knowledge to a simpler and lighter model. Our system obtains an Instance-based F1 of 92.96 and a Label-based micro-F1 of 91.35.
翻訳日:2021-11-11 14:05:34 公開日:2021-11-10
# 自動運転における状態空間と政策空間のための空間的かつシームレスな階層的強化学習

Spatially and Seamlessly Hierarchical Reinforcement Learning for State Space and Policy space in Autonomous Driving ( http://arxiv.org/abs/2111.05479v1 )

ライセンス: Link先を確認
Jaehyun Kim and Jaeseung Jeong(参考訳) 階層的強化学習の進歩にもかかわらず、高速道路での自動運転における経路計画への応用は困難である。 一つの理由は、従来の階層的強化学習アプローチは、そのリスクのために自律運転には適さないため、エージェントは予測不能な他のエージェントのような複数の障害を避ける必要があるため、安全領域は小さく、散在し、時間とともに変化しなければなりません。 この課題を克服するために,本稿では,状態空間と政策空間に対する空間階層的強化学習手法を提案する。 ハイレベル政策は、行動サブポリシーだけでなく、州の空間や政策空間の概要に心を配る地域も選択する。 その後、低レベルポリシーは、高レベルコマンドによって選択された領域の概要内でエージェントの短期的目標位置を詳述する。 提案手法で提案するネットワーク構造と最適化は, 単レベル手法と同じくらい簡潔である。 道路形状の異なる環境実験により,本手法は初期のエピソードからほぼ最適の方針を見いだし,特に狭く複雑な道路において,階層的強化学習手法のベースラインを上回った。 その結果、道路上の軌道は行動計画レベルでの人間の戦略と類似していた。

Despite advances in hierarchical reinforcement learning, its applications to path planning in autonomous driving on highways are challenging. One reason is that conventional hierarchical reinforcement learning approaches are not amenable to autonomous driving due to its riskiness: the agent must move avoiding multiple obstacles such as other agents that are highly unpredictable, thus safe regions are small, scattered, and changeable over time. To overcome this challenge, we propose a spatially hierarchical reinforcement learning method for state space and policy space. The high-level policy selects not only behavioral sub-policy but also regions to pay mind to in state space and for outline in policy space. Subsequently, the low-level policy elaborates the short-term goal position of the agent within the outline of the region selected by the high-level command. The network structure and optimization suggested in our method are as concise as those of single-level methods. Experiments on the environment with various shapes of roads showed that our method finds the nearly optimal policies from early episodes, outperforming a baseline hierarchical reinforcement learning method, especially in narrow and complex roads. The resulting trajectories on the roads were similar to those of human strategies on the behavioral planning level.
翻訳日:2021-11-11 14:05:09 公開日:2021-11-10
# LSP : グラフの局所感作によるグラフニューラルネットワークの高速化と正規化

LSP : Acceleration and Regularization of Graph Neural Networks via Locality Sensitive Pruning of Graphs ( http://arxiv.org/abs/2111.05694v1 )

ライセンス: Link先を確認
Eitan Kosman, Joel Oren and Dotan Di Castro(参考訳) グラフニューラルネットワーク(gnns)は、グラフ関連のタスクで非常に成功したツールとして登場した。 しかし、現実世界の問題は非常に大きなグラフを含み、これらの問題にGNNを適合させるために必要な計算資源は急速に増大する。 さらに、実世界のグラフのノイズの性質とサイズは、正規化されていない場合、GNNを過度に適合させる。 驚くべきことに、最近の研究によると、大きなグラフには多くの冗長なコンポーネントが含まれており、パフォーマンスを損なうことなく削除できる。 これには、GNNレイヤを介した推論中のノードやエッジの削除、あるいは入力グラフをスペーシングする前処理ステップが含まれる。 この興味深い現象は、効率的かつ正確な最先端のGNNの開発を可能にする。 本稿では,この現象の解明に向けてさらなる一歩を踏み出し,Locality-Sensitive Hashingに基づくグラフプルーニングのためのLocality-Sensitive Pruning (LSP) と呼ばれる体系的手法を提案する。 グラフをスパーシフィケートすることで、元のグラフの類似したローカル環境が、グラフ関連タスクに必須の機能であるスパーシフィケートグラフに類似した環境をもたらすようにする。 局所グラフ特性に基づくプルーニングの適用を正当化するため,様々なシナリオにおける他のプルーニング戦略に対する局所性特性に基づくプルーニングの適用の利点を実証する。 合成および実世界のデータセットに関する広範囲な実験により、lspは性能を損なうことなく大きなグラフからかなりの量のエッジを取り除き、相当な加速を伴う。

Graph Neural Networks (GNNs) have emerged as highly successful tools for graph-related tasks. However, real-world problems involve very large graphs, and the compute resources needed to fit GNNs to those problems grow rapidly. Moreover, the noisy nature and size of real-world graphs cause GNNs to over-fit if not regularized properly. Surprisingly, recent works show that large graphs often involve many redundant components that can be removed without compromising the performance too much. This includes node or edge removals during inference through GNNs layers or as a pre-processing step that sparsifies the input graph. This intriguing phenomenon enables the development of state-of-the-art GNNs that are both efficient and accurate. In this paper, we take a further step towards demystifying this phenomenon and propose a systematic method called Locality-Sensitive Pruning (LSP) for graph pruning based on Locality-Sensitive Hashing. We aim to sparsify a graph so that similar local environments of the original graph result in similar environments in the resulting sparsified graph, which is an essential feature for graph-related tasks. To justify the application of pruning based on local graph properties, we exemplify the advantage of applying pruning based on locality properties over other pruning strategies in various scenarios. Extensive experiments on synthetic and real-world datasets demonstrate the superiority of LSP, which removes a significant amount of edges from large graphs without compromising the performance, accompanied by a considerable acceleration.
翻訳日:2021-11-11 14:04:50 公開日:2021-11-10
# (参考訳) EEGEyeNet:眼球運動予測のための同時脳波と眼球追跡データセットとベンチマーク [全文訳有]

EEGEyeNet: a Simultaneous Electroencephalograp hy and Eye-tracking Dataset and Benchmark for Eye Movement Prediction ( http://arxiv.org/abs/2111.05100v2 )

ライセンス: CC BY 4.0
Ard Kastrati, Martyna Beata P{\l}omecka, Dami\'an Pascual, Lukas Wolf, Victor Gillioz, Roger Wattenhofer, Nicolas Langer(参考訳) 我々は,脳活動と眼球運動の交差に関する研究を進めるために,新しいデータセットとベンチマークを提示する。 脳波同時計測(EEG)と眼球追跡(ET)を3つの異なる実験パラダイムから収集した356名の被験者から作成した。 このデータセットを用いて脳波から視線予測を評価するベンチマークも提案する。 このベンチマークは、左、角度振幅、絶対位置という3つの課題から成り立っている。 このベンチマークでは、古典的機械学習モデルと大規模ニューラルネットワークの両方に基づいて、堅固なベースラインを提供するために、広範な実験を実施しています。 完全なコードとデータをリリースし、新しいメソッドを評価するためのシンプルで使いやすいインターフェースを提供します。

We present a new dataset and benchmark with the goal of advancing research in the intersection of brain activities and eye movements. Our dataset, EEGEyeNet, consists of simultaneous Electroencephalograp hy (EEG) and Eye-tracking (ET) recordings from 356 different subjects collected from three different experimental paradigms. Using this dataset, we also propose a benchmark to evaluate gaze prediction from EEG measurements. The benchmark consists of three tasks with an increasing level of difficulty: left-right, angle-amplitude and absolute position. We run extensive experiments on this benchmark in order to provide solid baselines, both based on classical machine learning models and on large neural networks. We release our complete code and data and provide a simple and easy-to-use interface to evaluate new methods.
翻訳日:2021-11-11 14:02:23 公開日:2021-11-10
# (参考訳) 英語論文における言語間共用: 有病率, 使用状況, 影響の大規模分析 [全文訳有]

Cross-Lingual Citations in English Papers: A Large-Scale Analysis of Prevalence, Usage, and Impact ( http://arxiv.org/abs/2111.05097v2 )

ライセンス: CC BY 4.0
Tarek Saier, Michael F\"arber, Tornike Tsereteli(参考訳) 学術データにおける引用情報は、出版物の受容と学術談話に関する重要な洞察源である。 引用分析の結果と引用ベースの機械学習手法の適用性は、データの完全性に大きく依存する。 学術データの特に欠点の1つは、英語以外の出版物がデータセットに含まれないことや、言語メタデータが利用できないことである。 このため、異なる言語(言語間の引用)の出版物間の引用は、非常に限られた程度にしか研究されていない。 本稿では,100万以上の英文論文に基づく言語間引用の分析を行い,3つの科学的分野と30年間の時間について述べる。 本調査では,引用言語と規律の違い,時間的傾向,使用特性,言語間引用の影響について検討した。 以上の結果から,中国語で書かれた出版物に対する引用率の上昇,現地の非英語言語への引用率,言語間および単言語による引用意図の一貫性が確認された。 さらなる研究を容易にするため,収集したデータとソースコードを公開している。

Citation information in scholarly data is an important source of insight into the reception of publications and the scholarly discourse. Outcomes of citation analyses and the applicability of citation based machine learning approaches heavily depend on the completeness of such data. One particular shortcoming of scholarly data nowadays is that non-English publications are often not included in data sets, or that language metadata is not available. Because of this, citations between publications of differing languages (cross-lingual citations) have only been studied to a very limited degree. In this paper, we present an analysis of cross-lingual citations based on over one million English papers, spanning three scientific disciplines and a time span of three decades. Our investigation covers differences between cited languages and disciplines, trends over time, and the usage characteristics as well as impact of cross-lingual citations. Among our findings are an increasing rate of citations to publications written in Chinese, citations being primarily to local non-English languages, and consistency in citation intent between cross- and monolingual citations. To facilitate further research, we make our collected data and source code publicly available.
翻訳日:2021-11-11 13:34:02 公開日:2021-11-10
# (参考訳) トポロジカルデータ解析に基づく分類器 [全文訳有]

A Topological Data Analysis Based Classifier ( http://arxiv.org/abs/2111.05214v2 )

ライセンス: CC BY 4.0
Rolando Kindelan and Jos\'e Fr\'ias and Mauricio Cerda and Nancy Hitschfeld(参考訳) トポロジカルデータ分析(TDA)は、データセットに隠されたトポロジカル情報を見つけることを目的とした創発的な分野である。 TDAツールは一般的に、機械学習(ML)メソッドを改善するためにフィルタやトポロジカル記述子を作成するために使われてきた。 本稿では,TDAをMLステージに含まないマルチクラス分類問題に直接適用し,不均衡なデータセットの利点を示すアルゴリズムを提案する。 提案アルゴリズムは,データセット上にフィルタされた単純複合体を構築する。 Persistent Homology (PH) は、ラベルのない点がラベル付き隣り合う点から過半数の票でラベルを得る部分複素の選択を導くために用いられる。 異なる次元のデータセット、クラス重複度、クラスごとの不均衡サンプルを8つ選択した。 提案手法は平均してKNNと重み付きKNNよりも優れていた。 バランスの取れたデータセットでは、ローカルSVMやランダムフォレスト(Random Forest)のベースライン分類器と競合し、絡み合ったクラスとマイノリティクラスを分類するすべてのベースラインメソッドを上回っている。

Topological Data Analysis (TDA) is an emergent field that aims to discover topological information hidden in a dataset. TDA tools have been commonly used to create filters and topological descriptors to improve Machine Learning (ML) methods. This paper proposes an algorithm that applies TDA directly to multi-class classification problems, without any further ML stage, showing advantages for imbalanced datasets. The proposed algorithm builds a filtered simplicial complex on the dataset. Persistent Homology (PH) is applied to guide the selection of a sub-complex where unlabeled points obtain the label with the majority of votes from labeled neighboring points. We select 8 datasets with different dimensions, degrees of class overlap and imbalanced samples per class. On average, the proposed TDABC method was better than KNN and weighted-KNN. It behaves competitively with Local SVM and Random Forest baseline classifiers in balanced datasets, and it outperforms all baseline methods classifying entangled and minority classes.
翻訳日:2021-11-11 12:59:26 公開日:2021-11-10
# TAGLETS:補助データを用いた半教師付き自動学習システム

TAGLETS: A System for Automatic Semi-Supervised Learning with Auxiliary Data ( http://arxiv.org/abs/2111.04798v2 )

ライセンス: Link先を確認
Wasu Piriyakulkij and Cristina Menghini and Ross Briden and Nihal V. Nayak and Jeffrey Zhu and Elaheh Raisi and Stephen H. Bach(参考訳) マシンラーニングの実践者は、ターゲットタスク(しばしば制限されている)のラベル付きデータ、ラベルなしデータ、その他のタスクのラベル付きデータセットなど、さまざまなデータにアクセスすることができる。 3種類のデータを自動的に活用し、高品質で可読な分類器を作成するための技術を学ぶためのシステムであるtagletsについて述べる。 TAGLETSの主な構成要素は、(1)知識グラフに基づいて整理された補助データ、(2)補助的および未ラベルのデータを利用する異なる手法をカプセル化したモジュール、(3)アンサンブルされたモジュールを可観測モデルに結合する蒸留段階である。 4つの画像分類タスクにおいて,TAGLETSと最先端の伝達学習および半教師付き学習手法を比較した。 本研究は,対象タスクに対するラベル付きデータの量や補助データの意味的関連性など,さまざまな設定をカバーする。 補助的および未ラベルのデータを複数の学習手法にインテリジェントに組み込むことで、TAGLETSはマッチし、最も多くはそれを超える代替手段となる。 TAGLETSはgithub.com/BatsResea rch/tagletsのオープンソースシステムとして利用可能である。

Machine learning practitioners often have access to a spectrum of data: labeled data for the target task (which is often limited), unlabeled data, and auxiliary data, the many available labeled datasets for other tasks. We describe TAGLETS, a system built to study techniques for automatically exploiting all three types of data and creating high-quality, servable classifiers. The key components of TAGLETS are: (1) auxiliary data organized according to a knowledge graph, (2) modules encapsulating different methods for exploiting auxiliary and unlabeled data, and (3) a distillation stage in which the ensembled modules are combined into a servable model. We compare TAGLETS with state-of-the-art transfer learning and semi-supervised learning methods on four image classification tasks. Our study covers a range of settings, varying the amount of labeled data and the semantic relatedness of the auxiliary data to the target task. We find that the intelligent incorporation of auxiliary and unlabeled data into multiple learning techniques enables TAGLETS to match-and most often significantly surpass-these alternatives. TAGLETS is available as an open-source system at github.com/BatsResea rch/taglets.
翻訳日:2021-11-11 12:45:59 公開日:2021-11-10
# (参考訳) 留意点とマルチスケール特徴融合を用いた手術器具のリアルタイムインスタンス分割 [全文訳有]

Real-time Instance Segmentation of Surgical Instruments using Attention and Multi-scale Feature Fusion ( http://arxiv.org/abs/2111.04911v2 )

ライセンス: CC BY 4.0
Juan Carlos Angeles-Ceron, Gilberto Ochoa-Ruiz, Leonardo Chang, Sharib Ali(参考訳) 精密機器のセグメンテーションは、外科医がより容易に体をナビゲートし、患者の安全を高めるのに役立つ。 手術器具のリアルタイム正確な追跡は, 最小侵襲型コンピュータ支援手術において重要な役割を担っているが, 主に課題である。 1)複雑な手術環境,及び 2)最適精度と速度の両立したモデル設計。 ディープラーニングは、大規模な手術シーン環境から複雑な環境を学ぶ機会を与え、これらの機器を現実世界のシナリオで配置する。 Robust Medical Instrument Segmentation 2019 Challenge (ROBUST-MIS)は、1万フレーム以上の手術器具を異なる臨床環境で提供する。 本稿では,畳み込みブロックアテンションモジュールを補完する軽量単段インスタンスセグメンテーションモデルを用いて,高速かつ高精度な推論を実現する。 データ拡張と最適なアンカーローカライゼーション戦略により、精度をさらに向上する。 私たちの知る限り、これはリアルタイムパフォーマンスと精度向上の両方に明示的に焦点をあてた最初の作業です。 ROBUST-MISチャレンジでは,地域単位のMI_DSCと距離単位のMI_NSDを44%以上改善した。 また、最終アプローチの異なるが競合的なバリエーションでリアルタイムパフォーマンス(60フレーム/秒)を実演しています。

Precise instrument segmentation aid surgeons to navigate the body more easily and increase patient safety. While accurate tracking of surgical instruments in real-time plays a crucial role in minimally invasive computer-assisted surgeries, it is a challenging task to achieve, mainly due to 1) complex surgical environment, and 2) model design with both optimal accuracy and speed. Deep learning gives us the opportunity to learn complex environment from large surgery scene environments and placements of these instruments in real world scenarios. The Robust Medical Instrument Segmentation 2019 challenge (ROBUST-MIS) provides more than 10,000 frames with surgical tools in different clinical settings. In this paper, we use a light-weight single stage instance segmentation model complemented with a convolutional block attention module for achieving both faster and accurate inference. We further improve accuracy through data augmentation and optimal anchor localisation strategies. To our knowledge, this is the first work that explicitly focuses on both real-time performance and improved accuracy. Our approach out-performed top team performances in the ROBUST-MIS challenge with over 44% improvement on both area-based metric MI_DSC and distance-based metric MI_NSD. We also demonstrate real-time performance (> 60 frames-per-second) with different but competitive variants of our final approach.
翻訳日:2021-11-11 12:45:09 公開日:2021-11-10
# グリーン深層学習に関する調査研究

A Survey on Green Deep Learning ( http://arxiv.org/abs/2111.05193v2 )

ライセンス: Link先を確認
Jingjing Xu, Wangchunshu Zhou, Zhiyi Fu, Hao Zhou, Lei Li(参考訳) 近年では、自然言語処理(NLP)やコンピュータビジョン(CV)など、さまざまな分野において、大規模でより深いモデルが立ち上がり、SOTA(State-of-the-ar t)の結果を継続的に押し進めている。 しかし、有望な結果にもかかわらず、SOTAモデルに必要な計算が指数的に増加したことに注意する必要がある。 大規模な計算は驚くほど大きなカーボンフットプリントを持つだけでなく、研究の包括性や実世界のアプリケーションへのデプロイに悪影響を及ぼす。 グリーンディープラーニングはますますホットな研究分野であり、モデルトレーニングと推論の間、研究者はエネルギー使用量や二酸化炭素排出量に注意を払うように求めている。 目標は、軽量で効率的な技術で新しい結果を得ることだ。 モデル圧縮や知識蒸留など、多くの技術がこの目標を達成するために利用できる。 本稿では,グリーン深層学習技術の開発に関する体系的レビューについて述べる。 これらのアプローチは,(1)コンパクトネットワーク,(2)エネルギー効率のトレーニング戦略,(3)エネルギー効率の推論アプローチ,(4)データ利用率の4つのカテゴリに分類される。 それぞれのカテゴリについて,達成された進歩と未解決の課題について論じる。

In recent years, larger and deeper models are springing up and continuously pushing state-of-the-art (SOTA) results across various fields like natural language processing (NLP) and computer vision (CV). However, despite promising results, it needs to be noted that the computations required by SOTA models have been increased at an exponential rate. Massive computations not only have a surprisingly large carbon footprint but also have negative effects on research inclusiveness and deployment on real-world applications. Green deep learning is an increasingly hot research field that appeals to researchers to pay attention to energy usage and carbon emission during model training and inference. The target is to yield novel results with lightweight and efficient technologies. Many technologies can be used to achieve this goal, like model compression and knowledge distillation. This paper focuses on presenting a systematic review of the development of Green deep learning technologies. We classify these approaches into four categories: (1) compact networks, (2) energy-efficient training strategies, (3) energy-efficient inference approaches, and (4) efficient data usage. For each category, we discuss the progress that has been achieved and the unresolved challenges.
翻訳日:2021-11-11 12:06:04 公開日:2021-11-10
# 密集したメッシュ型局所画像特徴を有する単眼形状とポーズ

Monocular Human Shape and Pose with Dense Mesh-borne Local Image Features ( http://arxiv.org/abs/2111.05319v2 )

ライセンス: Link先を確認
Shubhendu Jena, Franck Multon, Adnane Boukhayma(参考訳) ピクセルアライメントによる局所画像特徴を用いた単眼入力による人物形状とポーズ推定のためのグラフ畳み込み手法の改良を提案する。 単一入力カラー画像が与えられた場合、既存のグラフ畳み込みネットワーク(GCN)ベースの人体形状とポーズ推定技術は、すべてのメッシュ頂点に等しく付加された単一の畳み込みニューラルネットワーク(CNN)によって生成されたグローバル画像特徴を用いて、GCNステージを初期化し、テンプレートTポーズメッシュをターゲットポーズに変換する。 対照的に,頂点ごとに局所的な画像特徴を用いるというアイデアを初めて提案する。 これらの特徴は、DensePoseで生成された画素間対応を利用して、CNN画像特徴マップからサンプリングされる。 標準ベンチマークにおける定量および定性的な結果から,局所的な特徴の利用はグローバルな特徴よりも改善され,最先端技術に対する競争性能が向上することが示された。

We propose to improve on graph convolution based approaches for human shape and pose estimation from monocular input, using pixel-aligned local image features. Given a single input color image, existing graph convolutional network (GCN) based techniques for human shape and pose estimation use a single convolutional neural network (CNN) generated global image feature appended to all mesh vertices equally to initialize the GCN stage, which transforms a template T-posed mesh into the target pose. In contrast, we propose for the first time the idea of using local image features per vertex. These features are sampled from the CNN image feature maps by utilizing pixel-to-mesh correspondences generated with DensePose. Our quantitative and qualitative results on standard benchmarks show that using local features improves on global ones and leads to competitive performances with respect to the state-of-the-art.
翻訳日:2021-11-11 12:05:40 公開日:2021-11-10
# コールドブリュー:不完全または欠損した近傍のグラフノード表現

Cold Brew: Distilling Graph Node Representations with Incomplete or Missing Neighborhoods ( http://arxiv.org/abs/2111.04840v2 )

ライセンス: Link先を確認
Wenqing Zheng, Edward W Huang, Nikhil Rao, Sumeet Katariya, Zhangyang Wang and Karthik Subbian(参考訳) グラフニューラルネットワーク(GNN)は、ノード分類、回帰、レコメンデーションタスクにおける技術パフォーマンスの状態を達成している。 高品質でリッチな接続構造が利用できる場合、GNNはうまく機能する。 しかし、ノードの次数がパワーロー分布を持つ多くの実世界グラフでは、多くのノードがより少ない、またはノイズの多い接続を持つため、この要件は満たされない。 この状況の極端な場合、ノードにはStrict Cold Start (SCS) シナリオと呼ばれる隣人がまったく存在しない可能性がある。 これにより、予測モデルはノードの入力機能に完全に依存することになります。 本研究では,scsと隣接環境のノイズに対応するコールドブリューについて,蒸留法を用いてポイントワイズや他のグラフモデルと比較検討する。 本稿では,SCS問題を解くための誘導型GNNの有効性と,SCSの一般化に最適なアーキテクチャを選択するための指標であるFCR(Feature-Contribu tion ratio)を紹介する。 FCRはグラフデータセットの様々なコンポーネントのコントリビューションを阻害し、いくつかの公開ベンチマークとプロプライエタリなeコマースデータセットにおいてCold Brewの優れたパフォーマンスを示す。 私たちのアプローチのソースコードは、https://github.com/a mazon-research/gnn-t ail-generalizationで入手できます。

Graph Neural Networks (GNNs) have achieved state of the art performance in node classification, regression, and recommendation tasks. GNNs work well when high-quality and rich connectivity structure is available. However, this requirement is not satisfied in many real world graphs where the node degrees have power-law distributions as many nodes have either fewer or noisy connections. The extreme case of this situation is a node may have no neighbors at all, called Strict Cold Start (SCS) scenario. This forces the prediction models to rely completely on the node's input features. We propose Cold Brew to address the SCS and noisy neighbor setting compared to pointwise and other graph-based models via a distillation approach. We introduce feature-contribution ratio (FCR), a metric to study the viability of using inductive GNNs to solve the SCS problem and to select the best architecture for SCS generalization. We experimentally show FCR disentangles the contributions of various components of graph datasets and demonstrate the superior performance of Cold Brew on several public benchmarks and proprietary e-commerce datasets. The source code for our approach is available at: https://github.com/a mazon-research/gnn-t ail-generalization.
翻訳日:2021-11-11 12:05:20 公開日:2021-11-10
# 形式的手法による強化学習アルゴリズムの安全性の評価

On Assessing The Safety of Reinforcement Learning algorithms Using Formal Methods ( http://arxiv.org/abs/2111.04865v2 )

ライセンス: Link先を確認
Paulina Stevia Nouwou Mindom and Amin Nikanjam and Foutse Khomh, and John Mullins(参考訳) 自動運転車、健康、航空といった安全クリティカルなシステム分野における強化学習の採用の増加は、安全性の確保の必要性を高めている。 adversarial training、adversarial detection、ロバスト学習といった既存の安全メカニズムは、エージェントがデプロイされるすべての障害に常に適応するとは限らない。 これらの混乱には、行動がエージェントによって予測不可能であり、実際にその学習に有害である移動敵が含まれる。 クリティカルシステムの安全性を確保するには、乱れた環境で進化するエージェントの振る舞いを形式的に保証する手法も必要となる。 したがって,エージェントが直面する学習課題に適応した新しいソリューションを提案する必要がある。 本稿ではまず,移動相手を提示することで,エージェントの方針に欠陥を示す敵エージェントを生成する。 第2に,報酬シェーピングと修正されたq学習アルゴリズムを防御機構として使用し,敵の摂動に対してエージェントの方針を改善する。 最後に、両方のメカニズムの有効性を評価するために確率論的モデル検査を用いる。 我々は,一つのエージェントが非学習と学習の敵と向き合うような離散的なグリッドワールドで実験を行った。 以上の結果から,エージェントと敵の衝突回数の減少が示唆された。 確率的モデルチェックは、敵環境におけるエージェントの安全性に関する低い確率的境界を提供する。

The increasing adoption of Reinforcement Learning in safety-critical systems domains such as autonomous vehicles, health, and aviation raises the need for ensuring their safety. Existing safety mechanisms such as adversarial training, adversarial detection, and robust learning are not always adapted to all disturbances in which the agent is deployed. Those disturbances include moving adversaries whose behavior can be unpredictable by the agent, and as a matter of fact harmful to its learning. Ensuring the safety of critical systems also requires methods that give formal guarantees on the behaviour of the agent evolving in a perturbed environment. It is therefore necessary to propose new solutions adapted to the learning challenges faced by the agent. In this paper, first we generate adversarial agents that exhibit flaws in the agent's policy by presenting moving adversaries. Secondly, We use reward shaping and a modified Q-learning algorithm as defense mechanisms to improve the agent's policy when facing adversarial perturbations. Finally, probabilistic model checking is employed to evaluate the effectiveness of both mechanisms. We have conducted experiments on a discrete grid world with a single agent facing non-learning and learning adversaries. Our results show a diminution in the number of collisions between the agent and the adversaries. Probabilistic model checking provides lower and upper probabilistic bounds regarding the agent's safety in the adversarial environment.
翻訳日:2021-11-11 12:05:00 公開日:2021-11-10