このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。 技術的な詳細は開発者のBlogで紹介します。

下表は最大200件を表示しています。

PDF登録状況(最新200件)


TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) KOHTD: Kazakh のオフライン手書きテキストデータセット [全文訳有]

KOHTD: Kazakh Offline Handwritten Text Dataset ( http://arxiv.org/abs/2110.04075v1 )

ライセンス: CC BY 4.0
Nazgul Toiganbayeva, Mahmoud Kasem, Galymzhan Abdimanap, Kairat Bostanbekov, Abdelrahman Abdallah, Anel Alimova, Daniyar Nurseitov(参考訳) デジタル情報交換への移行にもかかわらず、請求書、税金、メモ、アンケート、歴史データ、試験問題に対する回答など多くの文書は手書きの入力を必要とする。 この点において、コンピュータを用いて記録を復号する自動的な方法である手書き文字認識(HTR)を実装する必要がある。 手書き認識は、人間が同じメッセージを書ける方法が事実上無限にあるため、難しい。 本提案では,カザフ語手書きテキストの包括的データセットが必要であるとして,カザフ語手書きテキスト認識研究を紹介する。 手書きのカザフ文字のデータセットがないため、これは特に当てはまります。 本稿では,3000枚の手書き試験用紙と140335枚以上の分割画像と,約922010個のシンボルを持つカザフ語オフライン手書きテキストデータセット(KOHTD)を提案する。 ディープラーニングと機械学習を使うことで、手書き認識タスクの分野で研究者に役立てることができる。 単語と行の認識には,ctcや注意に基づく手法など,さまざまな一般的なテキスト認識手法を用いた。 この結果はKOHTDの多様性を示している。 また,パラメータのランダム列挙に基づく行と単語のセグメンテーションのための遺伝的アルゴリズム(ga)を提案した。 データセットとgaコードはhttps://github.com/a bdoelsayed2016/kohtd で入手できる。

Despite the transition to digital information exchange, many documents, such as invoices, taxes, memos and questionnaires, historical data, and answers to exam questions, still require handwritten inputs. In this regard, there is a need to implement Handwritten Text Recognition (HTR) which is an automatic way to decrypt records using a computer. Handwriting recognition is challenging because of the virtually infinite number of ways a person can write the same message. For this proposal we introduce Kazakh handwritten text recognition research, a comprehensive dataset of Kazakh handwritten texts is necessary. This is particularly true given the lack of a dataset for handwritten Kazakh text. In this paper, we proposed our extensive Kazakh offline Handwritten Text dataset (KOHTD), which has 3000 handwritten exam papers and more than 140335 segmented images and there are approximately 922010 symbols. It can serve researchers in the field of handwriting recognition tasks by using deep and machine learning. We used a variety of popular text recognition methods for word and line recognition in our studies, including CTC-based and attention-based methods. The findings demonstrate KOHTD's diversity. Also, we proposed a Genetic Algorithm (GA) for line and word segmentation based on random enumeration of a parameter. The dataset and GA code are available at https://github.com/a bdoelsayed2016/KOHTD .
公開日:2021-09-22
翻訳日:2021-10-17 23:52:59
# (参考訳) 医用対話要約用データジェネレータとしてのGPT-3 [全文訳有]

Medically Aware GPT-3 as a Data Generator for Medical Dialogue Summarization ( http://arxiv.org/abs/2110.07356v1 )

ライセンス: CC BY 4.0
Bharath Chintagunta and Namit Katariya and Xavier Amatriain and Anitha Kannan(参考訳) 医学的対話の要約では、要約はコヒーレントでなければならず、対話において医学的に関連する全ての情報を捉えなければならない。 しかしながら、要約のための効果的なモデルを学ぶには、特に取得が難しいラベル付きデータが必要となる。 本稿では,医療関連情報の収集に着目した合成学習データを作成するアルゴリズムを提案する。 我々はGPT-3をアルゴリズムのバックボーンとして利用し、210人のラベル付きサンプルをスケールし、ローショット学習とアンサンブル法を用いた6400人のラベル付きサンプル(~30倍)に匹敵する結果を得る。 詳細な実験において,本手法は人間のラベル付きデータと組み合わせて,医療的精度と一貫性の両面から,人的データだけで訓練したモデルに強く好適な要約を得ることのできる高品質なトレーニングデータを生成する。

In medical dialogue summarization, summaries must be coherent and must capture all the medically relevant information in the dialogue. However, learning effective models for summarization require large amounts of labeled data which is especially hard to obtain. We present an algorithm to create synthetic training data with an explicit focus on capturing medically relevant information. We utilize GPT-3 as the backbone of our algorithm and scale 210 human labeled examples to yield results comparable to using 6400 human labeled examples (~30x) leveraging low-shot learning and an ensemble method. In detailed experiments, we show that this approach produces high quality training data that can further be combined with human labeled data to get summaries that are strongly preferable to those produced by models trained on human data alone both in terms of medical accuracy and coherency.
公開日:2021-09-09
翻訳日:2021-10-17 17:22:53
# (参考訳) 因果モデルにおける隠れ基数制限 [全文訳有]

Restricted Hidden Cardinality Constraints in Causal Models ( http://arxiv.org/abs/2109.05656v1 )

ライセンス: CC BY 4.0
Beata Zjawin, Elie Wolfe, Robert W. Spekkens(参考訳) 観測されていない変数を持つ因果モデルは、観測された変数上の分布に非自明な制約を課す。 2つの変数の共通の原因が観測されない場合、モデルについて追加の仮定をすることなく、それらの間の因果関係を明らかにすることは不可能である。 この研究では、観測されていない変数が基数を知っていることを約束する因果モデルを考える。 このようなモデルにおけるd分離による不等式制約を導出する。 さらに、この結果を利用して量子システムを含むモデルにおける因果影響を研究する可能性についても検討する。

Causal models with unobserved variables impose nontrivial constraints on the distributions over the observed variables. When a common cause of two variables is unobserved, it is impossible to uncover the causal relation between them without making additional assumptions about the model. In this work, we consider causal models with a promise that unobserved variables have known cardinalities. We derive inequality constraints implied by d-separation in such models. Moreover, we explore the possibility of leveraging this result to study causal influence in models that involve quantum systems.
公開日:2021-09-13
翻訳日:2021-10-17 17:09:04
# (参考訳) システムレベルの機械学習ハイブリッドアーキテクチャの提案と包括的自閉症スペクトラム障害診断へのアプローチ [全文訳有]

Proposing a System Level Machine Learning Hybrid Architecture and Approach for a Comprehensive Autism Spectrum Disorder Diagnosis ( http://arxiv.org/abs/2110.03775v1 )

ライセンス: CC0 1.0
Ryan Liu and Spencer He(参考訳) 自閉症スペクトラム障害(Autism Spectrum disorder,ASD)は、知的発達、社会的行動、顔の特徴に影響を及ぼす重度の神経精神疾患であり、症例数は依然として著しく増加している。 様々な症状がasdディスプレイに表示されているため、診断プロセスは困難であり、多くの誤診と、長く高価な診断が行われる。 幸いなことに、早期にALDが診断され治療された場合、正常に進行する可能性がずっと高い。 ASD診断には、機械学習アルゴリズムが社会的行動と顔の特徴の両方を正確かつ効率的に分析し、現在の臨床診断プロセスよりもはるかに短い時間でASD診断を行うことができる。 そこで本稿では,ASDの診断精度を向上させるために,社会的行動と顔の特徴データの両方を活用するハイブリッドアーキテクチャを提案する。 まず,自閉症診断観測スケジュール(ados)社会行動データを分析するソーシャル行動ベースモジュールのためのリニアサポートベクターマシンを開発した。 顔特徴ベースモジュールでは, 顔特徴画像データの解析に密度ネットモデルを用いた。 最後に,Support Vector MachineとDenseNetの異なる特徴を1つのモデルに組み込むことで,ハイブリッドモデルを実装した。 以上の結果から, 提案するハイブリッドモデルにより, asd診断における87%の精度が得られた。 この論文では各モジュールの長所と短所について論じる。

Autism Spectrum Disorder (ASD) is a severe neuropsychiatric disorder that affects intellectual development, social behavior, and facial features, and the number of cases is still significantly increasing. Due to the variety of symptoms ASD displays, the diagnosis process remains challenging, with numerous misdiagnoses as well as lengthy and expensive diagnoses. Fortunately, if ASD is diagnosed and treated early, then the patient will have a much higher chance of developing normally. For an ASD diagnosis, machine learning algorithms can analyze both social behavior and facial features accurately and efficiently, providing an ASD diagnosis in a drastically shorter amount of time than through current clinical diagnosis processes. Therefore, we propose to develop a hybrid architecture fully utilizing both social behavior and facial feature data to improve the accuracy of diagnosing ASD. We first developed a Linear Support Vector Machine for the social behavior based module, which analyzes Autism Diagnostic Observation Schedule (ADOS) social behavior data. For the facial feature based module, a DenseNet model was utilized to analyze facial feature image data. Finally, we implemented our hybrid model by incorporating different features of the Support Vector Machine and the DenseNet into one model. Our results show that the highest accuracy of 87% for ASD diagnosis has been achieved by our proposed hybrid model. The pros and cons of each module will be discussed in this paper.
公開日:2021-09-18
翻訳日:2021-10-17 16:56:12
# (参考訳) ConTIG: 時間的相互作用グラフによる連続表現学習 [全文訳有]

ConTIG: Continuous Representation Learning on Temporal Interaction Graphs ( http://arxiv.org/abs/2110.06088v1 )

ライセンス: CC BY 4.0
Xu Yan, Xiaoliang Fan, Peizhen Yang, Zonghan Wu, Shirui Pan, Longbiao Chen, Yu Zang and Cheng Wang(参考訳) 時間的相互作用グラフ(tig)上の表現学習は、幅広い問題から生じる相互作用の動的進化を伴う複雑なネットワークをモデル化する。 TIG上の既存の動的埋め込みメソッドは、相互作用が発生した場合にのみノード埋め込みを個別に更新する。 それらは、ノードの埋め込み軌道の連続的な動的進化を捉えることができない。 本稿では,ノード埋め込みトラジェクトリの連続的動的進化をキャプチャする連続表現法であるConTIGという2つのモジュールフレームワークを提案する。 2つの必須モジュールにより,最新のインタラクション,隣接特徴,固有特性を含む動的ネットワークにおける3次元因子を探索する。 第1の更新モジュールでは、常微分方程式を用いてノード対間の時間-隣接相互作用パターンから学習し、ノードの状態軌道を学ぶための連続的推論ブロックを用いる。 第2の変換モジュールでは,過去の時間的相互作用情報を集約することにより,将来のノード埋め込みを予測するセルフアテンション機構を導入する。 実験の結果、時間的リンク予測、時間的ノード推薦、動的ノード分類タスクにおける連続性が、最先端のベースライン、特に長期間相互作用予測よりも優れていることが示された。

Representation learning on temporal interaction graphs (TIG) is to model complex networks with the dynamic evolution of interactions arising in a broad spectrum of problems. Existing dynamic embedding methods on TIG discretely update node embeddings merely when an interaction occurs. They fail to capture the continuous dynamic evolution of embedding trajectories of nodes. In this paper, we propose a two-module framework named ConTIG, a continuous representation method that captures the continuous dynamic evolution of node embedding trajectories. With two essential modules, our model exploit three-fold factors in dynamic networks which include latest interaction, neighbor features and inherent characteristics. In the first update module, we employ a continuous inference block to learn the nodes' state trajectories by learning from time-adjacent interaction patterns between node pairs using ordinary differential equations. In the second transform module, we introduce a self-attention mechanism to predict future node embeddings by aggregating historical temporal interaction information. Experiments results demonstrate the superiority of ConTIG on temporal link prediction, temporal node recommendation and dynamic node classification tasks compared with a range of state-of-the-art baselines, especially for long-interval interactions prediction.
公開日:2021-09-27
翻訳日:2021-10-17 16:49:04
# (参考訳) 3次元時空間畳み込みネットワークを用いた自己監督点雲予測 [全文訳有]

Self-supervised Point Cloud Prediction Using 3D Spatio-temporal Convolutional Networks ( http://arxiv.org/abs/2110.04076v1 )

ライセンス: CC BY 4.0
Benedikt Mersch, Xieyuanli Chen, Jens Behley, Cyrill Stachniss(参考訳) 過去の3dlidarスキャンを利用して将来のポイントクラウドを予測することは、自律的なモバイルシステムが予測可能な状態推定、衝突回避、計画を実現する有望な方法である。 本稿では,過去のLiDARスキャンを用いて,将来の3次元LiDAR点雲の予測問題に対処する。 センサレベルの将来のシーンを推定するには、ローカライゼーションやトラッキングシステムのような前のステップを必要とせず、自己管理できる。 本稿では,各3次元lidarスキャンの2次元範囲画像表現を活用し,各範囲画像のシーケンスを結合して3次元テンソルを得るエンドツーエンド手法を提案する。 このようなテンソルに基づいて、3次元畳み込みを用いたエンコーダデコーダアーキテクチャを構築し、シーンの空間的・時間的情報を共同で集約し、将来の3次元点雲を予測する。 提案手法を複数データセット上で評価し,提案手法が既存のポイントクラウド予測アーキテクチャを上回っており,追加の微調整をすることなく,新たな未知環境によく適用できることを示す。 提案手法はオンラインで動作し,通常のLiDARフレームレート10Hzより高速である。

Exploiting past 3D LiDAR scans to predict future point clouds is a promising method for autonomous mobile systems to realize foresighted state estimation, collision avoidance, and planning. In this paper, we address the problem of predicting future 3D LiDAR point clouds given a sequence of past LiDAR scans. Estimating the future scene on the sensor level does not require any preceding steps as in localization or tracking systems and can be trained self-supervised. We propose an end-to-end approach that exploits a 2D range image representation of each 3D LiDAR scan and concatenates a sequence of range images to obtain a 3D tensor. Based on such tensors, we develop an encoder-decoder architecture using 3D convolutions to jointly aggregate spatial and temporal information of the scene and to predict the future 3D point clouds. We evaluate our method on multiple datasets and the experimental results suggest that our method outperforms existing point cloud prediction architectures and generalizes well to new, unseen environments without additional fine-tuning. Our method operates online and is faster than the common LiDAR frame rate of 10 Hz.
公開日:2021-09-28
翻訳日:2021-10-17 16:20:44
# (参考訳) 胸部X線画像からの新型コロナウイルスの診断のためのディープラーニングとANOVA特徴選択法に基づく新しいフレームワーク [全文訳有]

A novel framework based on deep learning and ANOVA feature selection method for diagnosis of COVID-19 cases from chest X-ray Images ( http://arxiv.org/abs/2110.06340v1 )

ライセンス: CC BY 4.0
Hamid Nasiri, Seyyed Ali Alavi(参考訳) 新型コロナウイルス(covid-19)は、武漢で初めて特定され、世界規模で急速に広がり、経済や人々の日常生活に打撃を与えた。 熱、頭痛、頭痛、疲労、筋肉痛、呼吸困難は、すべてCOVID-19の典型的な症状である。 新型コロナウイルスの早期に感染した個人を特定し、治療し、ウイルスの感染を減らすためには、信頼できる検出技術が必要である。 最もアクセスしやすい方法はrt-pcrであるが、時間的コミットメントと偽陰性の結果のため、代替案を求める必要がある。 実際、rt-pcrと比較して胸部ctスキャンや胸部x線画像が優れている。 CTスキャン装置の不足と高コストのため、X線画像はスクリーニングに好適である。 本稿では,X線画像から特徴を抽出するために,事前学習ネットワークDenseNet169を用いた。 特徴選択法 (ANOVA) により, 次元の呪いを克服し, 予測精度を向上させるとともに, 計算量と時間の複雑さを低減した。 最後に、選択された特徴はXGBoostによって分類された。 chestx-ray8データセットは,提案手法の訓練と評価に用いられた。 この方法は2類分類(共生19、健康)では98.72%、3類分類では92%の精度(共生19、健康、肺炎)に達した。

The new coronavirus (known as COVID-19) was first identified in Wuhan and quickly spread worldwide, wreaking havoc on the economy and people's everyday lives. Fever, cough, sore throat, headache, exhaustion, muscular aches, and difficulty breathing are all typical symptoms of COVID-19. A reliable detection technique is needed to identify affected individuals and care for them in the early stages of COVID-19 and reduce the virus's transmission. The most accessible method for COVID-19 identification is RT-PCR; however, due to its time commitment and false-negative results, alternative options must be sought. Indeed, compared to RT-PCR, chest CT scans and chest X-ray images provide superior results. Because of the scarcity and high cost of CT scan equipment, X-ray images are preferable for screening. In this paper, a pre-trained network, DenseNet169, was employed to extract features from X-ray images. Features were chosen by a feature selection method (ANOVA) to reduce computations and time complexity while overcoming the curse of dimensionality to improve predictive accuracy. Finally, selected features were classified by XGBoost. The ChestX-ray8 dataset, which was employed to train and evaluate the proposed method. This method reached 98.72% accuracy for two-class classification (COVID-19, healthy) and 92% accuracy for three-class classification (COVID-19, healthy, pneumonia).
公開日:2021-09-30
翻訳日:2021-10-17 16:05:49
# (参考訳) 認知情報通信のための自然計算アーキテクチャ [全文訳有]

Natural Computational Architectures for Cognitive Info-Communication ( http://arxiv.org/abs/2110.06339v1 )

ライセンス: CC BY 4.0
Gordana Dodig-Crnkovic(参考訳) 認知アーキテクチャに関する40年間の研究の概観(Kotseruba と Tsotsos 2020)は、人間の中核的な認知能力のモデリングを評価するが、自然計算に基づく生物学的に妥当なアプローチには限界がある。 このミニレビューは、生物学的により現実的な認知アーキテクチャの開発に繋がる、生物学的にインスパイアされた最近の計算モデルの発展を形作る視点とアプローチのセットを提示する。 基礎細胞から人間レベルの認知まで、自然認知アーキテクチャの連続性を記述するために、自然・物理的・形態的計算がますます複雑な認知システムの進化につながる進化的情報計算の枠組みを用いる。 40年前、最初の認知アーキテクチャが提案されたとき、認知、体格、進化の理解は異なっていた。 情報物理学、バイオインフォマティクス、情報化学、計算神経科学、複雑性理論、自己組織化、進化論、情報および計算の分野の最先端であった。 新たな発展は、様々なレベルの組織構成員間の相互作用が、エージェンシーの複雑化と認知能力の増大につながる、コンピューティング自然の文脈における認知アーキテクチャのための建設的な学際的枠組みをサポートする。 我々は、自然における認知の理解を高め、認知技術の新たな発展を促すことができる、さらなる調査のための重要な研究課題をいくつか挙げる。 近年、基礎細胞認識は、医学、新しいコンピューティング技術、およびマイクロ・ナノロボット工学に応用される可能性があることで多くの関心を集めている。

Recent comprehensive overview of 40 years of research in cognitive architectures, (Kotseruba and Tsotsos 2020), evaluates modelling of the core cognitive abilities in humans, but only marginally addresses biologically plausible approaches based on natural computation. This mini review presents a set of perspectives and approaches which have shaped the development of biologically inspired computational models in the recent past that can lead to the development of biologically more realistic cognitive architectures. For describing continuum of natural cognitive architectures, from basal cellular to human-level cognition, we use evolutionary info-computational framework, where natural/ physical/ morphological computation leads to evolution of increasingly complex cognitive systems. Forty years ago, when the first cognitive architectures have been proposed, understanding of cognition, embodiment and evolution was different. So was the state of the art of information physics, bioinformatics, information chemistry, computational neuroscience, complexity theory, self-organization, theory of evolution, information and computation. Novel developments support a constructive interdisciplinary framework for cognitive architectures in the context of computing nature, where interactions between constituents at different levels of organization lead to complexification of agency and increased cognitive capacities. We identify several important research questions for further investigation that can increase understanding of cognition in nature and inspire new developments of cognitive technologies. Recently, basal cell cognition attracted a lot of interest for its possible applications in medicine, new computing technologies, as well as micro- and nanorobotics.
公開日:2021-10-01
翻訳日:2021-10-17 15:54:48
# (参考訳) 1つの時間ステップ:超低レイテンシでスパイクニューラルネットワークを訓練する [全文訳有]

One Timestep is All You Need: Training Spiking Neural Networks with Ultra Low Latency ( http://arxiv.org/abs/2110.05929v1 )

ライセンス: CC BY 4.0
Sayeed Shafayet Chowdhury, Nitin Rathi and Kaushik Roy(参考訳) スパイキングニューラルネットワーク(SNN)は、一般的に使用されるディープニューラルネットワーク(DNN)のエネルギー効率の良い代替手段である。 イベント駆動の情報処理により、SNNはDNNの高価な計算要求を大幅に削減し、同等のパフォーマンスを実現する。 しかし、高い推論レイテンシは、ディープSNNのエッジ展開に重大な障害となる。 複数の時間ステップでの計算によってレイテンシが増大するだけでなく、オペレーション数の増加による全体のエネルギー予算が増大するだけでなく、膜電位をフェッチするメモリアクセスのオーバーヘッドが発生し、snsのエネルギー効率が低下する。 このボトルネックを克服し、SNNの潜在能力を最大限活用するために、時間軸での単発推論を行うために、SNNの反復初期化と再学習法を提案する。 このメソッドは、TタイムステップでトレーニングされたSNN(T>1)から始まる。 そして、遅延低減の各段階において、より高い時間ステップでトレーニングされた前段階のネットワークを、低時間ステップでトレーニングを行うための初期化として利用する。 これは、ネットワークが時間領域で徐々に縮小するため、圧縮方法として機能する。 本稿では、直接入力エンコーディングを用いてt=5を選択する。文献によれば、imagenetで十分な性能を達成するのに必要な遅延は最小である。 提案手法により,単体待ち時間でSNNを得ることができ,推論中に1つの前方通過が必要となる。 vgg16を用いたcifar-10,cifar-100,i magenetでは,トップ1の精度が93.05%,70.15%,67.71% であった。 さらに、IIR-SNNは、他の最先端のSNNと比較して5-2500倍のレイテンシで推論を行い、同等かそれ以上の精度を維持している。 さらに、標準のDNNと比較して、提案したIIR-SNNは25-33倍のエネルギー効率を提供するが、分類性能は同等である。

Spiking Neural Networks (SNNs) are energy efficient alternatives to commonly used deep neural networks (DNNs). Through event-driven information processing, SNNs can reduce the expensive compute requirements of DNNs considerably, while achieving comparable performance. However, high inference latency is a significant hindrance to the edge deployment of deep SNNs. Computation over multiple timesteps not only increases latency as well as overall energy budget due to higher number of operations, but also incurs memory access overhead of fetching membrane potentials, both of which lessen the energy benefits of SNNs. To overcome this bottleneck and leverage the full potential of SNNs, we propose an Iterative Initialization and Retraining method for SNNs (IIR-SNN) to perform single shot inference in the temporal axis. The method starts with an SNN trained with T timesteps (T>1). Then at each stage of latency reduction, the network trained at previous stage with higher timestep is utilized as initialization for subsequent training with lower timestep. This acts as a compression method, as the network is gradually shrunk in the temporal domain. In this paper, we use direct input encoding and choose T=5, since as per literature, it is the minimum required latency to achieve satisfactory performance on ImageNet. The proposed scheme allows us to obtain SNNs with up to unit latency, requiring a single forward pass during inference. We achieve top-1 accuracy of 93.05%, 70.15% and 67.71% on CIFAR-10, CIFAR-100 and ImageNet, respectively using VGG16, with just 1 timestep. In addition, IIR-SNNs perform inference with 5-2500X reduced latency compared to other state-of-the-art SNNs, maintaining comparable or even better accuracy. Furthermore, in comparison with standard DNNs, the proposed IIR-SNNs provide25-33X higher energy efficiency, while being comparable to them in classification performance.
公開日:2021-10-01
翻訳日:2021-10-17 15:36:30
# (参考訳) 音楽プレイリストのタイトル生成 : 機械翻訳アプローチ [全文訳有]

Music Playlist Title Generation: A Machine-Translation Approach ( http://arxiv.org/abs/2110.07354v1 )

ライセンス: CC BY 4.0
SeungHeon Doh, Junwon Lee, Juhan Nam(参考訳) 楽曲の集合からプレイリストのタイトルを自動的に生成する機械翻訳手法を提案する。 トラックIDのシーケンスを入力として、プレイリストタイトル内の単語列を出力として、リカレントニューラルネットワーク(RNN)とトランスフォーマーに基づくシーケンス・ツー・シーケンス・フレームワークを音楽データに適用する。 プレイリスト中の楽曲の秩序な性質を考慮し、入力シーケンスの順序を除去する2つの手法を提案する。 1つはシャッフルによるデータ拡張であり、もう1つは位置エンコーディングを削除している。 また、既存のプレイリストデータセットを再編成し、フレーズレベルのプレイリストのタイトルを生成する。 その結果、Transformerモデルは一般的にRNNモデルよりも優れていた。 また、入力シーケンスの順序の削除により、さらに性能が向上する。

We propose a machine-translation approach to automatically generate a playlist title from a set of music tracks. We take a sequence of track IDs as input and a sequence of words in a playlist title as output, adapting the sequence-to-sequence framework based on Recurrent Neural Network (RNN) and Transformer to the music data. Considering the orderless nature of music tracks in a playlist, we propose two techniques that remove the order of the input sequence. One is data augmentation by shuffling and the other is deleting the positional encoding. We also reorganize the existing music playlist datasets to generate phrase-level playlist titles. The result shows that the Transformer models generally outperform the RNN model. Also, removing the order of input sequence improves the performance further.
公開日:2021-10-03
翻訳日:2021-10-17 15:11:07
# (参考訳) レーン検出のためのハイブリッド時空間深層学習アーキテクチャ [全文訳有]

A Hybrid Spatial-temporal Deep Learning Architecture for Lane Detection ( http://arxiv.org/abs/2110.04079v2 )

ライセンス: CC BY 4.0
Yongqi Dong, Sandeep Patil, Bart van Arem, Haneen Farah(参考訳) 信頼性と正確な車線検出は、車線維持支援システムと車線分割警報システムの安全性能にとって極めて重要である。 しかし、特定の困難な特異な状況下では、現在の文献でよく見られる1枚の画像から正確に車線を検出できるような十分な性能を得ることは困難である。 レーンマーキングは連続線であるため、前のフレームからの情報が組み込まれた場合、単一の電流画像で正確に検出できないレーンをより正確に推定することができる。 本研究は,複数の連続画像フレームにおける空間時空間情報をフル活用して,最後の電流フレームにおけるレーンマーキングを検出するハイブリッド時空間シーケンス対1深層学習アーキテクチャを提案する。 Specifically, the hybrid model integrates the single image feature extraction module with the spatial convolutional neural network (SCNN) embedded for excavating spatial features and relationships in one single image, the spatial-temporal feature integration module with spatial-temporal recurrent neural network (ST-RNN), which can capture the spatial-temporal correlations and time dependencies among image sequences, and the encoder-decoder structure, which makes this image segmentation problem work in an end-to-end supervised learning format. 大規模な実験により,提案モデルでは,挑戦的な走行シーンを効果的に処理し,最先端の手法よりも広いマージンで性能を向上できることがわかった。

Reliable and accurate lane detection is of vital importance for the safe performance of Lane Keeping Assistance and Lane Departure Warning systems. However, under certain challenging peculiar circumstances, it is difficult to get satisfactory performance in accurately detecting the lanes from one single image which is often the case in current literature. Since lane markings are continuous lines, the lanes that are difficult to be accurately detected in the single current image can potentially be better deduced if information from previous frames is incorporated. This study proposes a novel hybrid spatial-temporal sequence-to-one deep learning architecture making full use of the spatial-temporal information in multiple continuous image frames to detect lane markings in the very last current frame. Specifically, the hybrid model integrates the single image feature extraction module with the spatial convolutional neural network (SCNN) embedded for excavating spatial features and relationships in one single image, the spatial-temporal feature integration module with spatial-temporal recurrent neural network (ST-RNN), which can capture the spatial-temporal correlations and time dependencies among image sequences, and the encoder-decoder structure, which makes this image segmentation problem work in an end-to-end supervised learning format. Extensive experiments reveal that the proposed model can effectively handle challenging driving scenes and outperforms available state-of-the-art methods with a large margin.
公開日:2021-10-14
翻訳日:2021-10-17 15:04:49
# (参考訳) 画像分割によるプロットデータのクラスタリング [全文訳有]

Clustering Plotted Data by Image Segmentation ( http://arxiv.org/abs/2110.05187v1 )

ライセンス: CC BY 4.0
Tarek Naous, Srinjay Sarkar, Abubakar Abid, James Zou(参考訳) クラスタリングアルゴリズムは、ラベルなしデータのパターンを検出する主要な分析手法の1つである。 既存のクラスタリング手法は通常、データセットのサンプルを計量空間の点として扱い、距離を計算して類似点をグループ化する。 本稿では,2次元空間におけるクラスタリングポイントについて,人間のクラスタ化の方法に着想を得て,ニューラルネットワークをトレーニングして,プロットされたデータに対してインスタンス分割を行う方法を提案する。 私たちのアプローチであるビジュアルクラスタリングは、従来のクラスタリングアルゴリズムよりもいくつかの利点があります。既存のほとんどのクラスタリングアルゴリズムよりもはるかに高速(非常に大きなデータセットに適している)で、クラスタの人間の直観と強く一致しており、デフォルトではハイパーパラメータフリーです(ハイパーパラメータの追加ステップはアルゴリズムのさらなる制御のために導入できますが)。 本手法を合成データ上の他の10種類のクラスタリング手法と比較し,その利点と欠点を説明する。 次に,我々のアプローチを高次元データに拡張し,実世界データでの性能を示す。 Visual Clusteringの実装は公開されており、任意のデータセットに数行のコードで適用することができる。

Clustering algorithms are one of the main analytical methods to detect patterns in unlabeled data. Existing clustering methods typically treat samples in a dataset as points in a metric space and compute distances to group together similar points. In this paper, we present a wholly different way of clustering points in 2-dimensional space, inspired by how humans cluster data: by training neural networks to perform instance segmentation on plotted data. Our approach, Visual Clustering, has several advantages over traditional clustering algorithms: it is much faster than most existing clustering algorithms (making it suitable for very large datasets), it agrees strongly with human intuition for clusters, and it is by default hyperparameter free (although additional steps with hyperparameters can be introduced for more control of the algorithm). We describe the method and compare it to ten other clustering methods on synthetic data to illustrate its advantages and disadvantages. We then demonstrate how our approach can be extended to higher dimensional data and illustrate its performance on real-world data. The implementation of Visual Clustering is publicly available and can be applied to any dataset in a few lines of code.
公開日:2021-10-06
翻訳日:2021-10-17 14:43:02
# (参考訳) 2レベル単調多段推薦システム [全文訳有]

Two-level monotonic multistage recommender systems ( http://arxiv.org/abs/2110.06116v1 )

ライセンス: CC BY 4.0
Ben Dai, Xiaotong Shen, and Wei Pan(参考訳) 推薦システムは,ユーザの好みや意図を複数の項目に対して同時に予測し,比較的少数の観察結果に基づいてパーソナライズされたレコメンデーションを作成する。 中心的な問題は、イベントの単調連鎖に対するユーザ-イテムステージ依存性と呼ばれる3方向のインタラクションをどのように活用し、予測精度を高めるかである。 例えば、記事共有データセットでは、`follow'' アクションは ``like'' アクションを意味し、結果として ``view' アクションを意味する。 本稿では,イベントの単調連鎖を特徴付ける2段階の単調性を利用した多段階レコメンダシステムを構築し,パーソナライズド予測を行う。 特に,非負の付加的潜在因子モデルに基づく大きなマージン分類器を導出し,欠落する観測値,特にステージ間において,予測一貫性を保証しながらパーソナライズされた予測のためのモデルパラメータの数を減少させる。 そこで本研究では,異なる段階におけるユーザ固有の振る舞いを学習するための正規化コスト関数を導出し,決定関数を数値的および分類的共変量にリンクし,ユーザ-イテム-ステージ相互作用をモデル化する。 計算学的には,ブロックワイド座標降下に基づくアルゴリズムを導出する。 理論的には,2段階の単調性は,各段階を個別に扱う標準的な方法や,1段階の単調性のみを利用する順序法と比較して,学習の精度を高める。 最後に,提案手法を既存のシミュレーション手法や記事共有データセットと比較した。

A recommender system learns to predict the user-specific preference or intention over many items simultaneously for all users, making personalized recommendations based on a relatively small number of observations. One central issue is how to leverage three-way interactions, referred to as user-item-stage dependencies on a monotonic chain of events, to enhance the prediction accuracy. A monotonic chain of events occurs, for instance, in an article sharing dataset, where a ``follow'' action implies a ``like'' action, which in turn implies a ``view'' action. In this article, we develop a multistage recommender system utilizing a two-level monotonic property characterizing a monotonic chain of events for personalized prediction. Particularly, we derive a large-margin classifier based on a nonnegative additive latent factor model in the presence of a high percentage of missing observations, particularly between stages, reducing the number of model parameters for personalized prediction while guaranteeing prediction consistency. On this ground, we derive a regularized cost function to learn user-specific behaviors at different stages, linking decision functions to numerical and categorical covariates to model user-item-stage interactions. Computationally, we derive an algorithm based on blockwise coordinate descent. Theoretically, we show that the two-level monotonic property enhances the accuracy of learning as compared to a standard method treating each stage individually and an ordinal method utilizing only one-level monotonicity. Finally, the proposed method compares favorably with existing methods in simulations and an article sharing dataset.
公開日:2021-10-06
翻訳日:2021-10-17 14:36:05
# (参考訳) トーナメント表現の理論 [全文訳有]

A Theory of Tournament Representations ( http://arxiv.org/abs/2110.05188v2 )

ライセンス: CC BY 4.0
Arun Rajkumar, Vishnu Veerathu and Abdul Bakey Mir(参考訳) 現実世界のトーナメントはほとんど常に非定型である。 最近の研究によると、d$ 次元のノード表現を仮定したパラメトリックモデルは、非推移的なトーナメントを効果的にモデル化できる。 しかし、固定された$d$次元表現から生じるトーナメントのクラスの構造については何も分かっていない。 本研究では,パラメトリックトーナメント表現を理解するための新しい理論を開発する。 私たちの最初の貢献は、$d$次元表現から生じるトーナメントのクラスを構造的に特徴づけることです。 これらのトーナメントクラスは、必ずしもフリップクラスの統一でなければならない構成を禁止しており、これはすべてのトーナメントのセットを分割する新しい方法である。 さらに、関連する禁制のフリップクラスがわずか2ドルのトーナメントを含んでいることを示すことで、2ドルのトーナメントを完全に特徴づける。 具体的には、ランキング2ドルのトーナメントは、地域横断トーナメントと同等であることを示す。 この知見は,このトーナメントクラスにおける最小フィードバック節集合問題を,標準Quicksortプロシージャを用いて解くことができることを示す。 一般的な階数$d$トーナメントクラスの場合、サイズ$\mathcal{O}(\sqrt{d})$の2倍正規トーナメントに関連するフリップクラスは禁制の構成でなければならないことを示す。 二重質問に答えるためには、 \cite{forster} の有名な結果を用いて、$n$ ノード上のすべてのトーナメントを表すのに必要な最小次元に対して、$\mathcal{o}(\sqrt{n})$ の下限を示す。 任意のトーナメントにおいて、トーナメントに関連するフリップクラスのフィードバックアーク集合における一意ノードの数の最小サイズに依存する最小の表現次元上の新しい上限を示す。 我々の結果は、行列の符号ランクの上限にも光を当てている。

Real world tournaments are almost always intransitive. Recent works have noted that parametric models which assume $d$ dimensional node representations can effectively model intransitive tournaments. However, nothing is known about the structure of the class of tournaments that arise out of any fixed $d$ dimensional representations. In this work, we develop a novel theory for understanding parametric tournament representations. Our first contribution is to structurally characterize the class of tournaments that arise out of $d$ dimensional representations. We do this by showing that these tournament classes have forbidden configurations which must necessarily be union of flip classes, a novel way to partition the set of all tournaments. We further characterise rank $2$ tournaments completely by showing that the associated forbidden flip class contains just $2$ tournaments. Specifically, we show that the rank $2$ tournaments are equivalent to locally-transitive tournaments. This insight allows us to show that the minimum feedback arc set problem on this tournament class can be solved using the standard Quicksort procedure. For a general rank $d$ tournament class, we show that the flip class associated with a coned-doubly regular tournament of size $\mathcal{O}(\sqrt{d})$ must be a forbidden configuration. To answer a dual question, using a celebrated result of \cite{forster}, we show a lower bound of $\mathcal{O}(\sqrt{n})$ on the minimum dimension needed to represent all tournaments on $n$ nodes. For any given tournament, we show a novel upper bound on the smallest representation dimension that depends on the least size of the number of unique nodes in any feedback arc set of the flip class associated with a tournament. We show how our results also shed light on upper bound of sign-rank of matrices.
公開日:2021-10-12
翻訳日:2021-10-17 13:16:39
# (参考訳) オブジェクト中心プロセスマイニングにおける精度とフィットネス [全文訳有]

Precision and Fitness in Object-Centric Process Mining ( http://arxiv.org/abs/2110.05375v1 )

ライセンス: CC BY 4.0
Jan Niklas Adams and Wil M.P. van der Aalst(参考訳) 伝統的なプロセスマイニングは、単一のケース概念のみを考慮し、これに基づいてモデルを発見し、分析する。 しかし、単一のケース概念は実際には現実的な仮定ではないことが多い。 複数のケース概念がプロセス内で相互に作用し、影響する可能性がある。 オブジェクト中心のプロセスマイニングは、複数のケース概念を扱う技術と概念を導入します。 これまでのところ、このようなイベントログは標準化されており、新しいプロセスモデル発見技術が提案されている。 しかし、モデルの品質を評価するための概念は欠落している。 これらは、オブジェクト中心の発見を改善するための将来の研究を可能にし、モデル品質の客観的評価を提供するために必要である。 本稿では,オブジェクト中心のイベントログに対して,オブジェクト中心のペトリネットの精度と適合性を示す概念を提案する。 形式的な定義を与え、これに例を添えます。 さらに,これらの品質指標を計算するアルゴリズムを提案する。 異なるモデルを用いたイベントログに基づく正確性と適合性の概念について論じる。 我々の精度と適合度の概念は、複数のケース概念、それらの依存関係、およびそれらの相互作用を考慮できるので、品質測定をオブジェクト中心の設定に一般化する適切な方法である。

Traditional process mining considers only one single case notion and discovers and analyzes models based on this. However, a single case notion is often not a realistic assumption in practice. Multiple case notions might interact and influence each other in a process. Object-centric process mining introduces the techniques and concepts to handle multiple case notions. So far, such event logs have been standardized and novel process model discovery techniques were proposed. However, notions for evaluating the quality of a model are missing. These are necessary to enable future research on improving object-centric discovery and providing an objective evaluation of model quality. In this paper, we introduce a notion for the precision and fitness of an object-centric Petri net with respect to an object-centric event log. We give a formal definition and accompany this with an example. Furthermore, we provide an algorithm to calculate these quality measures. We discuss our precision and fitness notion based on an event log with different models. Our precision and fitness notions are an appropriate way to generalize quality measures to the object-centric setting since we are able to consider multiple case notions, their dependencies and their interactions.
公開日:2021-10-06
翻訳日:2021-10-17 12:58:01
# (参考訳) テキスト専用データを用いたエンドツーエンド音声認識のための内部言語モデル適応 [全文訳有]

Internal Language Model Adaptation with Text-Only Data for End-to-End Speech Recognition ( http://arxiv.org/abs/2110.05354v1 )

ライセンス: CC BY 4.0
Zhong Meng, Yashesh Gaur, Naoyuki Kanda, Jinyu Li, Xie Chen, Yu Wu, Yifan Gong(参考訳) エンドツーエンド(E2E)モデルのテキストのみの適応は、自動音声認識(ASR)において難しい課題である。 言語モデル(lm) 融合ベースのアプローチでは、推論中に追加の外部lmが必要となり、計算コストが大幅に増加する。 そこで本研究では,テキストのみのデータを用いたE2Eモデルの内部LM適応(ILMA)を提案する。 E2Eモデルでは、エンコーダコントリビューションをゼロにした後、E2Eモデル出力によって近似されるトークンシーケンス確率を特徴付ける内部LMを暗黙的に学習する。 ILMA中は、内部のLM、すなわちエンコーダを除くE2E成分を微調整し、クロスエントロピー損失を最小限に抑える。 ILMAを効果的にするためには、標準のE2E損失に加えて内部のLM損失でE2Eモデルをトレーニングすることが不可欠である。 さらに,適応型および未適応型内部LMの出力分布間のKullback-Leiblerのばらつきを最小化し,ILMAの正則化を提案する。 ILMAは, 関節ネットワークの最後の線形層のみを更新する場合が最も有効である。 ILMAは、実行時の計算コストを増大させることなく、E2Eモデルの高速テキストのみの適応を可能にする。 ILMAは30K時間トレーニングされたトランスデューサモデルを用いて実験し、適応していないベースラインから34.9%の単語誤り率を減少させる。

Text-only adaptation of an end-to-end (E2E) model remains a challenging task for automatic speech recognition (ASR). Language model (LM) fusion-based approaches require an additional external LM during inference, significantly increasing the computation cost. To overcome this, we propose an internal LM adaptation (ILMA) of the E2E model using text-only data. Trained with audio-transcript pairs, an E2E model implicitly learns an internal LM that characterizes the token sequence probability which is approximated by the E2E model output after zeroing out the encoder contribution. During ILMA, we fine-tune the internal LM, i.e., the E2E components excluding the encoder, to minimize a cross-entropy loss. To make ILMA effective, it is essential to train the E2E model with an internal LM loss besides the standard E2E loss. Furthermore, we propose to regularize ILMA by minimizing the Kullback-Leibler divergence between the output distributions of the adapted and unadapted internal LMs. ILMA is the most effective when we update only the last linear layer of the joint network. ILMA enables a fast text-only adaptation of the E2E model without increasing the run-time computational cost. Experimented with 30K-hour trained transformer transducer models, ILMA achieves up to 34.9% relative word error rate reduction from the unadapted baseline.
公開日:2021-10-06
翻訳日:2021-10-17 12:23:54
# (参考訳) 非コーサル畳み込みを用いたストリーミングトランスデューサに基づく音声認識 [全文訳有]

Streaming Transformer Transducer Based Speech Recognition Using Non-Causal Convolution ( http://arxiv.org/abs/2110.05241v1 )

ライセンス: CC BY 4.0
Yangyang Shi, Chunyang Wu, Dilin Wang, Alex Xiao, Jay Mahadeokar, Xiaohui Zhang, Chunxi Liu, Ke Li, Yuan Shangguan, Varun Nagaraja, Ozlem Kalinli, Mike Seltzer(参考訳) 本稿では,非因果畳み込みを用いた音声認識のためのストリーミングトランスデューサの改良を行った。 多くの作品が因果畳み込みを適用し、ルックアヘッドコンテキストを無視してストリーミングトランスフォーマーを改善する。 中心ブロックとルックアヘッドコンテキストを別々に処理するために,非コーサル畳み込みを用いることを提案する。 この方法は畳み込みにおいてルックアヘッドコンテキストを活用し、同様のトレーニングと復号効率を維持する。 同様のレイテンシを考えると、lookaheadコンテキストと非causal畳み込みを使用することは因果畳み込みよりも精度が向上する。 また,本論文では,対話的頭部注意と新しい履歴コンテキスト圧縮手法を適用し,さらに性能を向上させる。 トーキングヘッドアテンションは、異なるヘッド間で情報を転送することで、マルチヘッド自己注意を改善する。 履歴コンテキスト圧縮法は、より拡張された履歴コンテキストをコンパクトに導入する。 提案手法は, 内部データに基づいて, 相対的WERR 5.1\%, 14.5\%, 8.4\%のオープンドメイン予測, アシスタントジェネラルシナリオ, アシスタントコールシナリオにより, ルックアヘッドコンテキストによる小さなEmformerベースラインを改善する。

This paper improves the streaming transformer transducer for speech recognition by using non-causal convolution. Many works apply the causal convolution to improve streaming transformer ignoring the lookahead context. We propose to use non-causal convolution to process the center block and lookahead context separately. This method leverages the lookahead context in convolution and maintains similar training and decoding efficiency. Given the similar latency, using the non-causal convolution with lookahead context gives better accuracy than causal convolution, especially for open-domain dictation scenarios. Besides, this paper applies talking-head attention and a novel history context compression scheme to further improve the performance. The talking-head attention improves the multi-head self-attention by transferring information among different heads. The history context compression method introduces more extended history context compactly. On our in-house data, the proposed methods improve a small Emformer baseline with lookahead context by relative WERR 5.1\%, 14.5\%, 8.4\% on open-domain dictation, assistant general scenarios, and assistant calling scenarios, respectively.
公開日:2021-10-07
翻訳日:2021-10-17 12:12:17
# (参考訳) ランダムウェイト評価による多目的ニューラルアーキテクチャ探索の高速化 [全文訳有]

Accelerating Multi-Objective Neural Architecture Search by Random-Weight Evaluation ( http://arxiv.org/abs/2110.05242v1 )

ライセンス: CC BY 4.0
Shengran Hu, Ran Cheng, Cheng He, Zhichao Lu, Jing Wang, Miao Zhang(参考訳) 高性能深層畳み込みニューラルネットワーク(cnns)の自動設計の目標として,ニューラルネットワーク探索(nas)手法が学界と産業の両方でますます重要になっている。cnnsのsgd訓練による性能評価により,既存のnas手法のほとんどは実世界の展開に計算コストがかかる。 この問題に対処するために、我々はまずRWE(Random-Weight Evaluation)と呼ばれる新しい性能評価指標を導入し、CNNの品質をコスト効率よく定量化する。 CNN全体を完全トレーニングする代わりに、RWEは最後の層のみをトレーニングし、残りの層をランダムに初期化した重みで残し、結果として1つのネットワーク評価を数秒で行う。 提案手法は,2つの実世界の検索空間において,最先端性能を持つ効率的なモデルセットを得る。 CIFAR-10データセットで得られた結果はImageNetデータセットに転送され、提案アルゴリズムの実用性を検証する。 さらに,nas-bench-301データセットのアブレーション研究により,提案法の有効性が従来の手法と比較して明らかにされた。

For the goal of automated design of high-performance deep convolutional neural networks (CNNs), Neural Architecture Search (NAS) methodology is becoming increasingly important for both academia and industries.Due to the costly stochastic gradient descent (SGD) training of CNNs for performance evaluation, most existing NAS methods are computationally expensive for real-world deployments. To address this issue, we first introduce a new performance estimation metric, named Random-Weight Evaluation (RWE) to quantify the quality of CNNs in a cost-efficient manner. Instead of fully training the entire CNN, the RWE only trains its last layer and leaves the remainders with randomly initialized weights, which results in a single network evaluation in seconds.Second, a complexity metric is adopted for multi-objective NAS to balance the model size and performance. Overall, our proposed method obtains a set of efficient models with state-of-the-art performance in two real-world search spaces. Then the results obtained on the CIFAR-10 dataset are transferred to the ImageNet dataset to validate the practicality of the proposed algorithm. Moreover, ablation studies on NAS-Bench-301 datasets reveal the effectiveness of the proposed RWE in estimating the performance compared with existing methods.
公開日:2021-10-08
翻訳日:2021-10-17 12:01:56
# (参考訳) 敵の攻撃と防御のためのゲーム理論 [全文訳有]

Game Theory for Adversarial Attacks and Defenses ( http://arxiv.org/abs/2110.06166v1 )

ライセンス: CC BY 4.0
Shorya Sharma(参考訳) 逆攻撃は、データセットのサンプルに小さなが故意に最悪の摂動を適用することによって、逆の入力を発生させ、その結果、不正確な答えを高い信頼性で出力する最先端のディープニューラルネットワークさえも生み出す。 したがって、モデルのセキュリティと堅牢性を改善し、攻撃を避けるために、いくつかの敵対的防御技術が開発されている。 段階的に、攻撃者と守備者の間のゲームライクな競争が結成され、双方のプレイヤーはそれぞれの支払いを最大化しながら、お互いに最善を尽くそうとした。 ゲームを解決するため、各プレイヤーは、相手の戦略選択の予測に基づいて、相手に対して最適な戦略を選択する。 本研究では,攻撃に対する防御にゲーム理論的アプローチを適用するための防御的立場にある。 ランダム初期化と確率的アクティベーションプルーニングという2つのランダム化手法を用いて、ネットワークの多様性を創出する。 さらに,攻撃前の画像の事前処理によってモデルのロバスト性を改善するために,デノナイズ技術であるスーパーレゾリューションを用いる。 実験の結果,これら3つの手法は,ニューラルネットワークのロバスト性が効果的に向上することが示唆された。

Adversarial attacks can generate adversarial inputs by applying small but intentionally worst-case perturbations to samples from the dataset, which leads to even state-of-the-art deep neural networks outputting incorrect answers with high confidence. Hence, some adversarial defense techniques are developed to improve the security and robustness of the models and avoid them being attacked. Gradually, a game-like competition between attackers and defenders formed, in which both players would attempt to play their best strategies against each other while maximizing their own payoffs. To solve the game, each player would choose an optimal strategy against the opponent based on the prediction of the opponent's strategy choice. In this work, we are on the defensive side to apply game-theoretic approaches on defending against attacks. We use two randomization methods, random initialization and stochastic activation pruning, to create diversity of networks. Furthermore, we use one denoising technique, super resolution, to improve models' robustness by preprocessing images before attacks. Our experimental results indicate that those three methods can effectively improve the robustness of deep-learning neural networks.
公開日:2021-10-08
翻訳日:2021-10-17 11:48:19
# (参考訳) スマートクローリング:Twitterからのフォーカスクローリングへの新たなアプローチ [全文訳有]

Smart Crawling: A New Approach toward Focus Crawling from Twitter ( http://arxiv.org/abs/2110.06022v1 )

ライセンス: CC BY 4.0
Ahmad Khazaie, Nac\'era Bennacer Seghouani, Francesca Bugiotti(参考訳) Twitterは、検索と分析が難しいリッチで興味深い情報ソースを提供するソーシャルネットワークだ。 TwitterデータはREST APIを使ってアクセスすることができる。 利用可能な操作は、一組のキーワードに基づいてツイートを検索できるが、1分間の呼び出し数や結果のサイズといった制限がある。 さらに、検索された結果に対するコントロールや、特定のトピックに関連するつぶやきを見つけることも大きな問題です。 これらの制限を考慮すると、クエリキーワードが、関連する回答に到達し、API呼び出しの数を減らすために、明らかに関心のあるトピックをカバーすることが重要である。 本稿では,対象トピックに関連するツイートの集合を検索する,SmartTwitter Crawling (STiC)と呼ばれる新しいクローリングアルゴリズムを提案する。 このアルゴリズムでは、初期キーワードクエリを取り込み、異なるデータソースから得られる追加キーワードのセットを使って強化する。 sticアルゴリズムは、twittergraphのdfs検索に依存しており、クロールプロセス全体を通して更新されたスコア付けを使用してクエリキーワードと関連する場合、それぞれの到達したツイートが考慮される。 このスコアは、ツイートのテキスト、ハッシュタグ、ツイートを投稿したユーザー、ツイートへの返信、ツイートで言及されたり、ツイートをリツイートしたユーザーを考慮に入れている。 このスコアから、STiCは各イテレーションで関連するツイートを選択し、関連する価値あるツイートを追加することで継続することができる。 様々な種類のクエリに対していくつかの実験が行われ、単純なBFS検索と比較して精度が向上することを示した。

Twitter is a social network that offers a rich and interesting source of information challenging to retrieve and analyze. Twitter data can be accessed using a REST API. The available operations allow retrieving tweets on the basis of a set of keywords but with limitations such as the number of calls per minute and the size of results. Besides, there is no control on retrieved results and finding tweets which are relevant to a specific topic is a big issue. Given these limitations, it is important that the query keywords cover unambiguously the topic of interest in order to both reach the relevant answers and decrease the number of API calls. In this paper, we introduce a new crawling algorithm called "SmartTwitter Crawling" (STiC) that retrieves a set of tweets related to a target topic. In this algorithm, we take an initial keyword query and enrich it using a set of additional keywords that come from different data sources. STiC algorithm relies on a DFS search in Twittergraph where each reached tweet is considered if it is relevant with the query keywords using a scoring, updated throughout the whole crawling process. This scoring takes into account the tweet text, hashtags and the users who have posted the tweet, replied to the tweet, been mentioned in the tweet or retweeted the tweet. Given this score, STiC is able to select relevant tweets in each iteration and continue by adding the related valuable tweets. Several experiments have been achieved for different kinds of queries, the results showedthat the precision increases compared to a simple BFS search.
公開日:2021-10-08
翻訳日:2021-10-17 11:40:09
# (参考訳) Transformer-CVAEに基づくグラフィックデザインのレイアウト生成アルゴリズム [全文訳有]

The Layout Generation Algorithm of Graphic Design Based on Transformer-CVAE ( http://arxiv.org/abs/2110.06794v1 )

ライセンス: CC BY 4.0
Mengxi Guo and Dangqing Huang and Xiaodong Xie(参考訳) グラフィックデザインは人々の日常生活に広く浸透している。 グラフィックデザインでは、最も時間を要するタスクはインターフェイスに様々なコンポーネントを配置することである。 反復的な手動レイアウト設計は、プロのグラフィックデザイナーにとって多くの時間を浪費するだろう。 既存のテンプレートは通常、基本的なものであり、ほとんどの設計には適していない。 本稿では,トランスフォーマーモデルと条件変分オートエンコーダ(CVAE)をグラフィックデザインレイアウト生成タスクに実装した。 これはLayoutT-CVAEと呼ばれるエンドツーエンドのグラフィックデザインレイアウト生成モデルを提案した。 また,要素の絡み合いと特徴に基づく絡み合い方略を提案し,新しいグラフィックデザインの原理と類似性指標をモデルに導入することで,深層モデルの制御性と解釈性を大幅に向上させた。 既存の最先端モデルと比較して、私たちの生成したレイアウトは多くのメトリクスでより良く機能します。

Graphic design is ubiquitous in people's daily lives. For graphic design, the most time-consuming task is laying out various components in the interface. Repetitive manual layout design will waste a lot of time for professional graphic designers. Existing templates are usually rudimentary and not suitable for most designs, reducing efficiency and limiting creativity. This paper implemented the Transformer model and conditional variational autoencoder (CVAE) to the graphic design layout generation task. It proposed an end-to-end graphic design layout generation model named LayoutT-CVAE. We also proposed element disentanglement and feature-based disentanglement strategies and introduce new graphic design principles and similarity metrics into the model, which significantly increased the controllability and interpretability of the deep model. Compared with the existing state-of-art models, the layout generated by ours performs better on many metrics.
公開日:2021-10-08
翻訳日:2021-10-17 11:28:22
# (参考訳) 画像特徴と患者メタデータを組み合わせるトランスファー学習の促進 [全文訳有]

Combining Image Features and Patient Metadata to Enhance Transfer Learning ( http://arxiv.org/abs/2110.05239v1 )

ライセンス: CC BY 4.0
Spencer A. Thomas(参考訳) 本研究では,画像特徴のみを用いる場合の分類作業における6つの最先端ディープニューラルネットワークの性能と,それらが患者のメタデータと組み合わせられる場合の比較を行う。 我々は、ImageNetで事前訓練されたネットワークからの転送学習を利用して、分類前のISIC HAM10000データセットから画像特徴を抽出する。 複数の分類性能指標を用いて,画像特徴量を含むメタデータの効果を評価する。 さらに,データ拡張による実験を繰り返す。 以上の結果から,vgg16アーキテクチャの劣化にのみ言及し,各ネットワークの性能の全体的な向上を示す。 以上の結果から,この性能向上はディープネットワークの汎用性であり,他の分野においても検討すべきである。 さらに、これらの改善は計算時間に必然的に追加コストがかかるため、他のアプリケーションでは実用的な方法である。

In this work, we compare the performance of six state-of-the-art deep neural networks in classification tasks when using only image features, to when these are combined with patient metadata. We utilise transfer learning from networks pretrained on ImageNet to extract image features from the ISIC HAM10000 dataset prior to classification. Using several classification performance metrics, we evaluate the effects of including metadata with the image features. Furthermore, we repeat our experiments with data augmentation. Our results show an overall enhancement in performance of each network as assessed by all metrics, only noting degradation in a vgg16 architecture. Our results indicate that this performance enhancement may be a general property of deep networks and should be explored in other areas. Moreover, these improvements come at a negligible additional cost in computation time, and therefore are a practical method for other applications.
公開日:2021-10-08
翻訳日:2021-10-17 11:17:07
# (参考訳) チャネルワイドしきい値学習による動的バイナリニューラルネットワーク [全文訳有]

Dynamic Binary Neural Network by learning channel-wise thresholds ( http://arxiv.org/abs/2110.05185v1 )

ライセンス: CC BY 4.0
Jiehua Zhang, Zhuo Su, Yanghe Feng, Xin Lu, Matti Pietik\"ainen, Li Liu(参考訳) バイナリニューラルネットワーク(BNN)は、ストレージと計算コストの制限による重み付けとアクティベーションを+1または-1に制限する。 近年、BNNは目覚ましい進歩を遂げ、様々な分野に採用されている。 しかし,BNNの性能は活性化分布に敏感である。 既存のBNNは、アクティベーションをバイナライズするために、事前定義されたまたは学習された静的しきい値を持つSign関数を利用した。 このプロセスは、異なるサンプルが不等しきい値に適応できるため、BNNの表現能力を制限する。 この問題に対処するために,手話関数の動的学習可能なチャンネルワイドしきい値とPRELUのシフトパラメータを組み込んだ動的BNN(DyBNN)を提案する。 この方法はグローバル情報をハイパー関数に集約し、特徴表現能力を効果的に向上させる。 実験結果から,本手法は情報損失の低減とBNNの性能向上に有効な方法であることが示された。 ReActNetの2つのバックボーン(MobileNetV1とResNet18)に基づくDyBNNは、ImageNetデータセット上で71.2%と67.4%のトップ1-正確性を達成し、ベースラインを大きなマージン(それぞれ1.8%と1.5%)で上回っている。

Binary neural networks (BNNs) constrain weights and activations to +1 or -1 with limited storage and computational cost, which is hardware-friendly for portable devices. Recently, BNNs have achieved remarkable progress and been adopted into various fields. However, the performance of BNNs is sensitive to activation distribution. The existing BNNs utilized the Sign function with predefined or learned static thresholds to binarize activations. This process limits representation capacity of BNNs since different samples may adapt to unequal thresholds. To address this problem, we propose a dynamic BNN (DyBNN) incorporating dynamic learnable channel-wise thresholds of Sign function and shift parameters of PReLU. The method aggregates the global information into the hyper function and effectively increases the feature expression ability. The experimental results prove that our method is an effective and straightforward way to reduce information loss and enhance performance of BNNs. The DyBNN based on two backbones of ReActNet (MobileNetV1 and ResNet18) achieve 71.2% and 67.4% top1-accuracy on ImageNet dataset, outperforming baselines by a large margin (i.e., 1.8% and 1.5% respectively).
公開日:2021-10-08
翻訳日:2021-10-17 11:07:48
# (参考訳) 野球場における最適ピッチング戦略の計算 [全文訳有]

Computing an Optimal Pitching Strategy in a Baseball At-Bat ( http://arxiv.org/abs/2110.04321v1 )

ライセンス: CC BY 4.0
Connor Douglas, Everett Witt, Mia Bendy, and Yevgeniy Vorobeychik(参考訳) 定量的分析の分野は過去10年間、スポーツの世界を変えてきた。 現在までに、これらの分析アプローチは、その中核において統計的であり、何であり、何であったのかを特徴付ける一方で、この情報を使用して将来何をすべきか決定する。 しかし、サッカー、ホッケー、野球などのチームスポーツをペアワイズ・ウィンロスの出会いと見なすことが多いので、ゼロサムゲームとしてモデル化するのは当然のことだ。 本稿では,投手と打者のマッチアップである野球の打席(at-bat)という,重要なスポーツ対決のモデルを提案する。 具体的には,打者のゴールがベースとなるゼロサム確率ゲームとして,ピッチャーが阻止することを目的とした,この出会いの新たなモデルを提案する。 このゲームの価値はオンベースパーセンテージ(すなわち、バッターがベースとなる確率)である。 原則として、この確率ゲームは古典的なアプローチで解くことができる。 主な技術的課題は、ピッチャー意図の関数としてピッチ位置の分布を予測し、打者がピッチでスイングすることを決めた場合の結果の分布を予測し、特定の打者の忍耐レベルを特徴づけることである。 我々は、新たなピッチャーとバッター表現の提案と、結果予測のための新しいディープニューラルネットワークアーキテクチャによって、これらの課題に対処する。 2015年から2018年のメジャーリーグ野球シーズンのカグルデータを用いた実験は,提案手法の有効性を実証した。

The field of quantitative analytics has transformed the world of sports over the last decade. To date, these analytic approaches are statistical at their core, characterizing what is and what was, while using this information to drive decisions about what to do in the future. However, as we often view team sports, such as soccer, hockey, and baseball, as pairwise win-lose encounters, it seems natural to model these as zero-sum games. We propose such a model for one important class of sports encounters: a baseball at-bat, which is a matchup between a pitcher and a batter. Specifically, we propose a novel model of this encounter as a zero-sum stochastic game, in which the goal of the batter is to get on base, an outcome the pitcher aims to prevent. The value of this game is the on-base percentage (i.e., the probability that the batter gets on base). In principle, this stochastic game can be solved using classical approaches. The main technical challenges lie in predicting the distribution of pitch locations as a function of pitcher intention, predicting the distribution of outcomes if the batter decides to swing at a pitch, and characterizing the level of patience of a particular batter. We address these challenges by proposing novel pitcher and batter representations as well as a novel deep neural network architecture for outcome prediction. Our experiments using Kaggle data from the 2015 to 2018 Major League Baseball seasons demonstrate the efficacy of the proposed approach.
公開日:2021-10-08
翻訳日:2021-10-17 10:59:26
# (参考訳) 非既約マルコフ鎖からの学習 [全文訳有]

Learning from non-irreducible Markov chains ( http://arxiv.org/abs/2110.04338v1 )

ライセンス: CC0 1.0
Nikola Sandri\'c and Stjepan \v{S}ebek(参考訳) 教師付き学習問題に関する既存の文献の多くは、トレーニングデータセットがi.d.サンプルから引き出された場合に焦点を当てている。 しかし、多くの実践的な教師付き学習問題は、時間的依存とデータ生成プロセスの限界間の強い相関が特徴であり、すなわち、仮定が必ずしも正当化されるとは限らないことを示唆している。 この問題は、既にドエブリン条件を満たすマルコフ連鎖の文脈で検討されている。 この条件は、特に、鎖がその振舞いにおいて特異なものではなく、すなわち既約であることを意味する。 本稿では、必ずしも既約ではないマルコフ連鎖からトレーニングデータセットが引き出された場合に焦点を当てる。 連鎖が$\mathrm{L}^1$-Wasserstein 距離に対して一様エルゴード的であり、仮説クラスと連鎖の状態空間上の一定の正則性仮定を仮定すると、まず対応するサンプル誤差に対する一様収束結果を求め、次に近似サンプル誤差最小化アルゴリズムの学習可能性を求め、その一般化境界を求める。 最後に、サンプル誤差に対する相対的な一様収束結果についても論じる。

Most of the existing literature on supervised learning problems focuses on the case when the training data set is drawn from an i.i.d. sample. However, many practical supervised learning problems are characterized by temporal dependence and strong correlation between the marginals of the data-generating process, suggesting that the i.i.d. assumption is not always justified. This problem has been already considered in the context of Markov chains satisfying the Doeblin condition. This condition, among other things, implies that the chain is not singular in its behavior, i.e. it is irreducible. In this article, we focus on the case when the training data set is drawn from a not necessarily irreducible Markov chain. Under the assumption that the chain is uniformly ergodic with respect to the $\mathrm{L}^1$-Wasserstein distance, and certain regularity assumptions on the hypothesis class and the state space of the chain, we first obtain a uniform convergence result for the corresponding sample error, and then we conclude learnability of the approximate sample error minimization algorithm and find its generalization bounds. At the end, a relative uniform convergence result for the sample error is also discussed.
公開日:2021-10-08
翻訳日:2021-10-17 10:42:04
# (参考訳) 開発者ディスカッションに基づくバグレポートのソリューション記述の学習 [全文訳有]

Learning to Describe Solutions for Bug Reports Based on Developer Discussions ( http://arxiv.org/abs/2110.04353v1 )

ライセンス: CC BY 4.0
Sheena Panthaplackel, Junyi Jessy Li, Milos Gligoric, Raymond J. Mooney(参考訳) ソフトウェアバグが報告されると、開発者はそれを共同で解決するための議論を行う。 ソリューションは議論の中で定式化されている可能性が高いが、しばしば大量のテキストに埋もれ、理解するのが難しく、実装が遅れる。 バグ解決の迅速化のため,我々は,自然言語とソースコードを包含する議論内の関連コンテンツの合成により,ソリューションの簡潔な自然言語記述を作成することを提案する。 さらに,進行中の議論中に情報的記述を生成することを支援するため,ソリューションに関する十分なコンテキストがリアルタイムに現れるかを決定するための二次的なタスクを提案する。 我々は,バグレポートに関連付けられたリポジトリの変更からノイズを抑える新しい手法を用いて,これらのタスクのためのデータセットを構築した。 ソリューション記述を生成するためのベースラインを確立し、生成に必要なコンテキストが利用可能かどうかを新たな発話に従って予測する分類器を開発する。 自動的および人的評価によって、これらのタスクは、長いバイモーダルな対話コンテキストにおいて複雑な推論のための理想的なテストベッドを形成する。

When a software bug is reported, developers engage in a discussion to collaboratively resolve it. While the solution is likely formulated within the discussion, it is often buried in a large amount of text, making it difficult to comprehend, which delays its implementation. To expedite bug resolution, we propose generating a concise natural language description of the solution by synthesizing relevant content within the discussion, which encompasses both natural language and source code. Furthermore, to support generating an informative description during an ongoing discussion, we propose a secondary task of determining when sufficient context about the solution emerges in real-time. We construct a dataset for these tasks with a novel technique for obtaining noisy supervision from repository changes linked to bug reports. We establish baselines for generating solution descriptions, and develop a classifier which makes a prediction following each new utterance on whether or not the necessary context for performing generation is available. Through automated and human evaluation, we find these tasks to form an ideal testbed for complex reasoning in long, bimodal dialogue context.
公開日:2021-10-08
翻訳日:2021-10-17 09:21:28
# (参考訳) 決定木におけるプログラム可能なデータバイアスに対するロバスト性認定 [全文訳有]

Certifying Robustness to Programmable Data Bias in Decision Trees ( http://arxiv.org/abs/2110.04363v1 )

ライセンス: CC BY 4.0
Anna P. Meyer and Aws Albarghouthi and Loris D'Antoni(参考訳) データセットは、社会的不平等、人間の偏見、マイノリティの過小評価などによってバイアスを受けることができる。 私たちの目標は、学習アルゴリズムが生成するモデルが潜在的なデータセットバイアスに対してポイントワイズロバストであることを確認することです。 これは難しい問題であり、大きな、あるいは無限のデータセットの学習モデルが必要であり、それらがすべて同じ予測を生成することを保証する。 モデルの性質の解釈により,決定木学習に焦点をあてる。 このアプローチでは、さまざまな次元(マイノリティの欠落データなど)にわたるバイアスモデルをプログラム的に特定し、バイアスのタイプを作成し、特定のグループに対するバイアスを目標にすることができる。 頑健性を証明するために、我々は新しい象徴的手法を用いて、大きな、あるいは無限のデータセット上で決定木学習者を評価し、各データセットが特定のテストポイントに対して同じ予測を生成することを証明した。 我々は,公平性文献で一般的に使用されるデータセットに対するアプローチを評価し,バイアスモデル上でのアプローチの有効性を実証する。

Datasets can be biased due to societal inequities, human biases, under-representation of minorities, etc. Our goal is to certify that models produced by a learning algorithm are pointwise-robust to potential dataset biases. This is a challenging problem: it entails learning models for a large, or even infinite, number of datasets, ensuring that they all produce the same prediction. We focus on decision-tree learning due to the interpretable nature of the models. Our approach allows programmatically specifying bias models across a variety of dimensions (e.g., missing data for minorities), composing types of bias, and targeting bias towards a specific group. To certify robustness, we use a novel symbolic technique to evaluate a decision-tree learner on a large, or infinite, number of datasets, certifying that each and every dataset produces the same prediction for a specific test point. We evaluate our approach on datasets that are commonly used in the fairness literature, and demonstrate our approach's viability on a range of bias models.
公開日:2021-10-08
翻訳日:2021-10-17 09:00:46
# (参考訳) サンプル選択バイアス下での公平回帰 [全文訳有]

Fair Regression under Sample Selection Bias ( http://arxiv.org/abs/2110.04372v1 )

ライセンス: CC BY 4.0
Wei Du, Xintao Wu, Hanghang Tong(参考訳) 近年のフェアレグレッション研究は, 対象変数としての新たなフェアネスの概念や近似法の開発に焦点をあてており, 感度特性さえも回帰環境で連続している。 しかしながら、以前のすべての公正回帰研究は、トレーニングデータとテストデータが同じ分布から引き出されると仮定した。 この仮定は、トレーニングとテストデータの間のサンプル選択バイアスのために、現実世界でしばしば違反する。 本稿では,別の隠れたプロセスの結果,トレーニングデータからのサンプル集合の依存変数値が失われている場合に,サンプル選択バイアスの下で公平な回帰を行うためのフレームワークを開発した。 我々のフレームワークは、偏見補正のための古典的ヘックマンモデルとラグランジュ双対性を採用し、様々な公正性の概念に基づいて回帰の公平性を達成する。 ヘックマンモデルはサンプル選択過程を記述し、サンプル選択バイアスを補正するために逆ミル比(Inverse Mills Ratio, IMR)と呼ばれる派生変数を使用する。 我々は、フェアネスの不等式と等式制約を用いて、様々なフェアネス概念を記述し、ラグランジュ双対性理論を適用して原始問題を双対凸最適化に変換する。 平均偏差と平均二乗誤差差という2つの一般的なフェアネス概念に対して、反復最適化なしで明示的な公式を導出し、ピアソン相関の場合、強い双対性を達成する条件を導出する。 3つの実世界のデータセットについて実験を行い,実効性指標と公平性指標の両方から,その効果を実証した。

Recent research on fair regression focused on developing new fairness notions and approximation methods as target variables and even the sensitive attribute are continuous in the regression setting. However, all previous fair regression research assumed the training data and testing data are drawn from the same distributions. This assumption is often violated in real world due to the sample selection bias between the training and testing data. In this paper, we develop a framework for fair regression under sample selection bias when dependent variable values of a set of samples from the training data are missing as a result of another hidden process. Our framework adopts the classic Heckman model for bias correction and the Lagrange duality to achieve fairness in regression based on a variety of fairness notions. Heckman model describes the sample selection process and uses a derived variable called the Inverse Mills Ratio (IMR) to correct sample selection bias. We use fairness inequality and equality constraints to describe a variety of fairness notions and apply the Lagrange duality theory to transform the primal problem into the dual convex optimization. For the two popular fairness notions, mean difference and mean squared error difference, we derive explicit formulas without iterative optimization, and for Pearson correlation, we derive its conditions of achieving strong duality. We conduct experiments on three real-world datasets and the experimental results demonstrate the approach's effectiveness in terms of both utility and fairness metrics.
公開日:2021-10-08
翻訳日:2021-10-17 08:29:13
# (参考訳) パーキンソン病患者の非定常運動の連続的モニタリングのための活動認識フレームワーク [全文訳有]

An Activity Recognition Framework for Continuous Monitoring of Non-Steady-State Locomotion of Individuals with Parkinson's Disease ( http://arxiv.org/abs/2110.06137v1 )

ライセンス: CC BY 4.0
Mahdieh Kazemimoghadam and Nicholas P. Fey(参考訳) パーキンソン病(PD)のような運動障害のある人の活動認識に関する基本的な知識は、定常的・静的なタスク(座り、立ち、歩く)の検出に限られている。 これまで、不均一な地形(階段、傾斜路)における非定常状態の移動の同定は、あまり注目されていない。 さらに,従来の研究は,利用者の利便性やシステム性能に悪影響を及ぼす可能性のある多数の身体位置のデータに大きく依存していた。 ここでは, 軽度pdおよび健常者を対象に, 階段, 傾斜, 方向変化を含む非定常サーキット試験を行った。 タスク認識のために,線形判別分析(LDA)分類器とLong-Short Term Memory(LSTM)ニューラルネットワークを用いたオフライン解析を行った。 各種低身長セグメントの加速度情報およびジャイロ情報の性能を,ユーザ非依存およびユーザ依存のトレーニングパラダイムで検証した。 信号のF1スコアを分類器間で比較すると,LSTMではLDAに比べて性能が向上した。 LSTMを用いて、主観非依存トレーニングにおける情報のサブセット(例えば足のデータ)でさえ、F1スコア > 0.8 を提供するように見えた。 しかし, LDAの使用は, 複数の身体部位から, 被検者に依存したトレーニングやバイオメカニカルデータの使用に限られていることが明らかとなった。 この発見は、軽度パーキンソン病患者の非定常状態および非構造的ロコモーションを処理可能な分類スキームに関する洞察を提供することで、医療監視および高度な低リンブ補助装置の開発の分野で多くの応用に役立つ可能性がある。

Fundamental knowledge in activity recognition of individuals with motor disorders such as Parkinson's disease (PD) has been primarily limited to detection of steady-state/static tasks (sitting, standing, walking). To date, identification of non-steady-state locomotion on uneven terrains (stairs, ramps) has not received much attention. Furthermore, previous research has mainly relied on data from a large number of body locations which could adversely affect user convenience and system performance. Here, individuals with mild stages of PD and healthy subjects performed non-steady-state circuit trials comprising stairs, ramp, and changes of direction. An offline analysis using a linear discriminant analysis (LDA) classifier and a Long-Short Term Memory (LSTM) neural network was performed for task recognition. The performance of accelerographic and gyroscopic information from varied lower/upper-body segments were tested across a set of user-independent and user-dependent training paradigms. Comparing the F1 score of a given signal across classifiers showed improved performance using LSTM compared to LDA. Using LSTM, even a subset of information (e.g., feet data) in subject-independent training appeared to provide F1 score > 0.8. However, employing LDA was shown to be at the expense of being limited to using a subject-dependent training and/or biomechanical data from multiple body locations. The findings could inform a number of applications in the field of healthcare monitoring and developing advanced lower-limb assistive devices by providing insights into classification schemes capable of handling non-steady-state and unstructured locomotion in individuals with mild Parkinson's disease.
公開日:2021-10-08
翻訳日:2021-10-17 08:09:29
# (参考訳) 数十億のパラメータを持つ例がいくつかありますが [全文訳有]

A Few More Examples May Be Worth Billions of Parameters ( http://arxiv.org/abs/2110.04374v1 )

ライセンス: CC0 1.0
Yuval Kirstain, Patrick Lewis, Sebastian Riedel, Omer Levy(参考訳) 様々なタスクにわたるラベル付きサンプル数に対して,モデルパラメータ数を増加させるダイナミクスについて検討する。 我々の調査では、パラメータのスケーリングが一貫してパフォーマンス改善をもたらす一方で、追加例の寄与はタスクの形式に大きく依存している。 具体的には、オープン質問応答タスクでは、トレーニングセットを拡大してもパフォーマンスは向上しない。 対照的に、分類、抽出的質問応答、複数の選択タスクは、追加の例から多くの利益を得るので、数百のサンプルを集めることは、しばしば数十億のパラメータに"価値がある"。 特定の情報をリコールするオープン質問応答とは異なり、サンプル間でより制限されたアウトプットスペース転送を持つタスクの戦略を解決し、少量のラベル付きデータで学ぶことができると仮定する。

We investigate the dynamics of increasing the number of model parameters versus the number of labeled examples across a wide variety of tasks. Our exploration reveals that while scaling parameters consistently yields performance improvements, the contribution of additional examples highly depends on the task's format. Specifically, in open question answering tasks, enlarging the training set does not improve performance. In contrast, classification, extractive question answering, and multiple choice tasks benefit so much from additional examples that collecting a few hundred examples is often "worth" billions of parameters. We hypothesize that unlike open question answering, which involves recalling specific information, solving strategies for tasks with a more restricted output space transfer across examples, and can therefore be learned with small amounts of labeled data.
公開日:2021-10-08
翻訳日:2021-10-17 07:53:58
# (参考訳) ディープノイズ抑圧モデルの性能最適化 [全文訳有]

Performance optimizations on deep noise suppression models ( http://arxiv.org/abs/2110.04378v1 )

ライセンス: CC BY 4.0
Jerry Chee, Sebastian Braun, Vishak Gopal, Ross Cutler(参考訳) 本研究では,深部雑音抑圧(DNS)モデルの予測時間を高速化するアーキテクチャ探索として,等級構造プルーニングが果たす役割について検討する。 ディープラーニングのアプローチは、オーディオ品質の向上に著しく成功したが、複雑さの増加は、リアルタイムアプリケーションへのデプロイを阻害している。 ベースライン上での最大7.25倍の推論スピードアップを達成し、スムーズなモデル性能低下を実現しました。 アブレーション研究は,提案するネットワーク再パラメータ化(層当たりのサイズ)が速度アップの主要な要因であり,構造的プルーニングはより小さなサイズでモデルを直接トレーニングすることと相容れないことを示した。 パラメータの削減はスピードアップを必要としないため,推論速度を報告し,精度の高い非侵襲的音声品質指標を用いてモデル品質を測定する。

We study the role of magnitude structured pruning as an architecture search to speed up the inference time of a deep noise suppression (DNS) model. While deep learning approaches have been remarkably successful in enhancing audio quality, their increased complexity inhibits their deployment in real-time applications. We achieve up to a 7.25X inference speedup over the baseline, with a smooth model performance degradation. Ablation studies indicate that our proposed network re-parameterization (i.e., size per layer) is the major driver of the speedup, and that magnitude structured pruning does comparably to directly training a model in the smaller size. We report inference speed because a parameter reduction does not necessitate speedup, and we measure model quality using an accurate non-intrusive objective speech quality metric.
公開日:2021-10-08
翻訳日:2021-10-17 07:33:44
# (参考訳) 説明可能な品質評価に関するEval4NLP共有タスクの概要と結果 [全文訳有]

The Eval4NLP Shared Task on Explainable Quality Estimation: Overview and Results ( http://arxiv.org/abs/2110.04392v1 )

ライセンス: CC BY 4.0
Marina Fomicheva, Piyawat Lertvittayakumjorn, Wei Zhao, Steffen Eger, Yang Gao(参考訳) 本稿では,eval4nlp-2021共有課題である品質推定について述べる。 ソース-翻訳ペアが与えられた場合、この共有タスクは、翻訳の全体的な品質を示す文レベルスコアを提供するだけでなく、翻訳品質に悪影響を及ぼす単語を特定することによって、このスコアを説明する必要がある。 共有タスクのデータ, ガイドライン, 評価設定を提示し, 6つのシステムについて記述し, 結果を分析した。 我々の知る限りでは、これは説明可能なNLP評価指標に関する最初の共有タスクである。 データセットと結果はhttps://github.com/e val4nlp/sharedtask20 21で入手できる。

In this paper, we introduce the Eval4NLP-2021shared task on explainable quality estimation. Given a source-translation pair, this shared task requires not only to provide a sentence-level score indicating the overall quality of the translation, but also to explain this score by identifying the words that negatively impact translation quality. We present the data, annotation guidelines and evaluation setup of the shared task, describe the six participating systems, and analyze the results. To the best of our knowledge, this is the first shared task on explainable NLP evaluation metrics. Datasets and results are available at https://github.com/e val4nlp/SharedTask20 21.
公開日:2021-10-08
翻訳日:2021-10-17 07:24:45
# (参考訳) 機械学習技術と埋め込みセンサを用いた異常歩行の分類 [全文訳有]

Classification of anomalous gait using Machine Learning techniques and embedded sensors ( http://arxiv.org/abs/2110.06139v1 )

ライセンス: CC BY 4.0
T. R. D. Sa and C. M. S. Figueiredo(参考訳) 人間の歩行は、人間の移動に影響を与える病態を検出するための予測因子となる可能性がある。 また、ヒトの歩行検査ができる伝統的な臨床インフラストラクチャーを整備するために高い投資が求められ、経済的に脆弱な患者には耐えられないことが知られている。 本研究は,3次元加速度計と3次元ジャイロスコープ計測と,異なる歩行障害のカテゴリーを分類する機械学習技術を取得するためのウェアラブルデバイスからなる,アクセス可能で現代的なソリューションを提案する。 提案する研究を展開するために,ターゲットラベルが4つの異なるカテゴリの異常な歩行を示すデータセットを作成した。 このデータセットで(正確性の観点から)最高のパフォーマンスを達成した機械学習技術は、サポートベクトルマシン分類器(94 \%)に続く主成分分析アルゴリズムの適用によるものだった。 さらに、フィードフォワードニューラルネットワークに基づくアーキテクチャにより、より優れた結果(96 \%)が得られた。 最後に、実装されたモデル間の計算性能の比較も提示する。

Human gait can be a predictive factor for detecting pathologies that affect human locomotion according to studies. In addition, it is known that a high investment is demanded in order to raise a traditional clinical infrastructure able to provide human gait examinations, making them unaffordable for economically vulnerable patients. In face of this scenario, this work proposes an accessible and modern solution composed of a wearable device, to acquire 3D-accelerometer and 3D-gyroscope measurements, and machine learning techniques to classify between distinct categories of induced gait disorders. In order to develop the proposed research, it was created a dataset with the target label being 4 distinct and balanced categories of anomalous gait. The machine learning techniques that achieved the best performances (in terms of accuracy) in this dataset were through the application of Principal Component Analysis algorithm following of a Support Vector Machines classifier (94 \%). Further, an architecture based on a Feedforward Neural Network yielded even better results (96 \%). Finally, it is also presented computational performance comparison between the models implemented.
公開日:2021-10-08
翻訳日:2021-10-17 07:06:27
# (参考訳) いつ隣人に電話する? 協調確率帯域における戦略的コミュニケーション

When to Call Your Neighbor? Strategic Communication in Cooperative Stochastic Bandits ( http://arxiv.org/abs/2110.04396v1 )

ライセンス: CC BY 4.0
Udari Madhushani and Naomi Leonard(参考訳) 集団的連続的な意思決定の本質的特徴を捉える枠組みである協調帯域では、エージェントはグループ後悔を最小限に抑え、共有情報を活用することでパフォーマンスを向上させることができる。 しかし、情報の共有にはコストがかかるため、グループ後悔を最小限に抑えつつ、エージェントが伝達するメッセージの数を減らしたポリシーを開発する動機となる。 既存の協調バンディットアルゴリズムは、エージェントが隣人と情報を共有する際の最適な性能を得る。 これは$\theta(t)$のメッセージを必要とし、そこで$t$は意思決定プロセスの時間軸である。 我々は,O(\log T)$のメッセージ数のみを通信しながら,グループによる完全通信と同等のパフォーマンスを達成できる,コスト効率の高い通信プロトコルである‘textit{ComEx} を提案する。 我々の重要なステップは、最適なパフォーマンスを達成するために不可欠な情報を識別し、伝達する手法を開発することです。 さらに,いくつかのベンチマーク協調バンディットフレームワークのための新しいアルゴリズムを提案し,提案手法が既存のアルゴリズムよりも大幅に少ない通信コストを伴いながら, \textit{state-of-the-art} 性能を得ることを示した。

In cooperative bandits, a framework that captures essential features of collective sequential decision making, agents can minimize group regret, and thereby improve performance, by leveraging shared information. However, sharing information can be costly, which motivates developing policies that minimize group regret while also reducing the number of messages communicated by agents. Existing cooperative bandit algorithms obtain optimal performance when agents share information with their neighbors at \textit{every time step}, i.e., full communication. This requires $\Theta(T)$ number of messages, where $T$ is the time horizon of the decision making process. We propose \textit{ComEx}, a novel cost-effective communication protocol in which the group achieves the same order of performance as full communication while communicating only $O(\log T)$ number of messages. Our key step is developing a method to identify and only communicate the information crucial to achieving optimal performance. Further we propose novel algorithms for several benchmark cooperative bandit frameworks and show that our algorithms obtain \textit{state-of-the-art} performance while consistently incurring a significantly smaller communication cost than existing algorithms.
公開日:2021-10-08
翻訳日:2021-10-17 06:57:50
# (参考訳) 2回測定し、1回カットする:ディープニューラルネットワークにおけるバイアスと公平性の定量化 [全文訳有]

Measure Twice, Cut Once: Quantifying Bias and Fairness in Deep Neural Networks ( http://arxiv.org/abs/2110.04397v1 )

ライセンス: CC BY-SA 4.0
Cody Blakeney, Gentry Atkinson, Nathaniel Huish, Yan Yan, Vangelis Metris, Ziliang Zong(参考訳) アルゴリズムバイアスは、研究コミュニティと社会全体の両方に懸念が増している。 AIのバイアスは、従来の差別形式よりも抽象的で直感的であり、検出と緩和が困難である。 マルチクラス分類器の性能における相対バイアスの評価に関する現在の文献には明確なギャップがある。 本研究では,2つのモデルのクラス間バイアスを定量的に評価するために,誤差分散(cev)と対称距離誤差(sde)を組み合わせた簡易かつ効果的な2つの指標を提案する。 これらの新しいメトリクスのパフォーマンスを評価し、その実践的応用を実証することにより、公平性だけでなくバイアスも測定できることを示す。 これらの実演は,マルチクラス分類におけるバイアス測定のための特定のニーズに対応することができることを示す。

Algorithmic bias is of increasing concern, both to the research community, and society at large. Bias in AI is more abstract and unintuitive than traditional forms of discrimination and can be more difficult to detect and mitigate. A clear gap exists in the current literature on evaluating the relative bias in the performance of multi-class classifiers. In this work, we propose two simple yet effective metrics, Combined Error Variance (CEV) and Symmetric Distance Error (SDE), to quantitatively evaluate the class-wise bias of two models in comparison to one another. By evaluating the performance of these new metrics and by demonstrating their practical application, we show that they can be used to measure fairness as well as bias. These demonstrations show that our metrics can address specific needs for measuring bias in multi-class classification.
公開日:2021-10-08
翻訳日:2021-10-17 06:55:57
# (参考訳) 自然言語記述によるアクセシブルな可視化:意味内容の4レベルモデル [全文訳有]

Accessible Visualization via Natural Language Descriptions: A Four-Level Model of Semantic Content ( http://arxiv.org/abs/2110.04406v1 )

ライセンス: CC BY 4.0
Alan Lundgard and Arvind Satyanarayan(参考訳) 自然言語記述は、コミュニケーションや文脈化、障害のある読者へのアクセシビリティ向上のために、可視化に付随することがある。 しかし、これらの記述の有用性や、それらが意味のある情報へのアクセスをいかに効果的に改善するかを評価することは困難である。 そこで本研究では,可視化の自然言語記述による意味内容の概念モデルを提案する。 このモデルは,2,147文の根拠付き理論分析を通じて,可視化構築特性(マークやエンコーディングなど)の列挙,統計的概念と関係(エクストリームや相関など)の報告,知覚的・認知的現象(複雑な傾向やパターンなど)の識別,ドメイン固有の洞察(社会的・政治的文脈など)の解明の4段階にまたがる。 本研究では,視覚的記述の有効性を評価するために,視覚障害者30名と視覚障害者90名による混合手法による評価を行い,どのセマンティック・コンテンツが最も有用かにおいて,これらのリーダー群が有意に異なることを示す。 モデルと知見を組み合わせることで,意味のある情報へのアクセスは読み手固有のものであり,自動可視化キャプションの研究は,読み手の好みに敏感な,全体的な傾向や統計をより豊かに伝達する記述に向かわせるべきであることが示唆された。 我々の研究は、可視化と同等のデータインターフェースとして自然言語の研究空間をさらに開放する。

Natural language descriptions sometimes accompany visualizations to better communicate and contextualize their insights, and to improve their accessibility for readers with disabilities. However, it is difficult to evaluate the usefulness of these descriptions, and how effectively they improve access to meaningful information, because we have little understanding of the semantic content they convey, and how different readers receive this content. In response, we introduce a conceptual model for the semantic content conveyed by natural language descriptions of visualizations. Developed through a grounded theory analysis of 2,147 sentences, our model spans four levels of semantic content: enumerating visualization construction properties (e.g., marks and encodings); reporting statistical concepts and relations (e.g., extrema and correlations); identifying perceptual and cognitive phenomena (e.g., complex trends and patterns); and elucidating domain-specific insights (e.g., social and political context). To demonstrate how our model can be applied to evaluate the effectiveness of visualization descriptions, we conduct a mixed-methods evaluation with 30 blind and 90 sighted readers, and find that these reader groups differ significantly on which semantic content they rank as most useful. Together, our model and findings suggest that access to meaningful information is strongly reader-specific, and that research in automatic visualization captioning should orient toward descriptions that more richly communicate overall trends and statistics, sensitive to reader preferences. Our work further opens a space of research on natural language as a data interface coequal with visualization.
公開日:2021-10-08
翻訳日:2021-10-17 06:42:33
# (参考訳) フォームアタックによるトランスフォーマー型フォームフィールドエクストラクタのロバスト性評価 [全文訳有]

Robustness Evaluation of Transformer-based Form Field Extractors via Form Attacks ( http://arxiv.org/abs/2110.04413v1 )

ライセンス: CC BY 4.0
Le Xue, Mingfei Gao, Zeyuan Chen, Caiming Xiong and Ran Xu(参考訳) 本稿では,フォーム攻撃によるフォームフィールド抽出手法の堅牢性を評価するための新しいフレームワークを提案する。 我々は,OCRレベルとフォームレベルの両方からのフォーム攻撃に対する最先端フィールド抽出器の脆弱性を評価するために,OCR位置/順序再構成,フォームバックグラウンド操作,フォームフィールド値拡張を含む14の新たなフォーム変換を導入する。 実請求書と領収書を用いてロバスト性評価を行い,包括的な調査分析を行う。 実験結果から,フィールド値の変動(F1スコアの15%減),入力テキスト順の乱れ(F1スコアの15%減),隣接するフィールド値の単語の破壊(F1スコアの10%減)など,フィールド値の変動(F1スコアの15%減)を予測できる可能性が示唆された。 分析により,フィールド抽出器の設計とデータ収集のプロセスを改善することを推奨する。

We propose a novel framework to evaluate the robustness of transformer-based form field extraction methods via form attacks. We introduce 14 novel form transformations to evaluate the vulnerability of the state-of-the-art field extractors against form attacks from both OCR level and form level, including OCR location/order rearrangement, form background manipulation and form field-value augmentation. We conduct robustness evaluation using real invoices and receipts, and perform comprehensive research analysis. Experimental results suggest that the evaluated models are very susceptible to form perturbations such as the variation of field-values (~15% drop in F1 score), the disarrangement of input text order(~15% drop in F1 score) and the disruption of the neighboring words of field-values(~10% drop in F1 score). Guided by the analysis, we make recommendations to improve the design of field extractors and the process of data collection.
公開日:2021-10-08
翻訳日:2021-10-17 06:14:34
# (参考訳) 多重ラベル分類のためのゲートリカレント単位と時間畳み込みネットワーク [全文訳有]

Gated recurrent units and temporal convolutional network for multilabel classification ( http://arxiv.org/abs/2110.04414v1 )

ライセンス: CC BY 4.0
Loris Nanni, Alessandra Lumini, Alessandro Manfe, Sheryl Brahnam and Giorgio Venturin(参考訳) マルチラベル学習は、サンプルと複数のクラスラベルを関連付ける問題に取り組む。 本研究は,マルチラベル分類を管理するための新しいアンサンブル手法を提案する。提案手法のコアは,ゲートリカレント単位と時間畳み込みニューラルネットワークのセットと,adam最適化手法の変種を組み合わせたものである。 これらの変異は、現在の勾配と過去の勾配の違いに基づいており、それぞれのパラメータに対してステップサイズが調整されている。 提案されたニューラルネットワークアプローチは、さらに分類性能を高めるために、Incorporating Multiple Clustering Centers (IMCC)と組み合わせられている。 多様なマルチラベルタスクを表現する9つのデータセットに関する複数の実験は、最高のアンサンブルの堅牢性を示しています。 実験セクションで最高のアンサンブルを生成するためのMATLABコードはhttps://github.com/L orisNanni.comで入手できる。

Multilabel learning tackles the problem of associating a sample with multiple class labels. This work proposes a new ensemble method for managing multilabel classification: the core of the proposed approach combines a set of gated recurrent units and temporal convolutional neural networks trained with variants of the Adam optimization approach. Multiple Adam variants, including novel one proposed here, are compared and tested; these variants are based on the difference between present and past gradients, with step size adjusted for each parameter. The proposed neural network approach is also combined with Incorporating Multiple Clustering Centers (IMCC), which further boosts classification performance. Multiple experiments on nine data sets representing a wide variety of multilabel tasks demonstrate the robustness of our best ensemble, which is shown to outperform the state-of-the-art. The MATLAB code for generating the best ensembles in the experimental section will be available at https://github.com/L orisNanni.
公開日:2021-10-09
翻訳日:2021-10-17 06:02:00
# (参考訳) xception-1dを用いたエンドツーエンドキーワードスポッティング [全文訳有]

End-to-end Keyword Spotting using Xception-1d ( http://arxiv.org/abs/2110.07498v1 )

ライセンス: CC BY-SA 4.0
Iv\'an Vall\'es-P\'erez, Juan G\'omez-Sanchis, Marcelino Mart\'inez-Sober, Joan Vila-Franc\'es, Antonio J. Serrano-L\'opez, Emilio Soria-Olivas(参考訳) 会話エージェントの分野は急速に成長しており、自然な相互作用を高めるアルゴリズムの必要性が高まっている。 本稿では,複数のコンピュータビジョンタスクにおいて優れた結果を得たxceptionアルゴリズムを適応・調整することにより,キーワードスポッティングフィールドにおける技術結果の達成方法を示す。 提案する最も複雑なタスクにおいて,35のカテゴリーに属する音声クリップを分類する場合,約96\%の精度を得た。

The field of conversational agents is growing fast and there is an increasing need for algorithms that enhance natural interaction. In this work we show how we achieved state of the art results in the Keyword Spotting field by adapting and tweaking the Xception algorithm, which achieved outstanding results in several computer vision tasks. We obtained about 96\% accuracy when classifying audio clips belonging to 35 different categories, beating human annotation at the most complex tasks proposed.
公開日:2021-10-09
翻訳日:2021-10-17 05:43:58
# (参考訳) ロボットによるモラル・トラスト・ヴァイオレーションとパフォーマンス・トラスト・ヴァイオレーション:どちらが長くなるか? [全文訳有]

Moral-Trust Violation vs Performance-Trust Violation by a Robot: Which Hurts More? ( http://arxiv.org/abs/2110.04418v1 )

ライセンス: CC BY 4.0
Zahra Rezaei Khavas, Russell Perkins, S.Reza Ahmadzadeh, Paul Robinette(参考訳) 近年、UllmanらによってHRI(Human-robot Interaction)の信頼の概念が導入された。 通称『Ullman2018does』。 信頼の新たな概念化は、人間とロボットの信頼が多次元であり、パフォーマンスの側面(人間-自律的相互作用の信頼と類似)と道徳的側面(人間-人間間の相互作用の信頼と類似)の両方を組み込んでいることを示唆した。 しかし、これらの異なる信頼のそれぞれに違反するロボットは、ロボットに対する人間の信頼にどのように影響するのか? ロボットがモラル・トラスト違反を犯す場合、パフォーマンス・トラスト違反と比較してロボットに対する信頼はどのように変化するのか? そして、生理的信号が、人間のこれら2つの信頼面の利得/損失を評価するために使われる可能性があるかどうか。 我々は,探索救助作業において,パフォーマンストラスト違反とモラルトラスト違反を別々に検討する実験を設計することを目的とする。 1つの失敗がパフォーマンストラスト違反によるもので、もう1つの失敗がモラルトラスト違反である場合、同じ大きさのロボットの2つの失敗が人間の信頼に異なる影響を与えるかどうかを確認したい。

In recent years a modern conceptualization of trust in human-robot interaction (HRI) was introduced by Ullman et al.\cite{ullman2018does}. This new conceptualization of trust suggested that trust between humans and robots is multidimensional, incorporating both performance aspects (i.e., similar to the trust in human-automation interaction) and moral aspects (i.e., similar to the trust in human-human interaction). But how does a robot violating each of these different aspects of trust affect human trust in a robot? How does trust in robots change when a robot commits a moral-trust violation compared to a performance-trust violation? And whether physiological signals have the potential to be used for assessing gain/loss of each of these two trust aspects in a human. We aim to design an experiment to study the effects of performance-trust violation and moral-trust violation separately in a search and rescue task. We want to see whether two failures of a robot with equal magnitudes would affect human trust differently if one failure is due to a performance-trust violation and the other is a moral-trust violation.
公開日:2021-10-09
翻訳日:2021-10-17 05:37:32
# (参考訳) オンライン会話におけるコミュニティセンシティブノーム違反の検出 [全文訳有]

Detecting Community Sensitive Norm Violations in Online Conversations ( http://arxiv.org/abs/2110.04419v1 )

ライセンス: CC BY 4.0
Chan Young Park, Julia Mendelsohn, Karthik Radhakrishnan, Kinjal Jain, Tushar Kanakagiri, David Jurgens, Yulia Tsvetkov(参考訳) オンラインプラットフォームとコミュニティは、コミュニティ内で受け入れられる行動を決定する独自の規範を確立します。 NLPの実質的な取り組みは、受け入れられない行動の特定と、最近はそれらが起こる前に予測することに集中している。 しかし、これらの取り組みは、コミュニティ規範違反の唯一の形態として毒性に主に焦点を合わせてきた。 このような焦点は、モデレーターが強制するはるかに大きなルールセットを見落としている。 ここでは,コミュニティ規範のより完全なスペクトルと,その違反に焦点をあてた新しいデータセットを,地域対話型およびグローバルコミュニティのコンテキストで紹介する。 本稿では,このデータを用いて,コンテクストやコミュニティに敏感な規範違反の検出を行う一連のモデルを紹介し,これらの変化が高いパフォーマンスをもたらすことを示す。

Online platforms and communities establish their own norms that govern what behavior is acceptable within the community. Substantial effort in NLP has focused on identifying unacceptable behaviors and, recently, on forecasting them before they occur. However, these efforts have largely focused on toxicity as the sole form of community norm violation. Such focus has overlooked the much larger set of rules that moderators enforce. Here, we introduce a new dataset focusing on a more complete spectrum of community norms and their violations in the local conversational and global community contexts. We introduce a series of models that use this data to develop context- and community-sensitive norm violation detection, showing that these changes give high performance.
公開日:2021-10-09
翻訳日:2021-10-17 05:30:36
# 協調型寄付応答テンソルファクターによるライブマルチストリーミングと寄付勧告

Live Multi-Streaming and Donation Recommendations via Coupled Donation-Response Tensor Factorization ( http://arxiv.org/abs/2110.06117v1 )

ライセンス: Link先を確認
Hsu-Chao Lai, Jui-Yi Tsai, Hong-Han Shuai, Jiun-Long Huang, Wang-Chien Lee, De-Nian Yang(参考訳) 従来のオンラインビデオとは対照的に、ライブマルチストリーミングは、寄付など複数のストリーマーと視聴者のリアルタイムなソーシャルインタラクションをサポートする。 しかし、複雑なストリーマーと視聴者の関係、非対称なコミュニケーション、個人的関心事とグループ間相互作用のトレードオフにより、寄付やマルチストリーミングチャネルレコメンデーションは困難である。 本稿では,Multi-Stream Party (MSP)を導入し,Donation and MSP Recommendation (DAMRec)と呼ばれる新しいマルチストリーミングレコメンデーション問題を定式化する。 提案するマルチストリーム・パーティ・レコメンダ・システム(MARS)は,寄付とMSPの推薦のために,社会的・時間的結合型寄付応答型テンソル・ファクター化を通じて潜在特徴を抽出する。 twitchとdouyuの実験結果によると、火星はヒット率と平均精度で、既存のレコメンダを38.8%上回っている。

In contrast to traditional online videos, live multi-streaming supports real-time social interactions between multiple streamers and viewers, such as donations. However, donation and multi-streaming channel recommendations are challenging due to complicated streamer and viewer relations, asymmetric communications, and the tradeoff between personal interests and group interactions. In this paper, we introduce Multi-Stream Party (MSP) and formulate a new multi-streaming recommendation problem, called Donation and MSP Recommendation (DAMRec). We propose Multi-stream Party Recommender System (MARS) to extract latent features via socio-temporal coupled donation-response tensor factorization for donation and MSP recommendations. Experimental results on Twitch and Douyu manifest that MARS significantly outperforms existing recommenders by at least 38.8% in terms of hit ratio and mean average precision.
公開日:2021-10-05
翻訳日:2021-10-17 05:13:27
# Convex-Concave Min-Max Stackelberg Games

Convex-Concave Min-Max Stackelberg Games ( http://arxiv.org/abs/2110.05192v1 )

ライセンス: Link先を確認
Denizalp Goktas and Amy Greenwald(参考訳) min-max最適化問題(即ちmin-maxゲーム)は、幅広い機械学習問題に適用可能であるため、多くの注目を集めている。 近年は大きな進歩を遂げているものの、文献は独立した戦略セットを持つゲームに焦点を当てており、依存戦略セットによるゲームの解決についてはほとんど知られていない。 コンベックス・コンケーブ min-max Stackelberg のゲーム群を解く2つの一階法を導入し,この方法が多項式時間で収束することを示す。 Min-max Stackelberg ゲームは Wald によって最初に研究され、ウォルドの Maximin モデル(英語版) の追随名の下で、その変種はロバスト最適化で使用される主要なパラダイムであり、これは、我々の方法が同様に多くの凸性最適化問題を解くことができることを意味する。 フィッシャーマーケットにおける競争均衡の計算は,min-max stackelbergゲームも構成している。 さらに,様々なユーティリティ構造を持つフィッシャー市場の競争均衡を計算し,実運用におけるアルゴリズムの有効性と効率を実証する。 実験は,アルゴリズムの収束率に異なる平滑性特性がどう影響するかを示すことにより,理論的結果を拡張する可能性を示唆する。

Min-max optimization problems (i.e., min-max games) have been attracting a great deal of attention because of their applicability to a wide range of machine learning problems. Although significant progress has been made recently, the literature to date has focused on games with independent strategy sets; little is known about solving games with dependent strategy sets, which can be characterized as min-max Stackelberg games. We introduce two first-order methods that solve a large class of convex-concave min-max Stackelberg games, and show that our methods converge in polynomial time. Min-max Stackelberg games were first studied by Wald, under the posthumous name of Wald's maximin model, a variant of which is the main paradigm used in robust optimization, which means that our methods can likewise solve many convex robust optimization problems. We observe that the computation of competitive equilibria in Fisher markets also comprises a min-max Stackelberg game. Further, we demonstrate the efficacy and efficiency of our algorithms in practice by computing competitive equilibria in Fisher markets with varying utility structures. Our experiments suggest potential ways to extend our theoretical results, by demonstrating how different smoothness properties can affect the convergence rate of our algorithms.
公開日:2021-10-05
翻訳日:2021-10-17 05:13:07
# 脳波機能接続と深層学習による脳疾患の自動診断 : アルツハイマー病と統合失調症

EEG functional connectivity and deep learning for automatic diagnosis of brain disorders: Alzheimer's disease and schizophrenia ( http://arxiv.org/abs/2110.06140v1 )

ライセンス: Link先を確認
Caroline L. Alves, Aruane M. Pineda, Kirstin Roster, Christiane Thielemann, and Francisco A. Rodrigues(参考訳) 精神障害は世界中で障害の主な原因の一つである。 これらの疾患の治療の最初のステップは正確な診断を得ることであるが、確立された臨床検査がないことは、この課題を困難にする。 機械学習アルゴリズムは、この研究で説明したように、この問題に対する可能な解決策を提供することができる。 本稿では,脳波時系列と深層学習から得られた接続のマトリクスに基づいて精神疾患の自動診断を行う方法を提案する。 我々は,アルツハイマー病と統合失調症の患者を高い精度で分類できることを示した。 生の脳波時系列を用いた従来の事例との比較から,本手法が最も精度が高いことを示す。 したがって、深層ニューラルネットワークを脳接続データに適用することは、神経疾患の診断に非常に有望な方法である。

Mental disorders are among the leading causes of disability worldwide. The first step in treating these conditions is to obtain an accurate diagnosis, but the absence of established clinical tests makes this task challenging. Machine learning algorithms can provide a possible solution to this problem, as we describe in this work. We present a method for the automatic diagnosis of mental disorders based on the matrix of connections obtained from EEG time series and deep learning. We show that our approach can classify patients with Alzheimer's disease and schizophrenia with a high level of accuracy. The comparison with the traditional cases, that use raw EEG time series, shows that our method provides the highest precision. Therefore, the application of deep neural networks on data from brain connections is a very promising method to the diagnosis of neurological disorders.
公開日:2021-10-07
翻訳日:2021-10-17 05:12:46
# RPT:事前学習による異種研究者データの転送可能モデルに向けて

RPT: Toward Transferable Model on Heterogeneous Researcher Data via Pre-Training ( http://arxiv.org/abs/2110.07336v1 )

ライセンス: Link先を確認
Ziyue Qiao, Yanjie Fu, Pengyang Wang, Meng Xiao, Zhiyuan Ning, Yi Du, Yuanchun Zhou(参考訳) 学術機関の成長に伴い,共同研究者推薦や研究者検索などの膨大な研究者データのマイニングと分析の獲得が不可欠となっている。 学術機関のサービス品質とインテリジェンスを向上させることができる。 研究者データマイニングのための既存の研究のほとんどは、特定のアプリケーションシナリオのための単一のタスクと、通常スコープ外のタスクに転送できないタスク固有のモデルを学習することに焦点を当てている。 事前学習技術は、膨大なラベルのないデータから貴重な情報をキャプチャする、一般化された共有モデルを提供する。 モデルはいくつかの微調整ステップを通じて複数のダウンストリームタスクを実行できる。 本稿では,多タスクの自己教師付き学習に基づくデータ事前学習モデルrptを提案する。 具体的には、研究者のデータをセマンティックドキュメントセットとコミュニティグラフに分割する。 階層型トランスフォーマとローカル・コミュニティ・エンコーダをそれぞれ2つのカテゴリのデータから情報を取り込むように設計する。 そこで本研究では,モデル全体を学習するための3つの自己教師付き学習目標を提案する。 最後に、異なるシナリオで微調整を行うためのrptの2つの転送モードを提案する。 rptの評価のために広範な実験を行い,3つのダウンストリームタスクの結果から,研究者データマイニングにおける事前トレーニングの有効性を検証した。

With the growth of the academic engines, the mining and analysis acquisition of massive researcher data, such as collaborator recommendation and researcher retrieval, has become indispensable. It can improve the quality of services and intelligence of academic engines. Most of the existing studies for researcher data mining focus on a single task for a particular application scenario and learning a task-specific model, which is usually unable to transfer to out-of-scope tasks. The pre-training technology provides a generalized and sharing model to capture valuable information from enormous unlabeled data. The model can accomplish multiple downstream tasks via a few fine-tuning steps. In this paper, we propose a multi-task self-supervised learning-based researcher data pre-training model named RPT. Specifically, we divide the researchers' data into semantic document sets and community graph. We design the hierarchical Transformer and the local community encoder to capture information from the two categories of data, respectively. Then, we propose three self-supervised learning objectives to train the whole model. Finally, we also propose two transfer modes of RPT for fine-tuning in different scenarios. We conduct extensive experiments to evaluate RPT, results on three downstream tasks verify the effectiveness of pre-training for researcher data mining.
公開日:2021-10-08
翻訳日:2021-10-17 05:12:36
# 地すべり感受性のブロックワイズ予測のための中間表現のメタラーニング

Meta-learning an Intermediate Representation for Few-shot Block-wise Prediction of Landslide Susceptibility ( http://arxiv.org/abs/2110.04922v1 )

ライセンス: Link先を確認
Li Chen, Yulin Ding, Han Hu, Qing Zhu, Haowei Zeng, Haojia Yu, Qisen Shang, Yongfei Song(参考訳) 地すべり感受性マップ (LSM) の予測は, リスク認識と防災に不可欠である。 データ駆動予測手法が成功したにもかかわらず、現在のデータ駆動手法は一般的に、ターゲット領域全体のLSMを予測するために単一のグローバルモデルを適用する。 しかし, 複雑な状況, 特に大規模地域では, 各地域は異なる地すべり発生環境を有しており, それぞれのモデルで個別に予測すべきである,と論じる。 本研究では, 対象シナリオを, 地形因子を用いた個別分析のためのブロックに分割した。 しかし、単に各ブロック内で限られたサンプルを使用してトレーニングとテストを行うだけでは、textit{overfitting} の悪影響のため、十分な LSM 予測ができない。 そこで本研究では, lsmタスクから情報を取り出すのに優れたメタ学習パラダイムを用いて中間表現を訓練し, 熟達度の向上を図る。 我々は、入力特徴の変化に敏感なLSMタスクには、より一般的な概念が存在するという仮説に基づいてこれを選択した。 したがって、中間表現を用いることで、モデルを異なるブロックに適応したり、模範的なサンプルがほとんどないタスクに適応させることができる。 2つの実験領域における実験結果から,大規模シナリオにおけるブロックワイズ解析の有効性が示され,提案手法の最大数ショット適応性能が明らかにされた。

Predicting a landslide susceptibility map (LSM) is essential for risk recognition and disaster prevention. Despite the successful application of data-driven prediction approaches, current data-driven methods generally apply a single global model to predict the LSM for an entire target region. However, we argue that, in complex circumstances, especially in large-scale areas, each part of the region holds different landslide-inducing environments, and therefore, should be predicted individually with respective models. In this study, target scenarios were segmented into blocks for individual analysis using topographical factors. But simply conducting training and testing using limited samples within each block is hardly possible for a satisfactory LSM prediction, due to the adverse effect of \textit{overfitting}. To solve the problems, we train an intermediate representation by the meta-learning paradigm, which is superior for capturing information from LSM tasks in order to generalize proficiently. We chose this based on the hypothesis that there are more general concepts among LSM tasks that are sensitive to variations in input features. Thus, using the intermediate representation, we can easily adapt the model for different blocks or even unseen tasks using few exemplar samples. Experimental results on two study areas demonstrated the validity of our block-wise analysis in large scenarios and revealed the top few-shot adaption performances of the proposed methods.
公開日:2021-10-03
翻訳日:2021-10-17 05:12:19
# リアルタイムソーシャルメディア画像ストリームにおける地すべり検出

Landslide Detection in Real-Time Social Media Image Streams ( http://arxiv.org/abs/2110.04080v1 )

ライセンス: Link先を確認
Ferda Ofli, Muhammad Imran, Umair Qazi, Julien Roch, Catherine Pennington, Vanessa J. Banks, Remy Bossu(参考訳) グローバルなデータ在庫の欠如は、しばしば致命的かつコストがかかる地すべりの危険性に対する科学的モデリングと対応を妨げる。 この制限を緩和するために、新しいアプローチは、積極的な参加を必要とする市民科学に基づく解決策を提案する。 しかし, 従来のデータソースとして, 近年, 多くの災害対応・管理研究にソーシャルメディアが利用されている。 この傾向に触発されて,我々は,人工知能(AI)技術を活用した地すべり関連情報の自動マイニングにソーシャルメディアデータを活用することを提案する。 具体的には,ソーシャルメディア画像ストリームの地すべりをリアルタイムに検出する,最先端のコンピュータビジョンモデルを開発した。 この目的のために,専門家がラベル付けした大規模地すべり画像データセットを作成し,広範なモデルトレーニング実験を行う。 実験結果から, 提案手法をオンラインに展開することで, 地すべり感受性マップと緊急対応を支援することを示唆した。

Lack of global data inventories obstructs scientific modeling of and response to landslide hazards which are oftentimes deadly and costly. To remedy this limitation, new approaches suggest solutions based on citizen science that requires active participation. However, as a non-traditional data source, social media has been increasingly used in many disaster response and management studies in recent years. Inspired by this trend, we propose to capitalize on social media data to mine landslide-related information automatically with the help of artificial intelligence (AI) techniques. Specifically, we develop a state-of-the-art computer vision model to detect landslides in social media image streams in real time. To that end, we create a large landslide image dataset labeled by experts and conduct extensive model training experiments. The experimental results indicate that the proposed model can be deployed in an online fashion to support global landslide susceptibility maps and emergency response.
公開日:2021-10-03
翻訳日:2021-10-17 05:11:56
# 神経常微分方程式を用いた自動多凸ひずみエネルギー関数

Automatically Polyconvex Strain Energy Functions using Neural Ordinary Differential Equations ( http://arxiv.org/abs/2110.03774v1 )

ライセンス: Link先を確認
Vahidullah Tac, Francisco S. Costabal, Adrian Buganza Tepole(参考訳) データ駆動手法は、従来の材料モデリングよりもユニークな利点があるため、計算力学の重要な部分になりつつある。 ディープニューラルネットワークは、閉形式近似の制約なしに複雑な物質応答を学習することができる。 しかし、あらゆる物質モデルが従わなければならない物理に基づく数学的要求を課すことは、データ駆動アプローチにとって容易ではない。 本研究では,ニューラル常微分方程式(N-ODEs)と呼ばれる新しいニューラルネットワークのクラスを用いて,変形勾配に対するひずみエネルギー関数の多凸性を自動的に満足するデータ駆動材料モデルを開発する。 通常の微分方程式の性質を利用して、右コーシー・グリーン変形テンソルの不変量に対してひずみエネルギー関数の微分を近似する単調関数を生成する。 誘導体の単調性はエネルギーの凸性を保証する。 n-ode 材料モデルは, 閉じた形状の材料モデルから生成された合成データを取り込むことができ, 高度に非線形で異方性の物質である皮膚に関する実験データに対して, 従来のモデルよりも優れる。 また,有限要素シミュレーションにおけるN-ODE物質モデルの利用について述べる。 フレームワークは一般的なもので、大きな種類の材料をモデル化するのに使用することができる。 ここでは超弾性に焦点をあてるが、ポリ凸ひずみエネルギーは粘性や塑性変形といった他の問題に対する中核構造ブロックである。 計算力学におけるデータ駆動手法のさらなる実現を期待する。

Data-driven methods are becoming an essential part of computational mechanics due to their unique advantages over traditional material modeling. Deep neural networks are able to learn complex material response without the constraints of closed-form approximations. However, imposing the physics-based mathematical requirements that any material model must comply with is not straightforward for data-driven approaches. In this study, we use a novel class of neural networks, known as neural ordinary differential equations (N-ODEs), to develop data-driven material models that automatically satisfy polyconvexity of the strain energy function with respect to the deformation gradient, a condition needed for the existence of minimizers for boundary value problems in elasticity. We take advantage of the properties of ordinary differential equations to create monotonic functions that approximate the derivatives of the strain energy function with respect to the invariants of the right Cauchy-Green deformation tensor. The monotonicity of the derivatives guarantees the convexity of the energy. The N-ODE material model is able to capture synthetic data generated from closed-form material models, and it outperforms conventional models when tested against experimental data on skin, a highly nonlinear and anisotropic material. We also showcase the use of the N-ODE material model in finite element simulations. The framework is general and can be used to model a large class of materials. Here we focus on hyperelasticity, but polyconvex strain energies are a core building block for other problems in elasticity such as viscous and plastic deformations. We therefore expect our methodology to further enable data-driven methods in computational mechanics
公開日:2021-10-03
翻訳日:2021-10-17 05:10:21
# サブシーズン気候予測のための学習モデルと動的モデル:比較と協調

Learning and Dynamical Models for Sub-seasonal Climate Forecasting: Comparison and Collaboration ( http://arxiv.org/abs/2110.05196v1 )

ライセンス: Link先を確認
Sijie He, Xinyan Li, Laurie Trenary, Benjamin A Cash, Timothy DelSole, Arindam Banerjee(参考訳) 亜季節気候予報 (sub-seasonal climate forecasting, ssf) は、2週間から2ヶ月の地平線における気温や降水量などの重要な気候変数の予測である。 熟練したSSFは農業生産性、水文学、水資源管理などの分野においてかなりの社会的価値を持ち、干ばつや山火事のような極端な出来事の緊急計画を立てることになる。 社会的な重要性にもかかわらず、ssfは短期の気象予報と長期の季節予報に比して困難な問題のままである。 近年の研究では、機械学習モデル(ML)がSSFを前進させる可能性を示している。 本稿では,米国西部のssfにおけるサブシーズン実験(subseasonal experiment,subx)プロジェクトにおいて,最新のmlモデル群と物理系力学モデル群との詳細な比較を行った。 さらに、動的モデルからの予測を用いて、MLモデルを強化するメカニズムについて検討する。 実験の結果、平均的にmlモデルは動的モデルよりも優れており、mlモデルは予測においてsubxモデルよりも保守的である傾向が示されている。 さらに,極性渦による寒波などの極端な気象条件下でMLモデルが予測誤差を発生させ,極性事象に対する別のモデルの必要性を浮き彫りにしている。 最後に,MLモデルの入力として動的モデル予測を適切に組み込むことにより,MLモデルの予測性能を大幅に向上させることができることを示す。 作業、動的モデル予測、MLモデルのコードのために構築されたSSFデータセットと、より広範な機械学習コミュニティの利益のための論文がリリースされている。

Sub-seasonal climate forecasting (SSF) is the prediction of key climate variables such as temperature and precipitation on the 2-week to 2-month time horizon. Skillful SSF would have substantial societal value in areas such as agricultural productivity, hydrology and water resource management, and emergency planning for extreme events such as droughts and wildfires. Despite its societal importance, SSF has stayed a challenging problem compared to both short-term weather forecasting and long-term seasonal forecasting. Recent studies have shown the potential of machine learning (ML) models to advance SSF. In this paper, for the first time, we perform a fine-grained comparison of a suite of modern ML models with start-of-the-art physics-based dynamical models from the Subseasonal Experiment (SubX) project for SSF in the western contiguous United States. Additionally, we explore mechanisms to enhance the ML models by using forecasts from dynamical models. Empirical results illustrate that, on average, ML models outperform dynamical models while the ML models tend to be conservatives in their forecasts compared to the SubX models. Further, we illustrate that ML models make forecasting errors under extreme weather conditions, e.g., cold waves due to the polar vortex, highlighting the need for separate models for extreme events. Finally, we show that suitably incorporating dynamical model forecasts as inputs to ML models can substantially improve the forecasting performance of the ML models. The SSF dataset constructed for the work, dynamical model predictions, and code for the ML models are released along with the paper for the benefit of the broader machine learning community.
公開日:2021-09-29
翻訳日:2021-10-17 05:10:00
# 蒸留を超えて:効率的な推論のためのタスクレベルの混合

Beyond Distillation: Task-level Mixture-of-Experts for Efficient Inference ( http://arxiv.org/abs/2110.03742v1 )

ライセンス: Link先を確認
Sneha Kudugunta, Yanping Huang, Ankur Bapna, Maxim Krikun, Dmitry Lepikhin, Minh-Thang Luong and Orhan Firat(参考訳) Sparse Mixture-of-Experts (MoE)は、トレーニング計算の比例的な増加を伴わずに、多言語翻訳モデルを数十億のパラメータに拡張する成功例である。 しかし、MoEモデルは違法に大きめであり、実践者は蒸留などの方法を利用することが多い。 本研究では,moeモデルにおける異なる粒度(トケン,文,タスク)の経路戦略を調査し,蒸留をバイパスする。 WMTとWebスケールのデータセットの実験から、タスクレベルのルーティング(task-MoE)によって、大規模なスパースモデルからより小さく、準備の整ったサブネットワークを抽出できることが示唆された。 WMTでは、32人の専門家(533Mパラメータ)からなるタスク-MoEが、30言語対の平均で、トークンレベルのMoEモデル(token-MoE)を+1.0BLEUで上回ります。 ピーク推論のスループットも、トークンの代わりにタスクによってルーティングされるときに1.9倍向上する。 より小さな密度のモデルにトークン-MoEを蒸留するとBLEUゲインの32%しか保存できないが、私たちのサブネットワークタスク-MoEは、設計上、蒸留した学生モデルと同じ推論コストですべてのゲインを保存する。 最後に、200の言語ペアにスケールアップする場合、128のエキスパートタスク-MoE(13Bパラメータ)はトークンレベルの競合と競合し、ピーク推論スループットを2.6倍改善します。

Sparse Mixture-of-Experts (MoE) has been a successful approach for scaling multilingual translation models to billions of parameters without a proportional increase in training computation. However, MoE models are prohibitively large and practitioners often resort to methods such as distillation for serving. In this work, we investigate routing strategies at different granularity (token, sentence, task) in MoE models to bypass distillation. Experiments on WMT and a web-scale dataset suggest that task-level routing (task-MoE) enables us to extract smaller, ready-to-deploy sub-networks from large sparse models. On WMT, our task-MoE with 32 experts (533M parameters) outperforms the best performing token-level MoE model (token-MoE) by +1.0 BLEU on average across 30 language pairs. The peak inference throughput is also improved by a factor of 1.9x when we route by tasks instead of tokens. While distilling a token-MoE to a smaller dense model preserves only 32% of the BLEU gains, our sub-network task-MoE, by design, preserves all the gains with the same inference cost as the distilled student model. Finally, when scaling up to 200 language pairs, our 128-expert task-MoE (13B parameters) performs competitively with a token-level counterpart, while improving the peak inference throughput by a factor of 2.6x.
公開日:2021-09-24
翻訳日:2021-10-17 05:09:36
# GANを生成する物理コンテキストとタイミング認識シーケンス

Physical Context and Timing Aware Sequence Generating GANs ( http://arxiv.org/abs/2110.04077v1 )

ライセンス: Link先を確認
Hayato Futase, Tomoki Tsujimura, Tetsuya Kajimoto, Hajime Kawarazaki, Toshiyuki Suzuki, Makoto Miwa, Yutaka Sasaki(参考訳) generative adversarial networks (gans) は、現実的な画像の生成と画像間の変化を補間することに成功した。 しかし、既存のモデルは、画像を生成する際の物理的なコンテキストを考慮していないため、非現実的な変化を引き起こす可能性がある。 さらに、特定のタイミングで変更を生成することは難しく、実際の変更と一致しないことが多い。 本稿では,2つの画像間の特定のタイミングで,その背景の物理的コンテキストを考慮した画像を生成する,PCTGAN(Physical Context and Timing aware sequence generated GAN)を提案する。 本手法は,エンコーダ,ジェネレータ,識別器の3つのコンポーネントから構成される。 エンコーダは、初期および終了画像、そのタイミング、および目標タイミングから潜在ベクトルを推定する。 生成器は、対応する潜在ベクトルから、開始、終了、および目標タイミングにおける画像及び物理コンテキストを生成する。 判別器は、生成された画像とコンテキストが本物か否かを判別する。 実験では, ダイ鍛造プロセスにおける形状の逐次変化のデータセットにPCTGANを適用した。 時系列画像の生成にはタイミングと物理的文脈の両方が有効であることを示す。

Generative Adversarial Networks (GANs) have shown remarkable successes in generating realistic images and interpolating changes between images. Existing models, however, do not take into account physical contexts behind images in generating the images, which may cause unrealistic changes. Furthermore, it is difficult to generate the changes at a specific timing and they often do not match with actual changes. This paper proposes a novel GAN, named Physical Context and Timing aware sequence generating GANs (PCTGAN), that generates an image in a sequence at a specific timing between two images with considering physical contexts behind them. Our method consists of three components: an encoder, a generator, and a discriminator. The encoder estimates latent vectors from the beginning and ending images, their timings, and a target timing. The generator generates images and the physical contexts at the beginning, ending, and target timing from the corresponding latent vectors. The discriminator discriminates whether the generated images and contexts are real or not. In the experiments, PCTGAN is applied to a data set of sequential changes of shapes in die forging processes. We show that both timing and physical contexts are effective in generating sequential images.
公開日:2021-09-28
翻訳日:2021-10-17 05:09:10
# 曲率アウェアデリバティブフリー最適化

Curvature-Aware Derivative-Free Optimization ( http://arxiv.org/abs/2109.13391v1 )

ライセンス: Link先を確認
Bumsu Kim, HanQin Cai, Daniel McKenzie, Wotao Yin(参考訳) 微分自由度最適化のための新しい線探索法, Curvature-Aware Random Search (CARS) を提案する。 CARSは、探索方向の最適ステップサイズを推定するために近似曲率情報を利用する。 強凸目的関数に対して、探索方向が非常に穏やかな条件を満たす分布から引き出された場合、CARSは線形収束することを示す。 また,探索方向に沿って曲率近似を行う場合,モンテカルロ法の代わりに数値四次数を用いるcars-nqも検討した。 CARS-NQ は $f = f_{\mathrm{cvx}} + f_{\mathrm{osc}}$ ここで $f_{\mathrm{cvx}}$ は強い凸であり、$f_{\mathrm{osc}}$ は急速に振動する。 実験の結果,CARS と CARS-NQ は,ベンチマーク問題集合上での最先端よりも高い値を示した。

We propose a new line-search method, coined Curvature-Aware Random Search (CARS), for derivative-free optimization. CARS exploits approximate curvature information to estimate the optimal step-size given a search direction. We prove that for strongly convex objective functions, CARS converges linearly if the search direction is drawn from a distribution satisfying very mild conditions. We also explore a variant, CARS-NQ, which uses Numerical Quadrature instead of a Monte Carlo method when approximating curvature along the search direction. We show CARS-NQ is effective on highly non-convex problems of the form $f = f_{\mathrm{cvx}} + f_{\mathrm{osc}}$ where $f_{\mathrm{cvx}}$ is strongly convex and $f_{\mathrm{osc}}$ is rapidly oscillating. Experimental results show that CARS and CARS-NQ match or exceed the state-of-the-arts on benchmark problem sets.
公開日:2021-09-27
翻訳日:2021-10-17 05:08:54
# 能動推論, ベイズ最適設計, 期待される実用性

Active inference, Bayesian optimal design, and expected utility ( http://arxiv.org/abs/2110.04074v1 )

ライセンス: Link先を確認
Noor Sajid, Lancelot Da Costa, Thomas Parr, Karl Friston(参考訳) 能動推論(active inference)は自由エネルギー原理(free energy principle)の典拠であり、感覚の外観を持つある種のランダム力学系の振る舞いを記述する形式的な方法である。 この章では、期待される自由エネルギーを最小化するために、ベイズ決定理論と最適なベイズ設計原則をいかに組み合わせるかを説明する。 情報探索行動の自然発生を可能にする能動推論のこの側面である。 期待される自由エネルギーから事前の結果の選好を取り除くと、アクティブ推論は最適なベイズ設計、すなわち情報ゲイン最大化へと還元される。 逆に、アクティブ推論は曖昧さと相対リスク、すなわち期待効用最大化の欠如によりベイズ決定理論に還元される。 これらの制限ケースを用いて、エージェントが期待効用、期待情報ゲイン、期待自由エネルギーを最適化するアクションを選択するとき、振る舞いがどう異なるかを示す。 提案するt-mazeシミュレーションでは,期待自由エネルギーの最適化によって目標指向の情報探索行動がもたらされる一方で,期待効用の最適化は純粋に搾取的行動を引き起こし,情報利得を最大化する。

Active inference, a corollary of the free energy principle, is a formal way of describing the behavior of certain kinds of random dynamical systems that have the appearance of sentience. In this chapter, we describe how active inference combines Bayesian decision theory and optimal Bayesian design principles under a single imperative to minimize expected free energy. It is this aspect of active inference that allows for the natural emergence of information-seeking behavior. When removing prior outcomes preferences from expected free energy, active inference reduces to optimal Bayesian design, i.e., information gain maximization. Conversely, active inference reduces to Bayesian decision theory in the absence of ambiguity and relative risk, i.e., expected utility maximization. Using these limiting cases, we illustrate how behaviors differ when agents select actions that optimize expected utility, expected information gain, and expected free energy. Our T-maze simulations show optimizing expected free energy produces goal-directed information-seeking behavior while optimizing expected utility induces purely exploitive behavior and maximizing information gain engenders intrinsically motivated behavior.
公開日:2021-09-21
翻訳日:2021-10-17 05:08:36
# (参考訳) DeepABM:グラフニューラルネットワークによるスケーラブルで効率的で差別化可能なエージェントベースシミュレーション [全文訳有]

DeepABM: Scalable, efficient and differentiable agent-based simulations via graph neural networks ( http://arxiv.org/abs/2110.04421v1 )

ライセンス: CC BY 4.0
Ayush Chopra, Esma Gel, Jayakumar Subramanian, Balaji Krishnamurthy, Santiago Romero-Brufau, Kalyan S. Pasupathy, Thomas C. Kingsley, Ramesh Raskar(参考訳) 我々は,グラフニューラルネットワークの幾何学的メッセージパッシングを利用したエージェントベースモデリングのためのフレームワークであるDeepABMを紹介した。 DeepABMを使用することで、大規模なエージェント集団をリアルタイムでスケーリングし、GPUアーキテクチャ上で効率的に実行することが可能になる。 deepabmの有効性を示すために,我々は,新型コロナウイルス(covid-19)パンデミックに対するさまざまな非薬剤的介入(検疫,暴露通知,ワクチン接種,検査)のサポートを提供するために,deepabm-covidシミュレータを構築した。 具体的には、DeepABM-COVIDは90秒で2億件のインタラクション(180のタイムステップにまたがる10万件以上のエージェント)をモデル化し、研究者が様々な介入のモデリングと分析を行うのを助けるためにオンラインで公開されている。 このフレームワークの様々な構成要素を説明し、臨床および公衆衛生の専門家と共同で、COVID-19ワクチンの第2回投与を遅らせる影響を評価するための研究結果について述べる。 新型コロナウイルスの拡散をシミュレートする一方で、論文で紹介されたアイデアは汎用的で、他のエージェントベースのシミュレーションにも容易に拡張できる。 さらに、この文書の範囲を超えて、deepabmは、大規模実世界(macro)データを用いた勾配に基づく最適化を用いて、(マイクロ)シミュレーションにおける物理パラメータの学習に使用できる逆エージェントベースのシミュレーションを可能にする。 ABMとAIコミュニティを近づけるために、現在の作業が興味深い意味を持つ可能性があると楽観視しています。

We introduce DeepABM, a framework for agent-based modeling that leverages geometric message passing of graph neural networks for simulating action and interactions over large agent populations. Using DeepABM allows scaling simulations to large agent populations in real-time and running them efficiently on GPU architectures. To demonstrate the effectiveness of DeepABM, we build DeepABM-COVID simulator to provide support for various non-pharmaceutical interventions (quarantine, exposure notification, vaccination, testing) for the COVID-19 pandemic, and can scale to populations of representative size in real-time on a GPU. Specifically, DeepABM-COVID can model 200 million interactions (over 100,000 agents across 180 time-steps) in 90 seconds, and is made available online to help researchers with modeling and analysis of various interventions. We explain various components of the framework and discuss results from one research study to evaluate the impact of delaying the second dose of the COVID-19 vaccine in collaboration with clinical and public health experts. While we simulate COVID-19 spread, the ideas introduced in the paper are generic and can be easily extend to other forms of agent-based simulations. Furthermore, while beyond scope of this document, DeepABM enables inverse agent-based simulations which can be used to learn physical parameters in the (micro) simulations using gradient-based optimization with large-scale real-world (macro) data. We are optimistic that the current work can have interesting implications for bringing ABM and AI communities closer.
公開日:2021-10-09
翻訳日:2021-10-17 05:05:59
# bi-rads-net:乳房超音波画像における癌診断のためのマルチタスク学習手法

BI-RADS-Net: An Explainable Multitask Learning Approach for Cancer Diagnosis in Breast Ultrasound Images ( http://arxiv.org/abs/2110.04069v1 )

ライセンス: Link先を確認
Boyu Zhang, Aleksandar Vakanski, Min Xian(参考訳) 医療においては、臨床医の信頼性を確立するために、機械学習モデルの意思決定プロセスを説明することが不可欠である。 本稿では,乳房超音波画像における癌検出のための新しい深層学習手法であるBI-RADS-Netを紹介する。 提案手法は,臨床診断に関連する特徴表現を学習することにより,乳腺腫瘍の説明と分類を行うタスクを組み込んだものである。 予測(良性または悪性)の説明は、臨床医が医療における診断および報告に使用する形態学的特徴の観点から提供される。 採用されている機能は、形状、方位、マージン、エコーパターン、後部特徴のBI-RADS記述子である。 また, 臨床医が報告したBI-RADSアセスメントカテゴリーに関連し, 本症例の悪性度を予測した。 1,192枚の画像からなるデータセットに対する実験的検証は、BI-RADSレキシコンを用いた臨床用語による説明により、モデル精度の向上を示す。

In healthcare, it is essential to explain the decision-making process of machine learning models to establish the trustworthiness of clinicians. This paper introduces BI-RADS-Net, a novel explainable deep learning approach for cancer detection in breast ultrasound images. The proposed approach incorporates tasks for explaining and classifying breast tumors, by learning feature representations relevant to clinical diagnosis. Explanations of the predictions (benign or malignant) are provided in terms of morphological features that are used by clinicians for diagnosis and reporting in medical practice. The employed features include the BI-RADS descriptors of shape, orientation, margin, echo pattern, and posterior features. Additionally, our approach predicts the likelihood of malignancy of the findings, which relates to the BI-RADS assessment category reported by clinicians. Experimental validation on a dataset consisting of 1,192 images indicates improved model accuracy, supported by explanations in clinical terms using the BI-RADS lexicon.
公開日:2021-10-05
翻訳日:2021-10-17 04:44:42
# データセット構造指標:機械の視覚データへの視点を理解する

Dataset Structural Index: Understanding a machine's perspective towards visual data ( http://arxiv.org/abs/2110.04070v1 )

ライセンス: Link先を確認
Dishant Parikh(参考訳) 視覚と知覚アーキテクチャの進歩により、私たちは、データを扱うことがアルゴリズムよりも重要であることに気づきました。 今日、私たちは世界の知識と視点に基づいて機械を訓練しました。 Dataset Structure Index(DSI)の概念は、データセットに対するマシンの視点を理解することを中心に展開されている。 DSIでは、ビジュアルデータセット上でより多くの情報を取得し、それをデータ最適化に使用し、より良いアーキテクチャを作成し、どのモデルが最もうまく機能するかを推測できる2つのメタ値を示します。 これら2つの値は、多様性寄与率と類似度行列である。 論文では、DSIの多くの応用例を示し、その1つは、少ないデータ量でトレーニングされた同じモデルアーキテクチャで、同じレベルの精度を実現する方法である。

With advances in vision and perception architectures, we have realized that working with data is equally crucial, if not more, than the algorithms. Till today, we have trained machines based on our knowledge and perspective of the world. The entire concept of Dataset Structural Index(DSI) revolves around understanding a machine`s perspective of the dataset. With DSI, I show two meta values with which we can get more information over a visual dataset and use it to optimize data, create better architectures, and have an ability to guess which model would work best. These two values are the Variety contribution ratio and Similarity matrix. In the paper, I show many applications of DSI, one of which is how the same level of accuracy can be achieved with the same model architectures trained over less amount of data.
公開日:2021-10-05
翻訳日:2021-10-17 04:44:25
# 健康に配慮したスマート看護の機械学習による調査

Investigating Health-Aware Smart-Nudging with Machine Learning to Help People Pursue Healthier Eating-Habits ( http://arxiv.org/abs/2110.07045v1 )

ライセンス: Link先を確認
Mansura A Khan, Khalil Muhammad, Barry Smyth, David Coyle(参考訳) 食物選択と食生活は、我々の長期的な健康に直接貢献する。 これにより、食品推奨システムは、肥満と栄養失調の世界的な危機に対処する潜在的なツールとなる。 過去10年間で、人工知能と医学の研究者は、人々が食べ物や食事に関する健康的かつ思慮深い意思決定を指導し、支援するツールの研究により多くの投資をした。 多くの一般的な(Recommender System)RSドメインにおいて、スマートナッジはユーザの消費パターンを形作るのに有効であることが証明されている。 近年、食品分野でも知識のあるヌードやインセンティブの選択が注目されるようになった。 より健康的な食品選択を促進するためのスマートヌージングを開発するために,我々は,世界保健機関,食品基準局,英国国民保健サービスなどの認定保健機関の食品健康ガイドラインと機械学習とRS技術を組み合わせた。 本稿では,推奨レシピの健全さをユーザに知らしめるための,説得力のある可視化に関する研究について論じる。 本稿では,ユーザがより健康的なレシピを選択することを奨励する,WHO-BubbleSlider,FS A-ColorCoading,DRCI- MLCPの3つの新しいヌード技術を提案する。 また,トピックモデリングに基づく部分サイズレコメンデーションアルゴリズムを提案する。 提案したスマートナッジを評価するために,96名の参加者と92250名のレシピを用いたオンラインユーザスタディを行った。 その結果、食品の意思決定プロセスの間、適切な健康対策により、ユーザーはより健康的なレシピをクリックし、閲覧し、選択しやすくなった。

Food-choices and eating-habits directly contribute to our long-term health. This makes the food recommender system a potential tool to address the global crisis of obesity and malnutrition. Over the past decade, artificial-intellige nce and medical researchers became more invested in researching tools that can guide and help people make healthy and thoughtful decisions around food and diet. In many typical (Recommender System) RS domains, smart nudges have been proven effective in shaping users' consumption patterns. In recent years, knowledgeable nudging and incentifying choices started getting attention in the food domain as well. To develop smart nudging for promoting healthier food choices, we combined Machine Learning and RS technology with food-healthiness guidelines from recognized health organizations, such as the World Health Organization, Food Standards Agency, and the National Health Service United Kingdom. In this paper, we discuss our research on, persuasive visualization for making users aware of the healthiness of the recommended recipes. Here, we propose three novel nudging technology, the WHO-BubbleSlider, the FSA-ColorCoading, and the DRCI-MLCP, that encourage users to choose healthier recipes. We also propose a Topic Modeling based portion-size recommendation algorithm. To evaluate our proposed smart-nudges, we conducted an online user study with 96 participants and 92250 recipes. Results showed that, during the food decision-making process, appropriate healthiness cues make users more likely to click, browse, and choose healthier recipes over less healthy ones.
公開日:2021-10-05
翻訳日:2021-10-17 04:44:13
# (参考訳) BAVEDデータセットに基づく Wav2vec2.0 と HuBERT を用いたアラビア音声感情認識 [全文訳有]

Arabic Speech Emotion Recognition Employing Wav2vec2.0 and HuBERT Based on BAVED Dataset ( http://arxiv.org/abs/2110.04425v1 )

ライセンス: CC BY 4.0
Omar Mohamed and Salah A. Aly(参考訳) 近年,音声認識や自然言語処理の分野では,大きな研究成果が報告されている。 これは、より優れた表現学習と高情報キャプチャを提供する、wav2vec2.0、Wav2vecU、WavBERT、HuBERTといった、よく開発された多層ディープラーニングパラダイムによるものである。 このようなパラダイムは数百のラベルのないデータ上で実行され、特定のタスクのために小さなデータセットで微調整される。 本稿では,アラビア語音声対話のための深層学習構築型感情認識モデルを提案する。 開発モデルは、wav2vec2.0 や HuBERT といったアートオーディオ表現の状態を取り入れている。 我々のモデルの実験と性能は、以前の既知の結果を克服する。

Recently, there have been tremendous research outcomes in the fields of speech recognition and natural language processing. This is due to the well-developed multi-layers deep learning paradigms such as wav2vec2.0, Wav2vecU, WavBERT, and HuBERT that provide better representation learning and high information capturing. Such paradigms run on hundreds of unlabeled data, then fine-tuned on a small dataset for specific tasks. This paper introduces a deep learning constructed emotional recognition model for Arabic speech dialogues. The developed model employs the state of the art audio representations include wav2vec2.0 and HuBERT. The experiment and performance results of our model overcome the previous known outcomes.
公開日:2021-10-09
翻訳日:2021-10-17 04:42:03
# (参考訳) 対象と項目のグループマッチングアルゴリズム [全文訳有]

Group-matching algorithms for subjects and items ( http://arxiv.org/abs/2110.04432v1 )

ライセンス: CC BY 4.0
G\'eza Kiss and Kyle Gorman and Jan P.H. van Santen(参考訳) 複数の共変量に対する平均値に関して、結果群が統計的に類似しているようなマッチング群を構成する問題を考える。 このグループマッチング問題は、従来のペアマッチングアプローチが不適切であるシナリオである既存のグループから被験者やアイテムをサンプリングする準実験的および観察的な研究を含む、多くのケースで発生する。 既存のサンプルが提供され、任意の統計的に定義された基準に従って群が「一致する」ように、サンプルを反復的に取り除く場合を考える。 この問題はNPハードである。 しかし,ldamatchパッケージによって実装されたヒューリスティックは,人工的および実世界のデータセットを用いて高品質なマッチングを生成する。

We consider the problem of constructing matched groups such that the resulting groups are statistically similar with respect to their average values for multiple covariates. This group-matching problem arises in many cases, including quasi-experimental and observational studies in which subjects or items are sampled from pre-existing groups, scenarios in which traditional pair-matching approaches may be inappropriate. We consider the case in which one is provided with an existing sample and iteratively eliminates samples so that the groups "match" according to arbitrary statistically-define d criteria. This problem is NP-hard. However, using artificial and real-world data sets, we show that heuristics implemented by the ldamatch package produce high-quality matches.
公開日:2021-10-09
翻訳日:2021-10-17 04:34:40
# (参考訳) 知識に基づく医療診断エキスパートシステムに関する研究 [全文訳有]

Research on Knowledge based Expert System for Medical Diagnosis ( http://arxiv.org/abs/2110.04439v1 )

ライセンス: CC0 1.0
Xin Huang, Xuejiao Tang and Wenbin Zhang(参考訳) 本稿では,いくつかの症状や徴候から疾患を識別する汎用医療知識ベースシステム(MKBS)の設計と実装を提案する。 疾患を診断するために、ユーザーは異なる質問をシステムから尋ねられ、最後に推論エンジンは確実性を使って、低い解決策を創出する。 このシステムでは、知識ベースシステム、知識表現、推論エンジンといった重要な側面が対処されている。 同じ発射規則に関する結論を得るために、新たな確実な事実が導入された。 提案する疾患診断システムは、グラフィカルユーザインタフェースを用いて、より容易に専門家システムと対話できるようにする。 提案システムは汎用的で知識ベースであり,疾患診断において任意のルールベースシステムと統合することができる。

In this paper we propose the design and implementation of a generic medical knowledge based system (MKBS) for identifying diseases from several symptoms and signs. To diagnosis diseases, user will be asked by the system for different questions and finally inference engine will use certainty factor to prune out low possible solutions. In this system some important aspects like Knowledge bases system, Knowledge representation, Inference Engine has been addressed. New certainty fact has been introduced to get conclusion about same firing rules. The proposed disease diagnosis system also uses a graphical user user interface to facilitate user to interact a with expert system more easily. The proposed system is generic and knowledge based, and it can be integrated with any rule bases system in disease diagnosis.
公開日:2021-10-09
翻訳日:2021-10-17 04:15:47
# (参考訳) 複数の参照音声とスタイル埋め込み制約を用いた音声合成 [全文訳有]

Using multiple reference audios and style embedding constraints for speech synthesis ( http://arxiv.org/abs/2110.04451v1 )

ライセンス: CC BY 4.0
Cheng Gong, Longbiao Wang, Zhenhua Ling, Ju Zhang, Jianwu Dang(参考訳) エンド・ツー・エンド音声合成モデルは、直接発話を基準音声とし、韻律や話者特性が基準音声と類似したテキストから音声を生成することができる。 しかし、適切な音響埋め込みは推論中に手動で選択しなければならない。 学習過程において、一致したテキストと音声のみを使用するという事実から、不一致のテキストと音声を推論に使用すると、モデルが低品質の音声を合成する。 本研究では,対象音声のみを使用するのではなく,複数の参照オーディオとスタイル埋め込み制約を用いることで,この2つの問題を解決することを提案する。 変換器(BERT)からの双方向エンコーダ表現によって決定される文類似性を用いて、複数の参照オーディオを自動的に選択する。 また,事前学習エンコーダからの「ターゲット」スタイルの埋め込みを,予測と「ターゲット」スタイルの埋め込みの相互情報を考慮した制約として用いる。 実験の結果,提案モデルは複数の参照オーディオを用いて音声の自然性やコンテンツ品質を向上でき,スタイル類似性のabx嗜好テストではベースラインモデルよりも優れることがわかった。

The end-to-end speech synthesis model can directly take an utterance as reference audio, and generate speech from the text with prosody and speaker characteristics similar to the reference audio. However, an appropriate acoustic embedding must be manually selected during inference. Due to the fact that only the matched text and speech are used in the training process, using unmatched text and speech for inference would cause the model to synthesize speech with low content quality. In this study, we propose to mitigate these two problems by using multiple reference audios and style embedding constraints rather than using only the target audio. Multiple reference audios are automatically selected using the sentence similarity determined by Bidirectional Encoder Representations from Transformers (BERT). In addition, we use ''target'' style embedding from a Pre-trained encoder as a constraint by considering the mutual information between the predicted and ''target'' style embedding. The experimental results show that the proposed model can improve the speech naturalness and content quality with multiple reference audios and can also outperform the baseline model in ABX preference tests of style similarity.
公開日:2021-10-09
翻訳日:2021-10-17 04:07:21
# (参考訳) 未来の意思決定を予測する:人間対機械 [全文訳有]

Predicting decision-making in the future: Human versus Machine ( http://arxiv.org/abs/2110.04465v1 )

ライセンス: CC BY 4.0
Hoe Sung Ryu, Uijong Ju, Christian Wallraven(参考訳) 深層ニューラルネットワーク(dnn)はデータ予測において著しく成功しており、限られた入力に基づいて将来の行動を予測するためにも使われている。 これらのシステムは実際には、人間に似たイベントを“理解”するのでしょうか? ここでは,運転シミュレーションにおいて事故状況から撮影した映像を用いてこの問題に対処する。 この状況では、ドライバーは突然現れる障害物に衝突するか、以前に示唆された崖から車を操縦するかを選択する必要があった。 我々は、人間とDNNが、この決定をイベントの前の時間の関数としていかにうまく予測したかを比較した。 DNNは初期のタイムポイントでは人間よりも優れていたが、後のタイムポイントでは同等のパフォーマンスであった。 興味深いことに、時空間的な画像操作とGrad-CAM視覚化は、期待される振る舞いを明らかにしたが、DNNの時間的処理の潜在的な違いも強調した。

Deep neural networks (DNNs) have become remarkably successful in data prediction, and have even been used to predict future actions based on limited input. This raises the question: do these systems actually "understand" the event similar to humans? Here, we address this issue using videos taken from an accident situation in a driving simulation. In this situation, drivers had to choose between crashing into a suddenly-appeared obstacle or steering their car off a previously indicated cliff. We compared how well humans and a DNN predicted this decision as a function of time before the event. The DNN outperformed humans for early time-points, but had an equal performance for later time-points. Interestingly, spatio-temporal image manipulations and Grad-CAM visualizations uncovered some expected behavior, but also highlighted potential differences in temporal processing for the DNN.
公開日:2021-10-09
翻訳日:2021-10-17 03:55:39
# (参考訳) 強化学習に対する効果的なブラックボックス行動中毒攻撃 [全文訳有]

Provably Efficient Black-Box Action Poisoning Attacks Against Reinforcement Learning ( http://arxiv.org/abs/2110.04471v1 )

ライセンス: CC BY 4.0
Guanlin Liu and Lifeng Lai(参考訳) 強化学習(RL)の幅広い応用により、RLモデルに対する敵攻撃の影響を理解することが、このモデルの安全な適用に不可欠である。 以前のRLに対する敵対的攻撃は、主に観察的中毒攻撃または環境的中毒攻撃に焦点を当てていた。 本稿では,エージェントが選択したアクションシグナルを敵が変更できる行動中毒攻撃という,新たなタイプの攻撃手法を提案する。 既存の攻撃モデルと比較して、提案した行動中毒攻撃モデルにおける攻撃者の能力はより制限されており、攻撃モデルはより実用的である。 ホワイトボックスおよびブラックボックス設定の両方において,アクション中毒攻撃について検討した。 ブラックボックス設定において,ほとんどのRLエージェントに対して適応攻撃方式 LCB-H を導入する。 lcb-h攻撃は, 動的後悔が全ステップ数と部分線形にスケールする効率的なrlエージェントに対して, 攻撃者が選択した方針に従って, サブリニアコストのみで行動選択を強制できることを実証する。 さらに,一般的なモデルフリーRLアルゴリズムである UCB-H に対して LCB-H 攻撃を適用した。 提案するlcb-h攻撃手法は,ブラックボックス設定でも対数コストのみを消費することで,攻撃者が選択した方針に従って行動選択をucb-hエージェントに強いることができることを示す。

Due to the broad range of applications of reinforcement learning (RL), understanding the effects of adversarial attacks against RL model is essential for the safe applications of this model. Prior works on adversarial attacks against RL mainly focus on either observation poisoning attacks or environment poisoning attacks. In this paper, we introduce a new class of attacks named action poisoning attacks, where an adversary can change the action signal selected by the agent. Compared with existing attack models, the attacker's ability in the proposed action poisoning attack model is more restricted, and hence the attack model is more practical. We study the action poisoning attack in both white-box and black-box settings. We introduce an adaptive attack scheme called LCB-H, which works for most RL agents in the black-box setting. We prove that the LCB-H attack can force any efficient RL agent, whose dynamic regret scales sublinearly with the total number of steps taken, to choose actions according to a policy selected by the attacker very frequently, with only sublinear cost. In addition, we apply LCB-H attack against a popular model-free RL algorithm: UCB-H. We show that, even in the black-box setting, by spending only logarithm cost, the proposed LCB-H attack scheme can force the UCB-H agent to choose actions according to the policy selected by the attacker very frequently.
公開日:2021-10-09
翻訳日:2021-10-17 03:43:24
# (参考訳) 視線追跡予測のための事前学習言語モデルの最近の進歩活用 [全文訳有]

Leveraging recent advances in Pre-Trained Language Models forEye-Tracking Prediction ( http://arxiv.org/abs/2110.04475v1 )

ライセンス: CC BY 4.0
Varun Madhavan, Aditya Girish Pawate, Shraman Pal, Abhranil Chandra(参考訳) 認知的にインスピレーションを受けた自然言語プロセシングは、人間の行動データのような視線追跡データを使用し、人間の脳における言語のセマンティックな表現を反映して、構文や意味論にまたがるタスクを、機械にランゲージ処理機構を教えることを目的としてニューラルネットワークを増強する。 本稿では,ZuCo 1.0とZuCo 2.0データセットを用いて眼球運動の特徴を包含し,異なる言語モデルを探索し,各単語の視覚的特徴を直接予測する。 我々は、ターゲットを予測するために単語を入力として、異なるニューラルネットワークモデルを試した。 そして、多くの実験と機能工学が、ついにRoBERTa Token Clas-sifierと言語モデリングのための高層層と、高層層からなるスタンドアロンモデルと、私たちが設計した追加機能のためのトランスフォーマー層からなる新しいアーキテクチュアを考案した。 最後に、これらのモデルの両方の出力を平均として、最終的な予測を行った。 平均絶対誤差(MAE)と各目標に対するR2スコアを用いてモデルを評価した。

Cognitively inspired Natural Language Pro-cessing uses human-derived behavioral datalike eye-tracking data, which reflect the seman-tic representations of language in the humanbrain to augment the neural nets to solve arange of tasks spanning syntax and semanticswith the aim of teaching machines about lan-guage processing mechanisms. In this paper,we use the ZuCo 1.0 and ZuCo 2.0 dataset con-taining the eye-gaze features to explore differ-ent linguistic models to directly predict thesegaze features for each word with respect to itssentence. We tried different neural networkmodels with the words as inputs to predict thetargets. And after lots of experimentation andfeature engineering finally devised a novel ar-chitecture consisting of RoBERTa Token Clas-sifier with a dense layer on top for languagemodeling and a stand-alone model consistingof dense layers followed by a transformer layerfor the extra features we engineered. Finally,we took the mean of the outputs of both thesemodels to make the final predictions. We eval-uated the models using mean absolute error(MAE) and the R2 score for each target.
公開日:2021-10-09
翻訳日:2021-10-17 03:05:19
# (参考訳) AffectNetのラベル品質:クラウドベースの再注釈の結果 [全文訳有]

Label quality in AffectNet: results of crowd-based re-annotation ( http://arxiv.org/abs/2110.04476v1 )

ライセンス: CC BY 4.0
Doo Yon Kim, Christian Wallraven(参考訳) AffectNetは、比較的制約のない画像の表情認識(FER)において最も人気のあるリソースの1つである。 データの一貫性チェックに制限があるアノテータが1つだけアノテートされていることを考えると、ラベルの品質と一貫性は制限される可能性がある。 ここでは、クラウドベースのアノテーションで別の小さなデータセット(fer2013)を再ラベル付けし、式ラベルとヴァレンスと覚醒評価の両方に13人いる難解なインフルエントネットのサブセットの再ラベルと再注釈の結果を報告した研究にも同様のアプローチを取ります。 以上の結果から,ヒトのラベルは概ね中~良質な整合性を示し,特に有能な評価は良好である。 しかし、重要なことに、クラウドベースのラベルは中立性や幸福なカテゴリーに大きくシフトしており、クラウドベースの感情評価はオリジナルの評価とは異なる一貫したパターンを形成している。 オリジナルのAffectNetデータセットで完全にトレーニングされたResNetは、人間の投票パターンを予測しないが、弱いトレーニングを受けた場合には、特に原子価がはるかに向上する。 この結果は,感情コンピューティングにおけるラベル品質に重要な影響を与える。

AffectNet is one of the most popular resources for facial expression recognition (FER) on relatively unconstrained in-the-wild images. Given that images were annotated by only one annotator with limited consistency checks on the data, however, label quality and consistency may be limited. Here, we take a similar approach to a study that re-labeled another, smaller dataset (FER2013) with crowd-based annotations, and report results from a re-labeling and re-annotation of a subset of difficult AffectNet faces with 13 people on both expression label, and valence and arousal ratings. Our results show that human labels overall have medium to good consistency, whereas human ratings especially for valence are in excellent agreement. Importantly, however, crowd-based labels are significantly shifting towards neutral and happy categories and crowd-based affective ratings form a consistent pattern different from the original ratings. ResNets fully trained on the original AffectNet dataset do not predict human voting patterns, but when weakly-trained do so much better, particularly for valence. Our results have important ramifications for label quality in affective computing.
公開日:2021-10-09
翻訳日:2021-10-17 02:59:36
# (参考訳) ヒトと機械における表情認識の比較-cam, gradcam, 四肢摂動を用いて- [全文訳有]

Comparing Facial Expression Recognition in Humans and Machines: Using CAM, GradCAM, and Extremal Perturbation ( http://arxiv.org/abs/2110.04481v1 )

ライセンス: CC BY 4.0
Serin Park, Christian Wallraven(参考訳) 表情認識(fer)は、心理学と機械学習の両方において、幅広い応用で重要な研究を惹きつけるトピックである。 人間のFERに関する豊富な研究と、ディープニューラルネットワーク(DNN)によって可能となった計算FERのかなりの進歩にもかかわらず、DNNが人間のパフォーマンスに匹敵する程度に比較する研究は比較的少ない。 本研究では,2段階の強制選択課題における人間と機械の認識性能と注意パターンを比較した。 人間の注意は、顔を徐々に発見するクリックデータを通じて収集され、モデル注意は、説明可能なAIであるCAM、GradCAM、Extremal Perturbationの3つの異なるテクニックを使用して得られた。 どちらの場合も、パフォーマンスは正解率として収集された。 このために、人間は機械よりもかなり優れていた。 注意パターンの観点からみると、極端摂動はタスク中に人間の注意マップに最も適していることがわかりました。

Facial expression recognition (FER) is a topic attracting significant research in both psychology and machine learning with a wide range of applications. Despite a wealth of research on human FER and considerable progress in computational FER made possible by deep neural networks (DNNs), comparatively less work has been done on comparing the degree to which DNNs may be comparable to human performance. In this work, we compared the recognition performance and attention patterns of humans and machines during a two-alternative forced-choice FER task. Human attention was here gathered through click data that progressively uncovered a face, whereas model attention was obtained using three different popular techniques from explainable AI: CAM, GradCAM and Extremal Perturbation. In both cases, performance was gathered as percent correct. For this task, we found that humans outperformed machines quite significantly. In terms of attention patterns, we found that Extremal Perturbation had the best overall fit with the human attention map during the task.
公開日:2021-10-09
翻訳日:2021-10-17 02:48:53
# (参考訳) 知識蒸留の効果を説明するための埋蔵空間の可視化 [全文訳有]

Visualizing the embedding space to explain the effect of knowledge distillation ( http://arxiv.org/abs/2110.04483v1 )

ライセンス: CC BY 4.0
Hyun Seung Lee, Christian Wallraven(参考訳) 近年の研究では、知識蒸留はネットワークのサイズを減らし、一般化を促進するのに有効であることがわかった。 例えば、事前訓練された大規模な教師ネットワークは、限られたラベル環境で教師を上回る学生モデルをブートストラップできることが示されている。 これらの進歩にもかかわらず、この方法は比較的不明瞭であり、つまり、結果の学生モデルが' better' を行うものである。 そこで本稿では,2つの非線形低次元埋め込み手法(t-sneとivis)を用いて,ネットワーク内の異なるレイヤの表現空間を可視化する。 異なるアーキテクチャパラメータと蒸留法を用いて, 広範囲にわたる実験を行った。 結果として得られた可視化とメトリクスは、蒸留がよりコンパクトな表現空間を見つけるためのネットワークを導いてくれることをはっきりと示している。

Recent research has found that knowledge distillation can be effective in reducing the size of a network and in increasing generalization. A pre-trained, large teacher network, for example, was shown to be able to bootstrap a student model that eventually outperforms the teacher in a limited label environment. Despite these advances, it still is relatively unclear \emph{why} this method works, that is, what the resulting student model does 'better'. To address this issue, here, we utilize two non-linear, low-dimensional embedding methods (t-SNE and IVIS) to visualize representation spaces of different layers in a network. We perform a set of extensive experiments with different architecture parameters and distillation methods. The resulting visualizations and metrics clearly show that distillation guides the network to find a more compact representation space for higher accuracy already in earlier layers compared to its non-distilled version.
公開日:2021-10-09
翻訳日:2021-10-17 02:38:47
# (参考訳) コンピュータネットワークにおける敵攻撃の転送可能性 [全文訳有]

Demystifying the Transferability of Adversarial Attacks in Computer Networks ( http://arxiv.org/abs/2110.04488v1 )

ライセンス: CC BY 4.0
Ehsan Nowroozi, Mauro Conti, Yassine Mekdad, Mohammad Hajian Berenjestanaki, Abdeslam EL Fergougui(参考訳) deep convolutional neural networks (cnn)モデルは、ディープラーニングで最も人気のあるネットワークの1つである。 様々な分野の応用分野において、それらは学界と産業の両方で広く使われている。 CNNベースのモデルには、早期乳癌の検出や発達遅延の検出(自閉症、言語障害など)など、いくつかのエキサイティングな実装が含まれている。 しかし、以前の研究では、これらのモデルが様々な敵攻撃の対象であることが示されている。 興味深いことに、いくつかの敵対的な例は、異なる未知のモデルに対して効果がある可能性がある。 この特性は逆移動可能性(adversarial transferability)と呼ばれ、先行研究はこの特性を非常に限られたアプリケーション領域でわずかに分析した。 本稿では,コンピュータネットワークにおける転送可能性の脅しを,敵の事例を転送する可能性について検討することを目的とする。 特に,コンピュータネットワークにおけるcnnベースのモデルのロバスト性を評価するための包括的研究を初めて行った。 実験では,(1)反復高速勾配法(i-fgsm),(2)ジャコビアン型高度マップ攻撃(jsma),(3)l-bfgs攻撃,(4)投影勾配降下攻撃(pgd),(5)ディープフード攻撃の5つの攻撃を検討した。 これらの攻撃は、n-baiotデータセットとドメイン生成アルゴリズム(dga)データセットの2つのよく知られたデータセットに対して実行される。 本研究の結果から, 対象モデルの知識がほとんどなく, 被害者のネットワークに容易に侵入できる特定のユースケースにおいて, 転送性が生じることが示唆された。

Deep Convolutional Neural Networks (CNN) models are one of the most popular networks in deep learning. With their large fields of application in different areas, they are extensively used in both academia and industry. CNN-based models include several exciting implementations such as early breast cancer detection or detecting developmental delays in children (e.g., autism, speech disorders, etc.). However, previous studies demonstrate that these models are subject to various adversarial attacks. Interestingly, some adversarial examples could potentially still be effective against different unknown models. This particular property is known as adversarial transferability, and prior works slightly analyzed this characteristic in a very limited application domain. In this paper, we aim to demystify the transferability threats in computer networks by studying the possibility of transferring adversarial examples. In particular, we provide the first comprehensive study which assesses the robustness of CNN-based models for computer networks against adversarial transferability. In our experiments, we consider five different attacks: (1) the Iterative Fast Gradient Method (I-FGSM), (2) the Jacobian-based Saliency Map attack (JSMA), (3) the L-BFGS attack, (4) the Projected Gradient Descent attack (PGD), and (5) the DeepFool attack. These attacks are performed against two well-known datasets: the N-BaIoT dataset and the Domain Generating Algorithms (DGA) dataset. Our results show that the transferability happens in specific use cases where the adversary can easily compromise the victim's network with very few knowledge of the targeted model.
公開日:2021-10-09
翻訳日:2021-10-17 02:26:04
# (参考訳) SGMNet:Few-Shotリモートセンシングシーン分類のためのシーングラフマッチングネットワーク [全文訳有]

SGMNet: Scene Graph Matching Network for Few-Shot Remote Sensing Scene Classification ( http://arxiv.org/abs/2110.04494v1 )

ライセンス: CC BY 4.0
Baoquan Zhang, Shanshan Feng, Xutao Li, Yunming Ye, and Rui Ye(参考訳) Few-Shot Remote Sensing Scene Classification (FSRSSC) は,新しいシーンクラスを少数の例で認識することを目的とした重要な課題である。 近年,数発の自然画像分類法によってFSRSSC問題に対処しようとする研究がいくつかある。 これらの既存手法は有望な進歩を遂げ、優れた性能を達成した。 しかし、いずれもリモートセンシング画像の2つのユニークな特徴を見落としている。 (i)複数のオブジェクトがシーンイメージに一緒に現れる傾向にあるオブジェクト共起 (ii)これらの共起物体が空間構造パターンに従ってシーン画像内に分布する物体空間相関 このような特徴はFSRSSCにとって非常に有益であり、各シーンにより洗練された説明を提供することができるため、ラベル付きリモートセンシング画像の不足を効果的に軽減することができる。 これらの特徴をフル活用するために,SGMNetと呼ばれるFSRSSCのためのシーングラフマッチングに基づくメタラーニングフレームワークを提案する。 このフレームワークでは、シーングラフ構築モジュールは、各テストリモートセンシング画像または各シーンクラスをシーングラフとして、ノードがこれらの共起オブジェクトを反映し、エッジがこれらの共起オブジェクト間の空間的相関をキャプチャするように設計されている。 そして、各テストリモートセンシング画像と各シーンクラスとの類似度スコアを評価するために、シーングラフマッチングモジュールをさらに開発する。 最後に、類似度スコアに基づいて、最寄りの隣接分類器を介してシーンクラス予測を行う。 UCMerced LandUse, WHU19, AID, NWPU-RESISC45データセットについて広範な実験を行った。 実験の結果,従来の最先端手法よりも優れた性能が得られることがわかった。

Few-Shot Remote Sensing Scene Classification (FSRSSC) is an important task, which aims to recognize novel scene classes with few examples. Recently, several studies attempt to address the FSRSSC problem by following few-shot natural image classification methods. These existing methods have made promising progress and achieved superior performance. However, they all overlook two unique characteristics of remote sensing images: (i) object co-occurrence that multiple objects tend to appear together in a scene image and (ii) object spatial correlation that these co-occurrence objects are distributed in the scene image following some spatial structure patterns. Such unique characteristics are very beneficial for FSRSSC, which can effectively alleviate the scarcity issue of labeled remote sensing images since they can provide more refined descriptions for each scene class. To fully exploit these characteristics, we propose a novel scene graph matching-based meta-learning framework for FSRSSC, called SGMNet. In this framework, a scene graph construction module is carefully designed to represent each test remote sensing image or each scene class as a scene graph, where the nodes reflect these co-occurrence objects meanwhile the edges capture the spatial correlations between these co-occurrence objects. Then, a scene graph matching module is further developed to evaluate the similarity score between each test remote sensing image and each scene class. Finally, based on the similarity scores, we perform the scene class prediction via a nearest neighbor classifier. We conduct extensive experiments on UCMerced LandUse, WHU19, AID, and NWPU-RESISC45 datasets. The experimental results show that our method obtains superior performance over the previous state-of-the-art methods.
公開日:2021-10-09
翻訳日:2021-10-17 02:04:22
# (参考訳) TiKick: シングルエージェントによるマルチエージェントフットボールフルゲームを目指して [全文訳有]

TiKick: Toward Playing Multi-agent Football Full Games from Single-agent Demonstrations ( http://arxiv.org/abs/2110.04507v2 )

ライセンス: CC BY 4.0
Shiyu Huang, Wenze Chen, Longfei Zhang, Ziyang Li, Fengming Zhu, Deheng Ye, Ting Chen, Jun Zhu(参考訳) 深層強化学習(DRL)は複雑なビデオゲーム(StarCraft IIやDota IIなど)で超人的なパフォーマンスを達成した。 しかし、現在のDRLシステムは、マルチエージェント調整、スパース報酬、確率的環境などの課題に悩まされている。 これらの課題に対処するために、テストベッドとしてGoogle Research Football(GRF)などのフットボールビデオゲームを採用し、この課題を完了するために、エンドツーエンドの学習ベースのAIシステム(TiKickと表記される)を開発しています。 本研究では,リーグトレーニングから得られた単一エージェントの専門家の自己演奏から,まず大規模なリプレイデータセットを生成した。 そして、固定された単一エージェントデータセットから強力なマルチエージェントAIを学ぶために、分散学習システムと新しいオフラインアルゴリズムを開発した。 われわれの知る限りでは、TikickはGoogle Research Footballのマルチエージェントゲームを完全に引き継ぐことができる初めての学習ベースのAIシステムだ。 さらに, 事前学習モデルにより, 最新のマルチエージェントアルゴリズムの学習プロセスが促進され, 各種学術シナリオにおける最先端性能が達成されることを示す。

Deep reinforcement learning (DRL) has achieved super-human performance on complex video games (e.g., StarCraft II and Dota II). However, current DRL systems still suffer from challenges of multi-agent coordination, sparse rewards, stochastic environments, etc. In seeking to address these challenges, we employ a football video game, e.g., Google Research Football (GRF), as our testbed and develop an end-to-end learning-based AI system (denoted as TiKick) to complete this challenging task. In this work, we first generated a large replay dataset from the self-playing of single-agent experts, which are obtained from league training. We then developed a distributed learning system and new offline algorithms to learn a powerful multi-agent AI from the fixed single-agent dataset. To the best of our knowledge, Tikick is the first learning-based AI system that can take over the multi-agent Google Research Football full game, while previous work could either control a single agent or experiment on toy academic scenarios. Extensive experiments further show that our pre-trained model can accelerate the training process of the modern multi-agent algorithm and our method achieves state-of-the-art performances on various academic scenarios.
公開日:2021-10-12
翻訳日:2021-10-17 01:35:47
# (参考訳) TiKick: シングルエージェントによるマルチエージェントフットボールフルゲームを目指して [全文訳有]

TiKick: Toward Playing Multi-agent Football Full Games from Single-agent Demonstrations ( http://arxiv.org/abs/2110.04507v1 )

ライセンス: CC BY 4.0
Shiyu Huang, Wenze Chen, Longfei Zhang, Ziyang Li, Fengming Zhu, Deheng Ye, Ting Chen, Jun Zhu(参考訳) 深層強化学習(DRL)は複雑なビデオゲーム(StarCraft IIやDota IIなど)で超人的なパフォーマンスを達成した。 しかし、現在のDRLシステムは、マルチエージェント調整、スパース報酬、確率的環境などの課題に悩まされている。 これらの課題に対処するために、テストベッドとしてGoogle Research Football(GRF)のようなフットボールビデオゲームを採用し、この課題を完了するために、エンドツーエンドの学習ベースのAIシステム(TiKickと表記される)を開発しています。 本研究では,リーグトレーニングから得られた単一エージェントの専門家の自己演奏から,まず大規模なリプレイデータセットを生成した。 そして、固定された単一エージェントデータセットから強力なマルチエージェントAIを学ぶために、分散学習システムと新しいオフラインアルゴリズムを開発した。 われわれの知る限りでは、TikickはGoogle Research Footballのマルチエージェントゲームを完全に引き継ぐことができる初めての学習ベースのAIシステムだ。 さらに, 事前学習モデルにより, 最新のマルチエージェントアルゴリズムの学習プロセスが促進され, 各種学術シナリオにおける最先端性能が達成されることを示す。

Deep reinforcement learning (DRL) has achieved super-human performance on complex video games (e.g., StarCraft II and Dota II). However, current DRL systems still suffer from challenges of multi-agent coordination, sparse rewards, stochastic environments, etc. In seeking to address these challenges, we employ a football video game, e.g., Google Research Football (GRF), as our testbed and develop an end-to-end learning-based AI system (denoted as TiKick to complete this challenging task. In this work, we first generated a large replay dataset from the self-playing of single-agent experts, which are obtained from league training. We then developed a distributed learning system and new offline algorithms to learn a powerful multi-agent AI from the fixed single-agent dataset. To the best of our knowledge, Tikick is the first learning-based AI system that can take over the multi-agent Google Research Football full game, while previous work could either control a single agent or experiment on toy academic scenarios. Extensive experiments further show that our pre-trained model can accelerate the training process of the modern multi-agent algorithm and our method achieves state-of-the-art performances on various academic scenarios.
公開日:2021-10-09
翻訳日:2021-10-17 01:22:21
# (参考訳) open-world feature extrapolationに向けて: インダクティブグラフ学習アプローチ [全文訳有]

Towards Open-World Feature Extrapolation: An Inductive Graph Learning Approach ( http://arxiv.org/abs/2110.04514v1 )

ライセンス: CC BY 4.0
Qitian Wu, Chenxiao Yang, Junchi Yan(参考訳) 我々は、入力データの特徴空間が拡張を経た場合のオープンワールド機能外挿問題と、部分的に観察された特徴を訓練したモデルが、さらなる再トレーニングなしにテストデータの新機能を扱う必要がある。 問題は、異なるフィールドから漸進的に収集された機能を扱う上で、非常に重要である。 そこで我々は,グラフ表現と学習を用いた新しい学習パラダイムを提案する。 私たちのフレームワークには2つのモジュールがあります。 1) 下位モデルとしてのバックボーンネットワーク(例えば、フィードフォワードニューラルネット)は、特徴を入力として、予測ラベルを出力する。 2) 上位モデルとしてのグラフニューラルネットワークは,観測データから構築された特徴データグラフ上のメッセージパッシングを通じて,新機能の埋め込みを外挿することを学ぶ。 フレームワークに基づいて,自己教師型アプローチと帰納学習アプローチという2つのトレーニング戦略を設計し,外挿能力を備えたモデルの実現と,機能レベルの過剰適合を軽減する。 また、新しい特徴を持つテストデータに対する一般化誤差の理論解析を行い、一般化性能に対するトレーニング特徴やアルゴリズムの影響を判別する。 複数の分類データセットと大規模広告クリック予測データセットを用いた実験により,本モデルが未発見の機能に対して効果的な埋め込みを生成し,knと局所アグリゲーションを採用するベースラインメソッドを著しく上回ることを示した。

We target open-world feature extrapolation problem where the feature space of input data goes through expansion and a model trained on partially observed features needs to handle new features in test data without further retraining. The problem is of much significance for dealing with features incrementally collected from different fields. To this end, we propose a new learning paradigm with graph representation and learning. Our framework contains two modules: 1) a backbone network (e.g., feedforward neural nets) as a lower model takes features as input and outputs predicted labels; 2) a graph neural network as an upper model learns to extrapolate embeddings for new features via message passing over a feature-data graph built from observed data. Based on our framework, we design two training strategies, a self-supervised approach and an inductive learning approach, to endow the model with extrapolation ability and alleviate feature-level over-fitting. We also provide theoretical analysis on the generalization error on test data with new features, which dissects the impact of training features and algorithms on generalization performance. Our experiments over several classification datasets and large-scale advertisement click prediction datasets demonstrate that our model can produce effective embeddings for unseen features and significantly outperforms baseline methods that adopt KNN and local aggregation.
公開日:2021-10-09
翻訳日:2021-10-17 01:09:23
# (参考訳) 階層型グラフアテンションネットワークによるTwitterの噂検出 [全文訳有]

Rumor Detection on Twitter with Claim-Guided Hierarchical Graph Attention Networks ( http://arxiv.org/abs/2110.04522v1 )

ライセンス: CC BY 4.0
Hongzhan Lin, Jing Ma, Mingfei Cheng, Zhiwei Yang, Liangliang Chen and Guang Chen(参考訳) ソーシャルメディアの時代には噂が広まっている。 会話構造は、現実と偽の主張を区別するための貴重な手がかりを提供する。 しかし,既存の噂検出手法はユーザ応答の厳密な関係に制限されるか,会話構造を単純化する。 本研究では,無関係な投稿によるネガティブな影響を緩和しつつ,ユーザの意見の相互作用を大幅に強化するために,まず,会話スレッドを非ダイレクトな対話グラフとして表現する。 次に,クレーム誘導型階層型グラフ注意ネットワークを提案する。これは,社会的文脈全体を考慮した応答性ポストの表現学習を強化し,対象のクレームを意味的に推測できるポストに参画する。 3つのtwitterデータセットに関する広範囲な実験により、我々のうわさ検出手法が最先端の手法よりもずっと優れた性能を達成し、早期のうわさ検出に優れた能力を示している。

Rumors are rampant in the era of social media. Conversation structures provide valuable clues to differentiate between real and fake claims. However, existing rumor detection methods are either limited to the strict relation of user responses or oversimplify the conversation structure. In this study, to substantially reinforces the interaction of user opinions while alleviating the negative impact imposed by irrelevant posts, we first represent the conversation thread as an undirected interaction graph. We then present a Claim-guided Hierarchical Graph Attention Network for rumor classification, which enhances the representation learning for responsive posts considering the entire social contexts and attends over the posts that can semantically infer the target claim. Extensive experiments on three Twitter datasets demonstrate that our rumor detection method achieves much better performance than state-of-the-art methods and exhibits a superior capacity for detecting rumors at early stages.
公開日:2021-10-09
翻訳日:2021-10-17 00:10:44
# (参考訳) ZSpeedL -- 低消費電力デバイスを用いたゼロショット学習手法の性能評価 [全文訳有]

ZSpeedL -- Evaluating the Performance of Zero-Shot Learning Methods using Low-Power Devices ( http://arxiv.org/abs/2110.04535v1 )

ライセンス: CC BY 4.0
Cristiano Patr\'icio, Jo\~ao Neves(参考訳) 意味表現やテキスト記述から見えないオブジェクトを認識することは、通常ゼロショット学習と呼ばれ、従来のオブジェクト認識と比較して現実世界のシナリオで使われる傾向が強い。 それでも、特に低消費電力デバイスを使用する場合において、ゼロショット学習アプローチをこれらのシナリオに展開する可能性を評価した成果はない。 本稿では,ゼロショット学習の速度/精度トレードオフに関する最先端手法の評価を含む,ゼロショット学習の推論時間に関する最初のベンチマークを提供する。 ZSL推論段階の異なるフェーズの処理時間を解析したところ、このパラダイムでは視覚的特徴抽出が主要なボトルネックとなっていることが分かるが、軽量ネットワークは、ResNet101アーキテクチャのデファクトの精度を低下させることなく、全体の推論時間を劇的に削減できることを示した。 また、このベンチマークでは、低消費電力デバイスで異なるZSLアプローチがどのように機能するか、また、このハードウェアで視覚的特徴抽出フェーズをどのように最適化できるかを評価する。 実世界のシナリオで運用可能なZSLシステムの研究と展開を促進するため,このベンチマークで使用される評価フレームワーク(https://github.com/ CristianoPatricio/zs l-methods)をリリースする。

The recognition of unseen objects from a semantic representation or textual description, usually denoted as zero-shot learning, is more prone to be used in real-world scenarios when compared to traditional object recognition. Nevertheless, no work has evaluated the feasibility of deploying zero-shot learning approaches in these scenarios, particularly when using low-power devices. In this paper, we provide the first benchmark on the inference time of zero-shot learning, comprising an evaluation of state-of-the-art approaches regarding their speed/accuracy trade-off. An analysis to the processing time of the different phases of the ZSL inference stage reveals that visual feature extraction is the major bottleneck in this paradigm, but, we show that lightweight networks can dramatically reduce the overall inference time without reducing the accuracy obtained by the de facto ResNet101 architecture. Also, this benchmark evaluates how different ZSL approaches perform in low-power devices, and how the visual feature extraction phase could be optimized in this hardware. To foster the research and deployment of ZSL systems capable of operating in real-world scenarios, we release the evaluation framework used in this benchmark (https://github.com/ CristianoPatricio/zs l-methods).
公開日:2021-10-09
翻訳日:2021-10-16 23:53:46
# (参考訳) インコンテキスト学習の帰納的バイアス:事前学習事例設計の再考

The Inductive Bias of In-Context Learning: Rethinking Pretraining Example Design ( http://arxiv.org/abs/2110.04541v1 )

ライセンス: CC BY 4.0
Yoav Levine, Noam Wies, Daniel Jannai, Dan Navon, Yedid Hoshen, Amnon Shashua(参考訳) 大きなコーパス上の事前学習ニューラルネットワークモデル(nlms)は、ニューラルネットワークアーキテクチャによって処理可能なサイズの連続したテキストセグメントであるトレーニング例にテキストをチャンクする。 私たちは、事前訓練されたnlmが、同じトレーニング例に現れるテキストセグメント間の依存性を、異なるトレーニング例に現れるテキストセグメント間よりもはるかに強くモデル化できることを証明します。 この直感的な結果は2倍の役割を持つ。 第一に、最近成功したNLMトレーニングヒューリスティックの幅広いラインの背後にあるモチベーションを定式化し、事前訓練と微調整の段階について提案する。 第2に、自然言語理解タスクの恩恵を受けるため、NLM事前学習においてさらなる改善が期待できることを示す。 例として、「kNN-Pretraining」を提案する:同じ事前学習例に意味論的に関連のない非隣接文を含めると、改善された文表現とオープンドメイン質問応答能力が得られることを示す。 この理論的に動機付けられた「事前学習例設計」の自由度は、自己改善表現のための新しい訓練スキームを示している。

Pretraining Neural Language Models (NLMs) over a large corpus involves chunking the text into training examples, which are contiguous text segments of sizes processable by the neural architecture. We highlight a bias introduced by this common practice: we prove that the pretrained NLM can model much stronger dependencies between text segments that appeared in the same training example, than it can between text segments that appeared in different training examples. This intuitive result has a twofold role. First, it formalizes the motivation behind a broad line of recent successful NLM training heuristics, proposed for the pretraining and fine-tuning stages, which do not necessarily appear related at first glance. Second, our result clearly indicates further improvements to be made in NLM pretraining for the benefit of Natural Language Understanding tasks. As an example, we propose "kNN-Pretraining" ;: we show that including semantically related non-neighboring sentences in the same pretraining example yields improved sentence representations and open domain question answering abilities. This theoretically motivated degree of freedom for "pretraining example design" indicates new training schemes for self-improving representations.
公開日:2021-10-09
翻訳日:2021-10-16 23:42:53
# (参考訳) CLIP-Adapter: 機能アダプタによるビジョンランゲージモデルの改善 [全文訳有]

CLIP-Adapter: Better Vision-Language Models with Feature Adapters ( http://arxiv.org/abs/2110.04544v1 )

ライセンス: CC BY 4.0
Peng Gao, Shijie Geng, Renrui Zhang, Teli Ma, Rongyao Fang, Yongfeng Zhang, Hongsheng Li, Yu Qiao(参考訳) 大規模コントラスト視覚言語事前学習は,視覚表現学習において有意な進歩を示した。 固定された離散ラベルによって訓練された従来の視覚システムとは異なり、新しいパラダイムが \cite{radford2021learning} で導入され、オープン語彙設定で画像と生のテキストを直接整合させることができるようになった。 下流タスクでは、ゼロショット予測を行うために慎重に選択されたテキストプロンプトが使用される。 ~自明なプロンプトエンジニアリングを避けるために、少数のトレーニング例でタスク固有のプロンプトとして連続ベクトルを学ぶためにコンテキスト最適化 \cite{zhou2021coop} が提案されている。 ~本論文では,即時チューニング以外に,より良い視覚言語モデルを実現するための代替経路が存在することを示す。 そこで我々はCLIP-Adapterを提案し,視覚的あるいは言語的分岐において,機能アダプタによる微調整を行う。 具体的には、CLIP-Adapterは新たなボトルネックレイヤを採用して、新機能を学び、元のトレーニング済み機能とブレンドした残留スタイルの機能を実行する。 結果として、CLIP-Adapterは、シンプルな設計を維持しながらコンテキスト最適化より優れている。 様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。

Large-scale contrastive vision-language pre-training has shown significant progress in visual representation learning. Unlike traditional visual systems trained by a fixed set of discrete labels, a new paradigm was introduced in \cite{radford2021learning} to directly learn to align images with raw texts in an open-vocabulary setting. On downstream tasks, a carefully chosen text prompt is employed to make zero-shot predictions.~To avoid non-trivial prompt engineering, context optimization \cite{zhou2021coop} has been proposed to learn continuous vectors as task-specific prompts with few-shot training examples.~In this paper, we show that there is an alternative path to achieve better vision-language models other than prompt tuning.~While prompt tuning is for the textual inputs, we propose CLIP-Adapter to conduct fine-tuning with feature adapters on either visual or language branch. Specifically, CLIP-Adapter adopts an additional bottleneck layer to learn new features and performs residual-style feature blending with the original pre-trained features.~As a consequence, CLIP-Adapter is able to outperform context optimization while maintains a simple design. Experiments and extensive ablation studies on various visual classification tasks demonstrate the effectiveness of our approach.
公開日:2021-10-09
翻訳日:2021-10-16 23:41:30
# (参考訳) lambdaアーキテクチャを用いたリアルタイム不正検出におけるグラフニューラルネットワーク [全文訳有]

Graph Neural Networks in Real-Time Fraud Detection with Lambda Architecture ( http://arxiv.org/abs/2110.04559v1 )

ライセンス: CC BY 4.0
Mingxuan Lu, Zhichao Han, Zitao Zhang, Yang Zhao, Yinan Shan(参考訳) 取引チェックアウト詐欺検出は、Eコマース市場にとって重要なリスクコントロールコンポーネントである。 まず,グラフ構築のための動的スナップショット(DDS)リンク設計と,グラフニューラルネットワークの埋め込みによる効果的な推論のためのLambda Neural Networks(LNN)アーキテクチャを提案する。 実験の結果,DDSグラフ上でのLNNはベースラインモデルを大幅に上回り,リアルタイム不正検出には計算効率がよいことがわかった。

Transaction checkout fraud detection is an essential risk control components for E-commerce marketplaces. In order to leverage graph networks to decrease fraud rate efficiently and guarantee the information flow passed through neighbors only from the past of the checkouts, we first present a novel Directed Dynamic Snapshot (DDS) linkage design for graph construction and a Lambda Neural Networks (LNN) architecture for effective inference with Graph Neural Networks embeddings. Experiments show that our LNN on DDS graph, outperforms baseline models significantly and is computational efficient for real-time fraud detection.
公開日:2021-10-09
翻訳日:2021-10-16 23:24:32
# (参考訳) バックドアを拡大して攻撃者を増やす [全文訳有]

Widen The Backdoor To Let More Attackers In ( http://arxiv.org/abs/2110.04571v1 )

ライセンス: CC BY 4.0
Siddhartha Datta, Giulio Lovisotto, Ivan Martinovic, Nigel Shadbolt(参考訳) 協調学習とデータ収集のアウトソーシングがより一般的になるにつれて、学習プロセスを操作しようとする悪意のあるアクタ(あるいはエージェント)は、互いに競合しながら追加の障害に直面します。 バックドア攻撃では、敵がトレーニングデータに悪意のあるサンプルを導入してモデルに毒を盛ろうとするが、敵は、追加のバックドア攻撃がバックドアの成功を妨げる可能性があると考える必要がある。 本稿では,複数の非衝突攻撃者が,モデル(ディフェンダー)がタスクを学習するために使用する共有データセットにトリガされたサンプルを作成・挿入するマルチエージェントバックドア攻撃のシナリオについて検討する。 攻撃者数の増加は攻撃者の攻撃成功率(ASR)を減少させる。 そして、この現象を利用して攻撃者の集合的ASRを最小化し、防御者の堅牢性を最大化する。 (i)人為的に攻撃者数を増やすこと、 (ii) 推論モデルから攻撃者のサブデータセットを削除するインデックス付けにより、2つのディフェンスが提案される。

As collaborative learning and the outsourcing of data collection become more common, malicious actors (or agents) which attempt to manipulate the learning process face an additional obstacle as they compete with each other. In backdoor attacks, where an adversary attempts to poison a model by introducing malicious samples into the training data, adversaries have to consider that the presence of additional backdoor attackers may hamper the success of their own backdoor. In this paper, we investigate the scenario of a multi-agent backdoor attack, where multiple non-colluding attackers craft and insert triggered samples in a shared dataset which is used by a model (a defender) to learn a task. We discover a clear backfiring phenomenon: increasing the number of attackers shrinks each attacker's attack success rate (ASR). We then exploit this phenomenon to minimize the collective ASR of attackers and maximize defender's robustness accuracy by (i) artificially augmenting the number of attackers, and (ii) indexing to remove the attacker's sub-dataset from the model for inference, hence proposing 2 defenses.
公開日:2021-10-09
翻訳日:2021-10-16 23:18:31
# (参考訳) 自律運転のためのアクティブ利他学習と情報不足 [全文訳有]

Active Altruism Learning and Information Sufficiency for Autonomous Driving ( http://arxiv.org/abs/2110.04580v1 )

ライセンス: CC0 1.0
Jack Geary, Henry Gouk, Subramanian Ramamoorthy(参考訳) 車両間の安全な相互作用には、他の車両の好みを明らかにする行動を選択する能力が必要である。 探索行動は目的に直接寄与しないことが多いため、インタラクティブな車両は、その実行に適したタイミングを識別することも可能だ。 本研究では,自律走行車両(av)にインセンティブを与えるアクティブ学習手法を用いて,他車両の利他的インクリメントに関する情報を明らかにする行動を選択できることを実証する。 我々は、目的の追求に不必要に干渉しないように、報酬関数が持つべき資産である情報十分性を特定する。 我々は,情報不足を伴わない報酬関数が不適切な探索を行いやすいことを実証的に示す。 情報充実度を有する報酬定義を提案し,利他的傾向を推定する探索的行動をavが選択し,車両間の矛盾する信念の可能性を補うことができることを示す。

Safe interaction between vehicles requires the ability to choose actions that reveal the preferences of the other vehicles. Since exploratory actions often do not directly contribute to their objective, an interactive vehicle must also able to identify when it is appropriate to perform them. In this work we demonstrate how Active Learning methods can be used to incentivise an autonomous vehicle (AV) to choose actions that reveal information about the altruistic inclinations of another vehicle. We identify a property, Information Sufficiency, that a reward function should have in order to keep exploration from unnecessarily interfering with the pursuit of an objective. We empirically demonstrate that reward functions that do not have Information Sufficiency are prone to inadequate exploration, which can result in sub-optimal behaviour. We propose a reward definition that has Information Sufficiency, and show that it facilitates an AV choosing exploratory actions to estimate altruistic tendency, whilst also compensating for the possibility of conflicting beliefs between vehicles.
公開日:2021-10-09
翻訳日:2021-10-16 23:01:53
# (参考訳) 非滑らかなポテンシャルからサンプリングする近似アルゴリズム [全文訳有]

A Proximal Algorithm for Sampling from Non-smooth Potentials ( http://arxiv.org/abs/2110.04597v1 )

ライセンス: CC BY 4.0
Jiaming Liang, Yongxin Chen(参考訳) マルコフ連鎖モンテカルロ(MCMC)は、高次元の複素分布から試料を採取するための有効で支配的な方法である。 しかし、既存のMCMC手法のほとんどは、スムーズなポテンシャル(ログ密度)を持つ設定にのみ適用可能である。 本研究では,非スムースポテンシャルを用いたサンプリング問題について検討する。 非スムースポテンシャルからサンプリングする新しいmcmcアルゴリズムを提案する。 我々はアルゴリズムの非漸近解析を行い、多項式時間複雑性$\tilde {\cal O}(d\varepsilon^{-1})$を確立し、同じ仮定の下で既存のすべての結果よりも、ターゲット密度への総変量距離$\varepsilon$を得る。 本手法は,近似バンドル法と交互サンプリングフレームワークに基づく。 このフレームワークは、いわゆる制限ガウスオラクルを必要とし、凸最適化における近位写像のサンプリング版と見なすことができる。 この研究の重要な貢献は、有界リプシッツ定数を持つ凸非滑らかポテンシャルに対して制限されたガウスオラクルを実現する高速アルゴリズムである。

Markov chain Monte Carlo (MCMC) is an effective and dominant method to sample from high-dimensional complex distributions. Yet, most existing MCMC methods are only applicable to settings with smooth potentials (log-densities). In this work, we examine sampling problems with non-smooth potentials. We propose a novel MCMC algorithm for sampling from non-smooth potentials. We provide a non-asymptotical analysis of our algorithm and establish a polynomial-time complexity $\tilde {\cal O}(d\varepsilon^{-1})$ to obtain $\varepsilon$ total variation distance to the target density, better than all existing results under the same assumptions. Our method is based on the proximal bundle method and an alternating sampling framework. This framework requires the so-called restricted Gaussian oracle, which can be viewed as a sampling counterpart of the proximal mapping in convex optimization. One key contribution of this work is a fast algorithm that realizes the restricted Gaussian oracle for any convex non-smooth potential with bounded Lipschitz constant.
公開日:2021-10-09
翻訳日:2021-10-16 22:47:26
# (参考訳) 土木工学における物理ベース機械学習の展望

A Review of Physics-based Machine Learning in Civil Engineering ( http://arxiv.org/abs/2110.04600v1 )

ライセンス: CC BY 4.0
Shashank Reddy Vadyala, Sai Nethra Betgeri1, Dr. John C. Matthews, Dr. Elizabeth Matthews(参考訳) 機械学習(ML)とディープラーニング(DL)の最近の発展は、あらゆる分野の機会を増やしている。 MLは多くの分野に適用可能な重要なツールであるが、土木工学の問題への直接的な適用は困難である。 研究室でシミュレートされた土木工学アプリケーションのためのMLは、現実世界のテストでは失敗することが多い。 これは通常、MLモデルのトレーニングとテストに使用されるデータと、それが現実世界で遭遇するデータとの間のデータミスマッチによるもので、これはデータシフトとして知られる現象である。 しかし、物理に基づくMLモデルは、データ、偏微分方程式(PDE)、数学的モデルを統合し、データシフト問題を解決する。 物理に基づくMLモデルは、一般的な非線形方程式によって記述される任意の物理法則を尊重しながら、教師付き学習課題を解決するために訓練される。 物理ベースのMLは多くの科学分野において中心的な役割を担い、流体力学、量子力学、計算資源、データストレージにおいて重要な役割を果たしている。 本稿では,物理に基づくMLの歴史と土木工学への応用について述べる。

The recent development of machine learning (ML) and Deep Learning (DL) increases the opportunities in all the sectors. ML is a significant tool that can be applied across many disciplines, but its direct application to civil engineering problems can be challenging. ML for civil engineering applications that are simulated in the lab often fail in real-world tests. This is usually attributed to a data mismatch between the data used to train and test the ML model and the data it encounters in the real world, a phenomenon known as data shift. However, a physics-based ML model integrates data, partial differential equations (PDEs), and mathematical models to solve data shift problems. Physics-based ML models are trained to solve supervised learning tasks while respecting any given laws of physics described by general nonlinear equations. Physics-based ML, which takes center stage across many science disciplines, plays an important role in fluid dynamics, quantum mechanics, computational resources, and data storage. This paper reviews the history of physics-based ML and its application in civil engineering.
公開日:2021-10-09
翻訳日:2021-10-16 22:32:45
# (参考訳) 不適切なデータによるMRIアーチファクト除去の学習 [全文訳有]

Learning MRI Artifact Removal With Unpaired Data ( http://arxiv.org/abs/2110.04604v1 )

ライセンス: CC BY 4.0
Siyuan Liu, Kim-Han Thung, Liangqiong Qu, Weili Lin, Dinggang Shen, and Pew-Thian Yap(参考訳) 振り返りアーティファクト補正(RAC)は、画像の質を向上し、画像のユーザビリティを向上させる。 最近のracのための機械学習駆動技術は、主に教師付き学習に基づいているため、実用性は、ペアのアーティファクトフリーとアーティファクトラップの画像を持つデータに制限される。 ここでは、不要な画像アーティファクトを、未ペアデータで学習したRACニューラルネットワークを介して、画像から切り離すことができることを示す。 このことから,本手法では,収集やシミュレーションによって生成されるアーティファクトの破損したデータと一致する必要はない。 実験結果から, 異なるコントラスト画像において, アーティファクトの除去や解剖学的詳細の保持に極めて有効であることが示唆された。

Retrospective artifact correction (RAC) improves image quality post acquisition and enhances image usability. Recent machine learning driven techniques for RAC are predominantly based on supervised learning and therefore practical utility can be limited as data with paired artifact-free and artifact-corrupted images are typically insufficient or even non-existent. Here we show that unwanted image artifacts can be disentangled and removed from an image via an RAC neural network learned with unpaired data. This implies that our method does not require matching artifact-corrupted data to be either collected via acquisition or generated via simulation. Experimental results demonstrate that our method is remarkably effective in removing artifacts and retaining anatomical details in images with different contrasts.
公開日:2021-10-09
翻訳日:2021-10-16 22:31:46
# (参考訳) 小障害音声データセットを用いた個人化自動音声認識 [全文訳有]

Personalized Automatic Speech Recognition Trained on Small Disordered Speech Datasets ( http://arxiv.org/abs/2110.04612v1 )

ライセンス: CC BY 4.0
Jimmy Tobin and Katrin Tomanek(参考訳) 本研究では, 話者ごとの適応データを用いて, 個人別自動音声認識(ASR)の性能について検討した。 1分から18~20分程度の大きさの音声データを用いて、異なるタイプの音声障害の重症度を持つ195人のパーソナライズされたモデルを訓練した。 異なるアプリケーションシナリオで成功率(ターゲットのwerに到達するパーソナライズされたモデルの割合)を決定するために、単語誤り率(wer)閾値が選択された。 ホームオートメーションのシナリオでは、話者の79%が18~20分間のスピーチでターゲットWERに到達したが、3~4分間のスピーチでは63%がターゲットWERに到達した。 さらなる評価では、会話型およびドメイン外、プロンプトなしのフレーズを用いたテストセットでも同様の改善が見られた。 その結果、わずか数分の録音で、発話障害のある個人はパーソナライズされたasrの恩恵を受けることができた。

This study investigates the performance of personalized automatic speech recognition (ASR) for recognizing disordered speech using small amounts of per-speaker adaptation data. We trained personalized models for 195 individuals with different types and severities of speech impairment with training sets ranging in size from <1 minute to 18-20 minutes of speech data. Word error rate (WER) thresholds were selected to determine Success Percentage (the percentage of personalized models reaching the target WER) in different application scenarios. For the home automation scenario, 79% of speakers reached the target WER with 18-20 minutes of speech; but even with only 3-4 minutes of speech, 63% of speakers reached the target WER. Further evaluation found similar improvement on test sets with conversational and out-of-domain, unprompted phrases. Our results demonstrate that with only a few minutes of recordings, individuals with disordered speech could benefit from personalized ASR.
公開日:2021-10-09
翻訳日:2021-10-16 22:13:07
# (参考訳) 深部QAモデルのためのRationale抽出のためのフレームワーク [全文訳有]

A Framework for Rationale Extraction for Deep QA models ( http://arxiv.org/abs/2110.04620v1 )

ライセンス: CC BY 4.0
Sahana Ramnath, Preksha Nema, Deep Sahni, Mitesh M. Khapra(参考訳) ニューラルネットワークベースのQAモデルはより深く複雑になるにつれて、その予測に対するモデルの理論的根拠にアクセスできる堅牢なフレームワークが求められている。 モデル動作に関する洞察を提供する現在の技術は、敵のデータセットに依存するか、明示的な説明生成コンポーネントを持つモデルを提案する。 これらのテクニックは、既存のモデルや新しいデータセットを拡張するのに時間がかかり、困難です。 本研究では,既存の最先端モデルに対する根拠抽出に<Integrated Gradients' を用いて,包括的質問回答(RCQA)の処理を行う。 抽出された有理数のうち40~80%の単語は人間の有理数(精度)と一致するが、抽出された有理数(リコール)には人間の有理数の6~19%しか存在しない。

As neural-network-based QA models become deeper and more complex, there is a demand for robust frameworks which can access a model's rationale for its prediction. Current techniques that provide insights on a model's working are either dependent on adversarial datasets or are proposing models with explicit explanation generation components. These techniques are time-consuming and challenging to extend to existing models and new datasets. In this work, we use `Integrated Gradients' to extract rationale for existing state-of-the-art models in the task of Reading Comprehension based Question Answering (RCQA). On detailed analysis and comparison with collected human rationales, we find that though ~40-80% words of extracted rationale coincide with the human rationale (precision), only 6-19% of human rationale is present in the extracted rationale (recall).
公開日:2021-10-09
翻訳日:2021-10-16 22:03:37
# (参考訳) 自己教師付きコンフォーメータを用いた普遍的パラ言語表現 [全文訳有]

Universal Paralinguistic Speech Representations Using Self-Supervised Conformers ( http://arxiv.org/abs/2110.04621v1 )

ライセンス: CC BY 4.0
Joel Shor, Aren Jansen, Wei Han, Daniel Park, Yu Zhang(参考訳) 多くの音声アプリケーションは、感情を認識すること、話者がマスクを着用しているかどうかを検出すること、あるいは合成音声と現実を区別することなど、話し言葉以外の側面を理解する必要がある。 本研究では,600M+パラメータ・コンフォーマー・ベースアーキテクチャの大規模かつ完全自己教師型トレーニングから得られた,最先端のパラ言語表現を提案する。 音声タスクの多種多様なセットをベンチマークし、時間平均表現の上に訓練された単純な線形分類器が、ほとんどの過去の結果より優れており、場合によっては大きなマージンで優れていることを示す。 コンテキストウィンドウサイズを分析した結果,2秒のコンテキストウィンドウが,完全な長期コンテキストを使用するコンフォーメータのパフォーマンスを98%達成していることが分かりました。 さらに、最高のタスク毎の表現はネットワーク内部で抽出されるが、複数の層にまたがる安定したパフォーマンスにより、単一の普遍的な表現が全てのタスクにおいてほぼ最適なパフォーマンスに達することができる。

Many speech applications require understanding aspects beyond the words being spoken, such as recognizing emotion, detecting whether the speaker is wearing a mask, or distinguishing real from synthetic speech. In this work, we introduce a new state-of-the-art paralinguistic representation derived from large-scale, fully self-supervised training of a 600M+ parameter Conformer-based architecture. We benchmark on a diverse set of speech tasks and demonstrate that simple linear classifiers trained on top of our time-averaged representation outperform nearly all previous results, in some cases by large margins. Our analyses of context-window size demonstrate that, surprisingly, 2 second context-windows achieve 98% the performance of the Conformers that use the full long-term context. Furthermore, while the best per-task representations are extracted internally in the network, stable performance across several layers allows a single universal representation to reach near optimal performance on all tasks.
公開日:2021-10-09
翻訳日:2021-10-16 21:55:55
# (参考訳) 皮膚皮膚皮膚病変画像の分節化と分類に対するdrknetアプローチ [全文訳有]

DenseNet approach to segmentation and classification of dermatoscopic skin lesions images ( http://arxiv.org/abs/2110.04632v1 )

ライセンス: CC BY 4.0
Reza Zare and Arash Pourkazemi(参考訳) 現在、がんは世界で最も重要な健康上の問題の1つです。 早期発見とがんの適切な治療は患者の回復と生存に非常に有効であるため、診断ツールとしての画像処理は、がんの最初の認識において医師の診断に役立つ。 皮膚病変の診断における最も重要なステップの1つは、次のステップの精度がそれに依存するため、皮膚画像の境界を自動的に検出することである。 これらの微妙さが特定できれば、病気の診断に大きな影響を与える可能性がある。 したがって、そのような画像を分析するためのより正確なアルゴリズムを開発する良い機会がある。 本稿では, 画像分割のためのU-Netと画像分類のためのDenseNet121の2つのアーキテクチャを用いて, 皮膚病変のセグメンテーションと分類の改善手法を提案する。 我々はISIC-2018データセットでモデルのセグメンテーションアーキテクチャを検証し,HAM10000データセットで分類した。 以上の結果から,U-NetとDenseNet121アーキテクチャの組み合わせは,従来の研究と比較して皮膚画像解析において許容できる結果であることがわかった。 本研究で調べたもう1つの分類は癌および非癌サンプルである。 この分類では、癌サンプルと非癌サンプルが、それぞれ79.49%と93.11%の精度でDenseNet121ネットワークで検出された。

At present, cancer is one of the most important health issues in the world. Because early detection and appropriate treatment in cancer are very effective in the recovery and survival of patients, image processing as a diagnostic tool can help doctors to diagnose in the first recognition of cancer. One of the most important steps in diagnosing a skin lesion is to automatically detect the border of the skin image because the accuracy of the next steps depends on it. If these subtleties are identified, they can have a great impact on the diagnosis of the disease. Therefore, there is a good opportunity to develop more accurate algorithms to analyze such images. This paper proposes an improved method for segmentation and classification for skin lesions using two architectures, the U-Net for image segmentation and the DenseNet121 for image classification which have excellent accuracy. We tested the segmentation architecture of our model on the ISIC-2018 dataset and the classification on the HAM10000 dataset. Our results show that the combination of U-Net and DenseNet121 architectures provides acceptable results in dermatoscopic image analysis compared to previous research. Another classification examined in this study is cancerous and non-cancerous samples. In this classification, cancerous and non-cancerous samples were detected in DenseNet121 network with 79.49% and 93.11% accuracy respectively.
公開日:2021-10-09
翻訳日:2021-10-16 21:45:05
# (参考訳) ニューラルネットを用いたインド・デリーにおけるCOVID-19の感染拡大予測 [全文訳有]

Predicting the spread of COVID-19 in Delhi, India using Deep Residual Recurrent Neural Networks ( http://arxiv.org/abs/2110.05477v1 )

ライセンス: CC BY 4.0
Shashank Reddy Vadyala, Sai Nethra Betgeri(参考訳) 新型コロナウイルスの感染拡大を検知することは、人的・経済的損失を減らすための長い道のりとなる。 残念なことに、新型コロナウイルス19の予測モデルに使われている既存の疫学モデルは遅すぎるため、詳細を把握できない。 本研究は、部分微分方程式を用いて、SEIRDモデルによる新型コロナウイルス19の予測の処理速度と精度を向上させる。 pdesを用いてシミュレーションしたデータから,畳み込みニューラルネットワークとディープリカレントニューラルネットワークを用いてcovid-19のダイナミクスを抽出した。 DRRNNの精度は平均平方誤差を用いて測定される。 DRRNNs COVID-19予測モデルは、正確な新型コロナウイルス予測を持っていることが示されている。 さらに、DR-RNNは、リアルタイムのCOVID-19予測において意思決定を支援する能力を大幅に向上させることができると結論づけた。

Detecting the spread of coronavirus will go a long way toward reducing human and economic loss. Unfortunately, existing Epidemiological models used for COVID 19 prediction models are too slow and fail to capture the COVID-19 development in detail. This research uses Partial Differential Equations to improve the processing speed and accuracy of forecasting of COVID 19 governed by SEIRD model equations. The dynamics of COVID 19 were extracted using Convolutional Neural Networks and Deep Residual Recurrent Neural Networks from data simulated using PDEs. The DRRNNs accuracy is measured using Mean Squared Error. The DRRNNs COVID-19 prediction model has been shown to have accurate COVID-19 predictions. In addition, we concluded that DR-RNNs can significantly advance the ability to support decision-making in real time COVID-19 prediction.
公開日:2021-10-09
翻訳日:2021-10-16 21:35:10
# (参考訳) 対称確率ゲームクラスに対する独立学習アルゴリズム [全文訳有]

An Independent Learning Algorithm for a Class of Symmetric Stochastic Games ( http://arxiv.org/abs/2110.04638v1 )

ライセンス: CC BY 4.0
Bora Yongacoglu, G\"urdal Arslan, Serdar Y\"uksel(参考訳) マルチエージェント強化学習では、独立学習者はシステム内の他の学習エージェントの行動選択にアクセスできない学習者である。 本稿では,独立学習者を用いて非定型確率ゲームにおける近似均衡政策を見出す可能性について検討する。 ここでは$\epsilon$-revision pathsプロパティと呼ばれるプロパティを定義し、プレイヤー間で対称性を示すゲームのクラスが$\epsilon \geq 0$に対してこのプロパティを持つことを示す。 この結果に基づいて,このクラスのゲームにおいて,近似平衡の確率保証の高い独立学習アルゴリズムを提案する。 この保証は、ゼロ和、チーム、潜在的なゲーム構造のような追加の仮定なしで対称性のみを仮定する。

In multi-agent reinforcement learning, independent learners are those that do not access the action selections of other learning agents in the system. This paper investigates the feasibility of using independent learners to find approximate equilibrium policies in non-episodic, discounted stochastic games. We define a property, here called the $\epsilon$-revision paths property, and prove that a class of games exhibiting symmetry among the players has this property for any $\epsilon \geq 0$. Building on this result, we present an independent learning algorithm that comes with high probability guarantees of approximate equilibrium in this class of games. This guarantee is made assuming symmetry alone, without additional assumptions such as a zero sum, team, or potential game structure.
公開日:2021-10-09
翻訳日:2021-10-16 21:26:35
# (参考訳) 合成一般化のためのアンタングル型シーケンス学習 [全文訳有]

Disentangled Sequence to Sequence Learning for Compositional Generalization ( http://arxiv.org/abs/2110.04655v1 )

ライセンス: CC BY 4.0
Hao Zheng and Mirella Lapata(参考訳) 既存のニューラルネットワークモデル、特に非常に人気のあるsequence-to-sequence アーキテクチャは、構成の一般化に苦しむこと、すなわち、見掛けられたコンポーネントの見当たらない構成に体系的に一般化する能力に苦しむことの証拠がある。 本稿では,合成一般化を妨げる理由の一つとして,絡み合う表現との関連性を示す。 本稿では,ソース入力を(各時間ステップ毎に)適応的に再エンコードすることで,絡み合った表現を学習できるシーケンス・ツー・シーケンスモデルの拡張を提案する。 具体的には、新たにデコードされたターゲットコンテキストのソース表現を条件として、すべてのソース情報を単一のフォワードパスでキャプチャする代わりに、エンコーダが予測毎に特別な情報を利用するのを容易にする。 意味解析と機械翻訳の実験結果から,提案手法はより不連続な表現とより良い一般化をもたらすことが示された。

There is mounting evidence that existing neural network models, in particular the very popular sequence-to-sequence architecture, struggle with compositional generalization, i.e., the ability to systematically generalize to unseen compositions of seen components. In this paper we demonstrate that one of the reasons hindering compositional generalization relates to the representations being entangled. We propose an extension to sequence-to-sequence models which allows us to learn disentangled representations by adaptively re-encoding (at each time step) the source input. Specifically, we condition the source representations on the newly decoded target context which makes it easier for the encoder to exploit specialized information for each prediction rather than capturing all source information in a single forward pass. Experimental results on semantic parsing and machine translation empirically show that our proposal yields more disentangled representations and better generalization.
公開日:2021-10-09
翻訳日:2021-10-16 20:52:15
# (参考訳) 適応放射線治療のための cyclegan-based cbct enhancement の制約の検討

Exploring constraints on CycleGAN-based CBCT enhancement for adaptive radiotherapy ( http://arxiv.org/abs/2110.04659v2 )

ライセンス: CC BY 4.0
Suraj Pai(参考訳) サイクガンベースの合成画像生成を探求する研究は、最近医療コミュニティで加速され、ペアリングされていないデータセットを効果的に活用できるようになった。 しかし,これらの合成画像の臨床的受容は,厳密な評価プロトコルの対象となるため,大きな課題となる。 一般的に確立されたCycleGANの欠点として、生成された画像にアーティファクトを導入することは、医療画像では許せない。 この欠点を軽減するため,CycleGANの異なる制約を探索し,これらの制約の適応制御について検討する。 損失を保持する構造という形で、サイクルガンに付加的な制約を課すことの利点も検討されている。 arxiv:2012.12821に触発された、ソースとターゲットの間の周波数領域の内容を保存する一般化された周波数損失を調査し、マインドロスarxiv:1809.04536のような既存の損失と比較する。 ganslateフレームワークのcyclegan実装(https://github.com/ ganslate-team/gansla te)は、この論文の実験に使われている。 提案手法から生成された合成画像は,ベースラインのCycleGANおよび他のアプローチよりも定量的に,質的に優れている。 さらに、観察可能なアーティファクトや画像品質の損失は見られず、これらの合成画像の受容に不可欠である。 このように生成された合成医用画像は、臨床ワークフローへの適用性を明確に強調するために、ドメイン固有の評価とセグメンテーションを下流タスクとして用いることにより評価される。

Research exploring CycleGAN-based synthetic image generation has recently accelerated in the medical community, as it is able to leverage unpaired datasets effectively. However, clinical acceptance of these synthetic images pose a significant challenge as they are subject to strict evaluation protocols. A commonly established drawback of the CycleGAN, the introduction of artifacts in generated images is unforgivable in the case of medical images. In an attempt to alleviate this drawback, we explore different constraints of the CycleGAN along with investigation of adaptive control of these constraints. The benefits of imposing additional constraints on the CycleGAN, in the form of structure retaining losses is also explored. A generalized frequency loss inspired by arxiv:2012.12821 that preserves content in the frequency domain between source and target is investigated and compared with existing losses such as the MIND loss arXiv:1809.04536. CycleGAN implementations from the ganslate framework (https://github.com/ ganslate-team/gansla te) are used for experimentation in this thesis. Synthetic images generated from our methods are quantitatively and qualitatively investigated and outperform the baseline CycleGAN and other approaches. Furthermore, no observable artifacts or loss in image quality is found, which is critical for acceptance of these synthetic images. The synthetic medical images thus generated are also evaluated using domain-specific evaluation and using segmentation as a downstream task, in order to clearly highlight their applicability to clinical workflows.
公開日:2021-10-12
翻訳日:2021-10-16 20:33:32
# (参考訳) 適応放射線治療のための cyclegan-based cbct enhancement の制約の検討

Exploring constraints on CycleGAN-based CBCT enhancement for adaptive radiotherapy ( http://arxiv.org/abs/2110.04659v1 )

ライセンス: CC BY 4.0
Suraj Pai(参考訳) サイクガンベースの合成画像生成を探求する研究は、最近医療コミュニティで加速され、ペアリングされていないデータセットを効果的に活用できるようになった。 しかし,これらの合成画像の臨床的受容は,厳密な評価プロトコルの対象となるため,大きな課題となる。 一般的に確立されたCycleGANの欠点として、生成された画像にアーティファクトを導入することは、医療画像では許せない。 この欠点を軽減するため,CycleGANの異なる制約を探索し,これらの制約の適応制御について検討する。 損失を保持する構造という形で、サイクルガンに付加的な制約を課すことの利点も検討されている。 ソースとターゲットの間の周波数領域の内容を保存する \cite{jiang2020focal} に触発された一般化された周波数損失を調査し、マインドロスarxiv:1809.04536のような既存の損失と比較する。 提案手法から生成された合成画像は,ベースラインのCycleGANおよび他のアプローチよりも定量的に,質的に優れている。 さらに、観察可能なアーティファクトや画像品質の損失は見られず、これらの合成画像の受容に不可欠である。 このように生成された合成医用画像は、臨床ワークフローへの適用性を明確に強調するために、ドメイン固有の評価とセグメンテーションを下流タスクとして用いることにより評価される。

Research exploring CycleGAN-based synthetic image generation has recently accelerated in the medical community, as it is able to leverage unpaired datasets effectively. However, clinical acceptance of these synthetic images pose a significant challenge as they are subject to strict evaluation protocols. A commonly established drawback of the CycleGAN, the introduction of artifacts in generated images is unforgivable in the case of medical images. In an attempt to alleviate this drawback, we explore different constraints of the CycleGAN along with investigation of adaptive control of these constraints. The benefits of imposing additional constraints on the CycleGAN, in the form of structure retaining losses is also explored. A generalized frequency loss inspired by \cite{jiang2020focal} that preserves content in the frequency domain between source and target is investigated and compared with existing losses such as the MIND loss arXiv:1809.04536. Synthetic images generated from our methods are quantitatively and qualitatively investigated and outperform the baseline CycleGAN and other approaches. Furthermore, no observable artifacts or loss in image quality is found, which is critical for acceptance of these synthetic images. The synthetic medical images thus generated are also evaluated using domain-specific evaluation and using segmentation as a downstream task, in order to clearly highlight their applicability to clinical workflows.
公開日:2021-10-09
翻訳日:2021-10-16 20:31:06
# (参考訳) 漸進的ドリフト概念の認知的学習 [全文訳有]

Cognitively Inspired Learning of Incremental Drifting Concepts ( http://arxiv.org/abs/2110.04662v1 )

ライセンス: CC BY 4.0
Mohammad Rostami and Aram Galstyan(参考訳) 人間は新しいドメインに学習知識を継続的に拡張し、過去の学習経験に干渉することなく新しい概念を学ぶ。 対照的に、機械学習モデルでは、入力データ分布が時間とともに変化する連続学習環境では、パフォーマンスが低下する。 神経系学習機構に触発されて、深層ニューラルネットワークが新しい概念を学習し、学習知識を連続的な学習環境で段階的に新しい領域に拡大することを可能にする計算モデルを開発した。 我々は,マルチモーダル分布の観点から,抽象概念を埋め込み空間にエンコードするために並列分散処理理論を利用する。 この埋め込み空間は、隠れたネットワーク層の内部データ表現によってモデル化される。 また,補足学習システム理論を活用し,擬似リハーサルの実装による破滅的な忘れを克服するメモリ機構をモデルに適用する。 我々のモデルは、過去の学習経験に新たな経験を蓄積し、タスク間の干渉を引き起こすことなく擬似データポイントを生成することができる。

Humans continually expand their learned knowledge to new domains and learn new concepts without any interference with past learned experiences. In contrast, machine learning models perform poorly in a continual learning setting, where input data distribution changes over time. Inspired by the nervous system learning mechanisms, we develop a computational model that enables a deep neural network to learn new concepts and expand its learned knowledge to new domains incrementally in a continual learning setting. We rely on the Parallel Distributed Processing theory to encode abstract concepts in an embedding space in terms of a multimodal distribution. This embedding space is modeled by internal data representations in a hidden network layer. We also leverage the Complementary Learning Systems theory to equip the model with a memory mechanism to overcome catastrophic forgetting through implementing pseudo-rehearsal. Our model can generate pseudo-data points for experience replay and accumulate new experiences to past learned experiences without causing cross-task interference.
公開日:2021-10-09
翻訳日:2021-10-16 20:29:02
# (参考訳) ロボットタスク計画におけるヒューマンガイド型因果知識の利用 [全文訳有]

Using Human-Guided Causal Knowledge for More Generalized Robot Task Planning ( http://arxiv.org/abs/2110.04664v1 )

ライセンス: CC BY 4.0
Semir Tatlidil (1), Yanqi Liu (1), Emily Sheetz (2), R. Iris Bahar (1), Steven Sloman (1) ((1) Brown University, (2) University of Michigan)(参考訳) 人工知能(AI)研究における大きな課題は、さまざまな環境やタスクに一般化可能な問題に対する解決策を見つけるアルゴリズムの開発である。 AIとは異なり、人間は移動可能なソリューションを見つけることに精通している。 これは、それらの解が因果モデルによって通知されるためである。 我々はロボットが新しい環境に一般化できる解決策を見つけるのを助けるために、人間主導の因果知識を使うよう提案する。 参加者がこれらの因果関係モデルをプランナーに伝達するために使用できる言語インターフェースの実現可能性を開発し,検証する。 参加者が私たちのインターフェースを使い、ほぼ一般化できる因果モデルを生成することができるという予備的証拠を見出した。 我々は,我々のインタフェースを用いた遠方一般化テストを目的とした実験を概説し,これらの因果モデルに対する長期的目標について述べる。

A major challenge in research involving artificial intelligence (AI) is the development of algorithms that can find solutions to problems that can generalize to different environments and tasks. Unlike AI, humans are adept at finding solutions that can transfer. We hypothesize this is because their solutions are informed by causal models. We propose to use human-guided causal knowledge to help robots find solutions that can generalize to a new environment. We develop and test the feasibility of a language interface that na\"ive participants can use to communicate these causal models to a planner. We find preliminary evidence that participants are able to use our interface and generate causal models that achieve near-generalization. We outline an experiment aimed at testing far-generalization using our interface and describe our longer terms goals for these causal models.
公開日:2021-10-09
翻訳日:2021-10-16 20:07:36
# (参考訳) 医薬品設計における最近の人工知能応用の概要 [全文訳有]

An In-depth Summary of Recent Artificial Intelligence Applications in Drug Design ( http://arxiv.org/abs/2110.05478v1 )

ライセンス: CC BY 4.0
Yi Zhang(参考訳) 膨大な化学領域をナビゲートするための有望なツールとして、人工知能(AI)が医薬品設計に活用されている。 2017年から2021年にかけて、薬物設計におけるいくつかの最近のAIモデル(グラフニューラルネットワーク(GNN)、リカレントニューラルネットワーク(RNN)、変動オートエンコーダ(VAE)、生成的敵ネットワーク(GAN)、フローと強化学習(RL))の応用が大幅に増加した。 関連文献が多数存在する。 しかしながら、薬品設計における最近のAIモデルの多くの応用について詳細な概要は、いずれも提供されていない。 既存の文献を補完するために、このサーベイは前述のAIモデルの理論的発展と、薬物設計におけるAIの最近の42の応用の詳細な要約を含む。 具体的には、13種は分子特性予測にGNNを使用し、29種は分子生成と最適化にRLおよび/または深部生成モデルを用いる。 ほとんどの場合、要約の焦点は、モデル、それらの変異、および薬物設計における特定のタスクの修正である。 さらに、分子生成と最適化における60のaiのさらなる応用を簡潔に表にまとめる。 最後に、この調査は、aiベースの薬物設計におけるタスク、潜在的な解決策、課題が明確になるように、豊富な応用に関する総合的な議論を提供する。

As a promising tool to navigate in the vast chemical space, artificial intelligence (AI) is leveraged for drug design. From the year 2017 to 2021, the number of applications of several recent AI models (i.e. graph neural network (GNN), recurrent neural network (RNN), variation autoencoder (VAE), generative adversarial network (GAN), flow and reinforcement learning (RL)) in drug design increases significantly. Many relevant literature reviews exist. However, none of them provides an in-depth summary of many applications of the recent AI models in drug design. To complement the existing literature, this survey includes the theoretical development of the previously mentioned AI models and detailed summaries of 42 recent applications of AI in drug design. Concretely, 13 of them leverage GNN for molecular property prediction and 29 of them use RL and/or deep generative models for molecule generation and optimization. In most cases, the focus of the summary is the models, their variants, and modifications for specific tasks in drug design. Moreover, 60 additional applications of AI in molecule generation and optimization are briefly summarized in a table. Finally, this survey provides a holistic discussion of the abundant applications so that the tasks, potential solutions, and challenges in AI-based drug design become evident.
公開日:2021-10-10
翻訳日:2021-10-16 20:00:45
# (参考訳) 混合モデルオートエンコーダ:辞書学習による深層クラスタリング [全文訳有]

Mixture Model Auto-Encoders: Deep Clustering through Dictionary Learning ( http://arxiv.org/abs/2110.04683v1 )

ライセンス: CC BY 4.0
Alexander Lin, Andrew H. Song, Demba Ba(参考訳) 高次元データをクラスタリングするための最先端のアプローチは、ディープオートエンコーダアーキテクチャを利用する。 これらのネットワークの多くは多数のパラメータを必要としており、オートエンコーダのブラックボックスの性質のため、解釈性の欠如に悩まされている。 生成モデル上で推論を行うことでデータをクラスタ化する,新しいアーキテクチャであるmixed model auto-encoder (mixmate)を提案する。 スパース辞書学習と混合モデルの観点から導かれたMixMateは、複数の自動エンコーダで構成され、それぞれが異なるクラスタでデータを再構成すると同時に、潜時空間の間隔を強制する。 様々な画像データセットを用いた実験により,mixmateは最先端のディープクラスタリングアルゴリズムと比較して,桁違いに少ないパラメータを用いながら,競合性能を実現していることを示した。

State-of-the-art approaches for clustering high-dimensional data utilize deep auto-encoder architectures. Many of these networks require a large number of parameters and suffer from a lack of interpretability, due to the black-box nature of the auto-encoders. We introduce Mixture Model Auto-Encoders (MixMate), a novel architecture that clusters data by performing inference on a generative model. Derived from the perspective of sparse dictionary learning and mixture models, MixMate comprises several auto-encoders, each tasked with reconstructing data in a distinct cluster, while enforcing sparsity in the latent space. Through experiments on various image datasets, we show that MixMate achieves competitive performance compared to state-of-the-art deep clustering algorithms, while using orders of magnitude fewer parameters.
公開日:2021-10-10
翻訳日:2021-10-16 19:11:37
# (参考訳) オーディオキャプションは画像キャプションメトリクスで評価できるか? [全文訳有]

Can Audio Captions Be Evaluated with Image Caption Metrics? ( http://arxiv.org/abs/2110.04684v1 )

ライセンス: CC BY 4.0
Zelin Zhou, Zhiling Zhang, Xuenan Xu, Zeyu Xie, Mengyue Wu, Kenny Q. Zhu(参考訳) 自動音声キャプションは、音声クリップのテキスト記述を生成することを目的としている。 生成された音声キャプションの品質を評価するため、従来の研究では、SPICEやCIDErといった画像キャプションの指標を直接採用していたが、この新領域での適合性を正当化することはできなかった。 この問題は、キャプションの品質に関する人間の判断データセットが欠如しているため、まだ解明されていない。 そこで我々はまず,AudioCaps-Eval と Clotho-Eval の2つの評価ベンチマークを構築した。 これらは、アノテータ間の合意をより良く達成するために、絶対評価の代わりにペア比較で確立される。 現在のメトリクスは、これらのデータセット上の人間のアノテーションと相関が低い。 それらの制約を克服するため, 類似性を捉える上でのセンテンス-BERTの強みを組み合わせたFENSE(Fentence-BERT) という計量法と, 誤文の堅牢性に対処する新しい誤り検出器(Error Detector)を提案する。 新たに確立されたベンチマークでは、FENSEが現在のメトリクスを14~25%の精度で上回っている。 コード、データ、webデモはhttps://github.com/b lmoistawinde/fenseで利用可能

Automated audio captioning aims at generating textual descriptions for an audio clip. To evaluate the quality of generated audio captions, previous works directly adopt image captioning metrics like SPICE and CIDEr, without justifying their suitability in this new domain, which may mislead the development of advanced models. This problem is still unstudied due to the lack of human judgment datasets on caption quality. Therefore, we firstly construct two evaluation benchmarks, AudioCaps-Eval and Clotho-Eval. They are established with pairwise comparison instead of absolute rating to achieve better inter-annotator agreement. Current metrics are found in poor correlation with human annotations on these datasets. To overcome their limitations, we propose a metric named FENSE, where we combine the strength of Sentence-BERT in capturing similarity, and a novel Error Detector to penalize erroneous sentences for robustness. On the newly established benchmarks, FENSE outperforms current metrics by 14-25% accuracy. Code, data and web demo available at: https://github.com/b lmoistawinde/fense
公開日:2021-10-10
翻訳日:2021-10-16 19:01:11
# (参考訳) Braxlines: RL駆動行動工学のための高速かつインタラクティブなツールキット [全文訳有]

Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineering beyond Reward Maximization ( http://arxiv.org/abs/2110.04686v1 )

ライセンス: CC BY 4.0
Shixiang Shane Gu, Manfred Diaz, Daniel C. Freeman, Hiroki Furuta, Seyed Kamyar Seyed Ghasemipour, Anton Raichuk, Byron David, Erik Frey, Erwin Coumans, Olivier Bachem(参考訳) 継続的制御の目標は、望ましい行動を合成することである。 強化学習(RL)によるアプローチでは、効率的な探索と既製のRLアルゴリズムの実行のために、注意深いタスク報酬エンジニアリングによって実現されることが多い。 報酬の最大化はRLの中核にあるが、報酬工学が複雑な振る舞いを特定する唯一の方法ではない。 本稿では,相互情報最大化 (MiMax) と分散最小化 (DMin) の2種類のアルゴリズムの安定かつ十分にテストされたベースラインのセットであるComposerを含む,単純な報酬の最大化を超えて,高速かつインタラクティブなRL駆動行動生成ツールキットである \braxlinesを紹介し,非教師なしのスキル学習と分散スケッチを他の行動仕様のモードとしてサポートする。 さらに,単純な報酬最大化に頼らず,これらのアルゴリズムを評価するためのメトリクスの標準化について論じる。 私たちの実装はjaxのハードウェアアクセラレーションされたbraxシミュレータ上に構築されています。 Braxlinesは、環境と行動の迅速な作成とテスト、将来のベンチマーク設計の爆発とRL駆動行動生成の新しいモードの強化、アルゴリズム研究のためのインタラクティブツールキットとして機能することを願っている。

The goal of continuous control is to synthesize desired behaviors. In reinforcement learning (RL)-driven approaches, this is often accomplished through careful task reward engineering for efficient exploration and running an off-the-shelf RL algorithm. While reward maximization is at the core of RL, reward engineering is not the only -- sometimes nor the easiest -- way for specifying complex behaviors. In this paper, we introduce \braxlines, a toolkit for fast and interactive RL-driven behavior generation beyond simple reward maximization that includes Composer, a programmatic API for generating continuous control environments, and set of stable and well-tested baselines for two families of algorithms -- mutual information maximization (MiMax) and divergence minimization (DMin) -- supporting unsupervised skill learning and distribution sketching as other modes of behavior specification. In addition, we discuss how to standardize metrics for evaluating these algorithms, which can no longer rely on simple reward maximization. Our implementations build on a hardware-accelerated Brax simulator in Jax with minimal modifications, enabling behavior synthesis within minutes of training. We hope Braxlines can serve as an interactive toolkit for rapid creation and testing of environments and behaviors, empowering explosions of future benchmark designs and new modes of RL-driven behavior generation and their algorithmic research.
公開日:2021-10-10
翻訳日:2021-10-16 18:48:58
# (参考訳) beyond road extraction: 航空画像を用いた地図更新のためのデータセット [全文訳有]

Beyond Road Extraction: A Dataset for Map Update using Aerial Images ( http://arxiv.org/abs/2110.04690v1 )

ライセンス: CC BY 4.0
Favyen Bastani, Sam Madden(参考訳) 衛星画像と空中画像の入手が増加し、航空画像の処理による道路地図の自動更新に大きな関心が寄せられている。 これまでコミュニティは、道路ネットワークが空中画像からスクラッチから推測される道路抽出に重点を置いてきた。 しかし、世界のほとんどの地域で比較的高品質な地図が存在することを考えると、新しい地図を推測するのではなく、既存の地図を更新するために推論手法を適用する必要がある。 近年の道路抽出手法が精度が高くなっているため,既存の地図を更新・削除・シフトすることで,最新の地図の一部に誤りを生じさせることなく,既存の地図を更新する,より実用的な地図更新タスクへの移行を議論する。 本稿では,マップ更新タスク用にmuno21と呼ばれる新しいデータセットを開発し,いくつかの新しい興味深い研究課題を提起する。 我々はMUNO21上での最先端道路抽出手法の評価を行い,自動地図更新を実現するためには,精度の大幅な向上が必要であることを見出した。

The increasing availability of satellite and aerial imagery has sparked substantial interest in automatically updating street maps by processing aerial images. Until now, the community has largely focused on road extraction, where road networks are inferred from scratch from an aerial image. However, given that relatively high-quality maps exist in most parts of the world, in practice, inference approaches must be applied to update existing maps rather than infer new ones. With recent road extraction methods showing high accuracy, we argue that it is time to transition to the more practical map update task, where an existing map is updated by adding, removing, and shifting roads, without introducing errors in parts of the existing map that remain up-to-date. In this paper, we develop a new dataset called MUNO21 for the map update task, and show that it poses several new and interesting research challenges. We evaluate several state-of-the-art road extraction methods on MUNO21, and find that substantial further improvements in accuracy will be needed to realize automatic map update.
公開日:2021-10-10
翻訳日:2021-10-16 18:12:15
# (参考訳) 高ノイズデータセットにおけるアドバンテージフィルターによる行動クローニング [全文訳有]

A Closer Look at Advantage-Filtered Behavioral Cloning in High-Noise Datasets ( http://arxiv.org/abs/2110.04698v1 )

ライセンス: CC BY 4.0
Jake Grigsby, Yanjun Qi(参考訳) 最近のオフライン強化学習手法は、経験の固定データセットからハイパフォーマンスなポリシーを学ぶことに成功している。 特に効果的なアプローチは、まず最適な意思決定戦略を識別し、模倣することを学ぶ。 本研究は,この手法が,ほぼすべてのサブ最適ノイズからなる巨大なデータセットにスケールする能力を評価する。 カスタムベンチマークに関する詳細な調査は、高ノイズデータセットからの学習に関わるいくつかの重要な課題を特定するのに役立つ。 私たちは、数百万の低パフォーマンスサンプルのエキスパートレベルのデモンストレーションを見つけるために、優先順位付けされた経験サンプルを再利用しました。 この修正により、オフラインエージェントは、専門家のアクションが65:1に近いデータセットを使用して、ベンチマークタスクで最先端のポリシーを学ぶことができる。

Recent Offline Reinforcement Learning methods have succeeded in learning high-performance policies from fixed datasets of experience. A particularly effective approach learns to first identify and then mimic optimal decision-making strategies. Our work evaluates this method's ability to scale to vast datasets consisting almost entirely of sub-optimal noise. A thorough investigation on a custom benchmark helps identify several key challenges involved in learning from high-noise datasets. We re-purpose prioritized experience sampling to locate expert-level demonstrations among millions of low-performance samples. This modification enables offline agents to learn state-of-the-art policies in benchmark tasks using datasets where expert actions are outnumbered nearly 65:1.
公開日:2021-10-10
翻訳日:2021-10-16 17:56:51
# (参考訳) 顔再現のための細粒度アイデンティティ保存ランドマーク合成 [全文訳有]

Fine-grained Identity Preserving Landmark Synthesis for Face Reenactment ( http://arxiv.org/abs/2110.04708v2 )

ライセンス: CC BY 4.0
Haichao Zhang, Youcheng Ben, Weixi Zhang, Tao Chen, Gang Yu, Bin Fu(参考訳) 最近の顔再現作業は粗い参照ランドマークによって制限されており、操作されたランドマークと実人から採取されたランドマークとの分配ギャップのため、アイデンティティ保存性能が不十分である。 この問題に対処するため, 粒度保存型ランドマーク誘導顔再現法を提案する。 提案手法には2つの新しい特徴がある。 まず、より詳細な細かなランドマークを生成できるように設計されたランドマーク合成ネットワーク。 ネットワークは操作されたランドマークを洗練し、良好なアイデンティティ保存能力を持つ滑らかで徐々に変化する顔ランドマークシーケンスを生成する。 第二に、鮮明でシャープな高品質な顔の合成を目的とした、合成顔識別保護損失、前景/裏面マスク損失、境界損失などの新規な損失関数を設計する。 自作の BeautySelfie と公開の VoxCeleb1 データセットで実験を行った。 得られた定性的および定量的な結果から,本手法は高精細な高精細な顔の再現が可能であることを示す。 コードは再生のためにリリースされます。

Recent face reenactment works are limited by the coarse reference landmarks, leading to unsatisfactory identity preserving performance due to the distribution gap between the manipulated landmarks and those sampled from a real person. To address this issue, we propose a fine-grained identity-preserving landmark-guided face reenactment approach. The proposed method has two novelties. First, a landmark synthesis network which is designed to generate fine-grained landmark faces with more details. The network refines the manipulated landmarks and generates a smooth and gradually changing face landmark sequence with good identity preserving ability. Second, several novel loss functions including synthesized face identity preserving loss, foreground/backgroun d mask loss as well as boundary loss are designed, which aims at synthesizing clear and sharp high-quality faces. Experiments are conducted on our self-collected BeautySelfie and the public VoxCeleb1 datasets. The presented qualitative and quantitative results show that our method can reenact fine-grained higher quality faces with good ID-preserved appearance details, fewer artifacts and clearer boundaries than state-of-the-art works. Code will be released for reproduction.
公開日:2021-10-12
翻訳日:2021-10-16 17:42:14
# (参考訳) Fine_fine_Identity_P reserving_Landmark_S ynthesis_for_Face_Re enactment [全文訳有]

Fine_grained_Identit y_Preserving_Landmar k_Synthesis_for_Face _Reenactment ( http://arxiv.org/abs/2110.04708v1 )

ライセンス: CC BY 4.0
Haichao Zhang, Youcheng Ben, Weixi Zhang, Tao Chen, Gang Yu, Bin Fu(参考訳) 最近の顔再現作業は粗い参照ランドマークによって制限されており、操作されたランドマークと実人から採取されたランドマークとの分配ギャップのため、アイデンティティ保存性能が不十分である。 この問題に対処するため, 粒度保存型ランドマーク誘導顔再現法を提案する。 提案手法には2つの新しい特徴がある。 まず、より詳細な細かなランドマークを生成できるように設計されたランドマーク合成ネットワーク。 ネットワークは操作されたランドマークを洗練し、良好なアイデンティティ保存能力を持つ滑らかで徐々に変化する顔ランドマークシーケンスを生成する。 第二に、鮮明でシャープな高品質な顔の合成を目的とした、合成顔識別保護損失、前景/裏面マスク損失、境界損失などの新規な損失関数を設計する。 自作の BeautySelfie と公開の VoxCeleb1 データセットで実験を行った。 得られた定性的および定量的な結果から,本手法は高精細な高精細な顔の再現が可能であることを示す。 コードは再生のためにリリースされます。

Recent face reenactment works are limited by the coarse reference landmarks, leading to unsatisfactory identity preserving performance due to the distribution gap between the manipulated landmarks and those sampled from a real person. To address this issue, we propose a fine-grained identity-preserving landmark-guided face reenactment approach. The proposed method has two novelties. First, a landmark synthesis network which is designed to generate fine-grained landmark faces with more details. The network refines the manipulated landmarks and generates a smooth and gradually changing face landmark sequence with good identity preserving ability. Second, several novel loss functions including synthesized face identity preserving loss, foreground/backgroun d mask loss as well as boundary loss are designed, which aims at synthesizing clear and sharp high-quality faces. Experiments are conducted on our self-collected BeautySelfie and the public VoxCeleb1 datasets. The presented qualitative and quantitative results show that our method can reenact fine-grained higher quality faces with good ID-preserved appearance details, fewer artifacts and clearer boundaries than state-of-the-art works. Code will be released for reproduction.
公開日:2021-10-10
翻訳日:2021-10-16 17:30:36
# (参考訳) ビデオをスケッチして [全文訳有]

Sketch Me A Video ( http://arxiv.org/abs/2110.04710v1 )

ライセンス: CC BY 4.0
Haichao Zhang, Gang Yu, Tao Chen, Guozhong Luo(参考訳) アーティストにとってビデオ制作は魅力的だが難しい課題だった。 ディープラーニングの進歩により、近年の研究では、深い畳み込みニューラルネットワークを使用して、ガイドビデオの助けを借りてビデオを合成し、有望な結果を得た。 しかし、ガイド付きビデオやその他の時間的情報を導く形態の買収は、現実には費用がかかり、困難である。 そこで本研究では,粗悪な2つのスケッチを入力として,写実的なポートレート映像を作成することにより,新たな映像合成タスクを提案する。 2段階のSketch-to-Videoモデルが提案されている。 1) リアルな開始フレームや終了フレームの合成やリッチなセマンティックな特徴の生成にこれらの部分を利用する特徴検索・投影(FRP)モジュールは,ユーザによって任意に描画された自由形式のスケッチスタイルによって,ドメイン外のスケッチを緩和するように設計されている。 2) ビデオ(トレーニング段階でのみ使用される)を正規分布でモデル化した運動空間に投影し, 動作変数と上記抽出した意味的特徴をブレンドする特徴ブレンディングモジュールを提案し, テストフェーズにおける時間的情報不足問題を緩和する。 celebamask-hqとvoxceleb2データセットの組み合わせによる実験では,粗悪な2つのスケッチから高品質な映像を合成することで,定量的,質的にも良好な結果が得られることを確認した。

Video creation has been an attractive yet challenging task for artists to explore. With the advancement of deep learning, recent works try to utilize deep convolutional neural networks to synthesize a video with the aid of a guiding video, and have achieved promising results. However, the acquisition of guiding videos, or other forms of guiding temporal information is costly expensive and difficult in reality. Therefore, in this work we introduce a new video synthesis task by employing two rough bad-drwan sketches only as input to create a realistic portrait video. A two-stage Sketch-to-Video model is proposed, which consists of two key novelties: 1) a feature retrieve and projection (FRP) module, which parititions the input sketch into different parts and utilizes these parts for synthesizing a realistic start or end frame and meanwhile generating rich semantic features, is designed to alleviate the sketch out-of-domain problem due to arbitrarily drawn free-form sketch styles by different users. 2) A motion projection followed by feature blending module, which projects a video (used only in training phase) into a motion space modeled by normal distribution and blends the motion variables with semantic features extracted above, is proposed to alleviate the guiding temporal information missing problem in the test phase. Experiments conducted on a combination of CelebAMask-HQ and VoxCeleb2 dataset well validate that, our method can acheive both good quantitative and qualitative results in synthesizing high-quality videos from two rough bad-drawn sketches.
公開日:2021-10-10
翻訳日:2021-10-16 17:18:32
# (参考訳) 系統的FXトレーディングのための強化学習 [全文訳有]

Reinforcement Learning for Systematic FX Trading ( http://arxiv.org/abs/2110.04745v1 )

ライセンス: CC BY 4.0
Gabriel Borrageiro and Nick Firoozye and Paolo Barucca(参考訳) 取引コストと資金コストを正確に計算し,主要なキャッシュfxペアについて詳細な実験を行った。 通貨市場で発生する価格動向を含むこれらの利益と損失の源泉は、二次的ユーティリティを通じて、我々の再帰的な強化学習者に提供され、位置を直接目標にすることを学ぶ。 我々は,オンライン学習の文脈において,リスク位置を目標とする学習問題をキャストすることで,初期の作業を改善する。 このオンライン学習は、時間とともに順次行われるが、転送学習の形でも行われる。 我々は、ガウス混合モデルにより、その手段、共分散および全体サイズが決定される放射状基底関数隠蔽処理ユニットの出力を、繰り返し強化学習者およびベースライン運動量トレーダーに転送する。 したがって、特徴空間の本質的な性質を学習し、上流モデルで利用できるようにする。 リカレント強化学習トレーダーは、7年間の試験セットで、年間ポートフォリオ情報比0.52、複合リターン9.3%、実行ネットおよび資金調達コストを達成している。 これは、取引コストが統計的に最も高い場合、取引日の午後5時にモデルに取引を強制したにもかかわらずである。 これらの結果は、2008年の金融危機以来の低金利差環境とそれ以来の非常に明白な通貨トレンドを反映して、モーメントベースライントレーダーに匹敵する。 繰り返し強化学習者は、利益と損失の変化の異なる源を反映するようにモデルの重みを適応できるという点において、重要な優位性を維持している。 これは、異なるポジションを狙うことを学ぶusdrubのトレーディングエージェントによって視覚的に示され、コストの欠如や存在をトレーディングを反映している。

We conduct a detailed experiment on major cash fx pairs, accurately accounting for transaction and funding costs. These sources of profit and loss, including the price trends that occur in the currency markets, are made available to our recurrent reinforcement learner via a quadratic utility, which learns to target a position directly. We improve upon earlier work, by casting the problem of learning to target a risk position, in an online learning context. This online learning occurs sequentially in time, but also in the form of transfer learning. We transfer the output of radial basis function hidden processing units, whose means, covariances and overall size are determined by Gaussian mixture models, to the recurrent reinforcement learner and baseline momentum trader. Thus the intrinsic nature of the feature space is learnt and made available to the upstream models. The recurrent reinforcement learning trader achieves an annualised portfolio information ratio of 0.52 with compound return of 9.3%, net of execution and funding cost, over a 7 year test set. This is despite forcing the model to trade at the close of the trading day 5pm EST, when trading costs are statistically the most expensive. These results are comparable with the momentum baseline trader, reflecting the low interest differential environment since the the 2008 financial crisis, and very obvious currency trends since then. The recurrent reinforcement learner does nevertheless maintain an important advantage, in that the model's weights can be adapted to reflect the different sources of profit and loss variation. This is demonstrated visually by a USDRUB trading agent, who learns to target different positions, that reflect trading in the absence or presence of cost.
公開日:2021-10-10
翻訳日:2021-10-16 17:05:18
# (参考訳) 不均衡データセット上の畳み込みニューラルネットワークを用いた時系列分類 [全文訳有]

Time Series Classification Using Convolutional Neural Network On Imbalanced Datasets ( http://arxiv.org/abs/2110.04748v1 )

ライセンス: CC BY 4.0
Syed Rawshon Jamil(参考訳) 時系列分類(tsc)は、医学データマイニングや天気予報など、さまざまな分野に幅広く適用されているため、文学において多くの注目を集めている。 TSCアルゴリズムはバランスの取れたデータセットのために設計されているが、ほとんどのリアルタイム時系列データセットは不均衡である。 スキュード分布は、クラス分離性の低い条件下で、距離ベースアルゴリズムと特徴ベースアルゴリズムの両方において時系列分類の問題である。 この不均衡問題に対処するために,サンプリングベースとアルゴリズムアプローチの両方を用いる。 異なる方法は、不均衡データセットにおける時系列分類の性能を大幅に改善する。 不均衡率が高いにもかかわらず、シミュレーションされたTwoPatterns DatasetではFスコアが97.6%に達する可能性がある。

Time Series Classification (TSC) has drawn a lot of attention in literature because of its broad range of applications for different domains, such as medical data mining, weather forecasting. Although TSC algorithms are designed for balanced datasets, most real-life time series datasets are imbalanced. The Skewed distribution is a problem for time series classification both in distance-based and feature-based algorithms under the condition of poor class separability. To address the imbalance problem, both sampling-based and algorithmic approaches are used in this paper. Different methods significantly improve time series classification's performance on imbalanced datasets. Despite having a high imbalance ratio, the result showed that F score could be as high as 97.6% for the simulated TwoPatterns Dataset.
公開日:2021-10-10
翻訳日:2021-10-16 16:47:40
# (参考訳) 機械学習手法の開発に基づくパン蒸発のモデル化

Modeling of Pan Evaporation Based on the Development of Machine Learning Methods ( http://arxiv.org/abs/2110.04749v1 )

ライセンス: CC BY 4.0
Mustafa Al-Mukhtar(参考訳) 水資源の効率的な計画・管理とそれに関連する戦略の実施には,特に干ばつがちな地域では,蒸発損失の適切な推定が重要である。 気温、風速、日照時間、湿度、太陽放射の変化などの気候要因の変化は蒸発過程に大きな影響を与える可能性がある。 このように、蒸発は高度に非線形で非定常な過程であり、特に異なるアグロ気候条件において、気候要因に基づいてモデル化することが困難である。 そこで本研究では,数種類の機械学習モデル(条件付きランダムフォレスト回帰,多変量適応回帰スプライン,タグ付き多変量適応回帰スプライン,モデルツリーM5,Knearest近傍,および重み付きK近傍)が,毎月のパン蒸発推定をモデル化する可能性について検討する。 本研究では,これらの地域で利用可能な気候データに基づいて,イラクの3つの異なる地域での蒸発損失をモデル化するためのMLモデルの開発を提案する。 様々な評価基準に基づき, 提案モデルの性能評価を行った結果, 評価指標として用いた他のモデルと比較して, 研究領域における月々蒸発損失を精度良くモデル化する上で, 重み付きk近傍モデルの有用性が示された。

For effective planning and management of water resources and implementation of the related strategies, it is important to ensure proper estimation of evaporation losses, especially in regions that are prone to drought. Changes in climatic factors, such as changes in temperature, wind speed, sunshine hours, humidity, and solar radiation can have a significant impact on the evaporation process. As such, evaporation is a highly non-linear, non-stationary process, and can be difficult to be modeled based on climatic factors, especially in different agro-climatic conditions. The aim of this study, therefore, is to investigate the feasibility of several machines learning (ML) models (conditional random forest regression, Multivariate Adaptive Regression Splines, Bagged Multivariate Adaptive Regression Splines, Model Tree M5, K- nearest neighbor, and the weighted K- nearest neighbor) for modeling the monthly pan evaporation estimation. This study proposes the development of newly explored ML models for modeling evaporation losses in three different locations over the Iraq region based on the available climatic data in such areas. The evaluation of the performance of the proposed model based on various evaluation criteria showed the capability of the proposed weighted K- nearest neighbor model in modeling the monthly evaporation losses in the studies areas with better accuracy when compared with the other existing models used as a benchmark in this study.
公開日:2021-10-10
翻訳日:2021-10-16 16:39:53
# (参考訳) データ摂動下でのリミットオーダーブック表現はどの程度堅牢か? [全文訳有]

How Robust are Limit Order Book Representations under Data Perturbation? ( http://arxiv.org/abs/2110.04752v1 )

ライセンス: CC BY 4.0
Yufei Wu, Mahmoud Mahfouz, Daniele Magazzeni, Manuela Veloso(参考訳) 金融分野における機械学習モデルの成功は、データ表現の品質に大きく依存しています。 本稿では,リミットオーダーブックデータの表現に着目し,そのようなデータの表現を学習する機会と課題について議論する。 また,既存の表現に関する問題点を実験的に解析し,この分野における今後の研究の指針を示す。

The success of machine learning models in the financial domain is highly reliant on the quality of the data representation. In this paper, we focus on the representation of limit order book data and discuss the opportunities and challenges for learning representations of such data. We also experimentally analyse the issues associated with existing representations and present a guideline for future research in this area.
公開日:2021-10-10
翻訳日:2021-10-16 16:38:14
# (参考訳) デノージング拡散ガンマモデル [全文訳有]

Denoising Diffusion Gamma Models ( http://arxiv.org/abs/2110.05948v1 )

ライセンス: CC BY 4.0
Eliya Nachmani, Robin San Roman, Lior Wolf(参考訳) 生成拡散プロセスは、画像および音声生成のための新しく効果的なツールである。 既存手法では,拡散過程の基本雑音分布はガウス雑音である。 しかし、より自由度の高い分布の適合は、そのような生成モデルの性能を向上させることができる。 本研究では拡散過程における他の種類のノイズ分布について検討する。 具体的には,離散拡散ガンマモデル(ddgm)を導入し,ガンマ分布からのノイズが画像および音声生成に改善をもたらすことを示す。 提案手法はガンマノイズを用いてトレーニング拡散過程の状態を効率的にサンプリングする能力を保持する。

Generative diffusion processes are an emerging and effective tool for image and speech generation. In the existing methods, the underlying noise distribution of the diffusion process is Gaussian noise. However, fitting distributions with more degrees of freedom could improve the performance of such generative models. In this work, we investigate other types of noise distribution for the diffusion process. Specifically, we introduce the Denoising Diffusion Gamma Model (DDGM) and show that noise from Gamma distribution provides improved results for image and speech generation. Our approach preserves the ability to efficiently sample state in the training diffusion process while using Gamma noise.
公開日:2021-10-10
翻訳日:2021-10-16 16:30:05
# (参考訳) $k$-fold maxima の脂肪散乱次元 [全文訳有]

Fat-shattering dimension of $k$-fold maxima ( http://arxiv.org/abs/2110.04763v1 )

ライセンス: CC BY 4.0
Aryeh Kontorovich, Idan Attias(参考訳) 実数値関数クラスの$k$-fold のファットシェータリング次元について,改良された推定値を提供する。 後者は$k$関数を選択し、各$k$クラスから1つを選び、ポイントワイドの最大値を計算するあらゆる方法からなる。 境界は成分クラスの脂肪散乱次元の観点から記述される。 線型およびアフィン函数クラスに対しては、よりシャープな上界と一致する下界を提供し、特に$k$への最適依存を実現する。 その過程で、文学における誤った主張をいくつか指摘し、訂正する。

We provide improved estimates on the fat-shattering dimension of the $k$-fold maximum of real-valued function classes. The latter consists of all ways of choosing $k$ functions, one from each of the $k$ classes, and computing their pointwise maximum. The bound is stated in terms of the fat-shattering dimensions of the component classes. For linear and affine function classes, we provide a considerably sharper upper bound and a matching lower bound, achieving, in particular, an optimal dependence on $k$. Along the way, we point out and correct a number of erroneous claims in the literature.
公開日:2021-10-10
翻訳日:2021-10-16 16:13:15
# (参考訳) 人体運動予測のための軽量モデルへのグラフ畳み込みの適用

Application of Graph Convolutions in a Lightweight Model for Skeletal Human Motion Forecasting ( http://arxiv.org/abs/2110.04810v1 )

ライセンス: CC BY-SA 4.0
Luca Hermes, Barbara Hammer and Malte Schilling(参考訳) 運動の予測は知的システムとの協調の成功に不可欠である。 移動体の骨格構造を通した組織的空間情報の統合モデルを提案する。 この内在的な構造は,グラフ畳み込みの応用によってモデル内で活用され,比較的少数のパラメータを必要とする軽量モデルに基づく競合予測に構造化空間情報をいかに活用できるかを実証する。

Prediction of movements is essential for successful cooperation with intelligent systems. We propose a model that integrates organized spatial information as given through the moving body's skeletal structure. This inherent structure is exploited in our model through application of Graph Convolutions and we demonstrate how this allows leveraging the structured spatial information into competitive predictions that are based on a lightweight model that requires a comparatively small number of parameters.
公開日:2021-10-10
翻訳日:2021-10-16 15:54:25
# (参考訳) 非凸強凸ミニマックス問題に対する2次定常点の探索 [全文訳有]

Finding Second-Order Stationary Point for Nonconvex-Strongly-C oncave Minimax Problem ( http://arxiv.org/abs/2110.04814v1 )

ライセンス: CC BY 4.0
Luo Luo, Cheng Chen(参考訳) 対象関数は${\bf y}$ で強凸であるが、${\bf x}$ では非凸である可能性があるというような、$\min_{\bf x}\max_{\bf y} f({\bf x},{\bf y}) 形式の滑らかなミニマックス最適化問題を研究する。 この問題には、正規化GANや強化学習、対人訓練など、機械学習の多くの応用が含まれている。 勾配降下アクセントに関する既存の理論のほとんどは、一階定常点 $f({\bf x},{\bf y})$ または主関数 $p({\bf x})\triangleq \max_{\bf y} f({\bf x},{\bf y})$ を達成するための収束結果を確立することに焦点を当てている。 In this paper, we design a new optimization method via cubic Newton iterations, which could find an ${\mathcal O}\left(\varepsilon,\k appa^{1.5}\sqrt{\rho\varepsilon}\right)$-second-orde r stationary point of $P({\bf x})$ with ${\mathcal O}\left(\kappa^{1.5}\sqrt{\rho}\varepsilon^{-1.5}\right)$ second-order oracle calls and $\tilde{\mathcal O}\left(\kappa^{2}\sqrt{\rho}\varepsilon^{-1.5}\right)$ first-order oracle calls, where $\kappa$ is the condition number and $\rho$ is the Hessian smoothness coefficient of $f({\bf x},{\bf y})$. 高次元問題に対して,我々は,勾配降下と行列チェビシェフ展開によって不必要に立方体部分問題を解く,費用のかかる二階オラクルを回避するための変種アルゴリズムを提案する。 この戦略は、高い確率で所望の2階の静止点を得るが、$\tilde{\mathcal o}\left(\kappa^{1.5}\ell\varepsilon^{-2}\right)$ hessian-vector oracleと$\tilde{\mathcal o}\left(\kappa^{2}\sqrt{\rho}\varepsilon^{-1.5}\right)$ first-order oracleコールのみを必要とする。 我々の知る限りでは、凸凹仮定を伴わないミニマックス問題の2階定常点を求める非漸近収束挙動を考える最初の研究である。

We study the smooth minimax optimization problem of the form $\min_{\bf x}\max_{\bf y} f({\bf x},{\bf y})$, where the objective function is strongly-concave in ${\bf y}$ but possibly nonconvex in ${\bf x}$. This problem includes a lot of applications in machine learning such as regularized GAN, reinforcement learning and adversarial training. Most of existing theory related to gradient descent accent focus on establishing the convergence result for achieving the first-order stationary point of $f({\bf x},{\bf y})$ or primal function $P({\bf x})\triangleq \max_{\bf y} f({\bf x},{\bf y})$. In this paper, we design a new optimization method via cubic Newton iterations, which could find an ${\mathcal O}\left(\varepsilon,\k appa^{1.5}\sqrt{\rho\varepsilon}\right)$-second-orde r stationary point of $P({\bf x})$ with ${\mathcal O}\left(\kappa^{1.5}\sqrt{\rho}\varepsilon^{-1.5}\right)$ second-order oracle calls and $\tilde{\mathcal O}\left(\kappa^{2}\sqrt{\rho}\varepsilon^{-1.5}\right)$ first-order oracle calls, where $\kappa$ is the condition number and $\rho$ is the Hessian smoothness coefficient of $f({\bf x},{\bf y})$. For high-dimensional problems, we propose an variant algorithm to avoid expensive cost form second-order oracle, which solves the cubic sub-problem inexactly via gradient descent and matrix Chebyshev expansion. This strategy still obtains desired approximate second-order stationary point with high probability but only requires $\tilde{\mathcal O}\left(\kappa^{1.5}\ell\varepsilon^{-2}\right)$ Hessian-vector oracle and $\tilde{\mathcal O}\left(\kappa^{2}\sqrt{\rho}\varepsilon^{-1.5}\right)$ first-order oracle calls. To the best of our knowledge, this is the first work considers non-asymptotic convergence behavior of finding second-order stationary point for minimax problem without convex-concave assumption.
公開日:2021-10-10
翻訳日:2021-10-16 15:53:38
# (参考訳) タスクによる地震画像の深部ベイズ推定

Deep Bayesian inference for seismic imaging with tasks ( http://arxiv.org/abs/2110.04825v1 )

ライセンス: CC BY 4.0
Ali Siahkoohi and Gabrio Rizzuti and Felix J. Herrmann(参考訳) 本稿では,ベイズ推定と深部ニューラルネットワークの手法を用いて,地平線追跡などの画像上のタスクにおける不確実性から不確実性への変換を提案する。 地震イメージングは、帯域幅と開口限界が避けられないため、ノイズや線形化誤差の存在によって妨げられる不測の逆問題である。 変換領域の疎大化促進など多くの正規化手法は、これらの誤差の悪影響に対処するために設計されているが、これらの手法は解の偏りのリスクを負い、画像空間における不確実性に関する情報を提供していない。 画像中のノイズによる不確かさを、自動的に追跡された地平線の信頼区間に翻訳する体系的手法を提案する。 不確かさは畳み込みニューラルネットワーク(cnn)によって特徴づけられ、これらの不確かさを評価するために、サンプルは画像のパラメータ化に用いられるcnn重みの後方分布から引き出される。 従来の先行研究と比べて、文献ではこれらのcnnは柔軟な帰納的バイアスを導入し、画像の様々な領域に驚くほど適していると論じられている。 確率勾配ランゲヴィン力学の手法は、後部分布からサンプリングするために用いられる。 この手法は, 地震探査のような計算コストの高いフォワード演算子を用いた大規模ベイズ推定問題を扱うように設計されている。 過度に適合しがちな後方推定値に対する頑健な代替手段を提供する以外に、これらのサンプルへのアクセスにより、データのノイズにより画像内の不確かさを、追跡された地平線上の不確実性に変換することができる。 例えば、画像上の点方向の標準偏差と、自動的に追跡される地平線上の信頼区間の推定を許容する。

We propose to use techniques from Bayesian inference and deep neural networks to translate uncertainty in seismic imaging to uncertainty in tasks performed on the image, such as horizon tracking. Seismic imaging is an ill-posed inverse problem because of unavoidable bandwidth and aperture limitations, which that is hampered by the presence of noise and linearization errors. Many regularization methods, such as transform-domain sparsity promotion, have been designed to deal with the adverse effects of these errors, however, these methods run the risk of biasing the solution and do not provide information on uncertainty in the image space and how this uncertainty impacts certain tasks on the image. A systematic approach is proposed to translate uncertainty due to noise in the data to confidence intervals of automatically tracked horizons in the image. The uncertainty is characterized by a convolutional neural network (CNN) and to assess these uncertainties, samples are drawn from the posterior distribution of the CNN weights, used to parameterize the image. Compared to traditional priors, in the literature it is argued that these CNNs introduce a flexible inductive bias that is a surprisingly good fit for many diverse domains in imaging. The method of stochastic gradient Langevin dynamics is employed to sample from the posterior distribution. This method is designed to handle large scale Bayesian inference problems with computationally expensive forward operators as in seismic imaging. Aside from offering a robust alternative to maximum a posteriori estimate that is prone to overfitting, access to these samples allow us to translate uncertainty in the image, due to noise in the data, to uncertainty on the tracked horizons. For instance, it admits estimates for the pointwise standard deviation on the image and for confidence intervals on its automatically tracked horizons.
公開日:2021-10-10
翻訳日:2021-10-16 14:26:50
# (参考訳) FLAME:マルチモーダル・ゲイズ推定による顔のランドマークヒートマップ [全文訳有]

FLAME: Facial Landmark Heatmap Activated Multimodal Gaze Estimation ( http://arxiv.org/abs/2110.04828v1 )

ライセンス: CC BY 4.0
Neelabh Sinha, Michal Balazia, and Fran\c{c}ois Bremond(参考訳) 3次元視線推定は、3次元空間内の人の視線を予測することである。 同じ個人非依存モデルでは、被験者の解剖学的差異による精度の欠如があるが、個人固有の校正手法はスケーラビリティに厳しい制約を加える。 これらの課題を克服するために,眼のランドマーク・ヒートマップを用いた眼解剖情報を組み合わせて,人ごとのキャリブレーションを伴わずに正確な視線推定を行う新しい手法であるFacial Landmark Heatmap Activated Multimodal Gaze Estimation (FLAME)を提案する。 評価の結果,ベンチマークデータセットであるColumbiaGazeとEYEDIAPの競合性能は約10%向上した。 また, この方法を検証するため, アブレーション試験を行った。

3D gaze estimation is about predicting the line of sight of a person in 3D space. Person-independent models for the same lack precision due to anatomical differences of subjects, whereas person-specific calibrated techniques add strict constraints on scalability. To overcome these issues, we propose a novel technique, Facial Landmark Heatmap Activated Multimodal Gaze Estimation (FLAME), as a way of combining eye anatomical information using eye landmark heatmaps to obtain precise gaze estimation without any person-specific calibration. Our evaluation demonstrates a competitive performance of about 10% improvement on benchmark datasets ColumbiaGaze and EYEDIAP. We also conduct an ablation study to validate our method.
公開日:2021-10-10
翻訳日:2021-10-16 14:25:33
# (参考訳) 2人のプレーヤーゼロサム同時アクションゲームにおける強化学習 [全文訳有]

Reinforcement Learning In Two Player Zero Sum Simultaneous Action Games ( http://arxiv.org/abs/2110.04835v1 )

ライセンス: CC BY 4.0
Patrick Phillips(参考訳) 2人のプレイヤーゼロサム同時アクションゲームは、ビデオゲーム、金融市場、戦争、ビジネスコンペティション、その他多くの設定で一般的である。 まず,強化学習の基本概念を2つのプレイヤゼロサム同時アクションゲームで紹介し,この種のゲームポーズのユニークな課題について考察する。 次に,dqn (joint action deep q-networks) を用いて,これらの課題に対処する新たなエージェントを2つ紹介する。 第一のエージェントはbest response agent(brat)と呼ばれ、模倣学習を用いて相手のポリシーの明示的なモデルを構築し、そのモデルを使って相手の戦略を利用するのに最適なレスポンスを見つける。 第2のエージェントであるMeta-Nash DQNは、Q値計算の一部として使用されるコンテキスト変数を生成するために、相手のポリシーの暗黙のモデルを構築する。 Q-値上の明示的なミニマックスは、ナッシュ平衡に近い作用を見つけるために用いられる。 両エージェントが単純な行列ゲームに対する自己プレイ設定においてナッシュ平衡に収束すると同時に、より大きな状態とアクション空間を持つゲームでもうまく機能することを示す。 これらの新しいアルゴリズムは、バニラrlアルゴリズムと最新の art multi-agent アルゴリズムと 2 つのエージェントアルゴリズムに対して評価される。 この研究は、伝統的な強化学習、ゲーム理論、メタ学習のアイデアを組み合わせている。

Two player zero sum simultaneous action games are common in video games, financial markets, war, business competition, and many other settings. We first introduce the fundamental concepts of reinforcement learning in two player zero sum simultaneous action games and discuss the unique challenges this type of game poses. Then we introduce two novel agents that attempt to handle these challenges by using joint action Deep Q-Networks (DQN). The first agent, called the Best Response AgenT (BRAT), builds an explicit model of its opponent's policy using imitation learning, and then uses this model to find the best response to exploit the opponent's strategy. The second agent, Meta-Nash DQN, builds an implicit model of its opponent's policy in order to produce a context variable that is used as part of the Q-value calculation. An explicit minimax over Q-values is used to find actions close to Nash equilibrium. We find empirically that both agents converge to Nash equilibrium in a self-play setting for simple matrix games, while also performing well in games with larger state and action spaces. These novel algorithms are evaluated against vanilla RL algorithms as well as recent state of the art multi-agent and two agent algorithms. This work combines ideas from traditional reinforcement learning, game theory, and meta learning.
公開日:2021-10-10
翻訳日:2021-10-16 14:14:39
# (参考訳) 重球ニューラル常微分方程式 [全文訳有]

Heavy Ball Neural Ordinary Differential Equations ( http://arxiv.org/abs/2110.04840v1 )

ライセンス: CC BY 4.0
Hedi Xia, Vai Suliafu, Hangjie Ji, Tan M. Nguyen, Andrea L. Bertozzi, Stanley J. Osher, Bao Wang(参考訳) 本研究では,古典的運動量加速勾配降下の連続限界を利用して,重球型ニューラル常微分方程式(hbノード)を提案する。 HBNODE には、NODE に対して実用的な利点を示す2つの特性がある。 i) HBNODE の随伴状態も HBNODE を満足し,前後のODE ソルバを高速化し,機能評価(NFE)の数を著しく削減し,訓練されたモデルの有用性を向上させる。 (II)HBNODEのスペクトルはよく構造化されており、複雑なシーケンシャルデータから長期依存を効果的に学習することができる。 我々は、画像分類、複雑な力学の学習、逐次モデリングなど、ベンチマークタスクにおけるHBNODEの利点を検証する。 提案手法は, 前方および後方のNFEを著しく少なくし, より正確で, 他のODEベースニューラルネットワークモデルよりも長期間の依存関係を効果的に学習する。 コードは \url{https://github.com/h edixia/heavyballnode } で入手できる。

We propose heavy ball neural ordinary differential equations (HBNODEs), leveraging the continuous limit of the classical momentum accelerated gradient descent, to improve neural ODEs (NODEs) training and inference. HBNODEs have two properties that imply practical advantages over NODEs: (i) The adjoint state of an HBNODE also satisfies an HBNODE, accelerating both forward and backward ODE solvers, thus significantly reducing the number of function evaluations (NFEs) and improving the utility of the trained models. (ii) The spectrum of HBNODEs is well structured, enabling effective learning of long-term dependencies from complex sequential data. We verify the advantages of HBNODEs over NODEs on benchmark tasks, including image classification, learning complex dynamics, and sequential modeling. Our method requires remarkably fewer forward and backward NFEs, is more accurate, and learns long-term dependencies more effectively than the other ODE-based neural network models. Code is available at \url{https://github.com/h edixia/HeavyBallNODE }.
公開日:2021-10-10
翻訳日:2021-10-16 14:01:16
# (参考訳) 自己監督型モデルからのFew-shot学習におけるテキスト挿入と言語間スーパービジョン [全文訳有]

Injecting Text and Cross-lingual Supervision in Few-shot Learning from Self-Supervised Models ( http://arxiv.org/abs/2110.04863v1 )

ライセンス: CC BY 4.0
Matthew Wiesner, Desh Raj, Sanjeev Khudanpur(参考訳) 自己監督型モデル事前学習は近年大きな関心を集めているが、これらのモデルを微調整する際の追加資源の利用についての研究は比較的少ない。 新しい言語への事前学習による自己教師付き表現の伝達を改善するために,音声集合音響モデルが言語間監督を活用する方法を示す。 また,lf-mmi(lattce-free maximum mutual information)目標を用いて,目標言語テキストの微調整の実現と改善を行う方法を示す。 3つの低リソース言語では、これらの技術は数ショットの学習性能を大幅に改善した。

Self-supervised model pre-training has recently garnered significant interest, but relatively few efforts have explored using additional resources in fine-tuning these models. We demonstrate how universal phoneset acoustic models can leverage cross-lingual supervision to improve transfer of pretrained self-supervised representations to new languages. We also show how target-language text can be used to enable and improve fine-tuning with the lattice-free maximum mutual information (LF-MMI) objective. In three low-resource languages these techniques greatly improved few-shot learning performance.
公開日:2021-10-10
翻訳日:2021-10-16 13:25:42
# (参考訳) AIR-Net: 行列補完のための適応型および命令型正規化ニューラルネットワーク [全文訳有]

AIR-Net: Adaptive and Implicit Regularization Neural Network for Matrix Completion ( http://arxiv.org/abs/2110.07557v1 )

ライセンス: CC BY 4.0
Zhemin Li, Hongxia Wang(参考訳) 従来、行列完備化(MC)モデルは、部分的に観察された要素から行列を復元することを目的としていた。 正確なリカバリは、必ずしも未知の行列/信号の事前を適切に符号化する正規化を必要とする。 しかし、複雑な自然信号のプリエントを正確に符号化することは困難であり、それでも、モデルは特定の行列型以外ではうまく一般化できないかもしれない。 この作業は適応性と暗黙の低ランク正規化を組み合わせることで、現在の回復行列に従って前者を動的にキャプチャする。 さらに、適応正則化は暗黙の正則化にどのように影響するのか? ニューラルネットワークを用いて適応的および暗黙的正規化を表現し,提案モデル \textit{air-net} を命名した。 理論的解析により、AIR-Netの適応部分が暗黙の正規化を促進することが示されている。 さらに、適応正則化器は最後に消滅し、飽和問題を回避することができる。 様々なデータに対する数値実験はAIR-Netの有効性を示し、特に欠落した要素の位置がランダムに選択されない場合である。 行列表現のためのニューラルネットワークを選択するための完全な柔軟性により、AIR-Netはより一般的な逆問題を解決するために拡張できる。

Conventionally, the matrix completion (MC) model aims to recover a matrix from partially observed elements. Accurate recovery necessarily requires a regularization encoding priors of the unknown matrix/signal properly. However, encoding the priors accurately for the complex natural signal is difficult, and even then, the model might not generalize well outside the particular matrix type. This work combines adaptive and implicit low-rank regularization that captures the prior dynamically according to the current recovered matrix. Furthermore, we aim to answer the question: how does adaptive regularization affect implicit regularization? We utilize neural networks to represent Adaptive and Implicit Regularization and named the proposed model \textit{AIR-Net}. Theoretical analyses show that the adaptive part of the AIR-Net enhances implicit regularization. In addition, the adaptive regularizer vanishes at the end, thus can avoid saturation issues. Numerical experiments for various data demonstrate the effectiveness of AIR-Net, especially when the locations of missing elements are not randomly chosen. With complete flexibility to select neural networks for matrix representation, AIR-Net can be extended to solve more general inverse problems.
公開日:2021-10-12
翻訳日:2021-10-16 13:14:07
# (参考訳) FILM: モジュール型メソッドによる言語命令に従う [全文訳有]

FILM: Following Instructions in Language with Modular Methods ( http://arxiv.org/abs/2110.07342v1 )

ライセンス: CC BY 4.0
So Yeon Min, Devendra Singh Chaplot, Pradeep Ravikumar, Yonatan Bisk, Ruslan Salakhutdinov(参考訳) 最近のインボディード・インストラクションの手法は、一般的に模倣学習を用いてエンドツーエンドに訓練されている。 これは専門家の軌跡と低レベルの言語命令を使う必要がある。 このようなアプローチは、学習された隠れた状態が言語とビジョンからのセマンティクスを同時に統合し、状態追跡、空間記憶、探索、長期計画を実行すると仮定する。 これとは対照的に,(1)シーンのセマンティックマップを構築し,(2)自然言語の目的を達成するためにセマンティック検索ポリシーを用いて探索を行う構造化表現を用いたモジュラー手法を提案する。 提案手法は,従来手法と同等な(8.17 %)ギャップを持つsota性能 (24.46%) を実現するとともに,熟練した軌跡と低レベルの命令の両方をエスキューすることで少ないデータを使用する。 しかし、低レベル言語を活用することで、パフォーマンスがさらに向上します(26.49%)。 本研究は, 空間記憶と意味探索によって, 専門家の軌跡や低レベルの指示がなくても, より強く, より汎用的な状態追跡とガイダンスの表現が可能であることを示唆する。

Recent methods for embodied instruction following are typically trained end-to-end using imitation learning. This requires the use of expert trajectories and low-level language instructions. Such approaches assume learned hidden states will simultaneously integrate semantics from the language and vision to perform state tracking, spatial memory, exploration, and long-term planning. In contrast, we propose a modular method with structured representations that (1) builds a semantic map of the scene, and (2) performs exploration with a semantic search policy, to achieve the natural language goal. Our modular method achieves SOTA performance (24.46%) with a substantial (8.17 % absolute) gap from previous work while using less data by eschewing both expert trajectories and low-level instructions. Leveraging low-level language, however, can further increase our performance (26.49%). Our findings suggest that an explicit spatial memory and a semantic search policy can provide a stronger and more general representation for state-tracking and guidance, even in the absence of expert trajectories or low-level instructions.
公開日:2021-10-12
翻訳日:2021-10-16 12:32:10
# (参考訳) 変分オートエンコーダによる複数スタイル転送 [全文訳有]

Multiple Style Transfer via Variational AutoEncoder ( http://arxiv.org/abs/2110.07375v1 )

ライセンス: CC BY 4.0
Zhi-Song Liu and Vicky Kalogeiton and Marie-Paule Cani(参考訳) 現代では、一つの画像からスタイルを転送することに焦点を当てている。 最近、複数のスタイル転送を研究するアプローチもあるが、これらは遅すぎるか、複数のスタイルを混在させることができない。 遅延空間に基づくスタイル転送のための変分自動エンコーダST-VAEを提案する。 非線形スタイルを線形潜在空間に投影することで複数のスタイル転送を行い、新しいスタイルをコンテンツイメージに転送する前に線形補間によりスタイルをマージする。 ST-VAEを評価するために,単一および複数スタイル転送のためのCOCO実験を行った。 また,ST-VAEは他の手法よりも高速で柔軟で,複数スタイル転送のための新しい経路を設定できることを示すケーススタディを示す。

Modern works on style transfer focus on transferring style from a single image. Recently, some approaches study multiple style transfer; these, however, are either too slow or fail to mix multiple styles. We propose ST-VAE, a Variational AutoEncoder for latent space-based style transfer. It performs multiple style transfer by projecting nonlinear styles to a linear latent space, enabling to merge styles via linear interpolation before transferring the new style to the content image. To evaluate ST-VAE, we experiment on COCO for single and multiple style transfer. We also present a case study revealing that ST-VAE outperforms other methods while being faster, flexible, and setting a new path for multiple style transfer.
公開日:2021-10-13
翻訳日:2021-10-16 12:12:50
# (参考訳) 粒子物理における教師なし異常検出の課題 [全文訳有]

Challenges for Unsupervised Anomaly Detection in Particle Physics ( http://arxiv.org/abs/2110.06948v1 )

ライセンス: CC BY 4.0
Katherine Fraser, Samuel Homiller, Rashmish K. Mishra, Bryan Ostdiek, and Matthew D. Schwartz(参考訳) 異常検出は、特定の事象が特定の背景分布の非特性であるかどうかを決定するためにスコアを設計することに依存する。 スコアを定義する方法の1つは、ある種のデータ(背景)を再構築する機能に依存しているオートエンコーダを使用することである。 本稿では,qcd 背景における異常信号 (top および $w$) ジェットの文脈におけるハイパーパラメータやメトリクスへの依存性など,変分オートエンコーダに関連するいくつかの課題について検討する。 パラメータ選択がネットワーク性能に強く影響し,一方の信号に対する最適パラメータが他方の信号に対して最適でないことが判明した。 ネットワークの探索において、平均二乗誤差を用いて訓練された変分オートエンコーダの潜時空間とデータセット内の最適な輸送距離との間の接続を明らかにする。 次に、バックグラウンドデータセット内の代表イベントへの最適な転送距離を、オートエンコーダに匹敵するパフォーマンスで、異常検出に直接使用できることを示す。 オートエンコーダや最適なトランスポート距離を異常検出に利用しても,背景を最もよく表現する選択が信号識別に最適とは限らない。 教師なし異常検出のこれらの課題は、半教師付きまたは代替的なアプローチのさらなる探索を後押しする。

Anomaly detection relies on designing a score to determine whether a particular event is uncharacteristic of a given background distribution. One way to define a score is to use autoencoders, which rely on the ability to reconstruct certain types of data (background) but not others (signals). In this paper, we study some challenges associated with variational autoencoders, such as the dependence on hyperparameters and the metric used, in the context of anomalous signal (top and $W$) jets in a QCD background. We find that the hyperparameter choices strongly affect the network performance and that the optimal parameters for one signal are non-optimal for another. In exploring the networks, we uncover a connection between the latent space of a variational autoencoder trained using mean-squared-error and the optimal transport distances within the dataset. We then show that optimal transport distances to representative events in the background dataset can be used directly for anomaly detection, with performance comparable to the autoencoders. Whether using autoencoders or optimal transport distances for anomaly detection, we find that the choices that best represent the background are not necessarily best for signal identification. These challenges with unsupervised anomaly detection bolster the case for additional exploration of semi-supervised or alternative approaches.
公開日:2021-10-13
翻訳日:2021-10-16 12:06:01
# (参考訳) 審美的品質を予測する学習におけるユーザ合意の検討 [全文訳有]

Considering user agreement in learning to predict the aesthetic quality ( http://arxiv.org/abs/2110.06956v1 )

ライセンス: CC BY 4.0
Suiyi Ling, Andreas Pastor, Junle Wang, Patrick Le Callet(参考訳) 与えられた画像の美的品質をしっかりとランク付けする方法は、長い間不適切なトピックであった。 このような課題は主に、様々なタイプのコンテンツについての様々な観察者の多様な主観的意見に由来する。 平均的な美的意見スコアを予測するのではなく,スコアの標準偏差を考慮してユーザ合意を推定することへの関心が高まっている。 それにもかかわらず、一対のコンテンツを比較する場合、美的スコアの違いにどの程度自信があるかを考える研究はほとんどない。 そこで本稿では,(1)平均評価スコアと標準偏差の両方をエンドツーエンドで予測するための再適応型マルチタスク・アテンションネットワークを提案する。 このような損失により、モデルは、観察者の意見の多様性、すなわちユーザーの不一致に関連するコンテンツの不確実性を学ぶことが奨励される。 広汎な実験により、提案したマルチタスク美学モデルは、AVAとTMGAの2つの異なるタイプの美学データセット上で最先端のパフォーマンスを達成することが示された。

How to robustly rank the aesthetic quality of given images has been a long-standing ill-posed topic. Such challenge stems mainly from the diverse subjective opinions of different observers about the varied types of content. There is a growing interest in estimating the user agreement by considering the standard deviation of the scores, instead of only predicting the mean aesthetic opinion score. Nevertheless, when comparing a pair of contents, few studies consider how confident are we regarding the difference in the aesthetic scores. In this paper, we thus propose (1) a re-adapted multi-task attention network to predict both the mean opinion score and the standard deviation in an end-to-end manner; (2) a brand-new confidence interval ranking loss that encourages the model to focus on image-pairs that are less certain about the difference of their aesthetic scores. With such loss, the model is encouraged to learn the uncertainty of the content that is relevant to the diversity of observers' opinions, i.e., user disagreement. Extensive experiments have demonstrated that the proposed multi-task aesthetic model achieves state-of-the-art performance on two different types of aesthetic datasets, i.e., AVA and TMGA.
公開日:2021-10-13
翻訳日:2021-10-16 11:38:17
# (参考訳) 連続学習のためのブロックコンテキストMDP [全文訳有]

Block Contextual MDPs for Continual Learning ( http://arxiv.org/abs/2110.06972v1 )

ライセンス: CC BY 4.0
Shagun Sodhani, Franziska Meier, Joelle Pineau, Amy Zhang(参考訳) 強化学習(RL)において、マルコフ決定過程(MDP)を定義するとき、環境力学は暗黙的に定常であると仮定される。 この定常性の仮定は単純化されるが、多くのシナリオでは非現実的である。 連続的な強化学習シナリオでは、タスクのシーケンスが非定常性の源である。 本研究では,ブロックコンテキストMDP(BC-MDP)フレームワークを用いて,この連続的な強化学習環境について検討し,定常性の仮定を緩和する。 このフレームワークは、非定常性とリッチな観測設定の両方を扱うrlアルゴリズムに挑戦し、さらに滑らかさプロパティを活用することで、この設定の一般化境界を研究できる。 最後に、適応制御からインスピレーションを得て、このより現実的なBC-MDP設定によってもたらされる課題に対処し、評価時のゼロショット適応を可能にし、複数の非定常環境において高い性能を達成する新しいアルゴリズムを提案する。

In reinforcement learning (RL), when defining a Markov Decision Process (MDP), the environment dynamics is implicitly assumed to be stationary. This assumption of stationarity, while simplifying, can be unrealistic in many scenarios. In the continual reinforcement learning scenario, the sequence of tasks is another source of nonstationarity. In this work, we propose to examine this continual reinforcement learning setting through the block contextual MDP (BC-MDP) framework, which enables us to relax the assumption of stationarity. This framework challenges RL algorithms to handle both nonstationarity and rich observation settings and, by additionally leveraging smoothness properties, enables us to study generalization bounds for this setting. Finally, we take inspiration from adaptive control to propose a novel algorithm that addresses the challenges introduced by this more realistic BC-MDP setting, allows for zero-shot adaptation at evaluation time, and achieves strong performance on several nonstationary environments.
公開日:2021-10-13
翻訳日:2021-10-16 11:26:56
# (参考訳) 表現連続性再考--教師なし連続学習に向けて [全文訳有]

Rethinking the Representational Continuity: Towards Unsupervised Continual Learning ( http://arxiv.org/abs/2110.06976v1 )

ライセンス: CC BY-SA 4.0
Divyam Madaan, Jaehong Yoon, Yuanchun Li, Yunxin Liu, Sung Ju Hwang(参考訳) 連続学習(CL)は、以前獲得した知識を忘れずに一連のタスクを学習することを目的としている。 しかし、最近の連続学習の進歩は教師付き連続学習(scl)のシナリオに限定されている。 結果として、データ分散がバイアスや注釈のない、実世界のアプリケーションにはスケーラビリティがない。 本研究では,非教師なし連続学習(UCL)に注目し,その課題の列で特徴表現を学習し,アノテートされたデータへの依存が連続学習には必要ないことを示す。 我々は,学習した特徴表現を分析し,教師なしの視覚的表現が,破滅的な忘れ方に対して驚くほど頑健であり,一貫して優れた性能を達成し,sclよりも分布外タスクに一般化できることを体系的に研究した。 さらに,学習表現の質的分析と有意義な特徴表現の学習を通じて,uclはより円滑なロスランドスケープを実現することを見出した。 さらに,現在のタスクと以前のタスクのインスタンス間の補間を利用して,教師なし表現に対する破滅的な忘れを緩和する,単純かつ効果的な手法であるlong unsupervised mixup (lump)を提案する。

Continual learning (CL) aims to learn a sequence of tasks without forgetting the previously acquired knowledge. However, recent advances in continual learning are restricted to supervised continual learning (SCL) scenarios. Consequently, they are not scalable to real-world applications where the data distribution is often biased and unannotated. In this work, we focus on unsupervised continual learning (UCL), where we learn the feature representations on an unlabelled sequence of tasks and show that reliance on annotated data is not necessary for continual learning. We conduct a systematic study analyzing the learned feature representations and show that unsupervised visual representations are surprisingly more robust to catastrophic forgetting, consistently achieve better performance, and generalize better to out-of-distribution tasks than SCL. Furthermore, we find that UCL achieves a smoother loss landscape through qualitative analysis of the learned representations and learns meaningful feature representations. Additionally, we propose Lifelong Unsupervised Mixup (LUMP), a simple yet effective technique that leverages the interpolation between the current task and previous tasks' instances to alleviate catastrophic forgetting for unsupervised representations.
公開日:2021-10-13
翻訳日:2021-10-16 10:49:04
# (参考訳) WAFFLE:個人化フェデレーション学習のための平均重み付け [全文訳有]

WAFFLE: Weighted Averaging for Personalized Federated Learning ( http://arxiv.org/abs/2110.06978v1 )

ライセンス: CC BY-SA 4.0
Martin Beaussart, Felix Grimberg, Mary-Anne Hartley, Martin Jaggi(参考訳) 協調学習や連合学習では、モデルパーソナライゼーションは、クライアント間で異種トレーニングデータを扱うための非常に効果的な戦略である。 WAFFLE(Weighted Averaging For Federated LEarning)は、SCAFFOLDをベースとしたパーソナライズされた協調機械学習アルゴリズムである。 SCAFFOLDは、クライアント間のデータやラベルの分布が極めて歪んだタスクであっても、確率的制御変数を使用して、グローバルな最適モデルに近いモデルに収束する。 対照的にwaffleは、クライアントの更新間のユークリッド距離を使用して、個々のコントリビューションを計測し、特定のエージェントに対するパーソナライズされたモデル損失を最小限に抑える。 提案手法を,近年の2つの個人化フェデレーション学習手法である重みエロージョンとAPFL,および2つのグローバル学習手法であるフェデレーション平均化とSCAFFOLDと比較した。 本手法は,mnist と cifar10 の2つのベンチマーク画像データセット上で,非同一のクライアントデータ分布(概念シフトとラベルスキュー)の2つのカテゴリを用いて評価する。 本実験は, WAFFLEを他の手法と比較し, より高速な収束により精度を向上・向上することを示した。

In collaborative or federated learning, model personalization can be a very effective strategy to deal with heterogeneous training data across clients. We introduce WAFFLE (Weighted Averaging For Federated LEarning), a personalized collaborative machine learning algorithm based on SCAFFOLD. SCAFFOLD uses stochastic control variates to converge towards a model close to the globally optimal model even in tasks where the distribution of data and labels across clients is highly skewed. In contrast, WAFFLE uses the Euclidean distance between clients' updates to weigh their individual contributions and thus minimize the trained personalized model loss on the specific agent of interest. Through a series of experiments, we compare our proposed new method to two recent personalized federated learning methods, Weight Erosion and APFL, as well as two global learning methods, federated averaging and SCAFFOLD. We evaluate our method using two categories of non-identical client data distributions (concept shift and label skew) on two benchmark image data sets, MNIST and CIFAR10. Our experiments demonstrate the effectiveness of WAFFLE compared with other methods, as it achieves or improves accuracy with faster convergence.
公開日:2021-10-13
翻訳日:2021-10-16 10:30:16
# (参考訳) FlexiTerm: フレキシブルマルチワード語認識のより効率的な実装 [全文訳有]

FlexiTerm: A more efficient implementation of flexible multi-word term recognition ( http://arxiv.org/abs/2110.06981v1 )

ライセンス: CC BY 4.0
Irena Spasic(参考訳) 用語はドメイン固有の概念の言語記号である。 自由テキストにおけるマルチワード語(MWT)の自動認識はシーケンスラベリングの問題であり、一般に教師付き機械学習手法を用いて対処される。 トレーニングデータの手動アノテーションが必要なため、そのようなメソッドをドメイン間で移植するのは困難である。 一方、FlexiTermはドメイン固有コーパスからのMWT認識のための完全に教師なしの手法である。 元々はjavaで概念実証として実装されていたが、スケールがうまくいかなかったため、ビッグデータのコンテキストにおいて実用的価値はほとんど提供されなかった。 本稿では,Pythonにおける再実装について述べるとともに,これらの2つの実装の性能を比較する。 その結果、効率の面で大きな改善があったため、flexitermは概念実証から製品グレードのアプリケーションへの移行を可能にした。

Terms are linguistic signifiers of domain-specific concepts. Automated recognition of multi-word terms (MWT) in free text is a sequence labelling problem, which is commonly addressed using supervised machine learning methods. Their need for manual annotation of training data makes it difficult to port such methods across domains. FlexiTerm, on the other hand, is a fully unsupervised method for MWT recognition from domain-specific corpora. Originally implemented in Java as a proof of concept, it did not scale well, thus offering little practical value in the context of big data. In this paper, we describe its re-implementation in Python and compare the performance of these two implementations. The results demonstrated major improvements in terms of efficiency, which allow FlexiTerm to transition from the proof of concept to the production-grade application.
公開日:2021-10-13
翻訳日:2021-10-16 10:18:00
# (参考訳) ADMM-DADネット:解析圧縮センシングのための深部展開ネットワーク [全文訳有]

ADMM-DAD net: a deep unfolding network for analysis compressed sensing ( http://arxiv.org/abs/2110.06986v1 )

ライセンス: CC BY 4.0
Vasiliki Kouni, Georgios Paraskevopoulos, Holger Rauhut, George C. Alexandropoulos(参考訳) 本稿では、圧縮センシング解析のためのADMMアルゴリズムに基づく、新しい深層展開ニューラルネットワークを提案する。 提案するネットワークはスパーシフィケーションのための冗長解析演算子を共同で学習し,関心信号の再構成を行う。 提案するネットワークを,直交スペーサを学習する最先端の展開型ISTAデコーダと比較した。 さらに、画像だけでなく、音声データセットもテスト例として検討する。 計算実験により,提案するネットワークは,実世界の画像と音声のデータセットの両方において,最先端のディープ展開ネットワークよりも優れていることが示された。

In this paper, we propose a new deep unfolding neural network based on the ADMM algorithm for analysis Compressed Sensing. The proposed network jointly learns a redundant analysis operator for sparsification and reconstructs the signal of interest. We compare our proposed network with a state-of-the-art unfolded ISTA decoder, that also learns an orthogonal sparsifier. Moreover, we consider not only image, but also speech datasets as test examples. Computational experiments demonstrate that our proposed network outperforms the state-of-the-art deep unfolding networks, consistently for both real-world image and speech datasets.
公開日:2021-10-13
翻訳日:2021-10-16 10:04:44
# (参考訳) 連続的および非侵襲的カフレス血圧推定のためのクラスタリングに基づく新しいアルゴリズム [全文訳有]

A Novel Clustering-Based Algorithm for Continuous and Non-invasive Cuff-Less Blood Pressure Estimation ( http://arxiv.org/abs/2110.06996v1 )

ライセンス: CC0 1.0
Ali Farki, Reza Baradaran Kazemzadeh, and Elham Akhondzadeh Noughabi(参考訳) 連続血圧(bp)測定は、疾患に対する身体反応を反映し、循環器やその他の健康状態の予測因子となる。 現在のカフベースのBP測定法は連続的なBP測定を行うことができないが、侵襲的なBPモニタリング法は患者の不満を生じさせ、感染を引き起こす可能性がある。 本研究では,心電図(ECG)および光胸腺図(PPG)信号および動脈血圧(ABP)データから抽出した特徴に基づいて血圧を推定する方法を開発した。 プリプロセスされたecg信号とppg信号から抽出された特徴ベクトルは、クラスタリングアルゴリズムの入力としてパルス通過時間(ptt)、ppg強度比(pir)、心拍数(hr)を含み、ランダムフォレスト回帰、勾配昇降回帰、各クラスタに対する多層パーセプトロン回帰アルゴリズムなどの別々の回帰モデルを開発する。 クラスタ化手法を適用し, 最適クラスタ数を同定し, 最終的に許容される予測モデルを用いて, モデル作成の精度を最も高く評価, 比較した。 本論文は, このクラスタリングを使わずに得られた結果と比較する。 その結果,提案手法は収縮期血圧 (sbp) と拡張期血圧 (dbp) をより正確に推定するのに役立つことがわかった。 クラスタリング手法を用いることで,データセットの一貫性,分散度,トレンドの多様さを考慮し,推定精度を50~60%向上させることができた。

Continuous blood pressure (BP) measurements can reflect a bodys response to diseases and serve as a predictor of cardiovascular and other health conditions. While current cuff-based BP measurement methods are incapable of providing continuous BP readings, invasive BP monitoring methods also tend to cause patient dissatisfaction and can potentially cause infection. In this research, we developed a method for estimating blood pressure based on the features extracted from Electrocardiogram (ECG) and Photoplethysmogram (PPG) signals and the Arterial Blood Pressure (ABP) data. The vector of features extracted from the preprocessed ECG and PPG signals is used in this approach, which include Pulse Transit Time (PTT), PPG Intensity Ratio (PIR), and Heart Rate (HR), as the input of a clustering algorithm and then developing separate regression models like Random Forest Regression, Gradient Boosting Regression, and Multilayer Perceptron Regression algorithms for each resulting cluster. We evaluated and compared the findings to create the model with the highest accuracy by applying the clustering approach and identifying the optimal number of clusters, and eventually the acceptable prediction model. The paper compares the results obtained with and without this clustering. The results show that the proposed clustering approach helps obtain more accurate estimates of Systolic Blood Pressure (SBP) and Diastolic Blood Pressure (DBP). Given the inconsistency, high dispersion, and multitude of trends in the datasets for different features, using the clustering approach improved the estimation accuracy by 50-60%.
公開日:2021-10-13
翻訳日:2021-10-16 09:55:32
# (参考訳) Bandits don't Follow Rules: Balancing Multi-Facet Machine Translation with Multi-Armed Bandits [全文訳有]

Bandits Don't Follow Rules: Balancing Multi-Facet Machine Translation with Multi-Armed Bandits ( http://arxiv.org/abs/2110.06997v1 )

ライセンス: CC BY 4.0
Julia Kreutzer, David Vilar, Artem Sokolov(参考訳) 機械翻訳(MT)のトレーニングデータはしばしば、複数のドメインからのコンテンツや異なるレベルの品質や複雑さを含むような、本質的に多面的な多数の大きなコーパスから得られる。 当然、これらのファセットは等しい周波数で発生しないし、テストシナリオでも同様に重要でもない。 本研究では,MTモデルパラメータと協調してこのバランスを最適化し,システム開発者が手動のスケジュール設計から解放することを提案する。 マルチアームのバンディットは、MTシステムにとって最も有益な方法で、ファセットの選択を動的に行うように訓練される。 我々は、翻訳データと自然学習データのバランスをとる3つの異なる多面体アプリケーション、または複数のドメインまたは複数の言語ペアのデータを評価する。 バンディット学習はタスク間の競争的なMTシステムにつながり、分析は学習戦略と基盤となるデータセットに関する洞察を提供する。

Training data for machine translation (MT) is often sourced from a multitude of large corpora that are multi-faceted in nature, e.g. containing contents from multiple domains or different levels of quality or complexity. Naturally, these facets do not occur with equal frequency, nor are they equally important for the test scenario at hand. In this work, we propose to optimize this balance jointly with MT model parameters to relieve system developers from manual schedule design. A multi-armed bandit is trained to dynamically choose between facets in a way that is most beneficial for the MT system. We evaluate it on three different multi-facet applications: balancing translationese and natural training data, or data from multiple domains or multiple language pairs. We find that bandit learning leads to competitive MT systems across tasks, and our analysis provides insights into its learned strategies and the underlying data sets.
公開日:2021-10-13
翻訳日:2021-10-16 09:44:52
# (参考訳) オーディオスペクトログラム変換器における位置符号化手法の検討 [全文訳有]

Study of positional encoding approaches for Audio Spectrogram Transformers ( http://arxiv.org/abs/2110.06999v1 )

ライセンス: CC BY 4.0
Leonardo Pepino and Pablo Riera and Luciana Ferrer(参考訳) トランスフォーマーは、特に自然言語処理の分野で、ディープラーニングの世界に革命をもたらした。 近年,オーディオ・スペクトログラム・トランスフォーマー (AST) が音声分類のために提案され,いくつかのデータセットで結果が得られた。 しかし、ASTがCNNを上回るためには、ImageNetでの事前トレーニングが必要である。 本稿では,ASTの1つのコンポーネントである位置符号化について検討し,ImageNetの事前学習を必要とせず,スクラッチからトレーニングしたASTの性能を改善するためにいくつかの変種を提案する。 条件付き位置符号化を組み込んだベストモデルでは,元のASTと比較してオーディオセットとESC-50の性能が大幅に向上した。

Transformers have revolutionized the world of deep learning, specially in the field of natural language processing. Recently, the Audio Spectrogram Transformer (AST) was proposed for audio classification, leading to state of the art results in several datasets. However, in order for ASTs to outperform CNNs, pretraining with ImageNet is needed. In this paper, we study one component of the AST, the positional encoding, and propose several variants to improve the performance of ASTs trained from scratch, without ImageNet pretraining. Our best model, which incorporates conditional positional encodings, significantly improves performance on Audioset and ESC-50 compared to the original AST.
公開日:2021-10-13
翻訳日:2021-10-16 09:24:33
# (参考訳) Model-based Format-Transforming Encryption を用いたパブリックインターネットプラットフォーム上のカバートメッセージパッシング [全文訳有]

Covert Message Passing over Public Internet Platforms Using Model-Based Format-Transforming Encryption ( http://arxiv.org/abs/2110.07009v1 )

ライセンス: CC BY 4.0
Luke A. Bauer, James K. Howes IV, Sam A. Markelon, Vincent Bindschaedler, Thomas Shrimpton(参考訳) 本稿では,暗号文の形式を機械学習生成モデル内で暗黙的に符号化する新しい形式変換暗号を導入する。 このプリミティブの周りに、大規模なパブリックなインターネットプラットフォーム(例えばTwitter)上での隠蔽メッセージングシステムを構築します。 本システムでは,生成モデルのシードインデックス化トークン分布系から,ランダム暗号ビットをサンプルに符号化する方法を用いて,認証暗号方式を構成する。 デプロイメントのシナリオを修正することで、レシーバ側パーシングの曖昧さや実際のトークン配信能力の低いといった実際の課題に対するシステムレベルとアルゴリズムのソリューションを事前に検討せざるを得なくなりました。 我々はgpt-2を生成モデルとして使用し、暗号的に平文ビット文字列を公開プラットフォームへの投稿に適した自然言語カバーテキストに変換する。 インターネットプラットフォームのコンテンツをフルに見る敵は,当社のシステムを隠蔽メッセージングに使用しているポストを提示することを目的としている。 セキュリティのヒューリスティックな証拠を提供し、運用効率と検出可能性のトレードオフを探るため、一連の実験を行います。

We introduce a new type of format-transforming encryption where the format of ciphertexts is implicitly encoded within a machine-learned generative model. Around this primitive, we build a system for covert messaging over large, public internet platforms (e.g., Twitter). Loosely, our system composes an authenticated encryption scheme, with a method for encoding random ciphertext bits into samples from the generative model's family of seed-indexed token-distributions. By fixing a deployment scenario, we are forced to consider system-level and algorithmic solutions to real challenges -- such as receiver-side parsing ambiguities, and the low information-carrying capacity of actual token-distributions -- that were elided in prior work. We use GPT-2 as our generative model so that our system cryptographically transforms plaintext bitstrings into natural-language covertexts suitable for posting to public platforms. We consider adversaries with full view of the internet platform's content, whose goal is to surface posts that are using our system for covert messaging. We carry out a suite of experiments to provide heuristic evidence of security and to explore tradeoffs between operational efficiency and detectability.
公開日:2021-10-13
翻訳日:2021-10-16 09:14:06
# (参考訳) fg 2021ファミリーのトップ3、野生の血縁確認チャレンジ [全文訳有]

Top 3 in FG 2021 Families In the Wild Kinship Verification Challenge ( http://arxiv.org/abs/2110.07020v1 )

ライセンス: CC BY 4.0
Junyi Huang, Maxwell Benjamin Strome, Ian Jenkins, Parker Williams, Bo Feng, Yaning Wang, Roman Wang, Vaibhav Bagri, Newman Cheng, Iddo Drori(参考訳) 親子、兄弟姉妹、または祖父母と孫の関係が2人の間に存在するかどうかを判断する任務であり、ソーシャルメディアのアプリケーション、法医学的調査、行方不明の子供の発見、家族の再会において重要である。 我々は,この分野で最大の公開データセットを提供するwild challengeにおいて,家族を認識するfg 2021に参加することで,高品質なキンシップ検証を行う。 私たちのアプローチは、コンペティションで上位3位に入っている。 私たちは人の専門家とOpenAI Codexによって書かれたモデルをアンサンブルします。 モデルとコードを公開しています。

Kinship verification is the task of determining whether a parent-child, sibling, or grandparent-grandchi ld relationship exists between two people and is important in social media applications, forensic investigations, finding missing children, and reuniting families. We demonstrate high quality kinship verification by participating in the FG 2021 Recognizing Families in the Wild challenge which provides the largest publicly available dataset in the field. Our approach is among the top 3 winning entries in the competition. We ensemble models written by both human experts and OpenAI Codex. We make our models and code publicly available.
公開日:2021-10-13
翻訳日:2021-10-16 08:43:43
# (参考訳) AIトータル:不完全なデータによるセキュリティMLモデルの解析 [全文訳有]

AI Total: Analyzing Security ML Models with Imperfect Data in Production ( http://arxiv.org/abs/2110.07028v1 )

ライセンス: CC BY 4.0
Awalin Sopan and Konstantin Berlin(参考訳) 新しい機械学習モデルの開発は通常、手動でキュレートされたデータセット上で行われ、新しいデータの入ってくるストリームに対して自動的に評価を行う必要がある運用中のモデルのパフォーマンスを評価するのに適さない。 残念ながら、モデルパフォーマンスを監視するための完全な自動パイプラインに完全に依存しているため、観察されたパフォーマンス上の問題がモデルパフォーマンスやパイプラインの問題、新たなデータ分散バイアス、あるいは上記の組み合わせに起因するかどうかを理解するのは難しい。 そこで我々は,Web ベースの可視化システムを開発した。これによりユーザは,基礎となるデータパイプラインが適切に機能していることの信頼性を維持しながら,ヘッドラインのパフォーマンスを迅速に収集できる。 問題が発生した場合の根本原因を,ユーザが即座に監視することも可能だ。 本稿では,データカバレッジイコライザを用いたデータ問題下での性能解析手法を提案する。 私たちは、機械学習(ml)アプリケーションで一般的に追跡される標準評価メトリクスの上に追加した、さまざまな変更と追加のプロット、フィルタ、ドリルダウンを説明し、モデル内イントロスペクションに価値のある実例をいくつか紹介します。

Development of new machine learning models is typically done on manually curated data sets, making them unsuitable for evaluating the models' performance during operations, where the evaluation needs to be performed automatically on incoming streams of new data. Unfortunately, pure reliance on a fully automatic pipeline for monitoring model performance makes it difficult to understand if any observed performance issues are due to model performance, pipeline issues, emerging data distribution biases, or some combination of the above. With this in mind, we developed a web-based visualization system that allows the users to quickly gather headline performance numbers while maintaining confidence that the underlying data pipeline is functioning properly. It also enables the users to immediately observe the root cause of an issue when something goes wrong. We introduce a novel way to analyze performance under data issues using a data coverage equalizer. We describe the various modifications and additional plots, filters, and drill-downs that we added on top of the standard evaluation metrics typically tracked in machine learning (ML) applications, and walk through some real world examples that proved valuable for introspecting our models.
公開日:2021-10-13
翻訳日:2021-10-16 08:37:45
# (参考訳) SHACLによる改良IOロジックのコンプライアンスチェック [全文訳有]

Compliance checking in reified IO logic via SHACL ( http://arxiv.org/abs/2110.07033v1 )

ライセンス: CC BY 4.0
Livio Robaldo and Kolawole J. Adebayo(参考訳) reified input/output (i/o) logic[21]は[11]の論理の観点から実世界のノルムをモデル化するために最近提案されている。 これは改定の概念に大きく根ざしており、既存の法律で発生したような自然言語文の意味をモデル化するよう特別に設計されている。 本稿では,I/O 論理式に対するコンプライアンスチェックを行う手法を提案する。 これらはSHACL(Shapes Constraint Language)形式で翻訳され、最近のW3CではRDFトリプルストアの検証と推論が推奨されている。 次に、これらのSHACL形状に関する状況を記述するRDFグラフを検証することでコンプライアンスチェックを実施する。

Reified Input/Output (I/O) logic[21] has been recently proposed to model real-world norms in terms of the logic in [11]. This is massively grounded on the notion of reification, and it has specifically designed to model meaning of natural language sentences, such as the ones occurring in existing legislation. This paper presents a methodology to carry out compliance checking on reified I/O logic formulae. These are translated in SHACL (Shapes Constraint Language) shapes, a recent W3C recommendation to validate and reason with RDF triplestores. Compliance checking is then enforced by validating RDF graphs describing states of affairs with respect to these SHACL shapes.
公開日:2021-10-13
翻訳日:2021-10-16 08:28:42
# (参考訳) データインキュベーション --手書き認識のための欠落データ合成 [全文訳有]

Data Incubation -- Synthesizing Missing Data for Handwriting Recognition ( http://arxiv.org/abs/2110.07040v1 )

ライセンス: CC BY 4.0
Jen-Hao Rick Chang, Martin Bresler, Youssouf Chherawala, Adrien Delaye, Thomas Deselaers, Ryan Dixon, Oncel Tuzel(参考訳) 本稿では,生成モデルを用いてコンテンツやスタイルを制御し,より優れた認識システムを構築する方法を示す。 トレーニングサンプルのわずかな量からオンライン手書き文字認識器を構築しています。 制御可能な書き起こしシンセサイザーを同じデータでトレーニングすることで、以前は表現されていないコンテンツ(URLやメールアドレスなど)とスタイル(カーシブやスランプなど)で手書きを合成できる。 さらに,実学習データと合成訓練データとを混合して学習した認識器を分析するフレームワークを提案する。 データ合成を最適化するためにこのフレームワークを使用し、実際のデータのみに基づいてトレーニングされたモデルに対して、手書き認識を大幅に改善することを示す。 全体として,文字誤り率の66%削減を達成している。

In this paper, we demonstrate how a generative model can be used to build a better recognizer through the control of content and style. We are building an online handwriting recognizer from a modest amount of training samples. By training our controllable handwriting synthesizer on the same data, we can synthesize handwriting with previously underrepresented content (e.g., URLs and email addresses) and style (e.g., cursive and slanted). Moreover, we propose a framework to analyze a recognizer that is trained with a mixture of real and synthetic training data. We use the framework to optimize data synthesis and demonstrate significant improvement on handwriting recognition over a model trained on real data only. Overall, we achieve a 66% reduction in Character Error Rate.
公開日:2021-10-13
翻訳日:2021-10-16 08:11:03
# (参考訳) CNNのアウト・オブ・ディストリビューション検出がマハラノビスを好まない理由 - 代わりに何を使うべきか [全文訳有]

Why Out-of-distribution Detection in CNNs Does Not Like Mahalanobis -- and What to Use Instead ( http://arxiv.org/abs/2110.07043v1 )

ライセンス: CC BY 4.0
Kamil Szyc, Tomasz Walkowiak, Henryk Maciejewski(参考訳) 実世界の分類タスクに適用される畳み込みニューラルネットワークは、既知のデータやトレーニングデータに対して、遠方あるいは外方(ood)の入力を認識する必要がある。 これを実現するために、多くの方法がクラス条件の後方確率を推定し、後方分布から得られた信頼度スコアを使用する。 近年の研究では、多変量ガウス分布をcnnの異なる層(すなわち低レベルと高レベルの特徴)における後方分布のモデルとして用いることが提案され、マハラノビス距離に基づく信頼度スコアが導かれる。 しかし、この手法では、観測の不十分な数を用いて高次元データの確率密度を推定する(例えば、resnet-101モデルの最後の2層における特徴の次元は2048と1024であり、密度を推定するのにクラスごとにca.1000の観測を用いる)。 この作業では、この問題に対処したい。 高次元データにおける多くのOoD研究において、LOF(Local Outlierness-Factor)法はパラメトリックなマハラノビス距離法よりも優れていた。 これにより、CNNの信頼性スコアを生成する非パラメトリックなLOFベースの手法を提案する。 我々は,CIFAR-10とImageNet(既知のデータ)に基づくResNet-101とEffcientNet-B3と,CIFAR-100,SVHN,Imag eNet2010,Places365,I mageNet-O(外部データ)による実現可能性調査を行った。 非パラメトリックlofに基づく信頼度推定は,現在のマハラノビスベースのsotaを改善したり,より簡単な方法で同様の性能が得られることを示した。

Convolutional neural networks applied for real-world classification tasks need to recognize inputs that are far or out-of-distribution (OoD) with respect to the known or training data. To achieve this, many methods estimate class-conditional posterior probabilities and use confidence scores obtained from the posterior distributions. Recent works propose to use multivariate Gaussian distributions as models of posterior distributions at different layers of the CNN (i.e., for low- and upper-level features), which leads to the confidence scores based on the Mahalanobis distance. However, this procedure involves estimating probability density in high dimensional data using the insufficient number of observations (e.g. the dimensionality of features at the last two layers in the ResNet-101 model are 2048 and 1024, with ca. 1000 observations per class used to estimate density). In this work, we want to address this problem. We show that in many OoD studies in high-dimensional data, LOF-based (Local Outlierness-Factor) methods outperform the parametric, Mahalanobis distance-based methods. This motivates us to propose the nonparametric, LOF-based method of generating the confidence scores for CNNs. We performed several feasibility studies involving ResNet-101 and EffcientNet-B3, based on CIFAR-10 and ImageNet (as known data), and CIFAR-100, SVHN, ImageNet2010, Places365, or ImageNet-O (as outliers). We demonstrated that nonparametric LOF-based confidence estimation can improve current Mahalanobis-based SOTA or obtain similar performance in a simpler way.
公開日:2021-10-13
翻訳日:2021-10-16 08:00:58
# (参考訳) 局所感性角損失を用いた深度学習によるニューラルスパイキング信号の自己補正音源分離 [全文訳有]

Deep Metric Learning with Locality Sensitive Angular Loss for Self-Correcting Source Separation of Neural Spiking Signals ( http://arxiv.org/abs/2110.07046v1 )

ライセンス: CC BY-SA 4.0
Alexander Kenneth Clarke and Dario Farina(参考訳) 筋電図信号や皮質内記録のような神経生理学的時系列は、典型的には多くの個々のスパイク源から成り、その回復は生物学的な関心の体系に関する基本的な洞察を与えるか、人-機械のインタフェースに神経情報を提供する。 このため、ソース分離アルゴリズムは神経科学や神経工学においてますます重要なツールとなっている。 しかし、ノイズや多変量記録では、これらの分解技術は、しばしば大量のエラーを発生させるため、ヒューマン・マシン・インタフェースを劣化させ、スパイク・タイムスタンプの出力ラベルセットを高価な手作業でクリーニングする必要がある。 そこで本研究では,クラス内分散を保ち,ラベルクリーニングと新たなアクティベーションの発見の両方に適したリッチな埋め込み空間を作成する新しい損失関数を用いて,ディープメトリック学習に基づく手法を提案する。 そして,この手法を,音源分離高密度表面筋電図記録に基づく人工劣化ラベルセットを用いて検証し,極度の特徴量やクラス依存ラベルノイズにおいても元のタイムスタンプを復元する。 このアプローチにより、ニューラルネットワークは、信号のラベル付けの不完全な方法を使用して、神経生理学的時系列を正確にデコードできる。

Neurophysiological time series, such as electromyographic signal and intracortical recordings, are typically composed of many individual spiking sources, the recovery of which can give fundamental insights into the biological system of interest or provide neural information for man-machine interfaces. For this reason, source separation algorithms have become an increasingly important tool in neuroscience and neuroengineering. However, in noisy or highly multivariate recordings these decomposition techniques often make a large number of errors, which degrades human-machine interfacing applications and often requires costly post-hoc manual cleaning of the output label set of spike timestamps. To address both the need for automated post-hoc cleaning and robust separation filters we propose a methodology based on deep metric learning, using a novel loss function which maintains intra-class variance, creating a rich embedding space suitable for both label cleaning and the discovery of new activations. We then validate this method with an artificially corrupted label set based on source-separated high-density surface electromyography recordings, recovering the original timestamps even in extreme degrees of feature and class-dependent label noise. This approach enables a neural network to learn to accurately decode neurophysiological time series using any imperfect method of labelling the signal.
公開日:2021-10-13
翻訳日:2021-10-16 07:49:30
# (参考訳) 格子フリーMMIを用いた連続学習による音声認識 [全文訳有]

Continual learning using lattice-free MMI for speech recognition ( http://arxiv.org/abs/2110.07055v1 )

ライセンス: CC BY 4.0
Hossein Hadian and Arseniy Gorin(参考訳) 連続学習(CL)やドメイン拡張(ドメイン拡張)は、初期訓練中に観察されていない音声の種類に頑健に取り組むためには、実用的なシステムが頻繁に更新される必要があるため、近年、自動音声認識(ASR)音響モデリングの話題となっている。 シーケンシャル適応はシステムを新しいドメインにチューニングすることを可能にするが、壊滅的な忘れによって古いドメインのパフォーマンスが低下する可能性がある。 本研究では,格子フリー最大相互情報(LF-MMI)によるニューラルネットワーク音響モデルの正規化に基づくCLについて検討する。 複数のアクセントやスピーキングスタイルを含む、さまざまなパブリックデータセットに音響モデルを段階的に適応させることで、ドメイン拡張をシミュレートする。 モデル重みやネットワーク出力の保存による忘れを少なくすることを目的とした2つのよく知られたCL手法、弾性重み付け(EWC)と学習(LWF)について検討する。 さらに、LF-MMIの分母グラフから後部を活用できるシーケンスレベルのLWF正規化を導入し、さらに忘れを減らした。 実験の結果,提案したシーケンスレベルのLWFは,通常のLWFと比較して,全ドメインの平均単語誤り率を最大9.4%向上できることがわかった。

Continual learning (CL), or domain expansion, recently became a popular topic for automatic speech recognition (ASR) acoustic modeling because practical systems have to be updated frequently in order to work robustly on types of speech not observed during initial training. While sequential adaptation allows tuning a system to a new domain, it may result in performance degradation on the old domains due to catastrophic forgetting. In this work we explore regularization-based CL for neural network acoustic models trained with the lattice-free maximum mutual information (LF-MMI) criterion. We simulate domain expansion by incrementally adapting the acoustic model on different public datasets that include several accents and speaking styles. We investigate two well-known CL techniques, elastic weight consolidation (EWC) and learning without forgetting (LWF), which aim to reduce forgetting by preserving model weights or network outputs. We additionally introduce a sequence-level LWF regularization, which exploits posteriors from the denominator graph of LF-MMI to further reduce forgetting. Empirical results show that the proposed sequence-level LWF can improve the best average word error rate across all domains by up to 9.4% relative compared with using regular LWF.
公開日:2021-10-13
翻訳日:2021-10-16 07:27:28
# (参考訳) より公平でより良い投票システムのためのアルゴリズム

An algorithm for a fairer and better voting system ( http://arxiv.org/abs/2110.07066v1 )

ライセンス: CC BY-SA 4.0
Gabriel-Claudiu Grama(参考訳) 本稿の主要な発見はアンサンブル法であるが、より正確には、投票者を代表する最良の候補を見つけることの問題を解決することを目的とした、より新規で優れた投票システム(およびそれの他のバリエーション)である。 ソースコードはgithubにあり、アルゴリズムのさまざまなバリエーションと、すでに知られている他のアルゴリズムを比較するための人工知能に基づいて、選挙の現実的なシミュレーションを行います。 我々は、我々のアルゴリズムがInstant-Runoff Voting、Preferential Block Voting、Single Transferable Vote、First Past The Postよりも優れているという確証を持っている(ある条件が満たされれば、群衆の知恵をサポートするために)。 また、最善の投票者と比較することで、民主主義(分散システム)は独裁(中央集権的システム)よりも良い選択肢であり、もしその特定の自然条件が満たされるならば、群衆の知恵を実証した。 投票システムは政治に限らず、人工知能のためのアンサンブル手法ですが、この記事のコンテキストは自然知能です。 公正なシステム(例えば、投票における表現の自由)を見つけることが重要であり、特に投票システムの結果が社会的影響を持つ場合、いくつかの投票システムは、同じ2つの主要な候補(デューバーガーの法則)に対して不当な(時間とともに)不当な傾向を持つ。

The major finding, of this article, is an ensemble method, but more exactly, a novel, better ranked voting system (and other variations of it), that aims to solve the problem of finding the best candidate to represent the voters. We have the source code on GitHub, for making realistic simulations of elections, based on artificial intelligence for comparing different variations of the algorithm, and other already known algorithms. We have convincing evidence that our algorithm is better than Instant-Runoff Voting, Preferential Block Voting, Single Transferable Vote, and First Past The Post (if certain, natural conditions are met, to support the wisdom of the crowds). By also comparing with the best voter, we demonstrated the wisdom of the crowds, suggesting that democracy (distributed system) is a better option than dictatorship (centralized system), if those certain, natural conditions are met. Voting systems are not restricted to politics, they are ensemble methods for artificial intelligence, but the context of this article is natural intelligence. It is important to find a system that is fair (e.g. freedom of expression on the ballot exists), especially when the outcome of the voting system has social impact: some voting systems have the unfair inevitability to trend (over time) towards the same two major candidates (Duverger's law).
公開日:2021-10-13
翻訳日:2021-10-16 07:15:56
# (参考訳) CloudPred:単細胞RNA配列から患者の現象を予測する [全文訳有]

CloudPred: Predicting Patient Phenotypes From Single-cell RNA-seq ( http://arxiv.org/abs/2110.07069v1 )

ライセンス: CC BY 4.0
Bryan He, Matthew Thomson, Meena Subramaniam, Richard Perez, Chun Jimmie Ye, James Zou(参考訳) 単細胞RNAシークエンシング(scRNA-seq)は、病気の予後と精密な医学を知らせる強力な高解像度のシグネチャを提供する可能性がある。 本稿では,この目標に向けて重要な一歩を踏み出し,解釈可能な機械学習アルゴリズムであるcloudpredを開発し,そのscrna-seqデータから個人の疾患表現型を予測する。 scRNA-seqから表現型を予測することは、標準的な機械学習手法では困難である。 典型的な分析は擬似バルクサンプルを生成し、前のアノテーションに偏り、単一細胞の解像度を失う。 CloudPredは、生物学的に情報を得た細胞モデルの混合と組み合わせた、新しいエンドツーエンドの差別化可能な学習アルゴリズムを通じて、これらの課題に対処する。 CloudPredは、事前アノテーションなしで表現型に忠実な細胞サブポピュレーションを自動的に推論する。 cloudpredと提案する代替手法の性能を評価するためのシステマティックシミュレーションプラットフォームを開発し,いくつかの設定でcloudpredが代替手法を上回ることを見出した。 さらに我々は、142人のループス患者とコントロールの実際のscRNA-seqデータセット上でCloudPredを検証する。 CloudPredはAUROCの0.98を達成し、ループスの存在を示すCD4T細胞の特定のサブ集団を同定する。 cloudpredは、scrna-seqデータから臨床表現型を予測し、関連する細胞を特定する強力な新しいフレームワークである。

Single-cell RNA sequencing (scRNA-seq) has the potential to provide powerful, high-resolution signatures to inform disease prognosis and precision medicine. This paper takes an important first step towards this goal by developing an interpretable machine learning algorithm, CloudPred, to predict individuals' disease phenotypes from their scRNA-seq data. Predicting phenotype from scRNA-seq is challenging for standard machine learning methods -- the number of cells measured can vary by orders of magnitude across individuals and the cell populations are also highly heterogeneous. Typical analysis creates pseudo-bulk samples which are biased toward prior annotations and also lose the single cell resolution. CloudPred addresses these challenges via a novel end-to-end differentiable learning algorithm which is coupled with a biologically informed mixture of cell types model. CloudPred automatically infers the cell subpopulation that are salient for the phenotype without prior annotations. We developed a systematic simulation platform to evaluate the performance of CloudPred and several alternative methods we propose, and find that CloudPred outperforms the alternative methods across several settings. We further validated CloudPred on a real scRNA-seq dataset of 142 lupus patients and controls. CloudPred achieves AUROC of 0.98 while identifying a specific subpopulation of CD4 T cells whose presence is highly indicative of lupus. CloudPred is a powerful new framework to predict clinical phenotypes from scRNA-seq data and to identify relevant cells.
公開日:2021-10-13
翻訳日:2021-10-16 06:18:10
# (参考訳) 協調学習環境における高速手検出 [全文訳有]

Fast Hand Detection in Collaborative Learning Environments ( http://arxiv.org/abs/2110.07070v1 )

ライセンス: CC BY 4.0
Sravani Teeparthi, Venkatesh Jatla, Marios S. Pattichis, Sylvia Celedon Pattichis, Carlos LopezLeiva(参考訳) 長期オブジェクト検出には、フレームベースの結果を数秒以上統合する必要がある。 非変形可能なオブジェクトの場合、長期検出はオブジェクト検出とビデオ追跡を使って対処されることが多い。 残念ながら、トラッキングはフレームからフレームへの外観が劇的に変化するオブジェクトには適用できない。 関連する例として,協調学習環境における長時間映像記録による手検出について検討する。 具体的には,部分閉塞や外見の劇的変化に対処できる長期手検出法を開発した。 提案手法では,オブジェクト検出と時間投影,クラスタリング,小領域削除を併用して,長時間ビデオ上で有効な手検出を実現する。 ハンド検出器は、結合(IoU)の0.5の交差点で平均精度(AP)を72%達成した。 データ拡張に最適化した手法を用いて,検出結果を81%に改善した。 この方法はリアルタイムで4.7倍、APは0.5の交差点で81%である。 IoU比を0.2から0.5に改善し,偽陽性手の検出回数を80%削減した。 全体の手検出システムは4倍のリアルタイムで動作する。

Long-term object detection requires the integration of frame-based results over several seconds. For non-deformable objects, long-term detection is often addressed using object detection followed by video tracking. Unfortunately, tracking is inapplicable to objects that undergo dramatic changes in appearance from frame to frame. As a related example, we study hand detection over long video recordings in collaborative learning environments. More specifically, we develop long-term hand detection methods that can deal with partial occlusions and dramatic changes in appearance. Our approach integrates object-detection, followed by time projections, clustering, and small region removal to provide effective hand detection over long videos. The hand detector achieved average precision (AP) of 72% at 0.5 intersection over union (IoU). The detection results were improved to 81% by using our optimized approach for data augmentation. The method runs at 4.7x the real-time with AP of 81% at 0.5 intersection over the union. Our method reduced the number of false-positive hand detections by 80% by improving IoU ratios from 0.2 to 0.5. The overall hand detection system runs at 4x real-time.
公開日:2021-10-13
翻訳日:2021-10-16 06:06:01
# (参考訳) ゼロショット学習のための領域セマンティックアライズドネットワーク [全文訳有]

Region Semantically Aligned Network for Zero-Shot Learning ( http://arxiv.org/abs/2110.07130v1 )

ライセンス: CC BY 4.0
Ziyang Wang, Yunhao Gou, Jingjing Li, Yu Zhang, Yang Yang(参考訳) zero-shot learning (zsl) は目に見えないクラスの知識に基づいて認識することを目的としている。 従来は,グローバルな特徴から意味空間への直接埋め込みの学習に焦点が当てられていた。 しかし、見知らぬクラスは、ローカルな視覚的特徴と、見知らぬクラスの集合を共有し、グローバルな視覚的特徴を活用することで、知識伝達を効果的にしない。 この問題に対処するために,未確認クラスの局所的特徴をそれらの意味属性にマッピングする地域意味ネットワーク(RSAN)を提案する。 画像エンコーダの後に平均プーリング層によって得られる大域的な特徴を利用する代わりに、画像の局所的な情報を保持する画像エンコーダの出力を直接利用する。 具体的には、出力の特定の領域から各属性を取得し、これらの属性を認識に活用する。 その結果、参照されるクラスの知識は、リージョンベースで、未取得のクラスにうまく移行できる。 さらに,属性回帰と意味知識を用いて画像エンコーダを正則化し,ロバストで属性関連の視覚特徴を抽出する。 いくつかの標準的なzslデータセットにおける実験により、提案されたrsan法の利点が明らかになった。

Zero-shot learning (ZSL) aims to recognize unseen classes based on the knowledge of seen classes. Previous methods focused on learning direct embeddings from global features to the semantic space in hope of knowledge transfer from seen classes to unseen classes. However, an unseen class shares local visual features with a set of seen classes and leveraging global visual features makes the knowledge transfer ineffective. To tackle this problem, we propose a Region Semantically Aligned Network (RSAN), which maps local features of unseen classes to their semantic attributes. Instead of using global features which are obtained by an average pooling layer after an image encoder, we directly utilize the output of the image encoder which maintains local information of the image. Concretely, we obtain each attribute from a specific region of the output and exploit these attributes for recognition. As a result, the knowledge of seen classes can be successfully transferred to unseen classes in a region-bases manner. In addition, we regularize the image encoder through attribute regression with a semantic knowledge to extract robust and attribute-related visual features. Experiments on several standard ZSL datasets reveal the benefit of the proposed RSAN method, outperforming state-of-the-art methods.
公開日:2021-10-14
翻訳日:2021-10-16 05:57:43
# (参考訳) bert2BERT: 再利用可能な事前トレーニング言語モデルを目指して [全文訳有]

bert2BERT: Towards Reusable Pretrained Language Models ( http://arxiv.org/abs/2110.07143v1 )

ライセンス: CC BY 4.0
Cheng Chen, Yichun Yin, Lifeng Shang, Xin Jiang, Yujia Qin, Fengyu Wang, Zhi Wang, Xiao Chen, Zhiyuan Liu, Qun Liu(参考訳) 近年、研究者はより広い言語モデルを事前訓練し、深層モデルの上限を探索する傾向にある。 しかし、大規模言語モデル事前学習のコストは計算資源の集約化に費やされ、ほとんどのモデルは既存の事前学習モデルを再利用せずにゼロから訓練される。 本稿では,既存の小さな事前学習モデル(例えばBERT_BASE)の知識をパラメータ初期化により大規模モデル(例えばBERT_LARGE)に効果的に移行し,大規模モデルの事前学習効率を大幅に向上させるbert2BERTを提案する。 具体的には,トランスフォーマーに基づく言語モデル上での関数保存を拡張し,大規模モデルの初期化に関する高度な知識を提案することにより,さらに改良する。 さらに,2段階事前訓練法を提案し,トレーニングプロセスをさらに加速させた。 我々は代表的なplm(例えばbertとgpt)について広範な実験を行い、(1)本手法はスクラッチ、スタックバート、msltからの学習を含むベースラインと比較してかなりのトレーニングコストを削減できることを実証した。 特に、bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。 ソースコードは公開時には公開される予定だ。

In recent years, researchers tend to pre-train ever-larger language models to explore the upper limit of deep models. However, large language model pre-training costs intensive computational resources and most of the models are trained from scratch without reusing the existing pre-trained models, which is wasteful. In this paper, we propose bert2BERT, which can effectively transfer the knowledge of an existing smaller pre-trained model (e.g., BERT_BASE) to a large model (e.g., BERT_LARGE) through parameter initialization and significantly improve the pre-training efficiency of the large model. Specifically, we extend the previous function-preserving on Transformer-based language model, and further improve it by proposing advanced knowledge for large model's initialization. In addition, a two-stage pre-training method is proposed to further accelerate the training process. We did extensive experiments on representative PLMs (e.g., BERT and GPT) and demonstrate that (1) our method can save a significant amount of training cost compared with baselines including learning from scratch, StackBERT and MSLT; (2) our method is generic and applicable to different types of pre-trained models. In particular, bert2BERT saves about 45% and 47% computational cost of pre-training BERT_BASE and GPT_BASE by reusing the models of almost their half sizes. The source code will be publicly available upon publication.
公開日:2021-10-14
翻訳日:2021-10-16 05:39:57
# (参考訳) 組織像に対する教師なしデータ駆動核セグメンテーション [全文訳有]

Unsupervised Data-Driven Nuclei Segmentation For Histology Images ( http://arxiv.org/abs/2110.07147v1 )

ライセンス: CC BY 4.0
Vasileios Magoulianitis, Peida Han, Yijing Yang, C.-C. Jay Kuo(参考訳) 本研究は,cbmと呼ばれる組織像に対する教師なしデータ駆動核分割法を提案する。 CBMは以下の3つのモジュールから構成される。 1)エネルギー圧縮と次元縮小のためのデータ駆動カラー変換 2)データ駆動バイナライゼーション,及び 3)形態素処理による幾何学的事前化 CBMは、"Color transform"、"Binarization"、"Morphological Processing"の3つのモジュールの最初の文字から来ている。 monusegデータセットの実験は、提案するcbm法の有効性を検証する。 CBMは、他の教師なしの手法よりも優れており、AJI(Aggregated Jaccard Index)メトリックに基づいた教師付きモデルの間で競争力がある。

An unsupervised data-driven nuclei segmentation method for histology images, called CBM, is proposed in this work. CBM consists of three modules applied in a block-wise manner: 1) data-driven color transform for energy compaction and dimension reduction, 2) data-driven binarization, and 3) incorporation of geometric priors with morphological processing. CBM comes from the first letter of the three modules - "Color transform", "Binarization" and "Morphological processing". Experiments on the MoNuSeg dataset validate the effectiveness of the proposed CBM method. CBM outperforms all other unsupervised methods and offers a competitive standing among supervised models based on the Aggregated Jaccard Index (AJI) metric.
公開日:2021-10-14
翻訳日:2021-10-16 05:00:23
# (参考訳) MoFE:抽象要約における幻覚制御の専門家の混在 [全文訳有]

MoFE: Mixture of Factual Experts for Controlling Hallucinations in Abstractive Summarization ( http://arxiv.org/abs/2110.07166v1 )

ライセンス: CC BY 4.0
Prafulla Kumar Choubey, Jesse Vig, Wenhao Liu, Nazneen Fatema Rajani(参考訳) 神経抽象的要約モデルは、幻覚として知られる現象である事実的に一貫性のないコンテンツを生成する傾向がある。 これにより、現実世界のアプリケーションにおけるこれらのシステムのユーザビリティと採用が制限される。 幻覚の出現を減らすために,複数の要約専門家を組み合わせ,それぞれが特定の種類のエラーをターゲットとするMixture of Factual Experts (MoFE)モデルを提案する。 我々は、強化学習(RL)を使用して専門家を訓練し、2つの事実整合性メトリクス、すなわちエンティティの重複と依存性のアークの誤差を最小限にする。 筆者らは,二つのアンサンブル戦略(ウェイトとロジット)を併用してMoFEを構築し,それらを2つの要約データセット(XSUMとCNN/DM)で評価する。 BARTモデルを用いた実験により,MoFEは標準的なROUGE測定値に顕著な性能低下を伴わずに,エンティティオーバーラップと依存性のアーク包含の両方に応じて性能を向上することが示された。 パフォーマンス改善はまた、ソースドキュメントに関する質問応答に基づく事実性評価メトリックやbertscore精度など、未認識の事実整合性メトリクスに転送される。

Neural abstractive summarization models are susceptible to generating factually inconsistent content, a phenomenon known as hallucination. This limits the usability and adoption of these systems in real-world applications. To reduce the presence of hallucination, we propose the Mixture of Factual Experts (MoFE) model, which combines multiple summarization experts that each target a specific type of error. We train our experts using reinforcement learning (RL) to minimize the error defined by two factual consistency metrics: entity overlap and dependency arc entailment. We construct MoFE by combining the experts using two ensembling strategies (weights and logits) and evaluate them on two summarization datasets (XSUM and CNN/DM). Our experiments on BART models show that the MoFE improves performance according to both entity overlap and dependency arc entailment, without a significant performance drop on standard ROUGE metrics. The performance improvement also transfers to unseen factual consistency metrics, such as question answer-based factuality evaluation metric and BERTScore precision with respect to the source document.
公開日:2021-10-14
翻訳日:2021-10-16 04:51:04
# (参考訳) 単語センスの曖昧さ改善のための文脈グロス強化 [全文訳有]

Context-gloss Augmentation for Improving Word Sense Disambiguation ( http://arxiv.org/abs/2110.07174v1 )

ライセンス: CC BY 4.0
Guan-Ting Lin, Manuel Giambi(参考訳) Word Sense Disambiguation (WSD)の目標は、特定の文脈において多文単語の感覚を特定することである。 BERTを用いたディープラーニング技術は、この分野において非常に有望な成果を上げており、構造化知識の統合と性能向上のための様々な手法が提案されている。 同時に、NLPタスクに有用なデータ拡張技術が増えていることが証明されている。 BERTとWordNetの知識を活用した以前の研究に基づいて、WSDの性能を改善するために、コンテキストグロスペア上で異なるデータ拡張手法を探索する。 本実験では,文レベルと単語レベルの拡張手法がWSDの効果的な戦略であることを示す。 また,語彙知識ベースから得られるハイパーニムのグルースを付加することで,性能を向上できることがわかった。 我々は,異なる文脈グロス増補手法を比較し,分析した結果,光沢への逆翻訳が最善であることが示された。

The goal of Word Sense Disambiguation (WSD) is to identify the sense of a polysemous word in a specific context. Deep-learning techniques using BERT have achieved very promising results in the field and different methods have been proposed to integrate structured knowledge to enhance performance. At the same time, an increasing number of data augmentation techniques have been proven to be useful for NLP tasks. Building upon previous works leveraging BERT and WordNet knowledge, we explore different data augmentation techniques on context-gloss pairs to improve the performance of WSD. In our experiment, we show that both sentence-level and word-level augmentation methods are effective strategies for WSD. Also, we find out that performance can be improved by adding hypernyms' glosses obtained from a lexical knowledge base. We compare and analyze different context-gloss augmentation techniques, and the results show that applying back translation on gloss performs the best.
公開日:2021-10-14
翻訳日:2021-10-16 04:30:43
# (参考訳) 記号的知識蒸留 : 一般言語モデルから常識モデルへ [全文訳有]

Symbolic Knowledge Distillation: from General Language Models to Commonsense Models ( http://arxiv.org/abs/2110.07178v1 )

ライセンス: CC BY 4.0
Peter West, Chandra Bhagavatula, Jack Hessel, Jena D. Hwang, Liwei Jiang, Ronan Le Bras, Ximing Lu, Sean Welleck, Yejin Choi(参考訳) コモンセンスモデルのトレーニングの一般的な実践は、コモンセンスモデルをトレーニングするためにコモンセンス知識グラフを作成する人間から体から機械へと移行した。 本研究では,汎用言語モデルから汎用言語モデルへの代替として,コモンセンスモデルを学習するためのコモンセンス知識グラフを作成する。 本研究はシンボリック・ナレッジ蒸留という新しい枠組みを導く。 知識蒸留の先行技術 (Hinton et al., 2015) と同様に、我々のアプローチはより大きなモデルを使ってより小さなモデルを教える。 重要な違いは、神経モデルに加え、テキストとして知識を象徴的に蒸留することです。 また,一般言語モデル教師の共通性という側面のみを抽出し,生徒を共通性モデルという別の型にすることを可能にした。 また、注意深いプロンプトエンジニアリングと個別に訓練された批評家モデルにより、汎用言語モデルであるGPT-3から高品質な因果コモンセンスを選択的に蒸留できることを示す。 実証実験の結果、人間によって書かれたコモンセンス知識グラフは、量、品質、多様性の3つの基準において、我々の自動蒸留変種に取って代わられた。 さらに、100倍のサイズのにもかかわらず、教師モデルのコモンセンス能力を上回る神経コモンセンスモデルが得られる。 我々はこれをATOMICリソースに適用し、新しいシンボリック知識グラフとコモンセンスモデルを共有する。

The common practice for training commonsense models has gone from-human-to-corpus -to-machine: humans author commonsense knowledge graphs in order to train commonsense models. In this work, we investigate an alternative, from-machine-to-corp us-to-machine: general language models author these commonsense knowledge graphs to train commonsense models. Our study leads to a new framework, Symbolic Knowledge Distillation. As with prior art in Knowledge Distillation (Hinton et al., 2015), our approach uses larger models to teach smaller models. A key difference is that we distill knowledge symbolically-as text-in addition to the neural model. We also distill only one aspect-the commonsense of a general language model teacher, allowing the student to be a different type, a commonsense model. Altogether, we show that careful prompt engineering and a separately trained critic model allow us to selectively distill high-quality causal commonsense from GPT-3, a general language model. Empirical results demonstrate that, for the first time, a human-authored commonsense knowledge graph is surpassed by our automatically distilled variant in all three criteria: quantity, quality, and diversity. In addition, it results in a neural commonsense model that surpasses the teacher model's commonsense capabilities despite its 100x smaller size. We apply this to the ATOMIC resource, and share our new symbolic knowledge graph and commonsense models.
公開日:2021-10-14
翻訳日:2021-10-16 04:23:38
# (参考訳) ユーザプロファイリングのための関係認識不均一グラフ [全文訳有]

Relation-aware Heterogeneous Graph for User Profiling ( http://arxiv.org/abs/2110.07181v1 )

ライセンス: CC BY 4.0
Qilong Yan, Yufeng Zhang, Qiang Liu, Shu Wu, Liang Wang(参考訳) ユーザプロファイリングは長い間、多くの実際のアプリケーションにおけるユーザの関心を調査する重要な問題でした。 最近の研究では、ユーザとその相互作用したオブジェクトをグラフのエンティティとみなし、問題をノード分類タスクに変換する。 しかし、ユーザがアイテムをクリックしたり、ユーザがアイテムを購入するなど、異なるインタラクションタイプの違いを無視しているため、そのような情報をうまく組み込むことはできない。 これらの問題を解決するために,ユーザ・プロファイリングのための関係認識型不均質グラフ法(relation-aware hetero graph method)の活用を提案する。 我々は、異種メッセージパッシングのためのトランスフォーマー方式でクエリ、キー、値のメカニズムを採用し、エンティティ同士が効果的に対話できるようにする。 このようなインタラクションを異なる関係型上で行うことで,ユーザプロファイル予測のためのリッチな情報を用いた表現を生成できる。 実世界の2つのeコマースデータセットの実験を行い、我々のアプローチの大幅なパフォーマンス向上を観察する。

User profiling has long been an important problem that investigates user interests in many real applications. Some recent works regard users and their interacted objects as entities of a graph and turn the problem into a node classification task. However, they neglect the difference of distinct interaction types, e.g. user clicks an item v.s.user purchases an item, and thus cannot incorporate such information well. To solve these issues, we propose to leverage the relation-aware heterogeneous graph method for user profiling, which also allows capturing significant meta relations. We adopt the query, key, and value mechanism in a transformer fashion for heterogeneous message passing so that entities can effectively interact with each other. Via such interactions on different relation types, our model can generate representations with rich information for the user profile prediction. We conduct experiments on two real-world e-commerce datasets and observe a significant performance boost of our approach.
公開日:2021-10-14
翻訳日:2021-10-16 03:59:37
# (参考訳) 中間デコーダ層における高次特徴の摂動による逆例 [全文訳有]

Adversarial examples by perturbing high-level features in intermediate decoder layers ( http://arxiv.org/abs/2110.07182v1 )

ライセンス: CC BY 4.0
Vojt\v{e}ch \v{C}erm\'ak, Luk\'a\v{s} Adam(参考訳) 敵対的例を作成するための新しい手法を提案する。 画素を摂動させる代わりに、入力画像のエンコーダ-デコーダ表現とデコーダ内の中間層を摂動させる。 これは生成モデルによって提供される高レベルな特徴を変える。 したがって、我々の摂動は長いくちばしや緑色の色合いのような意味的な意味を持っている。 我々は,この課題を,逆と初期画像の間のwasserstein距離を誤分類制約下で最小化することにより,最適化問題として定式化する。 投影勾配法を, 単純な不正確な投影法で採用する。 プロジェクションにより、全てのイテレーションが実現可能であり、我々の手法は常に逆画像を生成する。 我々は,MNISTデータセットとImageNetデータセットに対して,ターゲット設定と未ターゲット設定の両方で数値実験を行う。 敵画像は画素ベースの攻撃よりもステガノグラフィー防御技術に弱いことが実証された。 さらに,本手法はエッジなどの重要な特徴を修飾し,敵の訓練に基づく防御技術が攻撃に対して脆弱であることを示す。

We propose a novel method for creating adversarial examples. Instead of perturbing pixels, we use an encoder-decoder representation of the input image and perturb intermediate layers in the decoder. This changes the high-level features provided by the generative model. Therefore, our perturbation possesses semantic meaning, such as a longer beak or green tints. We formulate this task as an optimization problem by minimizing the Wasserstein distance between the adversarial and initial images under a misclassification constraint. We employ the projected gradient method with a simple inexact projection. Due to the projection, all iterations are feasible, and our method always generates adversarial images. We perform numerical experiments on the MNIST and ImageNet datasets in both targeted and untargeted settings. We demonstrate that our adversarial images are much less vulnerable to steganographic defence techniques than pixel-based attacks. Moreover, we show that our method modifies key features such as edges and that defence techniques based on adversarial training are vulnerable to our attacks.
公開日:2021-10-14
翻訳日:2021-10-16 03:52:18
# (参考訳) VLBInet:ニューラルネットワークを用いたEHTの電波干渉計測データ分類 [全文訳有]

VLBInet: Radio Interferometry Data Classification for EHT with Neural Networks ( http://arxiv.org/abs/2110.07185v1 )

ライセンス: CC BY 4.0
Joshua Yao-Yu Lin, Dominic W. Pesce, George N. Wong, Ajay Uppili Arasanipalai, Ben S. Prather, Charles F. Gammie(参考訳) イベント・ホライゾン望遠鏡(EHT)は先日、M87で最初の地平線規模のブラックホールの画像を公開した。 他の天文学データと組み合わせることで、これらの画像は穴に閉じ込められた降着速度と磁束と同様に、穴の質量とスピンを制限している。 EHTの重要な疑問は、現在のEHT VLBIデータ製品から、捕捉された磁束や関連するディスクモデルなどのキーパラメータを抽出できるかどうかである。 ビジビリティのモデル化と分析のプロセスは、データがフーリエ領域に疎結合にサンプリングされているのに対して、理論/シミュレーションのほとんどは画像領域に構築されているという事実によって複雑である。 本稿では,ニューラルネットワークを用いた電波干渉データに対する複雑なビジビティとクロージャ量を解析するためのデータ駆動手法を提案する。 モック・インターフェロメトリデータを用いて、我々のニューラルネットワークは、降着状態を高磁束(MAD)または低磁束(SANE)として推定できることを示す。 VLBInetを2017年4月5日、6、10、11)の4日間で収集した実際のM87 EHTデータに適用し、我々のニューラルネットワークは、平均スコア0.53で、平均スコア0.52、0.4、0.43、0.76を与え、MADまたはSANE状態に傾くデータの顕著な兆候は示さなかった。

The Event Horizon Telescope (EHT) recently released the first horizon-scale images of the black hole in M87. Combined with other astronomical data, these images constrain the mass and spin of the hole as well as the accretion rate and magnetic flux trapped on the hole. An important question for the EHT is how well key parameters, such as trapped magnetic flux and the associated disk models, can be extracted from present and future EHT VLBI data products. The process of modeling visibilities and analyzing them is complicated by the fact that the data are sparsely sampled in the Fourier domain while most of the theory/simulation is constructed in the image domain. Here we propose a data-driven approach to analyze complex visibilities and closure quantities for radio interferometric data with neural networks. Using mock interferometric data, we show that our neural networks are able to infer the accretion state as either high magnetic flux (MAD) or low magnetic flux (SANE), suggesting that it is possible to perform parameter extraction directly in the visibility domain without image reconstruction. We have applied VLBInet to real M87 EHT data taken on four different days in 2017 (April 5, 6, 10, 11), and our neural networks give a score prediction 0.52, 0.4, 0.43, 0.76 for each day, with an average score 0.53, which shows no significant indication for the data to lean toward either the MAD or SANE state.
公開日:2021-10-14
翻訳日:2021-10-16 03:41:20
# (参考訳) IPAに基づく言語間テキスト合成の再検討 [全文訳有]

Revisiting IPA-based Cross-lingual Text-to-speech ( http://arxiv.org/abs/2110.07187v1 )

ライセンス: CC BY 4.0
Haitong Zhang, Yue Lin(参考訳) International Phonetic Alphabet (IPA) は、言語間音声クローニング(CLVC)を実現するために、TTS (inter-lingual text-to-speech) で広く使われている。 しかし、IPA自体が言語間TTSで検討されている。 本稿では,IPAを入力として用いた言語間TSモデルの構築に関する実証的な知見を報告する。 実験により、IPAおよび上行シーケンスの処理方法がCLVCのパフォーマンスに無視できる影響があることが示されている。 さらに、言語単位の話者を含むデータセットを使用してIPAベースのTSシステムを構築すると、言語単位のIPAとトーン/ストレスシンボルが話者情報を漏洩する可能性があるため、CL VCが失敗する可能性がある。 さらに,学習データセットにおける話者の異なる組み合わせを実験し,cl vcのパフォーマンスに対する話者数の影響について検討した。

International Phonetic Alphabet (IPA) has been widely used in cross-lingual text-to-speech (TTS) to achieve cross-lingual voice cloning (CL VC). However, IPA itself has been understudied in cross-lingual TTS. In this paper, we report some empirical findings of building a cross-lingual TTS model using IPA as inputs. Experiments show that the way to process the IPA and suprasegmental sequence has a negligible impact on the CL VC performance. Furthermore, we find that using a dataset including one speaker per language to build an IPA-based TTS system would fail CL VC since the language-unique IPA and tone/stress symbols could leak the speaker information. In addition, we experiment with different combinations of speakers in the training dataset to further investigate the effect of the number of speakers on the CL VC performance.
公開日:2021-10-14
翻訳日:2021-10-16 03:29:09
# (参考訳) なぜ単独でプロパゲートするのか? グラフにおけるラベルと特徴の並列利用 [全文訳有]

Why Propagate Alone? Parallel Use of Labels and Features on Graphs ( http://arxiv.org/abs/2110.07190v1 )

ライセンス: CC BY-SA 4.0
Yangkun Wang, Jiarui Jin, Weinan Zhang, Yongyi Yang, Jiuhai Chen, Quan Gan, Yong Yu, Zheng Zhang, Zengfeng Huang and David Wipf(参考訳) グラフニューラルネットワーク(GNN)とラベル伝搬は、ノード特性予測などのタスクにおいてグラフ構造を利用するように設計された2つの相互関連モデリング戦略を表す。 前者は一般にスタック化されたメッセージパス層に基づいており、近所の情報を共有してノードの機能を予測埋め込みに変換する。 対照的に、後者はパラメータフリー拡散プロセスを通じてラベル情報をラベルのないノードに拡散するが、ノードの特徴とは独立して動作する。 したがって、材料の違いが単に特徴やラベルがグラフ全体に平滑化されているかどうかであることを考えると、パフォーマンスを改善するために2つの組み合わせを考えるのは自然である。 この点において、最近、トレーニングラベルのランダムに選択された部分をGNN入力として使用し、元のノードの特徴と結合して残りのラベルを予測する提案がなされている。 このいわゆるラベルトリックは、機能とラベルの並列使用を許容し、Open Graph Benchmark(OGB)のリーダーボード上の上位候補の多くに基礎を置いている。 しかし、広く普及しているにもかかわらず、これまでのところ、ラベルのトリックがトレーニングパイプラインにもたらす統計的特性を正確に解き放つ試みはほとんどなかった。 この結果から,確率ラベルのトリックを2つの因子からなる解釈可能な決定論的学習目標に還元できることを示す。 1つ目は、潜在的なラベルの漏洩を自然に解決するデータ適合項であり、もう1つはグラフのサイズと接続性に適応するグラフ構造に基づく正規化因子である。 その後、この視点を利用して幅広いラベルのトリック・ユースケースを動機付け、これらの拡張の有効性を検証する実験を行う。

Graph neural networks (GNNs) and label propagation represent two interrelated modeling strategies designed to exploit graph structure in tasks such as node property prediction. The former is typically based on stacked message-passing layers that share neighborhood information to transform node features into predictive embeddings. In contrast, the latter involves spreading label information to unlabeled nodes via a parameter-free diffusion process, but operates independently of the node features. Given then that the material difference is merely whether features or labels are smoothed across the graph, it is natural to consider combinations of the two for improving performance. In this regard, it has recently been proposed to use a randomly-selected portion of the training labels as GNN inputs, concatenated with the original node features for making predictions on the remaining labels. This so-called label trick accommodates the parallel use of features and labels, and is foundational to many of the top-ranking submissions on the Open Graph Benchmark (OGB) leaderboard. And yet despite its wide-spread adoption, thus far there has been little attempt to carefully unpack exactly what statistical properties the label trick introduces into the training pipeline, intended or otherwise. To this end, we prove that under certain simplifying assumptions, the stochastic label trick can be reduced to an interpretable, deterministic training objective composed of two factors. The first is a data-fitting term that naturally resolves potential label leakage issues, while the second serves as a regularization factor conditioned on graph structure that adapts to graph size and connectivity. Later, we leverage this perspective to motivate a broader range of label trick use cases, and provide experiments to verify the efficacy of these extensions.
公開日:2021-10-14
翻訳日:2021-10-16 03:17:45
# (参考訳) 画像ブラインドデコンボリューションのための変分ベイズアルゴリズム [全文訳有]

Unrolled Variational Bayesian Algorithm for Image Blind Deconvolution ( http://arxiv.org/abs/2110.07202v1 )

ライセンス: CC BY 4.0
Yunshi Huang and Emilie Chouzenoux and Jean-Christophe Pesquet(参考訳) 本稿では,画像ブラインドデコンボリューションのための変分ベイズアルゴリズム(VBA)を提案する。 我々のジェネリックフレームワークは、未知のぼかし/イメージと、ぼかしカーネル上のアフィン制約(例えば1つに合計する)に対する滑らかさ優先を組み込んでいる。 主なコントリビューションのひとつは、アンロールの方法論に従って、ニューラルネットワークパラダイム内でのVBAの統合です。 提案アーキテクチャは教師付き方式でトレーニングされており、VBAモデルの2つの重要なハイパーパラメータを最適に設定することができ、その結果の視覚的品質に関してさらなる改善をもたらすことができる。 グレースケール/カラー画像と多様なカーネル形状を含む様々な実験を行う。 数値例は、最適化、ベイズ推定、深層学習に基づく最先端技術と比較して、我々のアプローチの高パフォーマンスを示す。

In this paper, we introduce a variational Bayesian algorithm (VBA) for image blind deconvolution. Our generic framework incorporates smoothness priors on the unknown blur/image and possible affine constraints (e.g., sum to one) on the blur kernel. One of our main contributions is the integration of VBA within a neural network paradigm, following an unrolling methodology. The proposed architecture is trained in a supervised fashion, which allows us to optimally set two key hyperparameters of the VBA model and lead to further improvements in terms of resulting visual quality. Various experiments involving grayscale/color images and diverse kernel shapes, are performed. The numerical examples illustrate the high performance of our approach when compared to state-of-the-art techniques based on optimization, Bayesian estimation, or deep learning.
公開日:2021-10-14
翻訳日:2021-10-16 02:55:51
# (参考訳) パントロケーションのためのデュアルアテンションニューラルネットワークとパントグロスペアを用いた解釈 [全文訳有]

A Dual-Attention Neural Network for Pun Location and Using Pun-Gloss Pairs for Interpretation ( http://arxiv.org/abs/2110.07209v1 )

ライセンス: CC BY 4.0
Shen Liu, Meirong Ma, Hao Yuan, Jianchao Zhu, Yuanbin Wu, Man Lan(参考訳) 句の位置は、与えられた短いテキストで句語(通常、文章を曖昧にする単語またはフレーズ)を識別することであり、句解釈は句語の2つの異なる意味を見つけることである。 これまでの研究のほとんどは、wsd(word sense disambiguation)技術または発音情報によって得られた限定された単語感覚を用いて、パンの位置に対処する。 句解釈のタスクでは、関連する作業は様々なWSDアルゴリズムに注意を払う。 本稿では,単語認識と発音を文脈情報と効果的に統合し,2種類のパンに同時に対応させる,dun(dual-attentive neural network)と呼ばれるモデルを提案する。 さらに,句解釈を分類課題として扱い,この課題を解決するための処理データとしてpunglossペアを構築した。 2つのベンチマークデータセットにおける実験により,提案手法が新たな最先端結果を得ることが示された。 ソースコードはパブリックコードリポジトリで公開されています。

Pun location is to identify the punning word (usually a word or a phrase that makes the text ambiguous) in a given short text, and pun interpretation is to find out two different meanings of the punning word. Most previous studies adopt limited word senses obtained by WSD(Word Sense Disambiguation) technique or pronunciation information in isolation to address pun location. For the task of pun interpretation, related work pays attention to various WSD algorithms. In this paper, a model called DANN (Dual-Attentive Neural Network) is proposed for pun location, effectively integrates word senses and pronunciation with context information to address two kinds of pun at the same time. Furthermore, we treat pun interpretation as a classification task and construct pungloss pairs as processing data to solve this task. Experiments on the two benchmark datasets show that our proposed methods achieve new state-of-the-art results. Our source code is available in the public code repository.
公開日:2021-10-14
翻訳日:2021-10-16 02:28:30
# (参考訳) 最大平均偏差最適化による構造制約付き圧縮センシングマトリクスの学習 [全文訳有]

Learning a Compressive Sensing Matrix with Structural Constraints via Maximum Mean Discrepancy Optimization ( http://arxiv.org/abs/2110.07221v1 )

ライセンス: CC BY 4.0
Michael Koller and Wolfgang Utschick(参考訳) 本稿では,圧縮センシング関連リカバリ問題の計測行列を得るための学習に基づくアルゴリズムを提案する。 焦点は定数モジュラー制約を持つ行列であり、通常はハイブリッドプリコーディング/結合アーキテクチャにおけるアナログ位相シフト器のネットワークを表す。 制限された等長性を持つ行列を高次元から低次元超球面への点の写像として解釈する。 低次元超球面上の点、すなわち行列の範囲においては、測定ノイズに対するロバスト性を高めるために一様に分布すべきである。 この概念は、目的関数における最大平均不一致メトリックの1つを使用する最適化問題で定式化される。 ニューラルネットワーク関連のトピックにおけるこのメトリクスの最近の成功は、機械学習に基づく問題の解法を動機付けている。 数値実験では、圧縮センシングの文脈で一般的に用いられるランダムな測定行列よりも優れた性能を示す。 さらに,文献から定値率制約に適応する手法を提案する。 また,本手法はランダム行列と競合する可能性があり,初期化として使用する場合,提案手法と調和することが示されている。 最後に, toeplitz 制約など他の構造行列制約についても考察する。

We introduce a learning-based algorithm to obtain a measurement matrix for compressive sensing related recovery problems. The focus lies on matrices with a constant modulus constraint which typically represent a network of analog phase shifters in hybrid precoding/combining architectures. We interpret a matrix with restricted isometry property as a mapping of points from a high- to a low-dimensional hypersphere. We argue that points on the low-dimensional hypersphere, namely, in the range of the matrix, should be uniformly distributed to increase robustness against measurement noise. This notion is formalized in an optimization problem which uses one of the maximum mean discrepancy metrics in the objective function. Recent success of such metrics in neural network related topics motivate a solution of the problem based on machine learning. Numerical experiments show better performance than random measurement matrices that are generally employed in compressive sensing contexts. Further, we adapt a method from the literature to the constant modulus constraint. This method can also compete with random matrices and it is shown to harmonize well with the proposed learning-based approach if it is used as an initialization. Lastly, we describe how other structural matrix constraints, e.g., a Toeplitz constraint, can be taken into account, too.
公開日:2021-10-14
翻訳日:2021-10-16 02:19:59
# (参考訳) エッジリワイヤを多数有する低パスグラフフィルタの安定性について [全文訳有]

On the Stability of Low Pass Graph Filter With a Large Number of Edge Rewires ( http://arxiv.org/abs/2110.07234v1 )

ライセンス: CC BY 4.0
Hoang-Son Nguyen, Yiran He, Hoi-To Wai(参考訳) 近年、グラフフィルタの安定性は、非常に成功したグラフ畳み込みニューラルネットワーク(GCN)を駆動する重要な理論的特性の一つとして研究されている。 グラフフィルタの安定性は,GCNの基本構造であるグラフフィルタの出力に対する位相摂動の影響を特徴づける。 既存の成果の多くは、少数のエッジリワイヤによる小さな摂動の体制に焦点を当てている。 しかし、多くのアプリケーションでエッジリワイヤの数が大きくなる可能性がある。 後者のケースを研究するために、この研究は以前の分析から外れ、フィルタの周波数応答に依存するグラフフィルタの安定性に制約があることを証明する。 グラフフィルタが低通過であると仮定すると、フィルタの安定性はコミュニティ構造に対する摂動に依存する。 応用として,確率ブロックモデルグラフに対して,ノード数が無限に近づくと,グラフフィルタ距離が0に収束することを示す。 数値シミュレーションが我々の発見を裏付ける。

Recently, the stability of graph filters has been studied as one of the key theoretical properties driving the highly successful graph convolutional neural networks (GCNs). The stability of a graph filter characterizes the effect of topology perturbation on the output of a graph filter, a fundamental building block for GCNs. Many existing results have focused on the regime of small perturbation with a small number of edge rewires. However, the number of edge rewires can be large in many applications. To study the latter case, this work departs from the previous analysis and proves a bound on the stability of graph filter relying on the filter's frequency response. Assuming the graph filter is low pass, we show that the stability of the filter depends on perturbation to the community structure. As an application, we show that for stochastic block model graphs, the graph filter distance converges to zero when the number of nodes approaches infinity. Numerical simulations validate our findings.
公開日:2021-10-14
翻訳日:2021-10-16 01:54:37
# (参考訳) HUMAN4D:モーションと没入型メディアのための人間中心マルチモーダルデータセット [全文訳有]

HUMAN4D: A Human-Centric Multimodal Dataset for Motions and Immersive Media ( http://arxiv.org/abs/2110.07235v1 )

ライセンス: CC BY 4.0
nargyros Chatzitofis, Leonidas Saroglou, Prodromos Boutis, Petros Drakoulis, Nikolaos Zioulis, Shishir Subramanyam, Bart Kevelham, Caecilia Charbonnier, Pablo Cesar, Dimitrios Zarpalas, Stefanos Kollias, Petros Daras(参考訳) HUMAN4Dは大規模でマルチモーダルな4Dデータセットで、プロのマーカーベースのMoCap、ボリュームキャプチャ、オーディオ記録システムによって同時にキャプチャされるさまざまな人間の活動を含む。 HUMAN4Dは、2人の女性と2ドルの男性プロの俳優がさまざまなフルボディの動きや表情を演じ、多彩な動きとポーズを1対1、多対1の日常的、身体的、社会的活動(ジャンピング、ダンスなど)の一部として、マルチRGBD(mRGBD)、ボリューム、オーディオデータと共に提供する。 ハードウェア(HW)同期を用いた多視点カラーデータセットの存在にもかかわらず、私たちの知る限り、HUMAN4Dは、センサ内およびセンサ間HW-SYNCの使用により、高い同期精度でボリューム深度マップを提供する最初の、かつ唯一の公開リソースである。 さらに、時空間整列された3Dキャラクタは、HUMAN4Dを補完し、時間変化と高品質の動的メッシュに関する共同研究を可能にする。 本研究では,最先端のポーズ推定と3次元圧縮手法を用いたhuman4dベンチマークによる評価ベースラインを提供する。 前者の場合、2次元および3次元ポーズ推定アルゴリズムを単視点および多視点データキューに適用する。 後者については、オンラインボリュームビデオエンコーディングと定常ビットレートに関するボリュームデータに、オープンソースの3dコーデックをベンチマークします。 さらに、異なる品質で再構成されたメッシュベースのボリュームデータの質的かつ定量的な比較は、4次元表現に関して利用可能な選択肢を示している。 HUMAN4Dは、時空間的なポーズ、ボリューム、mRGBD、オーディオデータキューに関する共同研究を可能にするために、コンピュータビジョンとグラフィック研究コミュニティに導入された。 データセットとそのコードはhttps://tofis.github .io/myurls/human4dで入手できる。

We introduce HUMAN4D, a large and multimodal 4D dataset that contains a variety of human activities simultaneously captured by a professional marker-based MoCap, a volumetric capture and an audio recording system. By capturing 2 female and $2$ male professional actors performing various full-body movements and expressions, HUMAN4D provides a diverse set of motions and poses encountered as part of single- and multi-person daily, physical and social activities (jumping, dancing, etc.), along with multi-RGBD (mRGBD), volumetric and audio data. Despite the existence of multi-view color datasets captured with the use of hardware (HW) synchronization, to the best of our knowledge, HUMAN4D is the first and only public resource that provides volumetric depth maps with high synchronization precision due to the use of intra- and inter-sensor HW-SYNC. Moreover, a spatio-temporally aligned scanned and rigged 3D character complements HUMAN4D to enable joint research on time-varying and high-quality dynamic meshes. We provide evaluation baselines by benchmarking HUMAN4D with state-of-the-art human pose estimation and 3D compression methods. For the former, we apply 2D and 3D pose estimation algorithms both on single- and multi-view data cues. For the latter, we benchmark open-source 3D codecs on volumetric data respecting online volumetric video encoding and steady bit-rates. Furthermore, qualitative and quantitative visual comparison between mesh-based volumetric data reconstructed in different qualities showcases the available options with respect to 4D representations. HUMAN4D is introduced to the computer vision and graphics research communities to enable joint research on spatio-temporally aligned pose, volumetric, mRGBD and audio data cues. The dataset and its code are available https://tofis.github .io/myurls/human4d.
公開日:2021-10-14
翻訳日:2021-10-16 01:40:53
# (参考訳) カオスデータでrnnを訓練する方法? [全文訳有]

How to train RNNs on chaotic data? ( http://arxiv.org/abs/2110.07238v1 )

ライセンス: CC BY 4.0
Zahra Monfared, Jonas M. Mikhaeil and Daniel Durstewitz(参考訳) リカレントニューラルネットワーク(Recurrent Neural Network, RNN)は、シーケンシャルおよび時系列データをモデリングするための広帯域機械学習ツールである。 トレーニング中に減少傾向が後退する傾向にあるため、トレーニングが難しいことが知られている。 これは爆発と消滅の勾配問題として知られている。 この問題に対する以前のソリューションは、ゲートされたメモリバッファを備えた、かなり複雑で汎用的なアーキテクチャ上に構築されていたり、あるいは最近では、不動点への収束を保証するために制約を課したり、再帰行列を制限したりした。 しかし、そのような制約はRNNの表現性に厳しい制限を与える。 マルチスタビリティやカオスといった本質的なダイナミクスは無効である。 これは本質的に、自然と社会で遭遇する多くの時系列のカオス的な性質とは無関係である。 ここでは、RNN学習中の損失勾配をRNN生成軌道のリャプノフスペクトルに関連付けることで、この問題を包括的に理論的に扱う。 数学的には、安定平衡や循環的挙動を生み出すRNNが境界勾配を持つのに対して、カオス力学を持つRNNの勾配は常に分岐する。 これらの分析と洞察に基づき、カオスデータに対する効果的で単純なトレーニング手法と、リアプノフスペクトルに従って関連するハイパーパラメータを選択する方法のガイダンスを提供する。

Recurrent neural networks (RNNs) are wide-spread machine learning tools for modeling sequential and time series data. They are notoriously hard to train because their loss gradients backpropagated in time tend to saturate or diverge during training. This is known as the exploding and vanishing gradient problem. Previous solutions to this issue either built on rather complicated, purpose-engineered architectures with gated memory buffers, or - more recently - imposed constraints that ensure convergence to a fixed point or restrict (the eigenspectrum of) the recurrence matrix. Such constraints, however, convey severe limitations on the expressivity of the RNN. Essential intrinsic dynamics such as multistability or chaos are disabled. This is inherently at disaccord with the chaotic nature of many, if not most, time series encountered in nature and society. Here we offer a comprehensive theoretical treatment of this problem by relating the loss gradients during RNN training to the Lyapunov spectrum of RNN-generated orbits. We mathematically prove that RNNs producing stable equilibrium or cyclic behavior have bounded gradients, whereas the gradients of RNNs with chaotic dynamics always diverge. Based on these analyses and insights, we offer an effective yet simple training technique for chaotic data and guidance on how to choose relevant hyperparameters according to the Lyapunov spectrum.
公開日:2021-10-14
翻訳日:2021-10-16 00:28:06
# (参考訳) 因果トランスフォーマーは、人間と違って再帰的な入れ子構造で確率を下回る [全文訳有]

Causal Transformers Perform Below Chance on Recursive Nested Constructions, Unlike Humans ( http://arxiv.org/abs/2110.07240v1 )

ライセンス: CC BY 4.0
Yair Lakretz, Th\'eo Desbordes, Dieuwke Hupkes, Stanislas Dehaene(参考訳) 再帰処理は人間の言語能力の目印と考えられている。 最近の研究では、recurrent neural language model(rnn-lms)における再帰的処理を評価し、そのようなモデルが入れ子構造内の埋め込み依存性の確率レベル以下で実行されることを示した。 ここでは,最先端のトランスフォーマ lms について検討する。 組込み(インナー)依存性が短距離か長距離かで異なる2種類の入れ子構造で4種類のトランスフォーマー lms をテストした。 RNN-LM や人間に対して報告された結果に比べて,トランスフォーマーは短距離の組込み依存に対してほぼ完璧な性能が得られることが判明した。 しかし、長距離の組み込み依存関係では、Transformerのパフォーマンスは確率レベルを下回ります。 注目すべきは、組み込み依存性にたった3つの単語を追加することで、Transformerがほぼ完璧から低いパフォーマンスに落ちてしまうことだ。 その結果,再帰的な構造に基づく処理に関して,トランスフォーマーの欠点が明らかになった。

Recursive processing is considered a hallmark of human linguistic abilities. A recent study evaluated recursive processing in recurrent neural language models (RNN-LMs) and showed that such models perform below chance level on embedded dependencies within nested constructions -- a prototypical example of recursion in natural language. Here, we study if state-of-the-art Transformer LMs do any better. We test four different Transformer LMs on two different types of nested constructions, which differ in whether the embedded (inner) dependency is short or long range. We find that Transformers achieve near-perfect performance on short-range embedded dependencies, significantly better than previous results reported for RNN-LMs and humans. However, on long-range embedded dependencies, Transformers' performance sharply drops below chance level. Remarkably, the addition of only three words to the embedded dependency caused Transformers to fall from near-perfect to below-chance performance. Taken together, our results reveal Transformers' shortcoming when it comes to recursive, structure-based, processing.
公開日:2021-10-14
翻訳日:2021-10-15 23:21:35
# (参考訳) マルチレベルテキスト識別による中国語生体言語モデルの構築 [全文訳有]

Building Chinese Biomedical Language Models via Multi-Level Text Discrimination ( http://arxiv.org/abs/2110.07244v1 )

ライセンス: CC BY-SA 4.0
Quan Wang and Songtai Dai and Benfeng Xu and Yajuan Lyu and Yong Zhu and Hua Wu and Haifeng Wang(参考訳) BERTやGPTのような事前訓練言語モデル(PLM)は、一般ドメインだけでなく、生物医学領域においても、NLPの分野に革命をもたらした。 バイオメディカルplmを構築する以前の取り組みのほとんどは、単にドメイン適応に頼り、主に英語に重点を置いてきた。 本稿では,中国における生物医学的PLMであるeHealthについて紹介する。 この新たなフレームワークは、トークンレベルとシーケンスレベルの両方の識別を通じて、eHealthを差別者として訓練する。 前者は、ジェネレータによって破損した入力トークンを検出し、可算候補から元の信号を選択し、後者は、同じ元のシーケンスの破損を他のものとさらに区別することである。 したがって、ehealthはトークンとシーケンスレベルで言語のセマンティクスを学ぶことができる。 様々な形態の11の中国語生物医学的言語理解タスクに関する大規模な実験により、我々のアプローチの有効性と優位性が確認された。 事前トレーニングされたモデルは \url{https://github.com/p addlepaddle/research /tree/master/kg/ehea lth} で公開されている。

Pre-trained language models (PLMs), such as BERT and GPT, have revolutionized the field of NLP, not only in the general domain but also in the biomedical domain. Most prior efforts in building biomedical PLMs have resorted simply to domain adaptation and focused mainly on English. In this work we introduce eHealth, a biomedical PLM in Chinese built with a new pre-training framework. This new framework trains eHealth as a discriminator through both token-level and sequence-level discrimination. The former is to detect input tokens corrupted by a generator and select their original signals from plausible candidates, while the latter is to further distinguish corruptions of a same original sequence from those of the others. As such, eHealth can learn language semantics at both the token and sequence levels. Extensive experiments on 11 Chinese biomedical language understanding tasks of various forms verify the effectiveness and superiority of our approach. The pre-trained model is available to the public at \url{https://github.com/P addlePaddle/Research /tree/master/KG/eHea lth} and the code will also be released later.
公開日:2021-10-14
翻訳日:2021-10-15 23:13:25
# (参考訳) DeepMoCap:複数深度センサとRetro-Reflectorを用いた深部光学モーションキャプチャ [全文訳有]

DeepMoCap: Deep Optical Motion Capture Using Multiple Depth Sensors and Retro-Reflectors ( http://arxiv.org/abs/2110.07283v1 )

ライセンス: CC BY 4.0
Anargyros Chatzitofis, Dimitrios Zarpalas, Stefanos Kollias, Petros Daras(参考訳) 本稿では,複数の時空間的赤外深度センサとレトロ反射ストラップとパッチ(反射器)を用いて,マーカーを用いた1対1光モーションキャプチャ法(DeepMoCap)を提案する。 DeepMoCapは、深度画像にリフレクターを自動でローカライズし、3D空間にラベリングすることで、モーションキャプチャーを探索する。 色付き深度マップと3次元光フローフレーム間の時間的相関を符号化する非パラメトリック表現を導入し,多段フルリ畳み込みネットワーク(FCN)アーキテクチャを提案する。 抽出された反射板2d位置は3d空間に空間的にマッピングされ、ロバストな3d光学データ抽出となる。 抽出した光学データにテンプレートベースフィッティング技術を適用して、被写体の動きを効率よくキャプチャする。 2つのデータセットが作成され、評価目的で公開されている。1つは、マルチビュー深度と3d光フローアノテート画像(dmc2.5d)、もう1つは、スケルトン、慣性、地上真理のmocapデータ(dmc3d)と共に、時空間的にアライメントされたマルチビュー深度画像からなる。 FCNモデルは2D Percentage of Correct Keypoints (PCK) 測定値を用いてDMC2.5Dデータセット上での競合よりも優れており、モーションキャプチャの結果はDMC3D上のRGB-Dおよび慣性データ融合アプローチに対して評価され、合計3D PCK精度において次のベストメソッドよりも4.5%向上している。

In this paper, a marker-based, single-person optical motion capture method (DeepMoCap) is proposed using multiple spatio-temporally aligned infrared-depth sensors and retro-reflective straps and patches (reflectors). DeepMoCap explores motion capture by automatically localizing and labeling reflectors on depth images and, subsequently, on 3D space. Introducing a non-parametric representation to encode the temporal correlation among pairs of colorized depthmaps and 3D optical flow frames, a multi-stage Fully Convolutional Network (FCN) architecture is proposed to jointly learn reflector locations and their temporal dependency among sequential frames. The extracted reflector 2D locations are spatially mapped in 3D space, resulting in robust 3D optical data extraction. The subject's motion is efficiently captured by applying a template-based fitting technique on the extracted optical data. Two datasets have been created and made publicly available for evaluation purposes; one comprising multi-view depth and 3D optical flow annotated images (DMC2.5D), and a second, consisting of spatio-temporally aligned multi-view depth images along with skeleton, inertial and ground truth MoCap data (DMC3D). The FCN model outperforms its competitors on the DMC2.5D dataset using 2D Percentage of Correct Keypoints (PCK) metric, while the motion capture outcome is evaluated against RGB-D and inertial data fusion approaches on DMC3D, outperforming the next best method by 4.5% in total 3D PCK accuracy.
公開日:2021-10-14
翻訳日:2021-10-15 22:52:53
# (参考訳) サインと関連性学習 [全文訳有]

Sign and Relevance learning ( http://arxiv.org/abs/2110.07292v1 )

ライセンス: CC BY 4.0
Sama Daryanavard and Bernd Porr(参考訳) 生物学的に現実的な、あるいはインスパイアされた強化学習の標準モデルは、浅いネットワークを暗示するグローバルエラー信号を用いる。 しかし、ディープネットワークは、トップダウン経路とボトムアップ経路の間の対称重みを必要とするため、生物学的に現実的ではないそのようなネットワークを通してエラー信号を後方に送ることで、著しく優れた性能を提供することができる。 代わりに、局所学習とグローバル変調を組み合わせたネットワークを提案し、ネットワーク全体の可塑性変化量をニューロ変調が制御し、エラーの兆候だけがネットワークを通して逆伝播される。 神経変調は、エラー信号のボトムアップサインが長期増強と長期抑うつを決定している間に、修正エラーまたは関連信号として理解することができる。 我々は、このパラダイムのパフォーマンスを実際のロボットタスクで実証する。

Standard models of biologically realistic, or inspired, reinforcement learning employ a global error signal which implies shallow networks. However, deep networks could offer a drastically superior performance by feeding the error signal backwards through such a network which in turn is not biologically realistic as it requires symmetric weights between top-down and bottom-up pathways. Instead, we present a network combining local learning with global modulation where neuromodulation controls the amount of plasticity change in the whole network, while only the sign of the error is backpropagated through the network. The neuromodulation can be understood as a rectified error, or relevance, signal while the bottom-up sign of the error signal decides between long-term potentiation and long-term depression. We demonstrate the performance of this paradigm with a real robotic task.
公開日:2021-10-14
翻訳日:2021-10-15 22:22:39
# (参考訳) マルチタスク問題はマルチ目的ではない [全文訳有]

Multi-task problems are not multi-objective ( http://arxiv.org/abs/2110.07301v1 )

ライセンス: CC BY 4.0
Michael Ruchte and Josif Grabocka(参考訳) 多目的最適化(MOO)は、与えられた目的セットに対して最適な設定セットを見つけることを目的としている。 最近の一連の研究は、典型的な機械学習(ML)設定にMOOメソッドを適用している。 これらの研究は、MOOアルゴリズムのベンチマークにMulti-Task Learning (MTL) 問題も用いている。 本研究では, MTL問題とMOO問題の特徴が似ていないことを示す。 特に、十分表現力のある単一モデルの場合、MTL損失は競合しない。 その結果、単一のモデルがすべての目的を独立モデルで最適化するだけでなく、MOOを適用不可能にすることができる。 広範に使われているMNISTデータセットについて広範な実験を行った。 その結果,MLのためのMOOアルゴリズムを評価するための新しいベンチマークが求められた。 私たちのコードは、https://github.com/r uchtem/moo-mtl.comで利用可能です。

Multi-objective optimization (MOO) aims at finding a set of optimal configurations for a given set of objectives. A recent line of work applies MOO methods to the typical Machine Learning (ML) setting, which becomes multi-objective if a model should optimize more than one objective, for instance in fair machine learning. These works also use Multi-Task Learning (MTL) problems to benchmark MOO algorithms treating each task as independent objective. In this work we show that MTL problems do not resemble the characteristics of MOO problems. In particular, MTL losses are not competing in case of a sufficiently expressive single model. As a consequence, a single model can perform just as well as optimizing all objectives with independent models, rendering MOO inapplicable. We provide evidence with extensive experiments on the widely used Multi-Fashion-MNIST datasets. Our results call for new benchmarks to evaluate MOO algorithms for ML. Our code is available at: https://github.com/r uchtem/moo-mtl.
公開日:2021-10-14
翻訳日:2021-10-15 22:05:50
# (参考訳) マルチブリッジ多言語NMTモデルの実証的研究 [全文訳有]

An Empirical Investigation of Multi-bridge Multilingual NMT models ( http://arxiv.org/abs/2110.07304v1 )

ライセンス: CC BY 4.0
Anoop Kunchukuttan(参考訳) 本稿では,マルチブリッジ多言語NMTモデル (MB-M2M) について検討する。 英語中心の言語ペアに加えて、非英語ペアでトレーニングされたモデル。 In addition to validating previous work which shows that MB-M2M models can overcome zeroshot translation problems, our analysis reveals the following results about multibridge models: (1) it is possible to extract a reasonable amount of parallel corpora between non-English languages for low-resource languages (2) with limited non-English centric data, MB-M2M models are competitive with or outperform pivot models, (3) MB-M2M models can outperform English-Any models and perform at par with Any-English models, so a single multilingual NMT system can serve all translation directions.

In this paper, we present an extensive investigation of multi-bridge, many-to-many multilingual NMT models (MB-M2M) ie., models trained on non-English language pairs in addition to English-centric language pairs. In addition to validating previous work which shows that MB-M2M models can overcome zeroshot translation problems, our analysis reveals the following results about multibridge models: (1) it is possible to extract a reasonable amount of parallel corpora between non-English languages for low-resource languages (2) with limited non-English centric data, MB-M2M models are competitive with or outperform pivot models, (3) MB-M2M models can outperform English-Any models and perform at par with Any-English models, so a single multilingual NMT system can serve all translation directions.
公開日:2021-10-14
翻訳日:2021-10-15 21:56:35
# (参考訳) 造影mriにおける左室解剖のマルチセンター・マルチベンダ自動分節化 [全文訳有]

Multi-center, multi-vendor automated segmentation of left ventricular anatomy in contrast-enhanced MRI ( http://arxiv.org/abs/2110.07360v1 )

ライセンス: CC BY 4.0
Carla Sendra-Balcells, V\'ictor M. Campello, Carlos Mart\'in-Isla, David Vilades Medel, Mart\'in Lu\'is Descalzo, Andrea Guala, Jos\'e F. Rodr\'iguez Palomares, Karim Lekadir(参考訳) 晩期gadolinium-enhanced magnetic resonance imaging (lge-mri) における左室壁の正確なデライン化は,スカー組織定量化および心筋梗塞の患者特異的評価に必須のステップである。 LGE-MRIで左室の自動分画を行うための多くの深層学習技術が提案されている。 これまでのところ、既存のモデルは単一の臨床センターのLGE-MRIデータセットで圧倒的に開発され、評価されている。 しかし、実際には、LGE-MRI画像は、MRIスキャナー、撮像条件、コントラスト注入プロトコル、局所的な臨床実践の違いにより、各国の臨床センターで大きく異なる。 本研究は, LGE-MRIにおけるマルチセンターとマルチベンダのLVセグメンテーションを, 臨床指標間のモデル一般化性を高めるためのいくつかの戦略を提案し, 実装し, 詳細に評価することによって, 初めて検討した。 これには、トレーニングサンプルのイメージ変動を人工的に増強するデータ強化、センター間でのLGE-MRI画像の分布を整列するイメージ調和、既存の単一中心モデルを調整するための移行学習、新しい臨床現場からの未確認イメージなどが含まれる。 その結果、スペイン、フランス、中国の4つの臨床センターで取得された新しいマルチセンターLGE-MRIデータセットに基づいて、データ拡張と転写学習の組み合わせは、元のトレーニングに含まれない新しい臨床センターにうまく一般化するシングルセンターモデルにつながることが示された。 提案フレームワークは, 異なる地理的位置の複数の臨床センターに展開可能な, LGE-MRIにおける自動LVセグメンテーションのための臨床ツールの開発の可能性を示す。

Accurate delineation of the left ventricular boundaries in late gadolinium-enhanced magnetic resonance imaging (LGE-MRI) is an essential step for scar tissue quantification and patient-specific assessment of myocardial infarction. Many deep-learning techniques have been proposed to perform automatic segmentations of the left ventricle (LV) in LGE-MRI showing segmentations as accurate as those obtained by expert cardiologists. Thus far, the existing models have been overwhelmingly developed and evaluated with LGE-MRI datasets from single clinical centers. However, in practice, LGE-MRI images vary significantly between clinical centers within and across countries, in particular due to differences in the MRI scanners, imaging conditions, contrast injection protocols and local clinical practise. This work investigates for the first time multi-center and multi-vendor LV segmentation in LGE-MRI, by proposing, implementing and evaluating in detail several strategies to enhance model generalizability across clinical cites. These include data augmentation to artificially augment the image variability in the training sample, image harmonization to align the distributions of LGE-MRI images across centers, and transfer learning to adjust existing single-center models to unseen images from new clinical sites. The results obtained based on a new multi-center LGE-MRI dataset acquired in four clinical centers in Spain, France and China, show that the combination of data augmentation and transfer learning can lead to single-center models that generalize well to new clinical centers not included in the original training. The proposed framework shows the potential for developing clinical tools for automated LV segmentation in LGE-MRI that can be deployed in multiple clinical centers across distinct geographical locations.
公開日:2021-10-14
翻訳日:2021-10-15 21:48:57
# (参考訳) RocketQAv2:Dense Passage RetrievalとPassage Re- rankの共同トレーニング方法 [全文訳有]

RocketQAv2: A Joint Training Method for Dense Passage Retrieval and Passage Re-ranking ( http://arxiv.org/abs/2110.07367v1 )

ライセンス: CC BY 4.0
Ruiyang Ren, Yingqi Qu, Jing Liu, Wayne Xin Zhao, Qiaoqiao She, Hua Wu, Haifeng Wang and Ji-Rong Wen(参考訳) 様々な自然言語処理タスクにおいて,経路検索と経路再ランク付けは関連情報の検索とランキングの2つの重要な手順である。 2つの手順が最終性能に寄与するため、相互改善を達成するために共同で最適化することが重要である。 本稿では,高密度経路検索と再ランク付けのための新しい共同学習手法を提案する。 大きな貢献は、動的リストワイズ蒸留法を導入し、レトリバーとリランクラーの両方に対して統一的なリストワイズ訓練手法を設計することである。 ダイナミック蒸留中に、相互の関連情報に応じてレトリバーと再ランク付け器を適応的に改善することができる。 また、リストワイズトレーニングアプローチのための多様なトレーニングインスタンスを構築するためのハイブリッドデータ拡張戦略を提案する。 MSMARCOとNatural Questionsの両方のデータセットに対するアプローチの有効性を示す。 私たちのコードはhttps://github.com/p addlepaddle/rocketqa で利用可能です。

In various natural language processing tasks, passage retrieval and passage re-ranking are two key procedures in finding and ranking relevant information. Since both the two procedures contribute to the final performance, it is important to jointly optimize them in order to achieve mutual improvement. In this paper, we propose a novel joint training approach for dense passage retrieval and passage re-ranking. A major contribution is that we introduce the dynamic listwise distillation, where we design a unified listwise training approach for both the retriever and the re-ranker. During the dynamic distillation, the retriever and the re-ranker can be adaptively improved according to each other's relevance information. We also propose a hybrid data augmentation strategy to construct diverse training instances for listwise training approach. Extensive experiments show the effectiveness of our approach on both MSMARCO and Natural Questions datasets. Our code is available at https://github.com/P addlePaddle/RocketQA .
公開日:2021-10-14
翻訳日:2021-10-15 21:31:22
# (参考訳) 連続体マイクロメカニクスのための物理情報ニューラルネットワーク [全文訳有]

Physics informed neural networks for continuum micromechanics ( http://arxiv.org/abs/2110.07374v1 )

ライセンス: CC BY 4.0
Alexander Henkes, Henning Wessels, Rolf Mahnken(参考訳) 近年,応用数学や工学における多種多様な問題に対して,物理情報ニューラルネットワークの適用が成功している。 原理的アイデアは、ニューラルネットワークを大域的アンザッツ関数として偏微分方程式に使用することである。 世界的近似のため、物理情報ニューラルネットワークは、最適化によって局所効果と強い非線形解を表示するのに困難である。 本研究では,鋭い相界面を持つ材料不均質性によって引き起こされる物質非線型性について考察する。 これは、グローバルなアンサッツに依存するメソッドにとって難しい問題である。 収束問題を解決するため、適応的なトレーニング戦略とドメイン分解を研究した。 実世界の$\mu$CT-Scansから得られた不均一構造における非線形応力, 変位, エネルギー場を正確に解くことができる。

Recently, physics informed neural networks have successfully been applied to a broad variety of problems in applied mathematics and engineering. The principle idea is to use a neural network as a global ansatz function to partial differential equations. Due to the global approximation, physics informed neural networks have difficulties in displaying localized effects and strong non-linear solutions by optimization. In this work we consider material non-linearities invoked by material inhomogeneities with sharp phase interfaces. This constitutes a challenging problem for a method relying on a global ansatz. To overcome convergence issues, adaptive training strategies and domain decomposition are studied. It is shown, that the domain decomposition approach is able to accurately resolve nonlinear stress, displacement and energy fields in heterogeneous microstructures obtained from real-world $\mu$CT-scans.
公開日:2021-10-14
翻訳日:2021-10-15 21:11:21
# (参考訳) 言語エンコーダへの意味知識の伝達 [全文訳有]

Transferring Semantic Knowledge Into Language Encoders ( http://arxiv.org/abs/2110.07382v1 )

ライセンス: CC BY 4.0
Mohammad Umair, Francis Ferraro(参考訳) 意味的意味表現から意味的知識をトランスフォーマーベースの言語エンコーダに変換する手法である意味型ミッドチューニングを導入する。 中間調律では、特定の推論タスクに縛られることなく、一般的な文のテキストとそれらの文の構造的な意味表現を一致させることを学ぶ。 われわれのアプローチは金の注釈付き意味表現を必要としない。 代わりに、既製のPropBankやFrameNetセマンティックパーサなど、自動的に生成されたセマンティック表現を利用する。 このアライメントは分類や三重項損失によって暗黙的に学習できることを示す。 提案手法は,推論,読解,テキストの類似性,およびglue,superglue,steva lベンチマークから引き出された意味的タスク間での予測性能の向上を示す言語エンコーダを生成する。 We evaluate our approach on three popular baseline models, where our experimental results and analysis concludes that current pre-trained language models can further benefit from structured semantic frames with the proposed mid-tuning method, as they inject additional task-agnostic knowledge to the encoder, improving the generated embeddings as well as the linguistic properties of the given model, as evident from improvements on a popular sentence embedding toolkit and a variety of probing tasks.

We introduce semantic form mid-tuning, an approach for transferring semantic knowledge from semantic meaning representations into transformer-based language encoders. In mid-tuning, we learn to align the text of general sentences -- not tied to any particular inference task -- and structured semantic representations of those sentences. Our approach does not require gold annotated semantic representations. Instead, it makes use of automatically generated semantic representations, such as from off-the-shelf PropBank and FrameNet semantic parsers. We show that this alignment can be learned implicitly via classification or directly via triplet loss. Our method yields language encoders that demonstrate improved predictive performance across inference, reading comprehension, textual similarity, and other semantic tasks drawn from the GLUE, SuperGLUE, and SentEval benchmarks. We evaluate our approach on three popular baseline models, where our experimental results and analysis concludes that current pre-trained language models can further benefit from structured semantic frames with the proposed mid-tuning method, as they inject additional task-agnostic knowledge to the encoder, improving the generated embeddings as well as the linguistic properties of the given model, as evident from improvements on a popular sentence embedding toolkit and a variety of probing tasks.
公開日:2021-10-14
翻訳日:2021-10-15 20:46:15
# (参考訳) ネグレクト兄弟 : VAE用異方性ガウス後部 [全文訳有]

The Neglected Sibling: Isotropic Gaussian Posterior for VAE ( http://arxiv.org/abs/2110.07383v1 )

ライセンス: CC BY-SA 4.0
Lan Zhang, Wray Buntine, Ehsan Shareghi(参考訳) 深層生成モデルはNLPのいくつかの領域で広く使われており、それらを増強したり、トレーニング課題に対処するために様々な技術が提案されている。 本稿では,その潜在表現空間をより有効活用できる等方性ガウス後部(igp)を用いて,変分オートエンコーダ(vaes)の簡易な修正を提案する。 このモデルは、表現空間における不活性次元に関連するVAEの準最適挙動を避ける。 我々は,様々なデータセットおよびタスクに関する理論的解析および実証的証拠を共に提供し,IGPが下流タスク性能やサンプル効率からロバストネスに至るまで,いくつかの量的および質的根拠において一貫した改善をもたらすことを示す。 さらに、GPにより奨励される表現特性に関する洞察を与え、その利得が画像領域にも一般化されることを示す。

Deep generative models have been widely used in several areas of NLP, and various techniques have been proposed to augment them or address their training challenges. In this paper, we propose a simple modification to Variational Autoencoders (VAEs) by using an Isotropic Gaussian Posterior (IGP) that allows for better utilisation of their latent representation space. This model avoids the sub-optimal behavior of VAEs related to inactive dimensions in the representation space. We provide both theoretical analysis, and empirical evidence on various datasets and tasks that show IGP leads to consistent improvement on several quantitative and qualitative grounds, from downstream task performance and sample efficiency to robustness. Additionally, we give insights about the representational properties encouraged by IGP and also show that its gain generalises to image domain as well.
公開日:2021-10-14
翻訳日:2021-10-15 20:32:21
# (参考訳) 音声自動キャプションのための市販機械リスニングと自然言語モデルの評価 [全文訳有]

Evaluating Off-the-Shelf Machine Listening and Natural Language Models for Automated Audio Captioning ( http://arxiv.org/abs/2110.07410v1 )

ライセンス: CC BY 4.0
Benno Weck, Xavier Favory, Konstantinos Drossos, Xavier Serra(参考訳) 自動音声キャプション(AAC)は、一般的な音声信号のテキスト記述を自動的に生成するタスクである。 キャプションシステムは入力信号から様々な情報を識別し、自然言語で表現する必要がある。 既存の作業は主に、新しいメソッドの調査と、既存のデータセットで測定されたパフォーマンスの改善に重点を置いている。 最近になって注目を集めたAACの研究はほとんどなく、既存の学習済みオーディオおよび自然言語処理リソースの性能について研究している。 本稿ではトランスフォーマーを用いたキャプション手法を用いて,市販モデルの性能評価を行う。 自由利用可能な布地データセットを用いて,4つの学習済みマシンリスニングモデル,4つの単語埋め込みモデル,それらの組み合わせを多種多様な設定で比較する。 評価の結果,YAMNetとBERTの埋め込みを組み合わせることで,最高のキャプションが生成されることが示唆された。 さらに、訓練済みの単語埋め込みを微調整することで、パフォーマンスが向上する。 最後に、トランスフォーマーエンコーダを用いてオーディオ埋め込みのシーケンスを処理し、高品質なキャプションを生成することを示す。

Automated audio captioning (AAC) is the task of automatically generating textual descriptions for general audio signals. A captioning system has to identify various information from the input signal and express it with natural language. Existing works mainly focus on investigating new methods and try to improve their performance measured on existing datasets. Having attracted attention only recently, very few works on AAC study the performance of existing pre-trained audio and natural language processing resources. In this paper, we evaluate the performance of off-the-shelf models with a Transformer-based captioning approach. We utilize the freely available Clotho dataset to compare four different pre-trained machine listening models, four word embedding models, and their combinations in many different settings. Our evaluation suggests that YAMNet combined with BERT embeddings produces the best captions. Moreover, in general, fine-tuning pre-trained word embeddings can lead to better performance. Finally, we show that sequences of audio embeddings can be processed using a Transformer encoder to produce higher-quality captions.
公開日:2021-10-14
翻訳日:2021-10-15 20:16:19
# (参考訳) レイトフュージョンアプローチによる生成逆数ネットワークを用いたRGB-D画像の描画 [全文訳有]

RGB-D Image Inpainting Using Generative Adversarial Network with a Late Fusion Approach ( http://arxiv.org/abs/2110.07413v1 )

ライセンス: CC BY 4.0
Ryo Fujii, Ryo Hachiuma, Hideo Saito(参考訳) Diminished Realityは、ビデオ画像からオブジェクトを取り除き、行方不明の領域を可視画素で埋めることを目的とした技術だ。 従来の手法では、異なる視点から同じシーンを撮影する異なるカメラを使用して、領域を取り除いて復元する。 本稿では,複数のカメラを必要としない生成対向ネットワークを用いたRGB-D画像の描画手法を提案する。 近年,RGB画像の塗装法は,生成的対向ネットワークを用いることで,優れた成果を上げている。 しかし、RGB塗装法は、欠落した領域のテクスチャのみを復元することを目的としており、幾何学的情報(シーンの3次元構造)を復元しない。 従来の画像インペイント手法をRGB-D画像インペイントに拡張し,一対のRGB画像と深度画像から行方不明領域のテクスチャと幾何学を共同で復元する。 RGBと深度画像(セマンティックセグメンテーションやオブジェクト検出など)を使用する他のタスクにインスパイアされた我々は、RGBと深度情報の利点を生かしたレイトフュージョンアプローチを提案する。 提案手法の有効性を実験的に検証した。

Diminished reality is a technology that aims to remove objects from video images and fills in the missing region with plausible pixels. Most conventional methods utilize the different cameras that capture the same scene from different viewpoints to allow regions to be removed and restored. In this paper, we propose an RGB-D image inpainting method using generative adversarial network, which does not require multiple cameras. Recently, an RGB image inpainting method has achieved outstanding results by employing a generative adversarial network. However, RGB inpainting methods aim to restore only the texture of the missing region and, therefore, does not recover geometric information (i.e, 3D structure of the scene). We expand conventional image inpainting method to RGB-D image inpainting to jointly restore the texture and geometry of missing regions from a pair of RGB and depth images. Inspired by other tasks that use RGB and depth images (e.g., semantic segmentation and object detection), we propose late fusion approach that exploits the advantage of RGB and depth information each other. The experimental results verify the effectiveness of our proposed method.
公開日:2021-10-14
翻訳日:2021-10-15 20:03:51
# (参考訳) アートイメージから誘発される社会的概念のマルチモーダルフレームによる自動モデリング [全文訳有]

Automatic Modeling of Social Concepts Evoked by Art Images as Multimodal Frames ( http://arxiv.org/abs/2110.07420v1 )

ライセンス: CC BY 4.0
Delfina Sol Martinez Pandiani and Valentina Presutti(参考訳) 非物理的対象(革命、暴力、友情など)を参照する社会的概念は、文化遺産(ch)分野の芸術画像のコレクションを含む視覚データのコンテンツを記述、インデックス化し、照会するための強力なツールである。 コンピュータビジョンの完全な画像理解に向けて多くの進歩がなされているが、画像によって誘発される社会的概念の自動検出は依然として課題である。 これは、よく知られたセマンティックギャップの問題、独特の物理的特徴の欠如、具体的な概念よりも非特異的な特徴への依存など、社会的概念の悪化による部分がある。 本稿では,社会的概念表現に関する近年の認知理論を,マルチモーダル・フレームとして表現するためのソフトウェア・アプローチに変換し,多感覚データを統合することを提案する。 提案手法は,関心概念にタグづけされたビジュアルアート素材からマルチモーダルな特徴の抽出,解析,統合に焦点を当てている。 概念モデルを定義し,社会概念をマルチモーダルフレームとして形式的に表現するための新しいオントロジーを提案する。 テイト・ギャラリーのコレクションを実証的基盤として,我々はその可能性を実証するために,アートイメージのコーパスを用いて手法を実験した。 我々は研究のさらなる方向性を議論し、すべてのソフトウェア、データソース、結果を提供する。

Social concepts referring to non-physical objects--such as revolution, violence, or friendship--are powerful tools to describe, index, and query the content of visual data, including ever-growing collections of art images from the Cultural Heritage (CH) field. While much progress has been made towards complete image understanding in computer vision, automatic detection of social concepts evoked by images is still a challenge. This is partly due to the well-known semantic gap problem, worsened for social concepts given their lack of unique physical features, and reliance on more unspecific features than concrete concepts. In this paper, we propose the translation of recent cognitive theories about social concept representation into a software approach to represent them as multimodal frames, by integrating multisensory data. Our method focuses on the extraction, analysis, and integration of multimodal features from visual art material tagged with the concepts of interest. We define a conceptual model and present a novel ontology for formally representing social concepts as multimodal frames. Taking the Tate Gallery's collection as an empirical basis, we experiment our method on a corpus of art images to provide a proof of concept of its potential. We discuss further directions of research, and provide all software, data sources, and results.
公開日:2021-10-14
翻訳日:2021-10-15 19:55:09
# (参考訳) 事前学習されたコントラスト表現を用いた逆問題 [全文訳有]

Inverse Problems Leveraging Pre-trained Contrastive Representations ( http://arxiv.org/abs/2110.07439v1 )

ライセンス: CC BY 4.0
Sriram Ravula, Georgios Smyrnis, Matt Jordan, Alexandros G. Dimakis(参考訳) 破損したデータの表現を復元するための新しい逆問題群について検討する。 我々は、CLIPのようなクリーンな画像で動作する事前訓練された表現学習ネットワークR(x)へのアクセスを想定している。 問題は、画像r(x) の表現を復元することであり、ある既知の前方演算子 a に対して破損したバージョン a(x) しか与えられていない場合である。 頑健な表現に対する線形プローブを用いて,画像のぼやけ,付加雑音,ランダムな画素マスキングなど,様々な歪みを伴う画像の分類において,エンドツーエンドの教師付きベースラインよりも高い精度を実現する。 我々はImageNetのサブセットについて評価し、この手法が様々な歪みに対して堅牢であることを確認する。 提案手法は,幅広いフォワード演算子においてラベル付きデータのごく一部であっても,エンド・ツー・エンドのベースラインよりも優れる。

We study a new family of inverse problems for recovering representations of corrupted data. We assume access to a pre-trained representation learning network R(x) that operates on clean images, like CLIP. The problem is to recover the representation of an image R(x), if we are only given a corrupted version A(x), for some known forward operator A. We propose a supervised inversion method that uses a contrastive objective to obtain excellent representations for highly corrupted images. Using a linear probe on our robust representations, we achieve a higher accuracy than end-to-end supervised baselines when classifying images with various types of distortions, including blurring, additive noise, and random pixel masking. We evaluate on a subset of ImageNet and observe that our method is robust to varying levels of distortion. Our method outperforms end-to-end baselines even with a fraction of the labeled data in a wide range of forward operators.
公開日:2021-10-14
翻訳日:2021-10-15 19:38:03
# (参考訳) ソーシャル・グッドのための言語技術設計 - 取られない道 [全文訳有]

Designing Language Technologies for Social Good: The Road not Taken ( http://arxiv.org/abs/2110.07444v1 )

ライセンス: CC BY 4.0
Namrata Mukhija, Monojit Choudhury, Kalika Bali(参考訳) 社会的善のための音声・言語技術(LT4SG)の開発、特に疎外化コミュニティの福祉と低リソース・低サービス言語話者を対象としているものは、NLP、音声、AIコミュニティにおける研究の顕著なテーマとなっている。 研究者の多くは、エンドユーザに社会的利益をもたらす言語技術の優先順位付けのために、個々の専門知識、経験、あるいはアドホックな調査に頼ってきた。 このことは、LT4SGの開発には設計・開発プロセスにおいて対象とする言語コミュニティを含めなければならないと主張する学者によって批判されている。 しかしながら、LT4SGの作業や批判は、開発サイクル中にエンドユーザを組み込むための技術や手法の優先順位付けの原則的手法を示唆していない。 ここでは、経済学、倫理学、心理学、参加デザインの分野からインスピレーションを得た上で、エンドユーザの好みに合わせてLT4SGを優先順位付けするための一連の方法論を列挙する。 次に,提案手法に照らしていくつかのLT4SGの取り組みを分析し,その隠れた仮定と潜在的な落とし穴を明らかにした。 現在の研究は言語技術に限られていますが、ここで強調されている原則と優先順位付け技術は、AI for Social Goodにもっと広く適用できると考えています。

Development of speech and language technology for social good (LT4SG), especially those targeted at the welfare of marginalized communities and speakers of low-resource and under-served languages, has been a prominent theme of research within NLP, Speech, and the AI communities. Researchers have mostly relied on their individual expertise, experiences or ad hoc surveys for prioritization of language technologies that provide social good to the end-users. This has been criticized by several scholars who argue that work on LT4SG must include the target linguistic communities during the design and development process. However, none of the LT4SG work and their critiques suggest principled techniques for prioritization of the technologies and methods for inclusion of the end-user during the development cycle. Drawing inspiration from the fields of Economics, Ethics, Psychology, and Participatory Design, here we chart out a set of methodologies for prioritizing LT4SG that are aligned with the end-user preferences. We then analyze several LT4SG efforts in light of the proposed methodologies and bring out their hidden assumptions and potential pitfalls. While the current study is limited to language technologies, we believe that the principles and prioritization techniques highlighted here are applicable more broadly to AI for Social Good.
公開日:2021-10-14
翻訳日:2021-10-15 19:12:54
# (参考訳) 人間-ロボット協調と機械学習 : 最近の研究の体系的レビュー [全文訳有]

Human-Robot Collaboration and Machine Learning: A Systematic Review of Recent Research ( http://arxiv.org/abs/2110.07448v1 )

ライセンス: CC BY 4.0
Francesco Semeraro, Alexander Griffiths and Angelo Cangelosi(参考訳) テクノロジーの進歩は、日常生活で人と対話するロボットの利用をますます思い描いている。 ヒューマン・ロボット・コラボレーション(human-robot collaboration、hrc)は、実際の作業の完了時に人間とロボットのインタラクションを探索するアプローチである。 このような相互作用は認知レベルと身体レベルの両方で検討され、情報の相互交換と機械的パワーをそれぞれ分析する。 hrcの作業では、一般的に認知モデルが構築され、環境やユーザから入力を収集し、これらを精巧に説明し、ロボット自身で使用できる情報に変換する。 HRC研究は、機械学習アルゴリズムを用いて、取得した外部入力を精査する認知モデルと行動ブロックを構築する。 これはまだ初期段階で有望なアプローチであり、機械学習の分野の成長による大きなメリットの可能性を秘めている。 そこで本研究では,人間とロボットのコラボレーションの文脈における機械学習技術の利用に関する詳細な文献レビューを提案する。 ロボット工学と機械学習に関する文献の広範なレビューから選択された45の重要論文の収集、選定、分析により、hrcの現在のトレンドの特定が可能となった。 特に,協調作業の種類,評価指標,認知変数をモデル化した作業のクラスタリングを提案する。 これらの前提により、機械学習アルゴリズムのさまざまなファミリーとその特性に関する深い分析と、使用したセンシングのモダリティが実施された。 分析の有意義な側面を考察し,今後の研究で取り組むべき課題を示唆する。

Technological progress increasingly envisions the use of robots interacting with people in everyday life. Human-robot collaboration (HRC) is the approach that explores the interaction between a human and a robot, during the completion of an actual physical task. Such interplay is explored both at the cognitive and physical level, by respectively analysing the mutual exchange of information and mechanical power. In HRC works, a cognitive model is typically built, which collects inputs from the environment and from the user, elaborates and translates these into information that can be used by the robot itself. HRC studies progressively employ machine learning algorithms to build the cognitive models and behavioural block that elaborates the acquired external inputs. This is a promising approach still in its early stages and with the potential of significant benefit from the growing field of machine learning. Consequently, this paper proposes a thorough literature review of the use of machine learning techniques in the context of human-robot collaboration. The collection,selection and analysis of the set of 45 key papers, selected from the wide review of the literature on robotics and machine learning, allowed the identification of the current trends in HRC. In particular, a clustering of works based on the type of collaborative tasks, evaluation metrics and cognitive variables modelled is proposed. With these premises, a deep analysis on different families of machine learning algorithms and their properties, along with the sensing modalities used, was carried out. The salient aspects of the analysis are discussed to show trends and suggest possible challenges to tackle in the future research.
公開日:2021-10-14
翻訳日:2021-10-15 18:57:39
# (参考訳) 等変表現からの群不変リニア読み出し能力: 可視的ビューの下でリニア分類できるオブジェクトはいくつあるか? [全文訳有]

Capacity of Group-invariant Linear Readouts from Equivariant Representations: How Many Objects can be Linearly Classified Under All Possible Views? ( http://arxiv.org/abs/2110.07472v1 )

ライセンス: CC BY 4.0
Matthew Farrell, Blake Bordelon, Shubhendu Trivedi and Cengiz Pehlevan(参考訳) 等分散は、翻訳や回転のような群を構成するアイデンティティ保存変換の対象となる対象の表現の望ましい性質として現れる。 しかし、群同値性によって制約された表現の表現性はまだ完全には理解されていない。 このギャップは、対象の同変表現に割り当てられる線形分離可能かつ群不変な二項二コトミーの数を定量化するカバー関数数定理の一般化によって解決される。 分離可能な二コトミーの分数は群作用によって固定される空間の次元によって決定される。 この関係が畳み込み、要素の非線形性、大域的および局所的なプーリングといった操作にどのように拡張されるかを示す。 他の操作は分離可能な二コトミの分数を変えないが、局所的なプーリングは、非常に非線形な操作であるにもかかわらず、分数を減らす。 最後に、ランダムに初期化され完全に訓練された畳み込みニューラルネットワークの中間表現に関する理論をテストし、完全な一致を見出す。

Equivariance has emerged as a desirable property of representations of objects subject to identity-preserving transformations that constitute a group, such as translations and rotations. However, the expressivity of a representation constrained by group equivariance is still not fully understood. We address this gap by providing a generalization of Cover's Function Counting Theorem that quantifies the number of linearly separable and group-invariant binary dichotomies that can be assigned to equivariant representations of objects. We find that the fraction of separable dichotomies is determined by the dimension of the space that is fixed by the group action. We show how this relation extends to operations such as convolutions, element-wise nonlinearities, and global and local pooling. While other operations do not change the fraction of separable dichotomies, local pooling decreases the fraction, despite being a highly nonlinear operation. Finally, we test our theory on intermediate representations of randomly initialized and fully trained convolutional neural networks and find perfect agreement.
公開日:2021-10-14
翻訳日:2021-10-15 18:26:51
# (参考訳) クエリと抽出: 型指向バイナリデコードとしてのイベント抽出の洗練 [全文訳有]

Query and Extract: Refining Event Extraction as Type-oriented Binary Decoding ( http://arxiv.org/abs/2110.07476v1 )

ライセンス: CC BY 4.0
Sijia Wang, Mo Yu, Shiyu Chang, Lichao Sun, Lifu Huang(参考訳) イベント抽出は通常、イベントタイプと引数の役割の両方が原子記号として扱われるマルチクラス分類問題としてモデル化される。 これらのアプローチは通常、事前に定義された型に制限される。 入力テキストから候補トリガと引数を抽出するために,イベントタイプと引数ロールを自然言語クエリとして取り出す新しいイベント抽出フレームワークを提案する。 クエリのリッチなセマンティクスによって、私たちのフレームワークは、イベントタイプや引数ロールと入力テキスト間のセマンティクス相関をよりよく捉えるための注意機構の恩恵を受けます。 さらに、クエリ・アンド・抽出方式により、様々なオントロジーから利用可能なすべてのイベントアノテーションを統一モデルとして活用することができる。 ACE と ERE の2つの公開ベンチマーク実験により,提案手法が各データセットの最先端性能を実現し,ゼロショットイベント抽出における既存手法を著しく上回ることを示す。 論文が受理されたら、すべてのプログラムを公開します。

Event extraction is typically modeled as a multi-class classification problem where both event types and argument roles are treated as atomic symbols. These approaches are usually limited to a set of pre-defined types. We propose a novel event extraction framework that takes event types and argument roles as natural language queries to extract candidate triggers and arguments from the input text. With the rich semantics in the queries, our framework benefits from the attention mechanisms to better capture the semantic correlation between the event types or argument roles and the input text. Furthermore, the query-and-extract formulation allows our approach to leverage all available event annotations from various ontologies as a unified model. Experiments on two public benchmarks, ACE and ERE, demonstrate that our approach achieves state-of-the-art performance on each dataset and significantly outperforms existing methods on zero-shot event extraction. We will make all the programs publicly available once the paper is accepted.
公開日:2021-10-14
翻訳日:2021-10-15 17:53:43
# (参考訳) 言語モデルにおける個々のニューロンの分析の落とし穴について [全文訳有]

On the Pitfalls of Analyzing Individual Neurons in Language Models ( http://arxiv.org/abs/2110.07483v1 )

ライセンス: CC BY 4.0
Omer Antverg and Yonatan Belinkov(参考訳) 多くの研究は、言語情報は隠れた単語表現でエンコードされていることを示しているが、それがどのようにエンコードされるかを示すために、個々のニューロンを研究することは少ない。 これらのうちの一般的なアプローチは、外部プローブを使用して、ある言語的属性との関連性に応じてニューロンをランク付けし、それを生成した同じプローブを用いて得られたランクを評価することである。 この方法論には2つの落とし穴があります 1. プローブ品質とランキング品質という,異なる要因を考察する。 私たちはそれらを分離し、それぞれの結論を引き出す。 2.モデルが使用する情報ではなく、エンコードされた情報に焦点を当てている。 これらは同じではないことを示します。 本稿では,最近導入した2つのランキング手法と簡単な手法を比較し,両者について評価する。

While many studies have shown that linguistic information is encoded in hidden word representations, few have studied individual neurons, to show how and in which neurons it is encoded. Among these, the common approach is to use an external probe to rank neurons according to their relevance to some linguistic attribute, and to evaluate the obtained ranking using the same probe that produced it. We show two pitfalls in this methodology: 1. It confounds distinct factors: probe quality and ranking quality. We separate them and draw conclusions on each. 2. It focuses on encoded information, rather than information that is used by the model. We show that these are not the same. We compare two recent ranking methods and a simple one we introduce, and evaluate them with regard to both of these aspects.
公開日:2021-10-14
翻訳日:2021-10-15 17:36:44
# (参考訳) データ効率のよいディープラーニングのためのOmni-Training

Omni-Training for Data-Efficient Deep Learning ( http://arxiv.org/abs/2110.07510v1 )

ライセンス: CC BY 4.0
Yang Shu, Zhangjie Cao, Jinghan Gao, Jianmin Wang, Mingsheng Long(参考訳) 短期間にいくつかの例から一般化可能な深層モデルを学ぶことは、マシンラーニングの大きな課題であり、多くのシナリオに広範に展開することを妨げている。 近年の進歩により、適切に訓練されたモデルが重要な特性であるトランスファービリティを持つことが明らかとなった。 学習表現のより高い転送性は、異なる分散領域(ドメイン転送可能性)や異なる意味(タスク転送可能性)のタスクをまたいだより優れた一般化性を示す。 トランスファービリティはデータ効率の深い学習を可能にする鍵となっているが、既存の事前トレーニング手法はドメイントランスファービリティのみに焦点を当て、メタトレーニング手法はタスクトランスファービリティのみに焦点を当てている。 これにより、ドメインとタスクの分散という下流シナリオにおけるデータ効率が制限される。 本稿では,事前学習とメタトレーニングの密接な組み合わせでも,両種類の伝達能力が得られないことを示す。 これは、データ効率のよいディープラーニングに向けて提案された全学学習フレームワークを動機付けている。 最初のコントリビューションは,トリフローアーキテクチャであるOmni-Netです。 共同表現フローに加えて、Omni-Netは2つの新しい並列フローを導入し、それぞれがドメイン転送可能性とタスク転送可能性の学習を行う。 Omni-Netは、ジョイントフローを介してそれらをルーティングすることで並列フローを調整する。 第2の貢献はomni-lossで、平均教師正規化は一般化と安定化された表現を学ぶために課される。 Omni-Trainingは多くの既存の事前トレーニングおよびメタトレーニングアルゴリズムに対応する一般的なフレームワークである。 分類、回帰、強化学習問題におけるクロスタスクおよびクロスドメインデータセットの徹底的な評価により、omni-trainingは最先端の手法を一貫して上回っていることが示された。

Learning a generalizable deep model from a few examples in a short time remains a major challenge of machine learning, which has impeded its wide deployment to many scenarios. Recent advances reveal that a properly pre-trained model endows an important property: transferability. A higher transferability of the learned representations indicates a better generalizability across domains of different distributions (domain transferability), or across tasks of different semantics (task transferability). Transferability has become the key to enable data-efficient deep learning, however, existing pre-training methods focus only on the domain transferability while meta-training methods only on the task transferability. This restricts their data-efficiency in downstream scenarios of diverging domains and tasks. A finding of this paper is that even a tight combination of pre-training and meta-training cannot achieve both kinds of transferability. This motivates the proposed Omni-Training framework towards data-efficient deep learning. Our first contribution is Omni-Net, a tri-flow architecture. Besides the joint representation flow, Omni-Net introduces two new parallel flows for pre-training and meta-training, respectively responsible for learning representations of domain transferability and task transferability. Omni-Net coordinates the parallel flows by routing them via the joint-flow, making each gain the other kind of transferability. Our second contribution is Omni-Loss, in which a mean-teacher regularization is imposed to learn generalizable and stabilized representations. Omni-Training is a general framework that accommodates many existing pre-training and meta-training algorithms. A thorough evaluation on cross-task and cross-domain datasets in classification, regression and reinforcement learning problems shows that Omni-Training consistently outperforms the state-of-the-art methods.
公開日:2021-10-14
翻訳日:2021-10-15 17:13:59
# (参考訳) 二重クラウドソーシングによるRNA分解予測モデル [全文訳有]

Predictive models of RNA degradation through dual crowdsourcing ( http://arxiv.org/abs/2110.07531v1 )

ライセンス: CC BY 4.0
Hannah K. Wayment-Steele, Wipapat Kladwang, Andrew M. Watkins, Do Soon Kim, Bojan Tunguz, Walter Reade, Maggie Temkin, Jonathan Romano, Roger Wellington-Oguri, John J. Nicol, Jiayang Gao, Kazuki Onodera, Kazuki Fujikawa, Hanfei Mao, Gilles Vandewiele, Michele Tinti, Bram Steenwinckel, Takuya Ito, Taiga Noumi, Shujun He, Keiichiro Ishi, Youhan Lee, Fatih \"Ozt\"urk, Anthony Chiu, Emin \"Ozt\"urk, Karim Amer, Mohamed Fares, Eterna Participants, Rhiju Das(参考訳) メッセンジャーrnaベースの薬は、新型コロナウイルスワクチンとして急速に展開していることからもわかるように、大きな可能性を秘めている。 しかし、世界中のmRNA分子の分布は熱安定性によって制限されており、基本的にはRNA分子の内在的不安定性から、インライン加水分解と呼ばれる化学分解反応に制限されている。 RNA分子の劣化を予測することは、より安定したRNAベースの治療を設計する上で重要な課題である。 本稿では、Kaggle上のクラウドソーシング機械学習コンペ("Stanford OpenVaccine")について説明する。これには、6043 102-130ヌクレオチドの多様なRNA構造に対する単一ヌクレオチド分解能の測定が含まれる。 実験は6ヶ月以内に完了した。 勝者モデルは、以前の最先端のDegScoreモデルよりも50%良いテストセットエラーを示した。 さらにこれらのモデルは、より長いmRNA分子(504-1588ヌクレオチド)の直交劣化データを盲目的に予測するために一般化され、DegScoreや他のモデルよりも精度が向上した。 トップチームは、自然言語処理アーキテクチャとデータ拡張技術を統合し、rna二次構造のための以前の動的プログラミングモデルから予測した。 これらの結果から, これらのモデルでは, 高い精度でインライン加水分解を表現できることが示唆された。 データセット作成と機械学習のための2つのクラウドソーシングプラットフォームの統合は、迅速なタイムスケールで科学的発見を要求する他の緊急問題に対して有益である可能性がある。

Messenger RNA-based medicines hold immense potential, as evidenced by their rapid deployment as COVID-19 vaccines. However, worldwide distribution of mRNA molecules has been limited by their thermostability, which is fundamentally limited by the intrinsic instability of RNA molecules to a chemical degradation reaction called in-line hydrolysis. Predicting the degradation of an RNA molecule is a key task in designing more stable RNA-based therapeutics. Here, we describe a crowdsourced machine learning competition ("Stanford OpenVaccine") on Kaggle, involving single-nucleotide resolution measurements on 6043 102-130-nucleotide diverse RNA constructs that were themselves solicited through crowdsourcing on the RNA design platform Eterna. The entire experiment was completed in less than 6 months. Winning models demonstrated test set errors that were better by 50% than the previous state-of-the-art DegScore model. Furthermore, these models generalized to blindly predicting orthogonal degradation data on much longer mRNA molecules (504-1588 nucleotides) with improved accuracy over DegScore and other models. Top teams integrated natural language processing architectures and data augmentation techniques with predictions from previous dynamic programming models for RNA secondary structure. These results indicate that such models are capable of representing in-line hydrolysis with excellent accuracy, supporting their use for designing stabilized messenger RNAs. The integration of two crowdsourcing platforms, one for data set creation and another for machine learning, may be fruitful for other urgent problems that demand scientific discovery on rapid timescales.
公開日:2021-10-14
翻訳日:2021-10-15 17:12:45
# (参考訳) 神経合理モデルの不合理性 [全文訳有]

The Irrationality of Neural Rationale Models ( http://arxiv.org/abs/2110.07550v1 )

ライセンス: CC BY 4.0
Yiming Zheng, Serena Booth, Julie Shah, Yilun Zhou(参考訳) ニューラル合理モデルはnlpタスクの解釈可能な予測によく用いられる。 セレクタは、有理数と呼ばれる入力テキストのセグメントを抽出し、これらのセグメントを予測のための分類器に渡す。 理性は分類器にアクセスできる唯一の情報であるため、説明として妥当に定義される。 そのような特徴は無条件で正しいか? 本稿では、哲学的視点と経験的証拠の両方で、有理モデルが、おそらく予想されるよりも合理的で解釈可能でないことを示唆して、反対に論じる。 我々はこれらのモデルのより厳密で包括的な評価を求め、解釈可能性の望ましい特性が実際に達成されることを保証する。 コードはhttps://github.com/y imingz89/Neural-Rati onale-Analysisで見ることができる。

Neural rationale models are popular for interpretable predictions of NLP tasks. In these, a selector extracts segments of the input text, called rationales, and passes these segments to a classifier for prediction. Since the rationale is the only information accessible to the classifier, it is plausibly defined as the explanation. Is such a characterization unconditionally correct? In this paper, we argue to the contrary, with both philosophical perspectives and empirical evidence suggesting that rationale models are, perhaps, less rational and interpretable than expected. We call for more rigorous and comprehensive evaluations of these models to ensure desired properties of interpretability are indeed achieved. The code can be found at https://github.com/y imingz89/Neural-Rati onale-Analysis.
公開日:2021-10-14
翻訳日:2021-10-15 17:00:23
# (参考訳) 不均一データを用いたリソース制約付きフェデレートエッジラーニング:定式化と解析 [全文訳有]

Resource-constrained Federated Edge Learning with Heterogeneous Data: Formulation and Analysis ( http://arxiv.org/abs/2110.07567v1 )

ライセンス: CC0 1.0
Yi Liu, Yuanshao Zhu, James J.Q. Yu(参考訳) 協調機械学習と無線通信技術による効率的なコラボレーションは、フェデレーション・エッジ・ラーニング(feel)を形成し、次世代のインテリジェント・アプリケーションを生み出した。 しかし、ネットワーク接続のオープン性のため、FEELフレームワークは一般的に数百のリモートデバイス(またはクライアント)を伴い、リソース制約のFEELには適さない高価な通信コストをもたらす。 この問題に対処するために, FEELリソースの制約(通信資源の観点から)を軽減するために, 高速収束速度を有する分散近似ニュートン型アルゴリズムを提案する。 具体的には, 分散l-bfgsアルゴリズムに基づき, 提案手法を改良し, 低コストフィッシャー行列を分散的に計算することにより, 分散l-bfgsアルゴリズムを用いて高コストヘッシアン行列を近似し, 収束を高速化する。 第二に, 提案アルゴリズムは, 強凸および非凸の場合の線形収束を証明し, その計算および通信の複雑さを解析する。 同様に、接続されたリモートデバイスの不均一性のため、FEELは異種データと非IID(独立および独立分散)データの課題に直面している。 そこで我々は,ヘテロジニアスデータによる不均質な統計的課題を解決するため,単純かつエレガントなトレーニングスキームfedovaを設計した。 このようにフェドバは、まず、多クラス分類問題をより単純な二分分類問題に分解し、その後、アンサンブル学習を用いてそれぞれの出力を結合する。 特に、このスキームは、FEELを提供するための通信効率の良いアルゴリズムとうまく統合することができる。 提案アルゴリズムの有効性と優位性を検証した。

Efficient collaboration between collaborative machine learning and wireless communication technology, forming a Federated Edge Learning (FEEL), has spawned a series of next-generation intelligent applications. However, due to the openness of network connections, the FEEL framework generally involves hundreds of remote devices (or clients), resulting in expensive communication costs, which is not friendly to resource-constrained FEEL. To address this issue, we propose a distributed approximate Newton-type algorithm with fast convergence speed to alleviate the problem of FEEL resource (in terms of communication resources) constraints. Specifically, the proposed algorithm is improved based on distributed L-BFGS algorithm and allows each client to approximate the high-cost Hessian matrix by computing the low-cost Fisher matrix in a distributed manner to find a "better" descent direction, thereby speeding up convergence. Second, we prove that the proposed algorithm has linear convergence in strongly convex and non-convex cases and analyze its computational and communication complexity. Similarly, due to the heterogeneity of the connected remote devices, FEEL faces the challenge of heterogeneous data and non-IID (Independent and Identically Distributed) data. To this end, we design a simple but elegant training scheme, namely FedOVA, to solve the heterogeneous statistical challenge brought by heterogeneous data. In this way, FedOVA first decomposes a multi-class classification problem into more straightforward binary classification problems and then combines their respective outputs using ensemble learning. In particular, the scheme can be well integrated with our communication efficient algorithm to serve FEEL. Numerical results verify the effectiveness and superiority of the proposed algorithm.
公開日:2021-10-14
翻訳日:2021-10-15 16:48:53
# (参考訳) smgc:磁気ラプラシアンによる有向グラフの複素値グラフ畳み込みネットワーク [全文訳有]

sMGC: A Complex-Valued Graph Convolutional Network via Magnetic Laplacian for Directed Graphs ( http://arxiv.org/abs/2110.07570v1 )

ライセンス: CC BY 4.0
Jie Zhang, Bo Hui, Po-Wei Harn, Min-Te Sun, and Wei-Shinn Ku(参考訳) グラフニューラルネットワークの最近の進歩は、ノード分類のためのグラフの表現学習における最先端のパフォーマンスをもたらした。 しかし、既存の作業の大多数はシンメトリゼーションによってグラフを指向しており、方向情報の損失を引き起こす可能性がある。 本稿では,複合相を組合せラプラシアンの変形として符号化することにより,エッジ方向を保存できる磁気ラプラシアンを提案する。 さらに,グラフからグローバルな特徴を学習可能な自動回帰移動平均フィルタ(ARMA)を設計する。 時間的複雑性を低減するため、テイラー拡張を用いてフィルタを近似する。 グラフニューラルネットワークにおける複雑な演算を導出し、単純化された磁気グラフ畳み込みネットワーク、すなわちsMGCを考案する。 実験の結果,sMGCは高速で強力で広く適用可能なGNNであることがわかった。

Recent advancements in Graph Neural Networks have led to state-of-the-art performance on representation learning of graphs for node classification. However, the majority of existing works process directed graphs by symmetrization, which may cause loss of directional information. In this paper, we propose the magnetic Laplacian that preserves edge directionality by encoding it into complex phase as a deformation of the combinatorial Laplacian. In addition, we design an Auto-Regressive Moving-Average (ARMA) filter that is capable of learning global features from graphs. To reduce time complexity, Taylor expansion is applied to approximate the filter. We derive complex-valued operations in graph neural network and devise a simplified Magnetic Graph Convolution network, namely sMGC. Our experiment results demonstrate that sMGC is a fast, powerful, and widely applicable GNN.
公開日:2021-10-14
翻訳日:2021-10-15 16:20:14
# (参考訳) ネットワーク表現学習: 前処理から特徴抽出からノード埋め込みへ

Network Representation Learning: From Preprocessing, Feature Extraction to Node Embedding ( http://arxiv.org/abs/2110.07582v1 )

ライセンス: CC BY 4.0
Jingya Zhou, Ling Liu, Wenqi Wei, Jianxi Fan(参考訳) ネットワーク表現学習(NRL)は、ソーシャルネットワーク、知識グラフ、複雑なバイオメディカルおよび物理情報ネットワークの従来のグラフマイニングを進歩させる。 数十以上のネットワーク表現学習アルゴリズムが文献で報告されている。 ほとんどは均質なネットワークのためのノード埋め込みの学習に焦点を当てているが、特定のエンコーディングスキームやノードセマンティクスの特定のタイプが異なるため、ノード埋め込みの学習に使われる。 本稿では,同種ネットワーク上でのネットワーク表現学習における設計原理と異なるノード埋め込み手法について述べる。 異なるノード埋め込みアルゴリズムの比較を容易にするために,ネットワーク上のノード埋め込み学習プロセスを前処理ステップ,ノード特徴抽出ステップ,リンク予測やノードクラスタリングなどのnrlタスクのためのノード埋め込みモデルトレーニングに分割,一般化する統一参照フレームワークを提案する。 この統一参照フレームワークにより、ノード埋め込みモデル学習プロセスのさまざまなステージで使用される代表的な方法、モデル、およびテクニックを強調する。 この調査は、研究者や実践者が異なるネットワーク表現学習技術を深く理解するのに役立つだけでなく、次世代のネットワーク表現学習アルゴリズムやシステムの設計と開発のための実践的なガイドラインを提供する。

Network representation learning (NRL) advances the conventional graph mining of social networks, knowledge graphs, and complex biomedical and physics information networks. Over dozens of network representation learning algorithms have been reported in the literature. Most of them focus on learning node embeddings for homogeneous networks, but they differ in the specific encoding schemes and specific types of node semantics captured and used for learning node embedding. This survey paper reviews the design principles and the different node embedding techniques for network representation learning over homogeneous networks. To facilitate the comparison of different node embedding algorithms, we introduce a unified reference framework to divide and generalize the node embedding learning process on a given network into preprocessing steps, node feature extraction steps and node embedding model training for a NRL task such as link prediction and node clustering. With this unifying reference framework, we highlight the representative methods, models, and techniques used at different stages of the node embedding model learning process. This survey not only helps researchers and practitioners to gain an in-depth understanding of different network representation learning techniques but also provides practical guidelines for designing and developing the next generation of network representation learning algorithms and systems.
公開日:2021-10-14
翻訳日:2021-10-15 16:06:32
# (参考訳) フルウェーブフォーム逆変換の教師なし学習:CNNとループ部分微分方程式を接続する [全文訳有]

Unsupervised Learning of Full-Waveform Inversion: Connecting CNN and Partial Differential Equation in a Loop ( http://arxiv.org/abs/2110.07584v1 )

ライセンス: CC BY 4.0
Peng Jin, Xitong Zhang, Yinpeng Chen, Sharon Xiaolei Huang, Zicheng Liu, Youzuo Lin(参考訳) 本稿では,地震データから地下速度マップを推定するために,地球物理学において広く用いられているフルウェーブフォームインバージョン(fwi)の教師なし学習について検討する。 この問題は2階偏微分方程式(PDE)によって数学的に定式化されているが、解くのは難しい。 さらに、速度マップの取得は非常に高価であり、地震データから畳み込みニューラルネットワーク(CNN)を用いた速度マップへのマッピングをトレーニングするための教師ありアプローチのスケールアップは不可能である。 我々は,pde と cnn をループに統合し,地震データのみを必要とする教師なし学習にパラダイムをシフトすることで,これらの課題に対処する。 特に,(速度マップから地震データまで)微分可能作用素としてのpdeの前方モデリングを近似し,cnn(地震データから速度マップまで)による反転をモデル化するために有限差分を用いる。 そこで,教師あり逆タスクを教師なしの地震データ復元タスクに変換する。 また、コミュニティにとってより困難なベンチマークを確立するために、新しい大規模データセットOpenFWIも導入しました。 実験の結果,(地震データのみを用いた)モデルが,(地震データと速度マップの両方を用いて)教師付きモデルに匹敵する精度を示すことがわかった。 さらに、より多くの地震データを含む場合、教師付きモデルを上回る。

This paper investigates unsupervised learning of Full-Waveform Inversion (FWI), which has been widely used in geophysics to estimate subsurface velocity maps from seismic data. This problem is mathematically formulated by a second order partial differential equation (PDE), but is hard to solve. Moreover, acquiring velocity map is extremely expensive, making it impractical to scale up a supervised approach to train the mapping from seismic data to velocity maps with convolutional neural networks (CNN). We address these difficulties by integrating PDE and CNN in a loop, thus shifting the paradigm to unsupervised learning that only requires seismic data. In particular, we use finite difference to approximate the forward modeling of PDE as a differentiable operator (from velocity map to seismic data) and model its inversion by CNN (from seismic data to velocity map). Hence, we transform the supervised inversion task into an unsupervised seismic data reconstruction task. We also introduce a new large-scale dataset OpenFWI, to establish a more challenging benchmark for the community. Experiment results show that our model (using seismic data alone) yields comparable accuracy to the supervised counterpart (using both seismic data and velocity map). Furthermore, it outperforms the supervised model when involving more seismic data.
公開日:2021-10-14
翻訳日:2021-10-15 16:05:22
# (参考訳) 3Dヒューマンリカバリをめざして [全文訳有]

Playing for 3D Human Recovery ( http://arxiv.org/abs/2110.07588v1 )

ライセンス: CC BY 4.0
Zhongang Cai, Mingyuan Zhang, Jiawei Ren, Chen Wei, Daxuan Ren, Jiatong Li, Zhengyu Lin, Haiyu Zhao, Shuai Yi, Lei Yang, Chen Change Loy, Ziwei Liu(参考訳) 画像と映像に基づく3次元人間の回復(ポーズと形状の推定)は、大きな進歩を遂げた。 しかし、モーションキャプチャーの禁止コストのため、既存のデータセットはスケールや多様性に制限されることが多く、より強力なモデルの開発を妨げている。 そこで本研究では,ビデオゲームをプレイすることで,膨大な人間のシーケンスと3Dの地上真実を得る。 具体的には,GTA-Vゲームエンジンで生成した大規模かつ高多様性な3次元人的データセットであるGTA-Humanに貢献する。 テーマ、アクション、シナリオの豊富なセットでは、GTA-Humanは両方の効果的なトレーニングソースとして機能する。 特に「データの不合理な有効性」現象は,ゲームプレイデータを用いて3次元人間の回復において検証される。 GTA-Humanでトレーニングされた単純なフレームベースのベースラインは、ビデオベースの手法では、ドメイン内のトレーニングセットよりも優れていることを示す。 我々は、同じ一貫した改善を観察するために、より大規模なモデルに研究を拡張し、監視信号の研究は、SMPLアノテーションの豊富な収集が重要であることを示唆している。 さらに,GTA-Humanの多彩なアノテーションを用いて,カメラアングル,ポーズ,オクルージョンなど,現実世界のさまざまなバリエーションの下で様々な手法の性能を体系的に検討する。 私たちは、人間の3Dリカバリを現実世界に拡大するための道を開いたいと考えています。

Image- and video-based 3D human recovery (i.e. pose and shape estimation) have achieved substantial progress. However, due to the prohibitive cost of motion capture, existing datasets are often limited in scale and diversity, which hinders the further development of more powerful models. In this work, we obtain massive human sequences as well as their 3D ground truths by playing video games. Specifically, we contribute, GTA-Human, a mega-scale and highly-diverse 3D human dataset generated with the GTA-V game engine. With a rich set of subjects, actions, and scenarios, GTA-Human serves as both an effective training source. Notably, the "unreasonable effectiveness of data" phenomenon is validated in 3D human recovery using our game-playing data. A simple frame-based baseline trained on GTA-Human already outperforms more sophisticated methods by a large margin; for video-based methods, GTA-Human demonstrates superiority over even the in-domain training set. We extend our study to larger models to observe the same consistent improvements, and the study on supervision signals suggests the rich collection of SMPL annotations is key. Furthermore, equipped with the diverse annotations in GTA-Human, we systematically investigate the performance of various methods under a wide spectrum of real-world variations, e.g. camera angles, poses, and occlusions. We hope our work could pave way for scaling up 3D human recovery to the real world.
公開日:2021-10-14
翻訳日:2021-10-15 15:52:16
# ディープニューラルネットワークアーキテクチャ設計にモメンタムはどのように役立つのか? ほんの少しのケーススタディ

How Does Momentum Benefit Deep Neural Networks Architecture Design? A Few Case Studies ( http://arxiv.org/abs/2110.07034v1 )

ライセンス: Link先を確認
Bao Wang and Hedi Xia and Tan Nguyen and Stanley Osher(参考訳) 本稿では、運動量によるニューラルネットワークアーキテクチャ設計を改善するためのアルゴリズム的および理論的枠組みを提示、レビューする。 ケーススタディとして、再帰ニューラルネットワーク(rnn)、神経常微分方程式(odes)、トランスフォーマーのアーキテクチャ設計において、運動量がどのように改善できるかを検討する。 ニューラルネットワークアーキテクチャへのモメンタムの統合には,理論上,経験上のメリットがいくつかあることを示す。 1) RNNとニューラルODEへの運動量の統合は、RNNとニューラルODEのトレーニングにおいて消滅する勾配問題を克服し、長期的依存を効果的に学習する。 2)ニューラルODEの運動量は、ODEダイナミクスの剛性を低下させ、トレーニングやテストにおける計算効率を大幅に向上させる。 3) 運動量は変圧器の効率と精度を向上させることができる。

We present and review an algorithmic and theoretical framework for improving neural network architecture design via momentum. As case studies, we consider how momentum can improve the architecture design for recurrent neural networks (RNNs), neural ordinary differential equations (ODEs), and transformers. We show that integrating momentum into neural network architectures has several remarkable theoretical and empirical benefits, including 1) integrating momentum into RNNs and neural ODEs can overcome the vanishing gradient issues in training RNNs and neural ODEs, resulting in effective learning long-term dependencies. 2) momentum in neural ODEs can reduce the stiffness of the ODE dynamics, which significantly enhances the computational efficiency in training and testing. 3) momentum can improve the efficiency and accuracy of transformers.
公開日:2021-10-13
翻訳日:2021-10-15 15:28:51
# 部分ネスト情報構造を持つ分散線形二次レギュレータのサンプル複雑性について

On the Sample Complexity of Decentralized Linear Quadratic Regulator with Partially Nested Information Structure ( http://arxiv.org/abs/2110.07112v1 )

ライセンス: Link先を確認
Lintao Ye, Hao Zhu, Vijay Gupta(参考訳) システムモデルが不明な場合, 部分ネスト情報構造を持つ分散状態フィードバック線形二次制御における制御ポリシー設計の問題点について検討する。 2つのステップからなるモデルベース学習ソリューションを提案する。 まず,最小二乗推定を用いて,有限長の単一系軌道から未知の系モデルを推定する。 次に、推定システムモデルに基づいて、所望の情報構造を満たす制御ポリシーを設計する。 制御ポリシと最適分散制御ポリシ(システムモデルの正確な知識を用いて設計された)の最適性差は,システムモデルの推定誤差と線形にスケールすることを示す。 この結果を用いて,部分ネストした情報構造を持つ線形二次制御問題の分散制御を学習するための,エンドツーエンドのサンプル複雑性結果を提供する。

We study the problem of control policy design for decentralized state-feedback linear quadratic control with a partially nested information structure, when the system model is unknown. We propose a model-based learning solution, which consists of two steps. First, we estimate the unknown system model from a single system trajectory of finite length, using least squares estimation. Next, based on the estimated system model, we design a control policy that satisfies the desired information structure. We show that the suboptimality gap between our control policy and the optimal decentralized control policy (designed using accurate knowledge of the system model) scales linearly with the estimation error of the system model. Using this result, we provide an end-to-end sample complexity result for learning decentralized controllers for a linear quadratic control problem with a partially nested information structure.
公開日:2021-10-14
翻訳日:2021-10-15 15:28:37
# MIMO-NOMAにおけるセキュアプリコーディング : 深層学習アプローチ

Secure Precoding in MIMO-NOMA: A Deep Learning Approach ( http://arxiv.org/abs/2110.07121v1 )

ライセンス: Link先を確認
Jordan Pauls and Mojtaba Vaezi(参考訳) ディープニューラルネットワーク(DNN)を用いた2ユーザマルチインプット多重出力非直交多重アクセスチャネル上でのセキュア伝送のための新しいシグナリング設計を提案する。 DNNの目標は、各ユーザのメッセージがメッセージから秘密にされながら確実に送信されるように、ユーザの信号の共分散行列を形成することである。 提案したDNNは,各ユーザの信号を重畳する前に線形にプリコードし,実行時間を大幅に短縮してほぼ最適性能を実現する。 シミュレーションの結果,提案モデルは秘密容量の約98%に達することがわかった。 dnnプリコーダのスペクトル効率は、既存の解析線形プリコーダよりもはるかに高く(例えば、一般化された特異値分解)、そのオン・ザ・フライの複雑さは、既存の反復法よりも数倍小さい。

A novel signaling design for secure transmission over two-user multiple-input multiple-output non-orthogonal multiple access channel using deep neural networks (DNNs) is proposed. The goal of the DNN is to form the covariance matrix of users' signals such that the message of each user is transmitted reliably while being confidential from its counterpart. The proposed DNN linearly precodes each user's signal before superimposing them and achieves near-optimal performance with significantly lower run time. Simulation results show that the proposed models reach about 98% of the secrecy capacity rates. The spectral efficiency of the DNN precoder is much higher than that of existing analytical linear precoders--e.g., generalized singular value decomposition--and its on-the-fly complexity is several times less than the existing iterative methods.
公開日:2021-10-14
翻訳日:2021-10-15 15:28:24
# SpecSinGAN:単一画像ガンを用いた音響効果変動合成

SpecSinGAN: Sound Effect Variation Synthesis Using Single-Image GANs ( http://arxiv.org/abs/2110.07311v1 )

ライセンス: Link先を確認
Adri\'an Barahona-R\'ios, Tom Collins(参考訳) 単一画像生成逆数ネットワークは、単一のトレーニング例の内部分布から学習し、そのバリエーションを生成し、大規模なデータセットの必要性を取り除く。 本稿では,一対一の音効果(例えば,フットステップ,キャラクタジャンプ)と,同一の録音セッションとは全く異なるような新しいバリエーションを生成する無条件生成アーキテクチャであるSpecSinGANを紹介する。 本研究では,マルチチャネルスペクトログラムを用いて,単一音響効果を構成する様々なレイヤのモデルを学習する。 本モデルと実記録およびディジタル信号処理方式の音声モデルを比較した聞き取り調査の結果,マルチチャネルスペクトログラムを用いた場合,スペックシンガンは検討したプロシーデュラルオーディオモデルよりも多様で多様であることが判明した。 例はプロジェクトのWebサイト(https://www.adrianb arahonarios.com/spec singan/)で見ることができる。

Single-image generative adversarial networks learn from the internal distribution of a single training example to generate variations of it, removing the need of a large dataset. In this paper we introduce SpecSinGAN, an unconditional generative architecture that takes a single one-shot sound effect (e.g., a footstep; a character jump) and produces novel variations of it, as if they were different takes from the same recording session. We explore the use of multi-channel spectrograms to train the model on the various layers that comprise a single sound effect. A listening study comparing our model to real recordings and to digital signal processing procedural audio models in terms of sound plausibility and variation revealed that SpecSinGAN is more plausible and varied than the procedural audio models considered, when using multi-channel spectrograms. Sound examples can be found at the project website: https://www.adrianba rahonarios.com/specs ingan/
公開日:2021-10-14
翻訳日:2021-10-15 15:28:08
# 非音声タスクのためのコンフォーメータ型自己教師付き学習

Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks ( http://arxiv.org/abs/2110.07313v1 )

ライセンス: Link先を確認
Sangeeta Srivastava, Yun Wang, Andros Tjandra, Anurag Kumar, Chunxi Liu, Kritika Singh, Yatharth Saraf(参考訳) ラベルのないデータからの表現学習は、人工知能研究において大きな関心を集めている。 音声研究コミュニティでは自己指導型音声表現学習が普及しているが,非音声音声タスクにおける音声表現学習を包括的に分析する研究はほとんどない。 本稿では,自己教師型音声表現学習法を提案し,それを下流の音声非音声タスクに適用する。 音声タスクの自己教師あり学習とパラメータ効率のよいコンフォーメータアーキテクチャに成功をおさめた,有名なwav2vec 2.0フレームワークを組み合わせる。 オーディオセットベンチマークでは、平均平均精度(map)スコアが0.415となり、これは音声のみの自己教師付き学習を通じて、このデータセットの最先端技術である。 我々の微調整コンバータは、いくつかの下流タスクにおいて教師付き方式で事前訓練された以前のシステムの性能を上回るか、一致します。 さらに、事前学習と微調整の両方において重要な設計上の考慮事項について論じる。

Representation learning from unlabeled data has been of major interest in artificial intelligence research. While self-supervised speech representation learning has been popular in the speech research community, very few works have comprehensively analyzed audio representation learning for non-speech audio tasks. In this paper, we propose a self-supervised audio representation learning method and apply it to a variety of downstream non-speech audio tasks. We combine the well-known wav2vec 2.0 framework, which has shown success in self-supervised learning for speech tasks, with parameter-efficient conformer architectures. On the AudioSet benchmark, we achieve a mean average precision (mAP) score of 0.415, which is a new state-of-the-art on this dataset through audio-only self-supervised learning. Our fine-tuned conformers also surpass or match the performance of previous systems pre-trained in a supervised way on several downstream tasks. We further discuss the important design considerations for both pre-training and fine-tuning.
公開日:2021-10-14
翻訳日:2021-10-15 15:27:50
# 完全分散通信による高能率マルチエージェント強化学習

Provably Efficient Multi-Agent Reinforcement Learning with Fully Decentralized Communication ( http://arxiv.org/abs/2110.07392v1 )

ライセンス: Link先を確認
Justin Lidard, Udari Madhushani, Naomi Ehrich Leonard(参考訳) 強化学習(RL)における課題は,探索に伴うサンプリングコストの最小化である。 分散探索はマルチエージェントRL(MARL)のサンプリング複雑性を低減する。 探検が完全に分散化されているMARLにおける性能の利点について検討する。 具体的には,オンライン,エピソディック,表形式の$q$学習問題を,エージェントが分散的にコミュニケーションできる時間変動報酬とトランジションダイナミクス(transition dynamics)下で考慮し,各エージェントが分散メッセージ・パッシング・プロトコルを使用する場合,その$\gamma$-hop近傍への情報送信に制限された場合でも,グループのパフォーマンスは,後悔のバウンドで測定されるように,コミュニケーションを通じて著しく向上することを示す。 我々は,エージェント数,通信ネットワーク構造,および$\gammaに依存する,後悔とサンプルの複雑性境界を証明する。 より多くのエージェントとより多くの情報共有をグループ学習方式に組み込むことで、最適なポリシーへの収束が加速することを示す。 数値シミュレーションは我々の結果を示し、理論的な主張を検証する。

A challenge in reinforcement learning (RL) is minimizing the cost of sampling associated with exploration. Distributed exploration reduces sampling complexity in multi-agent RL (MARL). We investigate the benefits to performance in MARL when exploration is fully decentralized. Specifically, we consider a class of online, episodic, tabular $Q$-learning problems under time-varying reward and transition dynamics, in which agents can communicate in a decentralized manner.We show that group performance, as measured by the bound on regret, can be significantly improved through communication when each agent uses a decentralized message-passing protocol, even when limited to sending information up to its $\gamma$-hop neighbors. We prove regret and sample complexity bounds that depend on the number of agents, communication network structure and $\gamma.$ We show that incorporating more agents and more information sharing into the group learning scheme speeds up convergence to the optimal policy. Numerical simulations illustrate our results and validate our theoretical claims.
公開日:2021-10-14
翻訳日:2021-10-15 15:27:35
# Infinite-Horizon POMDPにおけるメモリレス確率最適化の幾何学

The Geometry of Memoryless Stochastic Policy Optimization in Infinite-Horizon POMDPs ( http://arxiv.org/abs/2110.07409v1 )

ライセンス: Link先を確認
Guido Mont\'ufar, Johannes M\"uller(参考訳) 有限状態および作用空間を有する無限水平部分観測可能マルコフ決定過程(POMDP)に対して、割引条件または平均報酬基準のいずれかに関して、最適なメモリレス確率的ポリシーを求めることを考える。 評価された状態-作用周波数と予測累積報酬は政策の有理関数であり、その度合いは部分観測可能性の度合いによって決定されることを示す。 次に, 多項式制約を受ける状態動作周波数空間における線形最適化問題として, 明示的に特徴付ける最適化問題を記述した。 これにより、多項式最適化の最近のツールを用いて、最適化問題の組合せ的および幾何学的複雑さに対処することができる。 特に、部分可観測性制約が複数の滑らかでスムースでない局所最適化にどのようにつながるかを実証し、臨界点の数を推定する。

We consider the problem of finding the best memoryless stochastic policy for an infinite-horizon partially observable Markov decision process (POMDP) with finite state and action spaces with respect to either the discounted or mean reward criterion. We show that the (discounted) state-action frequencies and the expected cumulative reward are rational functions of the policy, whereby the degree is determined by the degree of partial observability. We then describe the optimization problem as a linear optimization problem in the space of feasible state-action frequencies subject to polynomial constraints that we characterize explicitly. This allows us to address the combinatorial and geometric complexity of the optimization problem using recent tools from polynomial optimization. In particular, we demonstrate how the partial observability constraints can lead to multiple smooth and non-smooth local optimizers and we estimate the number of critical points.
公開日:2021-10-14
翻訳日:2021-10-15 15:27:13
# 内因性ベイズ因子による可変長鎖の更新状態の検出

Detecting Renewal States in Chains of Variable Length via Intrinsic Bayes Factors ( http://arxiv.org/abs/2110.07430v1 )

ライセンス: Link先を確認
Victor Freguglia and Nancy Garcia(参考訳) 可変長のマルコフ連鎖は、ほとんどの定常的な離散記号列を生成できる相似確率モデルとして有用である。 その考え方は、未来のシンボルを予測することに関連する文脈と呼ばれる過去の接尾辞を特定することである。 ひとつの状態がコンテキストであり、過去を見て、この特定の状態を見つけることで、さらに過去の状態が無関係になる場合もあります。 これらの状態は更新状態と呼ばれ、鎖を独立したブロックに分割する。 可変長鎖の更新状態を特定するために,各更新状態の可算性を評価するために,内在的ベイズ係数を用いることを提案する。 この場合の難点は、遷移確率に先立つ文脈木とディリクレの空間上の一般的な事前分布に対するランダム文脈木に対する辺縁後分布を見つけることである。 本手法の強みを示すために,二元モデルモデルから生成された人工データセットと,言語学の分野からの例を解析した。

Markov chains with variable length are useful parsimonious stochastic models able to generate most stationary sequence of discrete symbols. The idea is to identify the suffixes of the past, called contexts, that are relevant to predict the future symbol. Sometimes a single state is a context, and looking at the past and finding this specific state makes the further past irrelevant. These states are called renewal states and they split the chain into independent blocks. In order to identify renewal states for chains with variable length, we propose the use of Intrinsic Bayes Factor to evaluate the plausibility of each set of renewal states. In this case, the difficulty lies in finding the marginal posterior distribution for the random context trees for general prior distribution on the space of context trees and Dirichlet prior for the transition probabilities. To show the strength of our method, we analyzed artificial datasets generated from two binary models models and one example coming from the field of Linguistics.
公開日:2021-10-14
翻訳日:2021-10-15 15:26:10
# 劣化ロバスト音声変換に向けて

Toward Degradation-Robust Voice Conversion ( http://arxiv.org/abs/2110.07537v1 )

ライセンス: Link先を確認
Chien-yu Huang, Kai-Wei Chang, Hung-yi Lee(参考訳) あらゆる音声変換技術は、発話の発声音を訓練中に見つからないあらゆる話者に変換する。 最先端の音声変換モデルがいくつか存在するが、すべてはクリーンな発話に基づいて変換に成功した。 しかし、現実のシナリオでは、話者のクリーンな発話を収集することは困難であり、通常はノイズや残響によって劣化する。 したがって、これらの劣化が音声変換にどのように影響するかを理解し、劣化ロバストモデルを構築することが強く望まれる。 本稿では,任意の音声変換の劣化頑健性に関する総合的研究を報告する。 近年の最先端モデルの性能は, 発話の劣化により著しく損なわれた。 そこで我々は,頑健さを向上させるために,音声強調結合と聴覚訓練を提案する。 また, 一般的な劣化に加えて, モデル出力を著しく変化させる逆方向雑音も人間の知覚に及ばない。 既製音声強調モデルとの結合と,音声変換モデルの発声訓練は,それぞれが長所と短所を有しながらロバスト性を改善することができた。

Any-to-any voice conversion technologies convert the vocal timbre of an utterance to any speaker even unseen during training. Although there have been several state-of-the-art any-to-any voice conversion models, they were all based on clean utterances to convert successfully. However, in real-world scenarios, it is difficult to collect clean utterances of a speaker, and they are usually degraded by noises or reverberations. It thus becomes highly desired to understand how these degradations affect voice conversion and build a degradation-robust model. We report in this paper the first comprehensive study on the degradation robustness of any-to-any voice conversion. We show that the performance of state-of-the-art models nowadays was severely hampered given degraded utterances. To this end, we then propose speech enhancement concatenation and denoising training to improve the robustness. In addition to common degradations, we also consider adversarial noises, which alter the model output significantly yet are human-imperceptible. It was shown that both concatenations with off-the-shelf speech enhancement models and denoising training on voice conversion models could improve the robustness, while each of them had pros and cons.
公開日:2021-10-14
翻訳日:2021-10-15 15:25:56
# 測地線凸性による行列およびテンソル正規モデルの最適サンプル複雑性

Near optimal sample complexity for matrix and tensor normal models via geodesic convexity ( http://arxiv.org/abs/2110.07583v1 )

ライセンス: Link先を確認
Cole Franks, Rafael Oliveira, Akshay Ramachandran, Michael Walter(参考訳) 行列正規モデルは、共分散行列が2つの低次元因子のクロネッカー積であるガウス行列-変量分布の族であり、行列-変量データのモデル化によく用いられる。 テンソル正規モデルは、この族を3つ以上の因子のクロネッカー積に一般化する。 行列およびテンソルモデルにおける共分散行列のクロネッカー因子の推定について検討した。 いくつかの自然測度において最大極大推定器(MLE)によって達成された誤差に対する漸近的境界を示す。 既存の境界とは対照的に、我々の結果は条件がよく、あるいは疎い要素に依存しない。 行列正規モデルでは、我々のすべての境界は対数係数まで極小最適であり、テンソル正規モデルでは、最大因子と全体共分散行列に対する境界は、任意の推定器が定数フロベニウス誤差を得るのに十分なサンプルが存在するような定数因子まで極小最適である。 サンプルの複雑性境界と同じ方法では、フリップフロップアルゴリズムとして知られるmleを計算する反復手順が線形に高確率収束することを示す。 我々の主なツールはフィッシャー情報計量によって誘導される正定値行列の幾何学における測地線強凸性である。 この強い凸性は、あるランダム量子チャネルの拡張によって決定される。 また,フリップフロップアルゴリズムと簡易縮小推定器を組み合わせることで,アンダーサンプリング方式の性能を向上させることができることを示す。

The matrix normal model, the family of Gaussian matrix-variate distributions whose covariance matrix is the Kronecker product of two lower dimensional factors, is frequently used to model matrix-variate data. The tensor normal model generalizes this family to Kronecker products of three or more factors. We study the estimation of the Kronecker factors of the covariance matrix in the matrix and tensor models. We show nonasymptotic bounds for the error achieved by the maximum likelihood estimator (MLE) in several natural metrics. In contrast to existing bounds, our results do not rely on the factors being well-conditioned or sparse. For the matrix normal model, all our bounds are minimax optimal up to logarithmic factors, and for the tensor normal model our bound for the largest factor and overall covariance matrix are minimax optimal up to constant factors provided there are enough samples for any estimator to obtain constant Frobenius error. In the same regimes as our sample complexity bounds, we show that an iterative procedure to compute the MLE known as the flip-flop algorithm converges linearly with high probability. Our main tool is geodesic strong convexity in the geometry on positive-definite matrices induced by the Fisher information metric. This strong convexity is determined by the expansion of certain random quantum channels. We also provide numerical evidence that combining the flip-flop algorithm with a simple shrinkage estimator can improve performance in the undersampled regime.
公開日:2021-10-14
翻訳日:2021-10-15 15:25:39
# vabo:非モデル化制約による閉ループ制御性能最適化のための違反回避ベイズ最適化

VABO: Violation-Aware Bayesian Optimization for Closed-Loop Control Performance Optimization with Unmodeled Constraints ( http://arxiv.org/abs/2110.07479v1 )

ライセンス: Link先を確認
Wenjie Xu, Colin N Jones, Bratislav Svetozarevic, Christopher R. Laughman, Ankush Chakrabarty(参考訳) 非モデル化力学を用いた閉ループ制御システムの性能最適化問題について検討する。 ベイズ最適化(BO)は,制御器ゲインや参照セットポイントをモデルフリーで自動チューニングすることで,閉ループ性能向上に有効であることが実証されている。 しかし、bo法が非モデル化制約のある力学系でテストされることは滅多にない。 本稿では,制約対応ソリューションを同時に学習しながらクローズドループ性能を最適化する,違反対応BOアルゴリズムを提案する。 制約違反を無制限に許容する従来の制限付きboメソッドや、保守的でゼロに近い違反で動作しようとする安全なboアルゴリズムとは異なり、予算制限違反は制約学習を改善し最適化を加速する。 産業用蒸気圧縮システムのエネルギー最小化のためのVABO法の有効性を実証する。

We study the problem of performance optimization of closed-loop control systems with unmodeled dynamics. Bayesian optimization (BO) has been demonstrated effective for improving closed-loop performance by automatically tuning controller gains or reference setpoints in a model-free manner. However, BO methods have rarely been tested on dynamical systems with unmodeled constraints. In this paper, we propose a violation-aware BO algorithm (VABO) that optimizes closed-loop performance while simultaneously learning constraint-feasible solutions. Unlike classical constrained BO methods which allow an unlimited constraint violations, or safe BO algorithms that are conservative and try to operate with near-zero violations, we allow budgeted constraint violations to improve constraint learning and accelerate optimization. We demonstrate the effectiveness of our proposed VABO method for energy minimization of industrial vapor compression systems.
公開日:2021-10-14
翻訳日:2021-10-15 15:25:15
# (参考訳) 音声毒性分析 : 新しい音声言語処理タスク [全文訳有]

Speech Toxicity Analysis: A New Spoken Language Processing Task ( http://arxiv.org/abs/2110.07592v1 )

ライセンス: CC BY 4.0
Sreyan Ghosh and Samden Lepcha and S Sakshi and Rajiv Ratn Shah(参考訳) ヘイトスピーチ(ヘイトスピーチ、ヘイトスピーチ、英: hate speech)は、今日のオンライン・ソーシャルメディアにおける重要な問題の一つ。 有毒な音声検出に関する最近の研究は、音声発話からの有毒な検出に関する既存の研究を伴わず、テキストのモダリティに制約されている。 本稿では,音声から有害性を検出する新しい音声言語処理タスクを提案する。 DeToxyは、200万以上の発話からなる各種公開音声データベースから得られた、英語音声のための、初めて公開された毒性アノテートデータセットである。 最後に, 有毒度を付与した音声コーパスが, 音声中の様々な韻律的手がかりをよりよく捉え, 音声の有毒度分類を促進するE2Eモデルの開発に有効であることを示す。

Toxic speech, also known as hate speech, is regarded as one of the crucial issues plaguing online social media today. Most recent work on toxic speech detection is constrained to the modality of text with no existing work on toxicity detection from spoken utterances. In this paper, we propose a new Spoken Language Processing task of detecting toxicity from spoken speech. We introduce DeToxy, the first publicly available toxicity annotated dataset for English speech, sourced from various openly available speech databases, consisting of over 2 million utterances. Finally, we also provide analysis on how a spoken speech corpus annotated for toxicity can help facilitate the development of E2E models which better capture various prosodic cues in speech, thereby boosting toxicity classification on spoken utterances.
公開日:2021-10-14
翻訳日:2021-10-15 15:23:42
# サファートランスポーテーションを目指して : 交通ビデオデライニングのための自己教師型学習アプローチ

Towards Safer Transportation: a self-supervised learning approach for traffic video deraining ( http://arxiv.org/abs/2110.07379v1 )

ライセンス: Link先を確認
Shuya Zong, Sikai Chen, Samuel Labi(参考訳) 交通の監視は、交通管理と制御、交通計数、交通法執行に有用である。 しかし, 降雨時の交通監視は, 映像上での降雨によって映像品質が悪化し, 道路環境だけでなく, 悪天候時の道路利用者の行動の信頼性が損なわれるため, 困難な作業である。 本研究では,交通映像中の雨害を除去する2段階の自己教師型学習手法を提案する。 第1段と第2段はそれぞれフレーム内ノイズとフレーム間ノイズに対処する。 その結果,画像の視覚品質とピーク信号と雑音比の値において,モデルの性能は良好であった。

Video monitoring of traffic is useful for traffic management and control, traffic counting, and traffic law enforcement. However, traffic monitoring during inclement weather such as rain is a challenging task because video quality is corrupted by streaks of falling rain on the video image, and this hinders reliable characterization not only of the road environment but also of road-user behavior during such adverse weather events. This study proposes a two-stage self-supervised learning method to remove rain streaks in traffic videos. The first and second stages address intra- and inter-frame noise, respectively. The results indicated that the model exhibits satisfactory performance in terms of the image visual quality and the Peak Signal-Noise Ratio value.
公開日:2021-10-11
翻訳日:2021-10-15 15:13:24
# TDACNN:ガスセンサのドリフト補償のためのターゲットドメインフリードメイン適応畳み込みニューラルネットワーク

TDACNN: Target-domain-free Domain Adaptation Convolutional Neural Network for Drift Compensation in Gas Sensors ( http://arxiv.org/abs/2110.07509v1 )

ライセンス: Link先を確認
Yuelin Zhang, Jia Yan, Zehuan Wanga, Xiaoyan Peng, Yutong Tian, Shukai Duan(参考訳) センサドリフト(Sensor drift)は、ガス状物質認識の性能を悪化させる予測不可能な問題であり、アンチドリフト領域適応アルゴリズムを求めている。 しかし、優れた結果を得るための従来の手法の前提条件は、ドメインアライメントのための非ドリフト分布(ソースドメイン)とドリフト分布(ターゲットドメイン)の両方からのデータを得ることである。 そこで本稿では,ターゲット領域非適応型畳み込みニューラルネットワーク(tdacnn)を用いたディープラーニングを提案する。 主な概念は、cnnがサンプルのドメイン固有の特徴だけでなく、ソースドメインとターゲットドメインの両方の基礎となるドメイン不変特徴を抽出することである。 これら様々なレベルの埋め込み特徴をフル活用することにより、異なるレベルの特性を包括的に活用し、2つの領域間の抽出した中間特徴によるドリフト補償を実現することができる。 TDACNNでは,マルチクラス化構造を持つフレキシブルなマルチブランチバックボーンがバイオニクスの指導のもと提案されている。 疑似ラベルの信頼性に基づいて, 最大平均差分率(MMD)に基づく分類器アンサンブル法を提案し, 全分類器を共同評価する。 ネットワークトレーニングを最適化するために,パラメータ動的調整による付加的な角縁ソフトマックス損失を利用する。 異なる設定下での2つのドリフトデータセットの実験は、いくつかの最先端手法と比較してTDACNNの優位性を示している。

Sensor drift is a long-existing unpredictable problem that deteriorates the performance of gaseous substance recognition, calling for an antidrift domain adaptation algorithm. However, the prerequisite for traditional methods to achieve fine results is to have data from both nondrift distributions (source domain) and drift distributions (target domain) for domain alignment, which is usually unrealistic and unachievable in real-life scenarios. To compensate for this, in this paper, deep learning based on a target-domain-free domain adaptation convolutional neural network (TDACNN) is proposed. The main concept is that CNNs extract not only the domain-specific features of samples but also the domain-invariant features underlying both the source and target domains. Making full use of these various levels of embedding features can lead to comprehensive utilization of different levels of characteristics, thus achieving drift compensation by the extracted intermediate features between two domains. In the TDACNN, a flexible multibranch backbone with a multiclassifier structure is proposed under the guidance of bionics, which utilizes multiple embedding features comprehensively without involving target domain data during training. A classifier ensemble method based on maximum mean discrepancy (MMD) is proposed to evaluate all the classifiers jointly based on the credibility of the pseudolabel. To optimize network training, an additive angular margin softmax loss with parameter dynamic adjustment is utilized. Experiments on two drift datasets under different settings demonstrate the superiority of TDACNN compared with several state-of-the-art methods.
公開日:2021-10-14
翻訳日:2021-10-15 15:13:11
# 準円、回転、非定常二元ブラックホール融合の数値相対性波形の解釈可能なAI予測

Interpretable AI forecasting for numerical relativity waveforms of quasi-circular, spinning, non-precessing binary black hole mergers ( http://arxiv.org/abs/2110.06968v1 )

ライセンス: Link先を確認
Asad Khan, E. A. Huerta, Huihuo Zheng(参考訳) 準円、回転、非必要二項ブラックホールの融合を記述した数値相対性理論波形の遅延・合併・リングダウンを学習・予測できるディープラーニング人工知能モデルを提案する。 nrhybsur3dq8サロゲートモデルを用いて、二進ブラックホールの質量比$q\leq8$と個別スピン$|s^z_{\{1,2\}}| \leq 0.8$のパラメータ空間をカバーする$\ell=|m|=2$波形のトレイン、検証、テストセットを作成した。 これらの波形は時刻範囲 $t\in[-5000\textrm{m}, 130\textrm{m}]$ をカバーし、ここで$t=0m$ は波形振幅の最大値として定義されるマージイベントを示す。 私たちはArgonne Leadership Computing FacilityのThetaGPUスーパーコンピュータを使って、150万の波形のトレーニングセットを使用してAIモデルをトレーニングしました。 16のNVIDIA DGX A100ノードを使用しました。それぞれ8つのNVIDIA A100 Tensor Core GPUと2つのAMD Rome CPUで構成されています。 その結果,人工知能は時間範囲$t\in[-100\textrm{m}, 130\textrm{m}]$の数値相対性波形の動的進化を正確に予測できることがわかった。 190,000波形のテストセットをサンプリングすると、対象波形と予測波形の平均重なりは、考慮中のパラメータ空間全体に対して$\gtrsim99\%$であることが分かる。 また, 数値相対性波形の後半部を正確に予測するために, 科学的可視化と加速度計算を組み合わせることで, 初期および後期の波形進化の知識をモデルがどの成分に取り入れるかを同定した。 この研究は、重力波天体物理学のためのスケーラブルで計算効率が高く解釈可能な人工知能モデルの作成を加速することを目的としている。

We present a deep-learning artificial intelligence model that is capable of learning and forecasting the late-inspiral, merger and ringdown of numerical relativity waveforms that describe quasi-circular, spinning, non-precessing binary black hole mergers. We used the NRHybSur3dq8 surrogate model to produce train, validation and test sets of $\ell=|m|=2$ waveforms that cover the parameter space of binary black hole mergers with mass-ratios $q\leq8$ and individual spins $|s^z_{\{1,2\}}| \leq 0.8$. These waveforms cover the time range $t\in[-5000\textrm{M}, 130\textrm{M}]$, where $t=0M$ marks the merger event, defined as the maximum value of the waveform amplitude. We harnessed the ThetaGPU supercomputer at the Argonne Leadership Computing Facility to train our AI model using a training set of 1.5 million waveforms. We used 16 NVIDIA DGX A100 nodes, each consisting of 8 NVIDIA A100 Tensor Core GPUs and 2 AMD Rome CPUs, to fully train our model within 3.5 hours. Our findings show that artificial intelligence can accurately forecast the dynamical evolution of numerical relativity waveforms in the time range $t\in[-100\textrm{M}, 130\textrm{M}]$. Sampling a test set of 190,000 waveforms, we find that the average overlap between target and predicted waveforms is $\gtrsim99\%$ over the entire parameter space under consideration. We also combined scientific visualization and accelerated computing to identify what components of our model take in knowledge from the early and late-time waveform evolution to accurately forecast the latter part of numerical relativity waveforms. This work aims to accelerate the creation of scalable, computationally efficient and interpretable artificial intelligence models for gravitational wave astrophysics.
公開日:2021-10-13
翻訳日:2021-10-15 15:12:45
# 量子アニーリングを用いたミラーリングダブルラウンドロビントーナメントにおける大破れ最小化問題の解法

Solving Large Break Minimization Problems in a Mirrored Double Round-robin Tournament Using Quantum Annealing ( http://arxiv.org/abs/2110.07239v1 )

ライセンス: Link先を確認
Michiya Kuramata, Ryota Katsuki, Kazuhide Nakata(参考訳) 量子アニール(QA)は、物流、スケジューリング、ファイナンスに多くの応用がある組合せ最適化問題に適用できるため、注目されている。 近年,それらを用いた組合せ最適化問題を解く研究が加速されている。 しかし、研究者たちは実用的な組合せ最適化問題を見つけるのに苦労しており、量子アニーラーは他の数学的最適化解法よりも優れている。 さらに、量子アニーラーの性能を、gurobiやcplexのような最も洗練された数学的最適化解法の一つと比較する研究はごくわずかである。 そこで本研究では,ミラーリングラウンドロビントーナメント(MDRRT)におけるブレーク最小化問題において,QAが解法よりも優れた性能を示した。 また,変数間の疎相互作用と制約のない問題に対するQAの望ましい性能についても説明する。 本稿では,MDRRTにおけるブレーク最小化問題を4正規グラフとして表現できることを実証する。 計算実験により,最新の量子アニーラーD-WaveAdvantageと高度な数学的最適化解法であるGurobiを用いて,QA法と2整数プログラミング法を用いてこの問題を解く。 さらに,解の質と計算時間を比較する。 QAは20チームでの問題に対して0.05秒で正確なソリューションを決定できた。 36チームの場合、整数プログラミング法が目的関数値に達するのに84.8秒かかり、これは0.05秒の量子アニールによって得られた。 これらの結果は, MDRRTにおけるブレーク最小化問題を, 実用的な最適化問題にQAを適用した例として提示するだけでなく, QAによって効果的に解ける問題を見つけるためにも貢献する。

Quantum annealing (QA) has gained considerable attention because it can be applied to combinatorial optimization problems, which have numerous applications in logistics, scheduling, and finance. In recent years, research on solving practical combinatorial optimization problems using them has accelerated. However, researchers struggle to find practical combinatorial optimization problems, for which quantum annealers outperform other mathematical optimization solvers. Moreover, there are only a few studies that compare the performance of quantum annealers with one of the most sophisticated mathematical optimization solvers, such as Gurobi and CPLEX. In our study, we determine that QA demonstrates better performance than the solvers in the break minimization problem in a mirrored double round-robin tournament (MDRRT). We also explain the desirable performance of QA for the sparse interaction between variables and a problem without constraints. In this process, we demonstrate that the break minimization problem in an MDRRT can be expressed as a 4-regular graph. Through computational experiments, we solve this problem using our QA approach and two-integer programming approaches, which were performed using the latest quantum annealer D-Wave Advantage, and the sophisticated mathematical optimization solver, Gurobi, respectively. Further, we compare the quality of the solutions and the computational time. QA was able to determine the exact solution in 0.05 seconds for problems with 20 teams, which is a practical size. In the case of 36 teams, it took 84.8 s for the integer programming method to reach the objective function value, which was obtained by the quantum annealer in 0.05 s. These results not only present the break minimization problem in an MDRRT as an example of applying QA to practical optimization problems, but also contribute to find problems that can be effectively solved by QA.
公開日:2021-10-14
翻訳日:2021-10-15 15:12:09