このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201012となっている論文です。

PDF登録状況(公開日: 20201012)

TitleAuthorsAbstract論文公表日・翻訳日
# 秘密はスペクトルにある:スペクトル類似度尺度を用いた言語間タスクパフォーマンスの予測

The Secret is in the Spectra: Predicting Cross-lingual Task Performance with Spectral Similarity Measures ( http://arxiv.org/abs/2001.11136v2 )

ライセンス: Link先を確認
Haim Dubossarsky, Ivan Vuli\'c, Roi Reichart, Anna Korhonen(参考訳) 例えば、以前の研究では、二言語レキシコン誘導(bli)の期待された成功と単言語埋め込み空間間の(ほぼ)同型の仮定の間に関係があることが示唆されている。 本研究では,単言語組込み空間の類似性とタスク性能の相関に着目した大規模研究を行い,数千の言語ペアと4つのタスク(bli,パース,posタグ,およびmt)をカバーする。 次に、それぞれのスペクトルの関連統計に基づいて、2つの埋め込み空間間のいくつかの同型測度を導入する。 私たちはそれを経験的に示します 1)そのようなスペクトル同型尺度から得られた言語類似度スコアは、異なる言語間タスクで観察された性能と強く関連しており、 2) 従来の標準同型測度を一貫して上回っているが, 計算性は高く, 解釈も容易である。 最後に,タイポロジー的に駆動される言語距離尺度に対する補完的情報を収集し,これら2家系の尺度の組み合わせによりタスクパフォーマンス相関がさらに高まることを示す。

Performance in cross-lingual NLP tasks is impacted by the (dis)similarity of languages at hand: e.g., previous work has suggested there is a connection between the expected success of bilingual lexicon induction (BLI) and the assumption of (approximate) isomorphism between monolingual embedding spaces. In this work we present a large-scale study focused on the correlations between monolingual embedding space similarity and task performance, covering thousands of language pairs and four different tasks: BLI, parsing, POS tagging and MT. We hypothesize that statistics of the spectrum of each monolingual embedding space indicate how well they can be aligned. We then introduce several isomorphism measures between two embedding spaces, based on the relevant statistics of their individual spectra. We empirically show that 1) language similarity scores derived from such spectral isomorphism measures are strongly associated with performance observed in different cross-lingual tasks, and 2) our spectral-based measures consistently outperform previous standard isomorphism measures, while being computationally more tractable and easier to interpret. Finally, our measures capture complementary information to typologically driven language distance measures, and the combination of measures from the two families yields even higher task performance correlations.
翻訳日:2023-01-05 12:12:27 公開日:2020-10-12
# 着色による局所的顔面属性伝達

Local Facial Attribute Transfer through Inpainting ( http://arxiv.org/abs/2002.03040v2 )

ライセンス: Link先を確認
Ricard Durall, Franz-Josef Pfreundt, Janis Keuper(参考訳) 属性転送という用語は、与えられた入力画像の意味解釈が意図された方向に移動され、意味属性によって定量化されるような方法で画像を変更するタスクを指す。 例えば、髪の色を変えたり、笑顔を追加したり、鼻を大きくしたり、夏の風景を冬のパノラマに変えたりといった、顔の特徴や表情のリアルな変化です。 属性転送の最近の進歩は、主に生成的ディープニューラルネットワークに基づいており、様々な技術を使ってジェネレータの潜在空間で画像を操作する。 本稿では,局所的な属性伝達の共通サブタスクに対して,意味的変化(口ひげの除去など)を実現するために,顔の一部だけを変更する必要がある新しい手法を提案する。 従来の手法とは対照的に,新たな(グローバルな)画像を生成することで局所的な変化が実現されているため,局所的な属性移動を着色問題として定式化することを提案する。 画像の一部だけを取り除いて再生するので、Attribute Transfer Inpainting Generative Adversarial Network (ATI-GAN) は、ローカルコンテキスト情報を利用して、背景を修正せずに属性に集中することができる。

The term attribute transfer refers to the tasks of altering images in such a way, that the semantic interpretation of a given input image is shifted towards an intended direction, which is quantified by semantic attributes. Prominent example applications are photo realistic changes of facial features and expressions, like changing the hair color, adding a smile, enlarging the nose or altering the entire context of a scene, like transforming a summer landscape into a winter panorama. Recent advances in attribute transfer are mostly based on generative deep neural networks, using various techniques to manipulate images in the latent space of the generator. In this paper, we present a novel method for the common sub-task of local attribute transfers, where only parts of a face have to be altered in order to achieve semantic changes (e.g. removing a mustache). In contrast to previous methods, where such local changes have been implemented by generating new (global) images, we propose to formulate local attribute transfers as an inpainting problem. Removing and regenerating only parts of images, our Attribute Transfer Inpainting Generative Adversarial Network (ATI-GAN) is able to utilize local context information to focus on the attributes while keeping the background unmodified resulting in visually sound results.
翻訳日:2023-01-03 05:13:07 公開日:2020-10-12
# トレーニングにおける活性化密度駆動型エネルギー効率プルーニング

Activation Density driven Energy-Efficient Pruning in Training ( http://arxiv.org/abs/2002.02949v2 )

ライセンス: Link先を確認
Timothy Foldy-Porto, Yeshwanth Venkatesha, and Priyadarshini Panda(参考訳) 適切なリトレーニングを施したニューラルネットワークプルーニングは、元のものと同等の精度のパラメータがかなり少ないネットワークが得られる。 典型的なプルーニング法は、時間集約的な反復プルーニングと再訓練を行い、元の精度を取り戻すための出発点として、大規模で完全に訓練されたネットワークを必要とする。 本稿では,トレーニング中にネットワークをリアルタイムにプーンし,トレーニング時間を短縮し,効率的な圧縮ネットワークを実現する新しいプルーニング手法を提案する。 ネットワークの各層に対して最適な相対サイズまたは圧縮を特定するために,アクティベーション密度に基づく解析を導入する。 提案手法はアーキテクチャに依存せず,多種多様なシステムで利用可能である。 CIFAR-10, CIFAR-100, TinyImageNet 上の VGG-19 および ResNet18 に対し, ベースラインネットワークに匹敵する精度で, 疎ネットワーク(パラメータの200 \times$ と推論演算の60 \times$ の削減)を得る。 トレーニング中にネットワークサイズを定期的に小さくすることで,従来提案していたプルーニング法よりも短いトレーニング時間を実現する。 さらに,提案手法により異なるエポックでの圧縮ネットワークのトレーニングは,スクラッチからトレーニングしたベースラインネットワークと比較して,ほぼ等精度で,トレーニング計算複雑性(1.6\times$から3.2\times$low)を大幅に低減する。

Neural network pruning with suitable retraining can yield networks with considerably fewer parameters than the original with comparable degrees of accuracy. Typical pruning methods require large, fully trained networks as a starting point from which they perform a time-intensive iterative pruning and retraining procedure to regain the original accuracy. We propose a novel pruning method that prunes a network real-time during training, reducing the overall training time to achieve an efficient compressed network. We introduce an activation density based analysis to identify the optimal relative sizing or compression for each layer of the network. Our method is architecture agnostic, allowing it to be employed on a wide variety of systems. For VGG-19 and ResNet18 on CIFAR-10, CIFAR-100, and TinyImageNet, we obtain exceedingly sparse networks (up to $200 \times$ reduction in parameters and over $60 \times$ reduction in inference compute operations in the best case) with accuracy comparable to the baseline network. By reducing the network size periodically during training, we achieve total training times that are shorter than those of previously proposed pruning methods. Furthermore, training compressed networks at different epochs with our proposed method yields considerable reduction in training compute complexity ($1.6\times$ to $3.2\times$ lower) at near iso-accuracy as compared to a baseline network trained entirely from scratch.
翻訳日:2023-01-03 03:26:05 公開日:2020-10-12
# 大規模胸部CTボリュームを用いた機械学習による多重異常予測

Machine-Learning-Based Multiple Abnormality Prediction with Large-Scale Chest Computed Tomography Volumes ( http://arxiv.org/abs/2002.04752v3 )

ライセンス: Link先を確認
Rachel Lea Draelos, David Dov, Maciej A. Mazurowski, Joseph Y. Lo, Ricardo Henao, Geoffrey D. Rubin, Lawrence Carin(参考訳) 放射線学のための機械学習モデルは、異常に対する高品質のラベルを持つ大規模データセットの恩恵を受ける。 19,993症例から36,316巻の胸部CTデータセットを収集,解析した。 これは、報告されている最大の倍量医用画像データである。 このデータセットに注釈を付けるために, 平均Fスコア0.976(min 0.941, max 1.0)のフリーテキストラジオグラフィーレポートから, 異常ラベルを自動的に抽出するルールベースの手法を開発した。 また, 深部畳み込みニューラルネットワーク(CNN)を用いた胸部CTボリュームの多臓器・多臓器分類モデルを開発した。 このモデルでは18の異常に対して0.90以上のAUROCを、83の異常に対して平均0.773のAUROCを分類し、未濾過全容CTデータからの学習の可能性を示した。 実験では,9つのラベルのサブセット(結節,不透明度,アトピーアシス,胸水,凝縮,腫瘤,心膜灌流,心膜,気胸)に対して,トレーニングラベル数が9から83に増加した場合,平均AUROCは10%増加した。 ボリューム前処理、ラベルの自動抽出、ボリューム異常予測モデルのためのすべてのコードは、公開される予定だ。 CTの36,316巻とラベルも公開され、機関の承認を待つ。

Machine learning models for radiology benefit from large-scale data sets with high quality labels for abnormalities. We curated and analyzed a chest computed tomography (CT) data set of 36,316 volumes from 19,993 unique patients. This is the largest multiply-annotated volumetric medical imaging data set reported. To annotate this data set, we developed a rule-based method for automatically extracting abnormality labels from free-text radiology reports with an average F-score of 0.976 (min 0.941, max 1.0). We also developed a model for multi-organ, multi-disease classification of chest CT volumes that uses a deep convolutional neural network (CNN). This model reached a classification performance of AUROC greater than 0.90 for 18 abnormalities, with an average AUROC of 0.773 for all 83 abnormalities, demonstrating the feasibility of learning from unfiltered whole volume CT data. We show that training on more labels improves performance significantly: for a subset of 9 labels - nodule, opacity, atelectasis, pleural effusion, consolidation, mass, pericardial effusion, cardiomegaly, and pneumothorax - the model's average AUROC increased by 10% when the number of training labels was increased from 9 to all 83. All code for volume preprocessing, automated label extraction, and the volume abnormality prediction model will be made publicly available. The 36,316 CT volumes and labels will also be made publicly available pending institutional approval.
翻訳日:2023-01-01 19:57:07 公開日:2020-10-12
# FeatureNMS: 学習機能埋め込みによる非最大抑圧

FeatureNMS: Non-Maximum Suppression by Learning Feature Embeddings ( http://arxiv.org/abs/2002.07662v2 )

ライセンス: Link先を確認
Niels Ole Salscheider(参考訳) アートオブジェクト検出器のほとんどの状態は、オブジェクト毎に複数の検出を出力する。 重複は、非最大抑制と呼ばれる後処理ステップで除去される。 このヒューリスティックは、2つの有界箱の間の高い重なり合いが1つが重複している高い確率に対応すると仮定している。 本稿ではこの問題を解決するためにFeatureNMSを提案する。 特徴nmsは、境界ボックス間の結合の交わりに基づくだけでなく、特徴ベクトルの違いにもとづいて重複を認識する。 これらの特徴ベクトルは、視覚的な外観のようなより多くの情報をエンコードすることができる。 提案手法は,古典的NMSおよび派生的手法より優れ,技術性能の達成に寄与する。

Most state of the art object detectors output multiple detections per object. The duplicates are removed in a post-processing step called Non-Maximum Suppression. Classical Non-Maximum Suppression has shortcomings in scenes that contain objects with high overlap: This heuristic assumes that a high overlap between two bounding boxes corresponds to a high probability of one being a duplicate. We propose FeatureNMS to solve this problem. FeatureNMS recognizes duplicates not only based on the intersection over union between the bounding boxes, but also based on the difference of feature vectors. These feature vectors can encode more information like visual appearance. Our approach outperforms classical NMS and derived approaches and achieves state of the art performance.
翻訳日:2022-12-30 20:26:14 公開日:2020-10-12
# アンペア画像から画像への変換のための周期整合規則化

Augmented Cyclic Consistency Regularization for Unpaired Image-to-Image Translation ( http://arxiv.org/abs/2003.00187v2 )

ライセンス: Link先を確認
Takehiko Ohkawa, Naoto Inoue, Hirokatsu Kataoka, Nakamasa Inoue(参考訳) I2I翻訳はGAN(Generative Adversarial Network)の最近の進歩により,パターン認識とコンピュータビジョンに大きな注目を集めている。 しかしながら、明示的な監督が欠如しているため、未ペアのI2Iモデルは、特に異なる背景とポーズを持つ挑戦的なデータセットにおいて、現実的なイメージの生成に失敗することが多い。 したがって、GANやI2I翻訳の応用には安定化が不可欠である。 本稿では、未ペアI2I翻訳の新しい正規化手法であるAugmented Cyclic Consistency Regularization (ACCR)を提案する。 我々の基本的な考え方は、実際の、偽の、再構築された、強化されたサンプルを活用する識別器に関する半教師付き学習から生じる一貫性の規則化を強制することである。 識別器を正則化し、オリジナル画像と摂動画像のペアを供給した場合に類似の予測を出力する。 疑似サンプルと再構成サンプルの整合正則化がうまく機能する理由を質的に明らかにする。 本手法は実世界の翻訳における整合性正規化GAN(CR-GAN)よりも優れ,複数のデータ拡張変異とサイクル一貫性制約に対して有効であることを示す。

Unpaired image-to-image (I2I) translation has received considerable attention in pattern recognition and computer vision because of recent advancements in generative adversarial networks (GANs). However, due to the lack of explicit supervision, unpaired I2I models often fail to generate realistic images, especially in challenging datasets with different backgrounds and poses. Hence, stabilization is indispensable for GANs and applications of I2I translation. Herein, we propose Augmented Cyclic Consistency Regularization (ACCR), a novel regularization method for unpaired I2I translation. Our main idea is to enforce consistency regularization originating from semi-supervised learning on the discriminators leveraging real, fake, reconstructed, and augmented samples. We regularize the discriminators to output similar predictions when fed pairs of original and perturbed images. We qualitatively clarify why consistency regularization on fake and reconstructed samples works well. Quantitatively, our method outperforms the consistency regularized GAN (CR-GAN) in real-world translations and demonstrates efficacy against several data augmentation variants and cycle-consistent constraints.
翻訳日:2022-12-27 20:15:54 公開日:2020-10-12
# 埋め込み世界へのトラバースによるカテゴリー系列モデルの勾配に基づく逆攻撃

Gradient-based adversarial attacks on categorical sequence models via traversing an embedded world ( http://arxiv.org/abs/2003.04173v3 )

ライセンス: Link先を確認
Ivan Fursov, Alexey Zaytsev, Nikita Kluchnikov, Andrey Kravchenko, Evgeny Burnaev(参考訳) ディープラーニングモデルは、敵対攻撃と呼ばれる現象に悩まされる: 特定の例の分類器を騙すために、モデル入力に小さな変更を加えることができる。 この文献は、主に画像やその他の構造化された入力を持つモデルに対する敵対的な攻撃を考察している。 しかし、カテゴリー配列に対する敵対的な攻撃もまた有害である。 1) 対象関数の非微分可能性、(2) 初期シーケンスの変換に関する制約、(3) 可能な問題の多様性。 2つのブラックボックス攻撃を用いてこれらの課題に対処する。 第1のアプローチはモンテカルロ法を採用し、任意のシナリオでの使用を可能にし、第2のアプローチはモデルとターゲットメトリクスの継続的な緩和を使い、そのため、敵攻撃に対する最先端の手法を、追加の労力で使用することができる。 金銭取引、医療詐欺、NLPデータセットの結果は、提案手法が元のものと近いが愚かな機械学習モデルを生成することを示唆している。

Deep learning models suffer from a phenomenon called adversarial attacks: we can apply minor changes to the model input to fool a classifier for a particular example. The literature mostly considers adversarial attacks on models with images and other structured inputs. However, the adversarial attacks for categorical sequences can also be harmful. Successful attacks for inputs in the form of categorical sequences should address the following challenges: (1) non-differentiability of the target function, (2) constraints on transformations of initial sequences, and (3) diversity of possible problems. We handle these challenges using two black-box adversarial attacks. The first approach adopts a Monte-Carlo method and allows usage in any scenario, the second approach uses a continuous relaxation of models and target metrics, and thus allows usage of state-of-the-art methods for adversarial attacks with little additional effort. Results for money transactions, medical fraud, and NLP datasets suggest that proposed methods generate reasonable adversarial sequences that are close to original ones but fool machine learning models.
翻訳日:2022-12-25 08:06:29 公開日:2020-10-12
# BERTのレイヤーに何が特別なのか? 単言語モデルと多言語モデルにおけるNLPパイプラインの概観

What's so special about BERT's layers? A closer look at the NLP pipeline in monolingual and multilingual models ( http://arxiv.org/abs/2004.06499v2 )

ライセンス: Link先を確認
Wietse de Vries, Andreas van Cranenburgh and Malvina Nissim(参考訳) BERTの内部動作を見てみると、その層は古典的なNLPパイプラインに似ており、徐々に複雑なタスクは後続の層に集中している。 これらの結果が英語以外の言語にもどの程度当てはまるかを調べるために、オランダ語 BERT モデルとオランダ語 NLP タスクのための多言語 BERT モデルを提案する。 さらに,パート・オブ・スパイチ・タギングのより深い分析を通じて,与えられたタスク内では,ネットワークのさまざまな部分に情報が分散し,パイプラインが見かけほど巧妙ではない可能性があることを示す。 それぞれのレイヤに異なる特殊化があるため、全体的なパフォーマンスに基づいて単一のレイヤを選択するのではなく、異なるレイヤからの情報を組み合わせる方がより便利かもしれない。

Peeking into the inner workings of BERT has shown that its layers resemble the classical NLP pipeline, with progressively more complex tasks being concentrated in later layers. To investigate to what extent these results also hold for a language other than English, we probe a Dutch BERT-based model and the multilingual BERT model for Dutch NLP tasks. In addition, through a deeper analysis of part-of-speech tagging, we show that also within a given task, information is spread over different parts of the network and the pipeline might not be as neat as it seems. Each layer has different specialisations, so that it may be more useful to combine information from different layers, instead of selecting a single one based on the best overall performance.
翻訳日:2022-12-13 09:42:08 公開日:2020-10-12
# 重症心不全患者の安静時発作の自動検出

Automated Detection of Rest Disruptions in Critically Ill Patients ( http://arxiv.org/abs/2005.01798v2 )

ライセンス: Link先を確認
Vasundhra Iyengar, Azra Bihorac, Parisa Rashidi(参考訳) 睡眠は患者の回復過程において必須かつ重要な要素であることが示されている。 それにもかかわらず、集中治療室(icu)の患者の睡眠の質は、騒音、痛み、頻繁な看護活動などの要因により、しばしば低い。 医療スタッフや訪問客による頻繁な睡眠障害は、患者の睡眠・覚醒サイクルの混乱を招き、痛みの重症度に影響を及ぼす可能性がある。 訪問検知のための自動的手法が欠如していることから,睡眠の質と頻繁な訪問との関連性の検討は困難である。 本研究では,38名の患者を対象に,映像フレームからの訪問頻度を自動的に評価した。 我々は、DensePose R-CNN(ResNet-101)モデルを用いて、ビデオフレーム内の部屋の人数を計算した。 患者が最も中断した時期について検討し、頻繁な中断と患者の痛みと滞在期間との関連について検討した。

Sleep has been shown to be an indispensable and important component of patients recovery process. Nonetheless, sleep quality of patients in the Intensive Care Unit (ICU) is often low, due to factors such as noise, pain, and frequent nursing care activities. Frequent sleep disruptions by the medical staff and/or visitors at certain times might lead to disruption of patient sleep-wake cycle and can also impact the severity of pain. Examining the association between sleep quality and frequent visitation has been difficult, due to lack of automated methods for visitation detection. In this study, we recruited 38 patients to automatically assess visitation frequency from captured video frames. We used the DensePose R-CNN (ResNet-101) model to calculate the number of people in the room in a video frame. We examined when patients are interrupted the most, and we examined the association between frequent disruptions and patient outcomes on pain and length of stay.
翻訳日:2022-12-11 06:40:41 公開日:2020-10-12
# テイラー系列を継承する関係スペクトル:筋相乗効果と手のカップリング

A Relation Spectrum Inheriting Taylor Series: Muscle Synergy and Coupling for Hand ( http://arxiv.org/abs/2004.11910v3 )

ライセンス: Link先を確認
Gang Liu and Jing Wang(参考訳) 数学にはテイラー級数とフーリエ級数という2つの有名な関数分解法がある。 フーリエ級数はフーリエスペクトルに発展し、信号分解解析に応用された。 しかし、特定の関数式を持たないテイラー級数は解決できないため、テイラー級数は工学ではほとんど使われていない。 そこで我々はデンドライトネットを用いてテイラー級数を開発し,関係スペクトルを構築し,モデルやシステム分解解析に適用した。 具体的工学: 筋活動と指の動きの直感的な結びつきに関する知識は、ユーザの事前訓練を必要としない商業用義手の設計に不可欠である。 しかし、このリンクは人間の手の複雑さのためにまだ理解されていない。 本研究では筋-指系の解析に相関スペクトルを適用した。 1本の筋肉が複数の指を同時に動かしたり、複数の筋肉が1本の指を同時に動かしたりする。 この研究は、手の筋肉のシナジーと筋肉の結合に関するものだった。 この論文には2つの主な貢献がある。 1)手の所見は義手の設計に寄与する。 2) 関係スペクトルはオンラインモデルを人間可読化し,オンラインのパフォーマンスとオフラインの結果を統一する。 コードはhttps://github.com/liugang1234567/gang-neuronで入手できる。

There are two famous function decomposition methods in math: Taylor Series and Fourier Series. Fourier series developed into Fourier spectrum, which was applied to signal decomposition\analysis. However, because the Taylor series whose function without a definite functional expression cannot be solved, Taylor Series has rarely been used in engineering. Here, we developed Taylor series by our Dendrite Net, constructed a relation spectrum, and applied it to model or system decomposition\analysis. Specific engineering: the knowledge of the intuitive link between muscle activity and the finger movement is vital for the design of commercial prosthetic hands that do not need user pre-training. However, this link has yet to be understood due to the complexity of human hand. In this study, the relation spectrum was applied to analyze the muscle-finger system. One single muscle actuates multiple fingers, or multiple muscles actuate one single finger simultaneously. Thus, the research was in muscle synergy and muscle coupling for hand. This paper has two main contributions. (1) The findings of hand contribute to designing prosthetic hands. (2) The relation spectrum makes the online model human-readable, which unifies online performance and offline results. Code (novel tool for most fields) is available at https://github.com/liugang1234567/Gang-neuron.
翻訳日:2022-12-09 21:24:42 公開日:2020-10-12
# BLEU Neighbors: 自動評価のための参照レスアプローチ

BLEU Neighbors: A Reference-less Approach to Automatic Evaluation ( http://arxiv.org/abs/2004.12726v3 )

ライセンス: Link先を確認
Kawin Ethayarajh and Dorsa Sadigh(参考訳) 評価は自然言語生成(NLG)モデルの開発におけるボトルネックである。 BLEUのような自動メトリクスは参照に依存するが、オープンエンドジェネレーションのようなタスクには、引き起こすべき参照は存在しない。 言語多様性はパープレキシティなどの統計的尺度を用いて推定できるが、言語品質の測定には人間による評価が必要である。 しかし、人間のスケール評価は遅くて高価であるため、機械翻訳にBLEUを使用する場合のように、NLGモデル上での迅速な反復には使用できないため、散在的に使用される。 そこで本研究では,BLEUスコアをカーネル関数として使用することにより,言語品質を推定する近傍モデルBLEU Neighborsを提案する。 既存のchitchat対話とオープンエンド文生成のデータセットでは、bleuの隣人モデルによる品質推定は、個々の注釈者よりも平均二乗誤差が低く、スピアマン相関が高いことが分かっている。 その単純さにもかかわらず、BLEU Neighborsは、ゴールドスタンダードの参考エッセイにアクセス可能なモデルを含む、エッセイを自動的に評価する最先端のモデルよりも優れています。

Evaluation is a bottleneck in the development of natural language generation (NLG) models. Automatic metrics such as BLEU rely on references, but for tasks such as open-ended generation, there are no references to draw upon. Although language diversity can be estimated using statistical measures such as perplexity, measuring language quality requires human evaluation. However, because human evaluation at scale is slow and expensive, it is used sparingly; it cannot be used to rapidly iterate on NLG models, in the way BLEU is used for machine translation. To this end, we propose BLEU Neighbors, a nearest neighbors model for estimating language quality by using the BLEU score as a kernel function. On existing datasets for chitchat dialogue and open-ended sentence generation, we find that -- on average -- the quality estimation from a BLEU Neighbors model has a lower mean squared error and higher Spearman correlation with the ground truth than individual human annotators. Despite its simplicity, BLEU Neighbors even outperforms state-of-the-art models on automatically grading essays, including models that have access to a gold-standard reference essay.
翻訳日:2022-12-09 04:28:33 公開日:2020-10-12
# 説明ゲーム:スパースコミュニケーションによる予測説明可能性に向けて

The Explanation Game: Towards Prediction Explainability through Sparse Communication ( http://arxiv.org/abs/2004.13876v2 )

ライセンス: Link先を確認
Marcos V. Treviso and Andr\'e F. T. Martins(参考訳) nlpでは説明可能性の重要性が高まっている。 本研究は,分類者の判断に関する説明者と素人のコミュニケーション問題として,説明可能性の統一的な視点を提供する。 本稿では,この枠組みを用いて,コミュニケーションの成功の観点から,勾配法や表現消去,注意機構などの説明を抽出する手法について比較する。 さらに,これらの手法を古典的特徴選択に照らして再解釈し,これをインスピレーションとして,選択的,疎度な注意力を用いて,説明可能性のための新しい組込み手法を提案する。 テキスト分類、自然言語のエンテーメント、機械翻訳の実験では、説明者と人間(機械と人間の両方を含む)の異なる構成を用いて、勾配と消去方法に対する注意に基づく説明の利点を明らかにする。 さらに,人間による評価実験は,コミュニケーションの成功と忠実度を最適化するために訓練されたポストホックな説明者による有望な結果を示す。

Explainability is a topic of growing importance in NLP. In this work, we provide a unified perspective of explainability as a communication problem between an explainer and a layperson about a classifier's decision. We use this framework to compare several prior approaches for extracting explanations, including gradient methods, representation erasure, and attention mechanisms, in terms of their communication success. In addition, we reinterpret these methods at the light of classical feature selection, and we use this as inspiration to propose new embedded methods for explainability, through the use of selective, sparse attention. Experiments in text classification, natural language entailment, and machine translation, using different configurations of explainers and laypeople (including both machines and humans), reveal an advantage of attention-based explainers over gradient and erasure methods. Furthermore, human evaluation experiments show promising results with post-hoc explainers trained to optimize communication success and faithfulness.
翻訳日:2022-12-08 23:08:11 公開日:2020-10-12
# 曖昧さを学べる学習--下記の単語センスの曖昧さに対するメタラーニング

Learning to Learn to Disambiguate: Meta-Learning for Few-Shot Word Sense Disambiguation ( http://arxiv.org/abs/2004.14355v3 )

ライセンス: Link先を確認
Nithin Holla, Pushkar Mishra, Helen Yannakoudakis, Ekaterina Shutova(参考訳) ディープラーニング手法の成功は、興味のあるタスクにアノテートされた大規模なトレーニングデータセットの可用性にかかっている。 ヒューマンインテリジェンスとは対照的に、これらの手法には汎用性がなく、ラベル付きデータが不足している新しいタスクに素早く学習し、適応するのは難しい。 メタラーニングは、少数の例から新しいタスクを素早く学習することを目的として、多数のショットタスクでモデルをトレーニングすることで、この問題を解決することを目的としている。 本稿では,数個のラベル付きインスタンスから不明瞭な単語を学習することを目的とした,数発の単語感覚曖昧化(WSD)のためのメタラーニングフレームワークを提案する。 メタラーニングのアプローチは、通常、クラスごとに$k$の例を持つ$n$クラスを持つ、$n$-way、$k$-shotの分類設定でテストされている。 その性質上、wsdはこの制御された設定から逸脱し、モデルには多数の高度にバランスの取れないクラスを扱う必要がある。 我々は、このシナリオにいくつかの一般的なメタラーニングアプローチを拡張し、この新しい挑戦的な環境でその強みと弱みを分析します。

The success of deep learning methods hinges on the availability of large training datasets annotated for the task of interest. In contrast to human intelligence, these methods lack versatility and struggle to learn and adapt quickly to new tasks, where labeled data is scarce. Meta-learning aims to solve this problem by training a model on a large number of few-shot tasks, with an objective to learn new tasks quickly from a small number of examples. In this paper, we propose a meta-learning framework for few-shot word sense disambiguation (WSD), where the goal is to learn to disambiguate unseen words from only a few labeled instances. Meta-learning approaches have so far been typically tested in an $N$-way, $K$-shot classification setting where each task has $N$ classes with $K$ examples per class. Owing to its nature, WSD deviates from this controlled setup and requires the models to handle a large number of highly unbalanced classes. We extend several popular meta-learning approaches to this scenario, and analyze their strengths and weaknesses in this new challenging setting.
翻訳日:2022-12-08 12:49:19 公開日:2020-10-12
# 英語におけるニューラルピッチアクセント検出における文脈の役割

The role of context in neural pitch accent detection in English ( http://arxiv.org/abs/2004.14846v2 )

ライセンス: Link先を確認
Elizabeth Nielsen, Mark Steedman, Sharon Goldwater(参考訳) 韻律は自然言語における豊かな情報源であり、コントラストなどの現象の指標となる。 この情報を下流タスクに利用可能にするためには、音声中の韻律イベントを検出する方法が必要である。 ピッチアクセント検出のための新しいモデルを提案する。stehwienら(2018年)の研究に触発され、このタスクにcnnベースのモデルを提示した。 本モデルでは, フル発話を入力とし, LSTM層を付加することで, 文脈をより活用する。 これらの技術革新により、ボストン大学ラジオニュースコーパスにおけるアメリカ英語音声のピッチアクセント検出精度は87.5%から88.7%に向上した。 また,各内容語に対してピッチアクセントを予測した単純なベースラインが82.2%の精度を達成し,このタスクに適したベースラインであることが示唆された。 最後に,この課題とコーパスにおいてピッチが最も重要な音響特徴であることを示すアブレーション試験を行う。

Prosody is a rich information source in natural language, serving as a marker for phenomena such as contrast. In order to make this information available to downstream tasks, we need a way to detect prosodic events in speech. We propose a new model for pitch accent detection, inspired by the work of Stehwien et al. (2018), who presented a CNN-based model for this task. Our model makes greater use of context by using full utterances as input and adding an LSTM layer. We find that these innovations lead to an improvement from 87.5% to 88.7% accuracy on pitch accent detection on American English speech in the Boston University Radio News Corpus, a state-of-the-art result. We also find that a simple baseline that just predicts a pitch accent on every content word yields 82.2% accuracy, and we suggest that this is the appropriate baseline for this task. Finally, we conduct ablation tests that show pitch is the most important acoustic feature for this task and this corpus.
翻訳日:2022-12-08 05:27:46 公開日:2020-10-12
# BERT-kNN: トレーニング済み言語モデルにkNN検索コンポーネントを追加してQAを改善する

BERT-kNN: Adding a kNN Search Component to Pretrained Language Models for Better QA ( http://arxiv.org/abs/2005.00766v2 )

ライセンス: Link先を確認
Nora Kassner and Hinrich Sch\"utze(参考訳) Khandelwal et al. (2020) は k-nearest-neighbor (kNN) コンポーネントを使用して言語モデルのパフォーマンスを向上させる。 このアイデアは、オープンドメイン質問応答(QA)に有用であることを示す。 トレーニング中に遭遇した事実のリコールを改善するために,BERT(Devlin et al., 2019)と従来の情報検索ステップ(IR)と,埋め込みテキストコレクションの大規模なデータストア上のkNN検索を組み合わせた。 私たちの貢献は次のとおりです。 一 BERT-kNNは、追加の訓練を受けずに、クローゼスタイルのQAにおいてBERTを大きなマージンで上回る。 ii) BERTは正しい応答カテゴリ(例えば米国市)をしばしば識別するが、kNNのみが事実的に正しい回答(例えば「Miami」)を回復することを示す。 三 BERTと比べ、BERT-kNNは稀な事実に優れる。 iv)BERT-kNNは、最近のイベントなど、BERTのトレーニングセットでカバーされていない事実を容易に処理できる。

Khandelwal et al. (2020) use a k-nearest-neighbor (kNN) component to improve language model performance. We show that this idea is beneficial for open-domain question answering (QA). To improve the recall of facts encountered during training, we combine BERT (Devlin et al., 2019) with a traditional information retrieval step (IR) and a kNN search over a large datastore of an embedded text collection. Our contributions are as follows: i) BERT-kNN outperforms BERT on cloze-style QA by large margins without any further training. ii) We show that BERT often identifies the correct response category (e.g., US city), but only kNN recovers the factually correct answer (e.g., "Miami"). iii) Compared to BERT, BERT-kNN excels for rare facts. iv) BERT-kNN can easily handle facts not covered by BERT's training set, e.g., recent events.
翻訳日:2022-12-07 12:24:22 公開日:2020-10-12
# dual-consistency を用いた半教師付き膝軟骨欠損に対する自己センシングフレームワーク

A Self-ensembling Framework for Semi-supervised Knee Cartilage Defects Assessment with Dual-Consistency ( http://arxiv.org/abs/2005.09212v2 )

ライセンス: Link先を確認
Jiayu Huo, Liping Si, Xi Ouyang, Kai Xuan, Weiwu Yao, Zhong Xue, Qian Wang, Dinggang Shen, Lichi Zhang(参考訳) 変形性膝関節症(oa)は最も一般的な筋骨格疾患の1つであり、早期診断を必要とする。 近年,深層畳み込みニューラルネットワークは,コンピュータ支援診断分野で大きな成果を上げている。 しかし、ディープラーニングモデルの構築は通常、大量の注釈付きデータを必要とする。 本稿では,重度分類と病変局所化を含む膝軟骨欠損評価のための新しいアプローチを提案する。 これは膝OA診断のサブタスクとして扱うことができる。 特に,学生ネットワークと教師ネットワークを同一の構造で構成した自己センシングフレームワークを設計する。 教師ネットワークはラベル付きデータとラベルなしデータの両方から学習し、教師ネットワークは学習コースを通して生徒モデルの重み付けを平均化する。 新しい注意損失関数を開発し、正確な注意マスクを得る。 病変分類と局所化における注意の二重一致チェックにより、2つのネットワークは徐々に注意分布を最適化し、互いのパフォーマンスを向上させることができるが、トレーニングは部分的にラベル付けされたデータのみに依存し、半教師付き方式に従う。 実験により, 膝軟骨欠損の分類と局所化の双方において, 自己認識性能を著しく向上し, 注釈付きデータの必要性を大幅に低減できることが示された。

Knee osteoarthritis (OA) is one of the most common musculoskeletal disorders and requires early-stage diagnosis. Nowadays, the deep convolutional neural networks have achieved greatly in the computer-aided diagnosis field. However, the construction of the deep learning models usually requires great amounts of annotated data, which is generally high-cost. In this paper, we propose a novel approach for knee cartilage defects assessment, including severity classification and lesion localization. This can be treated as a subtask of knee OA diagnosis. Particularly, we design a self-ensembling framework, which is composed of a student network and a teacher network with the same structure. The student network learns from both labeled data and unlabeled data and the teacher network averages the student model weights through the training course. A novel attention loss function is developed to obtain accurate attention masks. With dual-consistency checking of the attention in the lesion classification and localization, the two networks can gradually optimize the attention distribution and improve the performance of each other, whereas the training relies on partially labeled data only and follows the semi-supervised manner. Experiments show that the proposed method can significantly improve the self-ensembling performance in both knee cartilage defects classification and localization, and also greatly reduce the needs of annotated data.
翻訳日:2022-12-01 14:35:53 公開日:2020-10-12
# コンテキストコード変更のための構造モデル

A Structural Model for Contextual Code Changes ( http://arxiv.org/abs/2005.13209v2 )

ライセンス: Link先を確認
Shaked Brody, Uri Alon and Eran Yahav(参考訳) 我々は,過去の編集で学習した学習モデルに基づいて,編集完了を予測する問題に対処する。 部分的に編集されたコードスニペットを考えると、私たちの目標はスニペットの残りの部分の編集の完了を予測することです。 本稿では、このタスクをEditCompletionタスクと呼び、それに取り組むための新しいアプローチを提案する。 主なアイデアは、構造的な編集を直接表現することである。 これにより、編集コードの可能性を学ぶのではなく、編集自体の可能性をモデル化できます。 編集操作をプログラムの抽象構文木 (ast) のパスとして表現し,編集のソースから編集対象への変換を行う。 この表現を用いて、EditCompletionタスクのための強力で軽量なニューラルモデルを提案する。 我々は、LSTM、Transformer、Neural CRFといった複数の強力なモデルによって駆動される様々な表現とモデリングアプローチに対して、我々のアプローチを徹底的に評価する。 実験の結果,本モデルは,編集を直接モデル化するのではなく,編集コード生成を学習する構文モデルと比較して,最先端の逐次モデルよりも28%,精度が2倍高いことがわかった。 私たちのコード、データセット、トレーニングされたモデルはhttps://github.com/tech-srl/c3po/で公開されています。

We address the problem of predicting edit completions based on a learned model that was trained on past edits. Given a code snippet that is partially edited, our goal is to predict a completion of the edit for the rest of the snippet. We refer to this task as the EditCompletion task and present a novel approach for tackling it. The main idea is to directly represent structural edits. This allows us to model the likelihood of the edit itself, rather than learning the likelihood of the edited code. We represent an edit operation as a path in the program's Abstract Syntax Tree (AST), originating from the source of the edit to the target of the edit. Using this representation, we present a powerful and lightweight neural model for the EditCompletion task. We conduct a thorough evaluation, comparing our approach to a variety of representation and modeling approaches that are driven by multiple strong models such as LSTMs, Transformers, and neural CRFs. Our experiments show that our model achieves a 28% relative gain over state-of-the-art sequential models and 2x higher accuracy than syntactic models that learn to generate the edited code, as opposed to modeling the edits directly. Our code, dataset, and trained models are publicly available at https://github.com/tech-srl/c3po/ .
翻訳日:2022-11-28 09:42:16 公開日:2020-10-12
# 説明可能な人工知能:体系的レビュー

Explainable Artificial Intelligence: a Systematic Review ( http://arxiv.org/abs/2006.00093v4 )

ライセンス: Link先を確認
Giulia Vilone and Luca Longo(参考訳) 説明可能な人工知能(XAI)はここ数年で大きな成長を遂げている。 これは機械学習、特にディープラーニングの広範な応用が原因で、精度の高いモデルの開発につながったが、説明可能性や解釈可能性に欠けていた。 この問題に取り組むための多くの方法が提案され、開発され、テストされている。 この体系的なレビューは、これらの手法を4つの主要なクラスタからなる階層的な分類システムでクラスタリングすることで、知識の体系に寄与する。 また、XAIの最先端を要約し、今後の研究の方向性を推奨している。

Explainable Artificial Intelligence (XAI) has experienced a significant growth over the last few years. This is due to the widespread application of machine learning, particularly deep learning, that has led to the development of highly accurate models but lack explainability and interpretability. A plethora of methods to tackle this problem have been proposed, developed and tested. This systematic review contributes to the body of knowledge by clustering these methods with a hierarchical classification system with four main clusters: review articles, theories and notions, methods and their evaluation. It also summarises the state-of-the-art in XAI and recommends future research directions.
翻訳日:2022-11-26 22:46:02 公開日:2020-10-12
# ディープラーニングによるEarnings予測

Earnings Prediction with Deep Learning ( http://arxiv.org/abs/2006.03132v2 )

ライセンス: Link先を確認
Lars Elend, Sebastian A. Tideman, Kerstin Lopatta, Oliver Kramer(参考訳) 金融分野では、会社の将来の財務パフォーマンスを予測することは投資家の投資決定にとって非常に重要である。 本稿では,長期短期記憶(LSTM)ネットワークと時間畳み込みネットワーク(TCN)を比較し,EPSの今後の収益予測を行う。 実験的分析は四半期財務報告データと毎日の株式市場のリターンに基づいている。 米国企業の広範なサンプルでは、LSTMはいずれも30.0%以上の精度の予測を行い、TCNは30.8%の改善を実現している。 どちらのネットワークも少なくともアナリストと同じくらい正確であり、最大12.2% (lstm) と13.2% (tcn) を上回っている。

In the financial sector, a reliable forecast the future financial performance of a company is of great importance for investors' investment decisions. In this paper we compare long-term short-term memory (LSTM) networks to temporal convolution network (TCNs) in the prediction of future earnings per share (EPS). The experimental analysis is based on quarterly financial reporting data and daily stock market returns. For a broad sample of US firms, we find that both LSTMs outperform the naive persistent model with up to 30.0% more accurate predictions, while TCNs achieve and an improvement of 30.8%. Both types of networks are at least as accurate as analysts and exceed them by up to 12.2% (LSTM) and 13.2% (TCN).
翻訳日:2022-11-25 17:54:49 公開日:2020-10-12
# 関係性の関係性:関係抽出問題の新しいパラダイム

Relation of the Relations: A New Paradigm of the Relation Extraction Problem ( http://arxiv.org/abs/2006.03719v2 )

ライセンス: Link先を確認
Zhijing Jin, Yongyi Yang, Xipeng Qiu, Zheng Zhang(参考訳) 自然言語では、しばしば複数の実体が同じテキストに現れる。 しかしながら、以前の関係抽出(re)におけるほとんどの作品は、一度に2つのエンティティ間の関係を識別する範囲を制限している。 このようなアプローチは二次計算時間を誘導し、また複数の関係、すなわち関係関係(RoR)間の相互依存性を見落としている。 既存のデータセットにおけるRoRの重要性から,同じ文脈におけるすべての関係の予測を全体として考慮したREのパラダイムを提案する。 そこで我々は,グラフニューラルネットワークと関係行列変換器を用いて,手作りのルールを必要としない,データ駆動型アプローチを開発した。 実験の結果,ACE05データセットでは+1.12\%,SemEval 2018 Task 7.2では2.55\%,2つの競合ベンチマークでは大幅に改善されている。

In natural language, often multiple entities appear in the same text. However, most previous works in Relation Extraction (RE) limit the scope to identifying the relation between two entities at a time. Such an approach induces a quadratic computation time, and also overlooks the interdependency between multiple relations, namely the relation of relations (RoR). Due to the significance of RoR in existing datasets, we propose a new paradigm of RE that considers as a whole the predictions of all relations in the same context. Accordingly, we develop a data-driven approach that does not require hand-crafted rules but learns by itself the RoR, using Graph Neural Networks and a relation matrix transformer. Experiments show that our model outperforms the state-of-the-art approaches by +1.12\% on the ACE05 dataset and +2.55\% on SemEval 2018 Task 7.2, which is a substantial improvement on the two competitive benchmarks.
翻訳日:2022-11-25 02:51:13 公開日:2020-10-12
# 非パラメトリックカーネル回帰によるタスク類似性を考慮したメタラーニング

Task-similarity Aware Meta-learning through Nonparametric Kernel Regression ( http://arxiv.org/abs/2006.07212v2 )

ライセンス: Link先を確認
Arun Venkitaraman, Anders Hansson, and Bo Wahlberg(参考訳) 本稿では,非パラメトリックカーネル回帰を用いたタスク類似性を考慮したメタ学習アルゴリズムを提案する。 我々の仮説では、task similarityの使用は、利用可能なタスクが制限され、outlier/dis similarタスクを含む場合にメタラーニングに役立つ。 既存のメタラーニングアプローチでは、タスクは暗黙的に類似していると仮定するが、このタスク類似性がどのように定量化され、学習に使用されるかは一般的に不明である。 その結果、最も一般的なメタラーニング手法は、タスク間の類似性や相違性を積極的に利用するのではなく、作業に大量のタスクを利用できることに依存している。 我々の貢献は、カーネルと関連するメタ学習アルゴリズムの形式でタスク類似性を明示的に利用するメタ学習のための新しいフレームワークである。 タスク特有のパラメータを、カーネル関数がタスク間の類似性をキャプチャする再生カーネルヒルベルト空間に属するようにモデル化する。 提案アルゴリズムは,タスクごとにタスク固有の記述子を割り当てるメタパラメータを反復的に学習する。 タスク記述子はカーネル関数を通してタスク類似性を定量化するために使用される。 本稿では,モデルに依存しないメタラーニング(MAML)とメタ確率勾配勾配(Meta-SGD)のアプローチを概念的に一般化する方法について述べる。 回帰タスクを用いた数値実験により,外乱や異種タスクが存在する場合でも,タスク数に制限がある場合,アルゴリズムはこれらの手法より優れることが示された。 これは、タスクの類似性がタスク限定および有害な設定におけるメタラーニングのパフォーマンスを改善するという仮説を支持します。

This paper investigates the use of nonparametric kernel-regression to obtain a tasksimilarity aware meta-learning algorithm. Our hypothesis is that the use of tasksimilarity helps meta-learning when the available tasks are limited and may contain outlier/ dissimilar tasks. While existing meta-learning approaches implicitly assume the tasks as being similar, it is generally unclear how this task-similarity could be quantified and used in the learning. As a result, most popular metalearning approaches do not actively use the similarity/dissimilarity between the tasks, but rely on availability of huge number of tasks for their working. Our contribution is a novel framework for meta-learning that explicitly uses task-similarity in the form of kernels and an associated meta-learning algorithm. We model the task-specific parameters to belong to a reproducing kernel Hilbert space where the kernel function captures the similarity across tasks. The proposed algorithm iteratively learns a meta-parameter which is used to assign a task-specific descriptor for every task. The task descriptors are then used to quantify the task-similarity through the kernel function. We show how our approach conceptually generalizes the popular meta-learning approaches of model-agnostic meta-learning (MAML) and Meta-stochastic gradient descent (Meta-SGD) approaches. Numerical experiments with regression tasks show that our algorithm outperforms these approaches when the number of tasks is limited, even in the presence of outlier or dissimilar tasks. This supports our hypothesis that task-similarity helps improve the metalearning performance in task-limited and adverse settings.
翻訳日:2022-11-22 02:48:51 公開日:2020-10-12
# FCOS:シンプルで強力なアンカーフリー物体検出器

FCOS: A simple and strong anchor-free object detector ( http://arxiv.org/abs/2006.09214v3 )

ライセンス: Link先を確認
Zhi Tian, Chunhua Shen, Hao Chen, Tong He(参考訳) コンピュータビジョンでは、オブジェクト検出はいくつかのインスタンスレベルの認識タスクと多くの下流アプリケーションを支える最も重要なタスクの1つである。 近年,単段方式は設計がシンプルで競争性が高いため,二段方式に注目が集まっている。 そこで本研究では,画素単位の予測方式で物体検出を解くための,完全畳み込み型1段物検出器(FCOS)を提案する。 RetinaNet、SSD、YOLOv3、Faster R-CNNといった最先端のオブジェクト検出器のほとんどは、事前に定義されたアンカーボックスに依存している。 対照的に,提案する検出器fcosはアンカーボックスフリーであり,提案フリーである。 予め定義されたアンカーボックスの集合を排除することで、FCOSはトレーニング中にユニオン(IoU)のスコアの交叉を計算するなどのアンカーボックスに関する複雑な計算を完全に回避する。 さらに、最終的な検出性能に敏感なアンカーボックスに関連するすべてのハイパーパラメータも避ける。 唯一の処理後非最大抑圧(NMS)により、よりシンプルで柔軟な検出フレームワークが検出精度の向上を実現していることを示す。 提案するfcosフレームワークが,他の多くのインスタンスレベルのタスクに対して,シンプルかつ強力な代替手段となることを願っています。 コードと事前トレーニングされたモデルは以下の通りである。

In computer vision, object detection is one of most important tasks, which underpins a few instance-level recognition tasks and many downstream applications. Recently one-stage methods have gained much attention over two-stage approaches due to their simpler design and competitive performance. Here we propose a fully convolutional one-stage object detector (FCOS) to solve object detection in a per-pixel prediction fashion, analogue to other dense prediction problems such as semantic segmentation. Almost all state-of-the-art object detectors such as RetinaNet, SSD, YOLOv3, and Faster R-CNN rely on pre-defined anchor boxes. In contrast, our proposed detector FCOS is anchor box free, as well as proposal free. By eliminating the pre-defined set of anchor boxes, FCOS completely avoids the complicated computation related to anchor boxes such as calculating the intersection over union (IoU) scores during training. More importantly, we also avoid all hyper-parameters related to anchor boxes, which are often sensitive to the final detection performance. With the only post-processing non-maximum suppression (NMS), we demonstrate a much simpler and flexible detection framework achieving improved detection accuracy. We hope that the proposed FCOS framework can serve as a simple and strong alternative for many other instance-level tasks. Code and pre-trained models are available at: https://git.io/AdelaiDet
翻訳日:2022-11-21 13:24:24 公開日:2020-10-12
# gradaug:深層ニューラルネットワークのための新しい正規化法

GradAug: A New Regularization Method for Deep Neural Networks ( http://arxiv.org/abs/2006.07989v2 )

ライセンス: Link先を確認
Taojiannan Yang, Sijie Zhu, Chen Chen(参考訳) 本稿では,ディープニューラルネットワークにおけるオーバーフィッティングを緩和する新しい正規化手法を提案する。 鍵となるアイデアは、トレーニングプロセスにおいて、ランダムに変換されたトレーニングサンプルを利用して、元のネットワーク幅をサンプリングした一連のサブネットワークを正則化することである。 そこで,提案手法では,ネットワークの生勾配に自己誘導外乱を導入することにより,勾配増強 (gradaug) と呼ばれる。 GradAugはネットワークがより汎用的で多様な表現を学習するのに役立つことを実証する。 さらに、実装が容易で、様々な構造やアプリケーションに適用することができる。 GradAugはImageNet分類のResNet-50を78.79%改善した。 CutMixと組み合わせることで、パフォーマンスをさらに79.67%向上させ、高度なトレーニングトリックのアンサンブルを上回っている。 一般化能力は、GradAugが他の最先端メソッドを大幅に上回るCOCOオブジェクト検出とインスタンスセグメンテーションに基づいて評価される。 GradAugは画像歪みやFGSM攻撃にも耐性があり、低データレシエーションに非常に有効である。 コードはhttps://github.com/taoyang1122/GradAugで入手できる。

We propose a new regularization method to alleviate over-fitting in deep neural networks. The key idea is utilizing randomly transformed training samples to regularize a set of sub-networks, which are originated by sampling the width of the original network, in the training process. As such, the proposed method introduces self-guided disturbances to the raw gradients of the network and therefore is termed as Gradient Augmentation (GradAug). We demonstrate that GradAug can help the network learn well-generalized and more diverse representations. Moreover, it is easy to implement and can be applied to various structures and applications. GradAug improves ResNet-50 to 78.79% on ImageNet classification, which is a new state-of-the-art accuracy. By combining with CutMix, it further boosts the performance to 79.67%, which outperforms an ensemble of advanced training tricks. The generalization ability is evaluated on COCO object detection and instance segmentation where GradAug significantly surpasses other state-of-the-art methods. GradAug is also robust to image distortions and FGSM adversarial attacks and is highly effective in low data regimes. Code is available at https://github.com/taoyang1122/GradAug
翻訳日:2022-11-21 13:12:21 公開日:2020-10-12
# 神経勾配は異常に近い-量子化とスパーストレーニングの改善

Neural gradients are near-lognormal: improved quantized and sparse training ( http://arxiv.org/abs/2006.08173v3 )

ライセンス: Link先を確認
Brian Chmiel, Liad Ben-Uri, Moran Shkolnik, Elad Hoffer, Ron Banner, Daniel Soudry(参考訳) トレーニングは主に、モデル全体にわたって神経勾配を伝播させるのに必要な時間を短縮することで加速することができるが、以前のほとんどの研究は重みとアクティベーションの量子化/プルーニングに重点を置いていた。 これらの方法は、非常に異なる統計特性を持つ神経勾配には適用されないことが多い。 重みと活性化とは区別され、神経勾配の分布はおよそ対数正規である。 そこで本研究では,ニューラルグラデーションの計算量とメモリ負荷を低減する2つのクローズドフォーム解析手法を提案する。 最初の方法は浮動小数点の形式と勾配のスケールを最適化する。 第2の方法は、勾配刈りの間隔閾値を正確に設定する。 各メソッドはimagenetで最先端の結果を得る。 我々の知る限り,本論文は,(1)6ビット浮動小数点形式への勾配の定量化,あるいは(2)最大85%の勾配間隔を,精度の劣化を伴わずに達成した最初の論文である。 参照実装はその論文に付随する。

While training can mostly be accelerated by reducing the time needed to propagate neural gradients back throughout the model, most previous works focus on the quantization/pruning of weights and activations. These methods are often not applicable to neural gradients, which have very different statistical properties. Distinguished from weights and activations, we find that the distribution of neural gradients is approximately lognormal. Considering this, we suggest two closed-form analytical methods to reduce the computational and memory burdens of neural gradients. The first method optimizes the floating-point format and scale of the gradients. The second method accurately sets sparsity thresholds for gradient pruning. Each method achieves state-of-the-art results on ImageNet. To the best of our knowledge, this paper is the first to (1) quantize the gradients to 6-bit floating-point formats, or (2) achieve up to 85% gradient sparsity -- in each case without accuracy degradation. Reference implementation accompanies the paper.
翻訳日:2022-11-21 03:32:22 公開日:2020-10-12
# 状態依存雑音を伴う確率勾配の動的挙動

Dynamic of Stochastic Gradient Descent with State-Dependent Noise ( http://arxiv.org/abs/2006.13719v3 )

ライセンス: Link先を確認
Qi Meng, Shiqi Gong, Wei Chen, Zhi-Ming Ma, Tie-Yan Liu(参考訳) 確率勾配降下(SGD)とその変種は、ディープニューラルネットワークを訓練する主要な方法である。 ニューラルネットワークは凸ではないため、sgdの動的挙動とその一般化、特に局所ミニマからの脱出効率への影響の研究がますます増えている。 しかし、これらの研究は、SGDのノイズの共分散が(あるいは上界で上界)定数であるという過度に単純化された仮定を取るが、実際には状態依存である。 本研究では、状態依存雑音を伴うSGDの動的挙動に関する公式な研究を行う。 具体的には、局所最小値の局所領域におけるSGDのノイズの共分散が状態の二次関数であることを示す。 そこで本稿では,SGDのダイナミクスを近似するために,状態依存拡散を伴う新しいパワーローダイナミクスを提案する。 パワーローダイナミクスは、フラットミニマよりも指数関数的に高速なシャープミニマから逃れることができるが、従来のダイナミクスはフラットミニマより多項式的に高速なシャープミニマから逃れることができる。 我々の実験は理論の結果をよく検証した。 我々の理論に触発されて、一般化能力をさらに向上するために、(大規模バッチ)SGDに状態依存ノイズを追加することを提案する。 実験は我々の方法が有効であることを検証する。

Stochastic gradient descent (SGD) and its variants are mainstream methods to train deep neural networks. Since neural networks are non-convex, more and more works study the dynamic behavior of SGD and the impact to its generalization, especially the escaping efficiency from local minima. However, these works take the over-simplified assumption that the covariance of the noise in SGD is (or can be upper bounded by) constant, although it is actually state-dependent. In this work, we conduct a formal study on the dynamic behavior of SGD with state-dependent noise. Specifically, we show that the covariance of the noise of SGD in the local region of the local minima is a quadratic function of the state. Thus, we propose a novel power-law dynamic with state-dependent diffusion to approximate the dynamic of SGD. We prove that, power-law dynamic can escape from sharp minima exponentially faster than flat minima, while the previous dynamics can only escape sharp minima polynomially faster than flat minima. Our experiments well verified our theoretical results. Inspired by our theory, we propose to add additional state-dependent noise into (large-batch) SGD to further improve its generalization ability. Experiments verify that our method is effective.
翻訳日:2022-11-17 09:22:23 公開日:2020-10-12
# 早期流出の有無:圧縮画像の資源効率の良いブラインド品質向上

Early Exit or Not: Resource-Efficient Blind Quality Enhancement for Compressed Images ( http://arxiv.org/abs/2006.16581v5 )

ライセンス: Link先を確認
Qunliang Xing, Mai Xu, Tianyi Li, Zhenyu Guan(参考訳) 損失のある画像圧縮は、通信帯域幅を節約するために広く行われ、望ましくない圧縮アーティファクトとなる。 近年,デコーダ側では画像圧縮アーティファクトの削減に広範なアプローチが提案されているが,非効率で資源消費の少ない,異なる品質の画像を処理するためには,一連のアーキテクチャ識別モデルが必要である。 また、圧縮画像が未知の品質であるのが一般的であり、既存の手法ではブラインド品質向上に適したモデルを選択することは困難である。 本稿では,圧縮画像に対する資源効率の高いブラインド品質向上(RBQE)手法を提案する。 特に,このアプローチは,初期出力戦略を組み込んだ動的ディープニューラルネットワーク(dnn)による圧縮画像の品質を,盲目的かつ漸進的に向上させる。 そして,評価された画像の品質に応じて,自動でエンハンスメントの終了や継続を決定できる。 これにより、よりシンプルで高速なプロセスで小さなアーティファクトを除去でき、より精巧なプロセスで深刻なアーティファクトをさらに除去することができる。 我々のRBQEアプローチは、目視品質向上と資源効率の両面で最先端のパフォーマンスを達成することを実証した。 コードはhttps://github.com/ryanxingql/rbqeで入手できる。

Lossy image compression is pervasively conducted to save communication bandwidth, resulting in undesirable compression artifacts. Recently, extensive approaches have been proposed to reduce image compression artifacts at the decoder side; however, they require a series of architecture-identical models to process images with different quality, which are inefficient and resource-consuming. Besides, it is common in practice that compressed images are with unknown quality and it is intractable for existing approaches to select a suitable model for blind quality enhancement. In this paper, we propose a resource-efficient blind quality enhancement (RBQE) approach for compressed images. Specifically, our approach blindly and progressively enhances the quality of compressed images through a dynamic deep neural network (DNN), in which an early-exit strategy is embedded. Then, our approach can automatically decide to terminate or continue enhancement according to the assessed quality of enhanced images. Consequently, slight artifacts can be removed in a simpler and faster process, while the severe artifacts can be further removed in a more elaborate process. Extensive experiments demonstrate that our RBQE approach achieves state-of-the-art performance in terms of both blind quality enhancement and resource efficiency. The code is available at https://github.com/RyanXingQL/RBQE.
翻訳日:2022-11-15 06:05:17 公開日:2020-10-12
# 理論に基づく経路規則化微分ネットワークアーキテクチャ探索

Theory-Inspired Path-Regularized Differential Network Architecture Search ( http://arxiv.org/abs/2006.16537v2 )

ライセンス: Link先を確認
Pan Zhou, Caiming Xiong, Richard Socher, Steven C.H. Hoi(参考訳) 高い探索効率にもかかわらず、ディファレンシャルアーキテクチャサーチ(DARTS)は、しばしばスキップ接続が支配的なネットワークアーキテクチャを選択する。 しかし、この問題に関する理論的理解はいまだ残っており、より先進的な方法の開発を原則的に妨げている。 本研究では,ネットワーク最適化に対する畳み込み,スキップ接続,ゼロ操作などの様々な操作の効果を理論的に解析することにより,この問題を解決した。 我々は、スキップ接続が多いアーキテクチャが他の候補よりも高速に収束できることを証明し、dartによって選択される。 この結果は、初めて理論的および明確に、高速なネットワーク最適化へのスキップ接続の影響と、dartの他のタイプのオペレーションに対する競争上の優位性を明らかにした。 次に,2つのキーモジュールからなる,理論にインスパイアされたパス正規化dartを提案する。 (i)操作間の不公平な競合を避けるために各操作に導入された差動群構造スパースバイナリゲート (II)本理論に示すような浅層構造よりも緩やかに収束する深層構造を探索探索するために用いられる経路深部正規化は,探索中にはあまり探索されない。 画像分類タスクの実験結果は、その利点を検証する。

Despite its high search efficiency, differential architecture search (DARTS) often selects network architectures with dominated skip connections which lead to performance degradation. However, theoretical understandings on this issue remain absent, hindering the development of more advanced methods in a principled way. In this work, we solve this problem by theoretically analyzing the effects of various types of operations, e.g. convolution, skip connection and zero operation, to the network optimization. We prove that the architectures with more skip connections can converge faster than the other candidates, and thus are selected by DARTS. This result, for the first time, theoretically and explicitly reveals the impact of skip connections to fast network optimization and its competitive advantage over other types of operations in DARTS. Then we propose a theory-inspired path-regularized DARTS that consists of two key modules: (i) a differential group-structured sparse binary gate introduced for each operation to avoid unfair competition among operations, and (ii) a path-depth-wise regularization used to incite search exploration for deep architectures that often converge slower than shallow ones as shown in our theory and are not well explored during the search. Experimental results on image classification tasks validate its advantages.
翻訳日:2022-11-15 04:26:10 公開日:2020-10-12
# 離散シーケンス医療データに対する教師なし異常検出

Unsupervised anomaly detection for discrete sequence healthcare data ( http://arxiv.org/abs/2007.10098v2 )

ライセンス: Link先を確認
Victoria Snorovikhina and Alexey Zaytsev(参考訳) 医療の不正は広く、医師は不必要な治療を処方して請求書を増やすことができる。 保険会社は、これらの異常な不正な請求を検知し、損失を減らすことを望んでいる。 従来の不正検出方法は、専門家のルールと手動のデータ処理を使用する。 近年、機械学習技術がこのプロセスを自動化しているが、手書きのデータは非常に高価であり、通常は時代遅れである。 不正検出を教師なしで自動化する機械学習モデルを提案する。 2つのディープラーニングアプローチには、次の患者訪問を予測するLSTMニューラルネットワークと、Seq2seqモデルがある。 生成した異常スコアの正規化のために,経験分布関数(EDF)アプローチを提案する。 したがって、アルゴリズムは高いクラス不均衡問題で動作する。 バリデーションには,alianz company の患者訪問データのシーケンスに関する実データを用いる。 モデルは、医療における不正検出のための教師なし異常検出のための最先端の結果を提供する。 EDFアプローチはLSTMモデルの品質をさらに向上させる。

Fraud in healthcare is widespread, as doctors could prescribe unnecessary treatments to increase bills. Insurance companies want to detect these anomalous fraudulent bills and reduce their losses. Traditional fraud detection methods use expert rules and manual data processing. Recently, machine learning techniques automate this process, but hand-labeled data is extremely costly and usually out of date. We propose a machine learning model that automates fraud detection in an unsupervised way. Two deep learning approaches include LSTM neural network for prediction next patient visit and a seq2seq model. For normalization of produced anomaly scores, we propose Empirical Distribution Function (EDF) approach. So, the algorithm works with high class imbalance problems. We use real data on sequences of patients' visits data from Allianz company for the validation. The models provide state-of-the-art results for unsupervised anomaly detection for fraud detection in healthcare. Our EDF approach further improves the quality of LSTM model.
翻訳日:2022-11-08 12:46:53 公開日:2020-10-12
# MADGAN : 複数の隣接脳MRIスライス再構成を用いた無監督医用異常GAN

MADGAN: unsupervised Medical Anomaly Detection GAN using multiple adjacent brain MRI slice reconstruction ( http://arxiv.org/abs/2007.13559v2 )

ライセンス: Link先を確認
Changhee Han, Leonardo Rundo, Kohei Murao, Tomoyuki Noguchi, Yuki Shimahara, Zoltan Adam Milacski, Saori Koshino, Evis Sala, Hideki Nakayama, Shinichi Satoh(参考訳) 教師なし学習は、健康な被験者の大規模無注釈の医療画像に依存することで、目に見えない様々な異常を発見できる。 これに向けて、教師なしの方法で2D/3D画像の再構成を行い、学習した特徴空間内または高い再構成損失から外れ値を検出する。 しかし、隣り合うスライス間の連続性を考慮せずに、アルツハイマー病(AD)のような微妙な解剖学的異常の蓄積からなる疾患を直接識別することはできない。 さらに、教師なしの異常検出が病期、様々な病気(すなわち2種類以上の疾患)、あるいはマルチシーケンス磁気共鳴イメージング(MRI)スキャンにどのように関連しているかは研究されていない。 Therefore, we propose unsupervised Medical Anomaly Detection Generative Adversarial Network (MADGAN), a novel two-step method using GAN-based multiple adjacent brain MRI slice reconstruction to detect brain anomalies at different stages on multi-sequence structural MRI: (Reconstruction) Wasserstein loss with Gradient Penalty + 100 L1 loss-trained on 3 healthy brain axial MRI slices to reconstruct the next 3 ones-reconstructs unseen healthy/abnormal scans; (Diagnosis) Average L2 loss per scan discriminates them, comparing the ground truth/reconstructed slices. トレーニングには、1,133個の健常T1強調画像(T1)と135個の健常T1強調画像(T1c)の2種類のデータセットを用いて,ADと脳転移/各種疾患の検出を行った。 我々の自己注意型MADGANは、非常に早い段階でT1スキャンのAD、軽度認知障害(MCI)、AUC 0.894でAUCのArea Under the Curve(AUC) 0.727、ADを検出でき、同時にAUC 0.921でT1cスキャンの脳転移を検出できる。

Unsupervised learning can discover various unseen abnormalities, relying on large-scale unannotated medical images of healthy subjects. Towards this, unsupervised methods reconstruct a 2D/3D single medical image to detect outliers either in the learned feature space or from high reconstruction loss. However, without considering continuity between multiple adjacent slices, they cannot directly discriminate diseases composed of the accumulation of subtle anatomical anomalies, such as Alzheimer's Disease (AD). Moreover, no study has shown how unsupervised anomaly detection is associated with either disease stages, various (i.e., more than two types of) diseases, or multi-sequence Magnetic Resonance Imaging (MRI) scans. Therefore, we propose unsupervised Medical Anomaly Detection Generative Adversarial Network (MADGAN), a novel two-step method using GAN-based multiple adjacent brain MRI slice reconstruction to detect brain anomalies at different stages on multi-sequence structural MRI: (Reconstruction) Wasserstein loss with Gradient Penalty + 100 L1 loss-trained on 3 healthy brain axial MRI slices to reconstruct the next 3 ones-reconstructs unseen healthy/abnormal scans; (Diagnosis) Average L2 loss per scan discriminates them, comparing the ground truth/reconstructed slices. For training, we use two different datasets composed of 1,133 healthy T1-weighted (T1) and 135 healthy contrast-enhanced T1 (T1c) brain MRI scans for detecting AD and brain metastases/various diseases, respectively. Our Self-Attention MADGAN can detect AD on T1 scans at a very early stage, Mild Cognitive Impairment (MCI), with Area Under the Curve (AUC) 0.727, and AD at a late stage with AUC 0.894, while detecting brain metastases on T1c scans with AUC 0.921.
翻訳日:2022-11-07 06:41:40 公開日:2020-10-12
# 自律運転機能の仮想テストのためのレーダシミュレーション評価のための感度解析手法

A Sensitivity Analysis Approach for Evaluating a Radar Simulation for Virtual Testing of Autonomous Driving Functions ( http://arxiv.org/abs/2008.02725v4 )

ライセンス: Link先を確認
Anthony Ngo, Max Paul Bauer, Michael Resch(参考訳) シミュレーションベースのテストは、自動運転機能の検証労力を大幅に削減するための有望なアプローチである。 カメラ、レーダー、ライダーのような環境認識センサーの現実的なモデルは、このテスト戦略において重要な役割を果たす。 これらのセンサーモデルを検証する一般的な方法はまだ存在しない。 特にレーダーは伝統的に最もモデル化が難しいセンサーの1つである。 実際のテストドライブに代わるものとしては期待できるが、電磁波の伝播を近似するために計算集約シミュレーション技術を用いてレーダーシステム全体を詳細にシミュレートするため、仮想テストは時間がかかる。 本稿では,レーダーシミュレーションの開発と評価のための感度解析手法を提案する。 実験中のシステムとして空間クラスタリングアルゴリズムを評価するための感度解析を行うために,モジュール型レーダシステムシミュレーションを提示・パラメータ化するとともに,レーダモデルからの出力と実走行特性を比較し,現実的なモデル挙動を確保する。 提案手法の評価を行い, 異なる状況から得られた結果が, レーダシミュレーションの個々のサブモジュールの寄与に遡ることができることを示した。

Simulation-based testing is a promising approach to significantly reduce the validation effort of automated driving functions. Realistic models of environment perception sensors such as camera, radar and lidar play a key role in this testing strategy. A generally accepted method to validate these sensor models does not yet exist. Particularly radar has traditionally been one of the most difficult sensors to model. Although promising as an alternative to real test drives, virtual tests are time-consuming due to the fact that they simulate the entire radar system in detail, using computation-intensive simulation techniques to approximate the propagation of electromagnetic waves. In this paper, we introduce a sensitivity analysis approach for developing and evaluating a radar simulation, with the objective to identify the parameters with the greatest impact regarding the system under test. A modular radar system simulation is presented and parameterized to conduct a sensitivity analysis in order to evaluate a spatial clustering algorithm as the system under test, while comparing the output from the radar model to real driving measurements to ensure a realistic model behavior. The presented approach is evaluated and it is demonstrated that with this approach results from different situations can be traced back to the contribution of the individual sub-modules of the radar simulation.
翻訳日:2022-11-02 08:05:38 公開日:2020-10-12
# 宇宙船衝突回避チャレンジ:機械学習競技の設計と成果

Spacecraft Collision Avoidance Challenge: design and results of a machine learning competition ( http://arxiv.org/abs/2008.03069v2 )

ライセンス: Link先を確認
Thomas Uriot, Dario Izzo, Lu\'is F. Sim{\~o}es, Rasit Abay, Nils Einecke, Sven Rebhan, Jose Martinez-Heras, Francesca Letizia, Jan Siminski, Klaus Merz(参考訳) 宇宙船の衝突回避手順は、衛星運用の重要な部分となっている。 複雑で常に更新される軌道上の物体間の衝突リスクの推定は、リスク軽減対策を計画できる様々なオペレーターに通知する。 このような対策は、例えば時間の衝突リスクの進化を予測する適切な機械学習モデルの開発によって支援される。 この機会を研究するために、欧州宇宙機関(ESA)は、2015年から2019年にかけて収集されたConjunction Data Messages(CDMs)という形で、接近イベントに関する情報を含む大規模なキュレートデータセットを2019年10月にリリースした。 このデータセットは、参加者が軌道上の物体間の衝突リスクを予測するためのモデルを構築しなければならなかった機械学習のコンペであるspaces collision avoidance challengeで使用された。 本稿では,この課題領域に機械学習手法を適用する際に得られた課題と教訓について考察する。

Spacecraft collision avoidance procedures have become an essential part of satellite operations. Complex and constantly updated estimates of the collision risk between orbiting objects inform the various operators who can then plan risk mitigation measures. Such measures could be aided by the development of suitable machine learning models predicting, for example, the evolution of the collision risk in time. In an attempt to study this opportunity, the European Space Agency released, in October 2019, a large curated dataset containing information about close approach events, in the form of Conjunction Data Messages (CDMs), collected from 2015 to 2019. This dataset was used in the Spacecraft Collision Avoidance Challenge, a machine learning competition where participants had to build models to predict the final collision risk between orbiting objects. This paper describes the design and results of the competition and discusses the challenges and lessons learned when applying machine learning methods to this problem domain.
翻訳日:2022-11-02 00:45:48 公開日:2020-10-12
# TinySpeech:エッジデバイス上でのディープ音声認識ニューラルネットワークのための注意凝縮器

TinySpeech: Attention Condensers for Deep Speech Recognition Neural Networks on Edge Devices ( http://arxiv.org/abs/2008.04245v6 )

ライセンス: Link先を確認
Alexander Wong, Mahmoud Famouri, Maya Pavlova, and Siddharth Surana(参考訳) ディープラーニングの進歩は、さまざまな音声認識タスクにおける最先端のパフォーマンスにつながった。 それでも、デバイス上での音声認識のためのディープニューラルネットワークの広範な展開は、特にメモリとコンピューティングリソースが高度に制約された(例えば低消費電力組み込みデバイス)エッジシナリオや、音声認識専用のメモリとコンピューティング予算が低い(例えば、音声認識以外の多くのタスクを実行するモバイルデバイス)エッジシナリオにおいて、依然として課題である。 本研究では,エッジ上でのデバイス内音声認識のための低フットプリント,高効率深層ニューラルネットワーク構築のための注目凝縮器の概念を紹介する。 注目凝縮器は、共同局所およびチャネル間活性化関係を特徴付ける凝縮埋め込みを学習し、生成し、それに応じて選択的注意を行う自己注意機構である。 その有効性を説明するために、機械駆動設計探索戦略を用いて、デバイス上での音声認識に適した注目凝縮器からなる低精度ディープニューラルネットワークTinySpeechを導入し、マイクロコントローラの動作制約に特化している。 限定語彙音声認識のためのGoogle Speech Commandsベンチマークデータセットの実験結果によると、TinySpeechネットワークはアーキテクチャの複雑さを著しく低減し(パラメータを最大507\times$少ない)、計算の複雑さを低く(最大48\times$少ない乗算加算演算)、ストレージの要件を低く(最大2028\times$低いウェイトメモリ要求)した。 これらの結果は、デバイス上での音声認識のための高能率ネットワーク構築のための注目凝縮器の有効性を示すだけでなく、エッジ上でのディープラーニングの促進とTinyMLアプリケーションの強化の可能性を示す。

Advances in deep learning have led to state-of-the-art performance across a multitude of speech recognition tasks. Nevertheless, the widespread deployment of deep neural networks for on-device speech recognition remains a challenge, particularly in edge scenarios where the memory and computing resources are highly constrained (e.g., low-power embedded devices) or where the memory and computing budget dedicated to speech recognition is low (e.g., mobile devices performing numerous tasks besides speech recognition). In this study, we introduce the concept of attention condensers for building low-footprint, highly-efficient deep neural networks for on-device speech recognition on the edge. An attention condenser is a self-attention mechanism that learns and produces a condensed embedding characterizing joint local and cross-channel activation relationships, and performs selective attention accordingly. To illustrate its efficacy, we introduce TinySpeech, low-precision deep neural networks comprising largely of attention condensers tailored for on-device speech recognition using a machine-driven design exploration strategy, with one tailored specifically with microcontroller operation constraints. Experimental results on the Google Speech Commands benchmark dataset for limited-vocabulary speech recognition showed that TinySpeech networks achieved significantly lower architectural complexity (as much as $507\times$ fewer parameters), lower computational complexity (as much as $48\times$ fewer multiply-add operations), and lower storage requirements (as much as $2028\times$ lower weight memory requirements) when compared to previous work. These results not only demonstrate the efficacy of attention condensers for building highly efficient networks for on-device speech recognition, but also illuminate its potential for accelerating deep learning on the edge and empowering TinyML applications.
翻訳日:2022-10-31 22:22:14 公開日:2020-10-12
# セマンティック誘導部品注意ネットワークを用いたオリエンテーション対応車両再識別

Orientation-aware Vehicle Re-identification with Semantics-guided Part Attention Network ( http://arxiv.org/abs/2008.11423v2 )

ライセンス: Link先を確認
Tsai-Shien Chen, Chih-Ting Liu, Chih-Wei Wu, Shao-Yi Chien(参考訳) 車両の再識別(re-ID)は、異なるカメラにまたがる同じ車両の画像のマッチングに焦点を当てている。 車両の違いが微妙であることから、基本的には困難である。 いくつかの研究では、車両の再識別を支援するために空間的アテンション機構が組み込まれているが、高価なキーポイントラベルを必要とする場合や、高価なラベルで訓練されていない場合、騒がしいアテンションマスクを被る場合が多い。 本研究では,訓練中に画像レベルの意味ラベルのみを付与した車両の異なる視点に対して,パートアテンションマスクをロバストに予測する専用セマンティクス誘導部分アテンションネットワーク(span)を提案する。 注意マスクの助けを借りて,各部分の識別特徴を別々に抽出することができる。 次に,2つの画像の特徴距離を評価する際,共起車両部品に重点を置く共起部分接触距離メトリック(cpdm)を導入する。 提案手法の有効性を検証し,本手法が最先端手法よりも優れていることを示す。

Vehicle re-identification (re-ID) focuses on matching images of the same vehicle across different cameras. It is fundamentally challenging because differences between vehicles are sometimes subtle. While several studies incorporate spatial-attention mechanisms to help vehicle re-ID, they often require expensive keypoint labels or suffer from noisy attention mask if not trained with expensive labels. In this work, we propose a dedicated Semantics-guided Part Attention Network (SPAN) to robustly predict part attention masks for different views of vehicles given only image-level semantic labels during training. With the help of part attention masks, we can extract discriminative features in each part separately. Then we introduce Co-occurrence Part-attentive Distance Metric (CPDM) which places greater emphasis on co-occurrence vehicle parts when evaluating the feature distance of two images. Extensive experiments validate the effectiveness of the proposed method and show that our framework outperforms the state-of-the-art approaches.
翻訳日:2022-10-24 21:36:33 公開日:2020-10-12
# 実世界制限下における強化学習トラヒック信号制御のための報酬関数の評価

Assessment of Reward Functions for Reinforcement Learning Traffic Signal Control under Real-World Limitations ( http://arxiv.org/abs/2008.11634v2 )

ライセンス: Link先を確認
Alvaro Cabrejas-Egea, Shaun Howell, Maksis Knutins and Colm Connaughton(参考訳) 適応的な交通信号制御は,交通渋滞の増大を緩和するための重要な手段である。 SCOOTやSCATSのような既存のソリューションは、定期的かつ時間を要するキャリブレーションを必要とし、複数の道路利用モダリティに最適化できず、多くの実装計画のマニュアルキュレーションを必要とします。 これらのアプローチの最近の代替手段は深層強化学習アルゴリズムであり、エージェントはシステムの特定の状態に対して最も適切なアクションを取る方法を学ぶ。 これは、与えられたアクションのパフォーマンスに関するエージェントにフィードバックを提供する報酬関数をニューラルネットワークで近似することにより、選択された報酬関数に敏感になる。 いくつかの著者は、文学で使われる報酬関数を調査しているが、作品間での報酬関数の選択に結果の差を帰結させることは、制御できない多くの違いと異なる結果の指標があるため問題である。 本稿では,マンチェスター大都市圏のジャンクションのシミュレーションにおいて,現実的なセンサ入力,コントローラ,キャリブレーション要求,インターグリーン時間,ステージシークエンシングといった,さまざまな需要プロファイルのシミュレーションにおいて,異なる報酬関数を用いたエージェントの性能を比較した。 考慮された報酬のメトリクスは、停止、ロスタイム、ロスタイムの変化、平均速度、キューの長さ、ジャンクションスループット、これらの大きさのバリエーションに基づいています。 これらの報酬関数のパフォーマンスは、合計待ち時間の観点から比較される。 速度の最大化は、すべての需要レベルにおいて平均待ち時間が最も低く、文献で導入された他の報酬よりもはるかに優れたパフォーマンスを示した。

Adaptive traffic signal control is one key avenue for mitigating the growing consequences of traffic congestion. Incumbent solutions such as SCOOT and SCATS require regular and time-consuming calibration, can't optimise well for multiple road use modalities, and require the manual curation of many implementation plans. A recent alternative to these approaches are deep reinforcement learning algorithms, in which an agent learns how to take the most appropriate action for a given state of the system. This is guided by neural networks approximating a reward function that provides feedback to the agent regarding the performance of the actions taken, making it sensitive to the specific reward function chosen. Several authors have surveyed the reward functions used in the literature, but attributing outcome differences to reward function choice across works is problematic as there are many uncontrolled differences, as well as different outcome metrics. This paper compares the performance of agents using different reward functions in a simulation of a junction in Greater Manchester, UK, across various demand profiles, subject to real world constraints: realistic sensor inputs, controllers, calibrated demand, intergreen times and stage sequencing. The reward metrics considered are based on the time spent stopped, lost time, change in lost time, average speed, queue length, junction throughput and variations of these magnitudes. The performance of these reward functions is compared in terms of total waiting time. We find that speed maximisation resulted in the lowest average waiting times across all demand levels, displaying significantly better performance than other rewards previously introduced in the literature.
翻訳日:2022-10-24 20:45:32 公開日:2020-10-12
# 効率的なCNNハードウェア高速化のためのスパースシストリックテンソルアレイ

Sparse Systolic Tensor Array for Efficient CNN Hardware Acceleration ( http://arxiv.org/abs/2009.02381v2 )

ライセンス: Link先を確認
Zhi-Gang Liu, Paul N. Whatmough, and Matthew Mattina(参考訳) モバイルデバイス上の畳み込みニューラルネットワーク(CNN)推論は、低精度(INT8)汎用行列乗算(GEMM)の効率的なハードウェアアクセラレーションを必要とする。 CNN推論のGEMMをさらに加速する一般的な手法であり、特に、構造的疎結合は予測可能な負荷分散と非常に低いインデックスオーバーヘッドの利点がある。 本稿では,ハードウェアの高利用性を維持しつつ,多様なスパーシティレベルをサポートする方法という,構造的スパーシティに対する重要なアーキテクチャ上の課題について述べる。 本稿では,可変密度バウンドブロック (vdbb) の時間的制約のない定式化について述べる。 次に、このスキームを実装したシストリックアレイマイクロアーキテクチャを2つのデータ再利用最適化で記述する。 まず,PE当たりのMAC数を増やすことにより,オペランドおよび部分積の再利用量を増加させる。 次に,im2col変換をハードウェアに移動させる新しい手法を導入し,オペランドがデータパスに消費される直前に3倍のデータ帯域幅拡張を実現し,sramの消費電力を削減した。 重み空間、アクティベーション空間、データ再利用の最適化はすべて相互関係であり、最適の組み合わせは明らかではない。 そこで我々は,設計空間の評価を行い,最適設計特性を求める。 その結果、16nmの16.8 tops/w、控えめな50%のsparsity、モデルsparsity/wの87.5%のスケールが得られる。 可変dbbテクニックの実証に成功しただけでなく、この結果は以前報告されたスパースcnnアクセラレータを大幅に上回っている。

Convolutional neural network (CNN) inference on mobile devices demands efficient hardware acceleration of low-precision (INT8) general matrix multiplication (GEMM). Exploiting data sparsity is a common approach to further accelerate GEMM for CNN inference, and in particular, structural sparsity has the advantages of predictable load balancing and very low index overhead. In this paper, we address a key architectural challenge with structural sparsity: how to provide support for a range of sparsity levels while maintaining high utilization of the hardware. We describe a time unrolled formulation of variable density-bound block (VDBB) sparsity that allows for a configurable number of non-zero elements per block, at constant utilization. We then describe a systolic array microarchitecture that implements this scheme, with two data reuse optimizations. Firstly, we increase reuse in both operands and partial products by increasing the number of MACs per PE. Secondly, we introduce a novel approach of moving the IM2COL transform into the hardware, which allows us to achieve a 3x data bandwidth expansion just before the operands are consumed by the datapath, reducing the SRAM power consumption. The optimizations for weight sparsity, activation sparsity and data reuse are all interrelated and therefore the optimal combination is not obvious. Therefore, we perform an design space evaluation to find the pareto-optimal design characteristics. The resulting design achieves 16.8 TOPS/W in 16nm with modest 50% model sparsity and scales with model sparsity up to 55.7TOPS/W at 87.5%. As well as successfully demonstrating the variable DBB technique, this result significantly outperforms previously reported sparse CNN accelerators.
翻訳日:2022-10-22 02:28:04 公開日:2020-10-12
# 探索手法の探索:NLP逆例生成のためのベンチマーク検索アルゴリズム

Searching for a Search Method: Benchmarking Search Algorithms for Generating NLP Adversarial Examples ( http://arxiv.org/abs/2009.06368v2 )

ライセンス: Link先を確認
Jin Yong Yoo, John X. Morris, Eli Lifland, Yanjun Qi(参考訳) 自然言語処理(nlp)タスクの逆例生成に用いるブラックボックス探索アルゴリズムの挙動について検討した。 検索アルゴリズム,検索空間,検索予算の3つの要素について詳細な分析を行った。 過去の研究で新しい探索アルゴリズムが提案されているとき、攻撃探索空間はしばしば探索アルゴリズムと共に修正される。 アブレーション研究がなければ、検索空間が一定である検索アルゴリズムの変化をベンチマークすると、攻撃成功率が向上した検索アルゴリズムの結果なのか、あるいはより制限の少ない検索空間なのかを判断できない。 さらに、多くの先行研究は、探索アルゴリズムの実行時間コストを適切に考慮しておらず、これは敵の訓練のような下流のタスクに必須である。 本実験は,様々な検索空間にまたがる探索アルゴリズムの再現可能なベンチマークと,今後のNLP研究の指針となるクエリ予算を提供する。 本実験では,時間制約下や長時間入力時の単語重み付けによる強欲攻撃を推奨し,ビーム探索や粒子群最適化を推奨する。 https://github.com/QData/TextAttack-Search-Benchmarkで共有されるコード実装

We study the behavior of several black-box search algorithms used for generating adversarial examples for natural language processing (NLP) tasks. We perform a fine-grained analysis of three elements relevant to search: search algorithm, search space, and search budget. When new search algorithms are proposed in past work, the attack search space is often modified alongside the search algorithm. Without ablation studies benchmarking the search algorithm change with the search space held constant, one cannot tell if an increase in attack success rate is a result of an improved search algorithm or a less restrictive search space. Additionally, many previous studies fail to properly consider the search algorithms' run-time cost, which is essential for downstream tasks like adversarial training. Our experiments provide a reproducible benchmark of search algorithms across a variety of search spaces and query budgets to guide future research in adversarial NLP. Based on our experiments, we recommend greedy attacks with word importance ranking when under a time constraint or attacking long inputs, and either beam search or particle swarm optimization otherwise. Code implementation shared via https://github.com/QData/TextAttack-Search-Benchmark
翻訳日:2022-10-20 08:39:22 公開日:2020-10-12
# ain:近似推論ネットワークを用いた高速かつ高精度なシーケンスラベリング

AIN: Fast and Accurate Sequence Labeling with Approximate Inference Network ( http://arxiv.org/abs/2009.08229v2 )

ライセンス: Link先を確認
Xinyu Wang, Yong Jiang, Nguyen Bach, Tao Wang, Zhongqiang Huang, Fei Huang, Kewei Tu(参考訳) 線形鎖条件ランダム場(CRF)モデルは最も広く使われているニューラルネットワークラベリング手法の1つである。 フォワードバックやビタビアルゴリズムのような厳密な確率的推論アルゴリズムは、典型的にはCRFモデルのトレーニングと予測段階に適用される。 しかし、これらのアルゴリズムは並列化を不可能にする逐次計算を必要とする。 本稿では,CRFモデルに対して並列化可能な近似変分推定アルゴリズムを提案する。 このアルゴリズムに基づいて、ニューラルネットワークCRFモデルのエンコーダと接続可能な近似推論ネットワークを設計し、高速なトレーニングと予測のために並列化が可能なエンドツーエンドネットワークを構築する。 実験の結果,提案手法は長文の復号速度を12.7倍に向上し,従来のCRF手法と比較して精度が向上した。

The linear-chain Conditional Random Field (CRF) model is one of the most widely-used neural sequence labeling approaches. Exact probabilistic inference algorithms such as the forward-backward and Viterbi algorithms are typically applied in training and prediction stages of the CRF model. However, these algorithms require sequential computation that makes parallelization impossible. In this paper, we propose to employ a parallelizable approximate variational inference algorithm for the CRF model. Based on this algorithm, we design an approximate inference network that can be connected with the encoder of the neural CRF model to form an end-to-end network, which is amenable to parallelization for faster training and prediction. The empirical results show that our proposed approaches achieve a 12.7-fold improvement in decoding speed with long sentences and a competitive accuracy compared with the traditional CRF approach.
翻訳日:2022-10-17 08:16:10 公開日:2020-10-12
# 解離性ロテリチップ変換器:スパースニューラルマシン翻訳の構造と挙動に関する研究

Dissecting Lottery Ticket Transformers: Structural and Behavioral Study of Sparse Neural Machine Translation ( http://arxiv.org/abs/2009.13270v2 )

ライセンス: Link先を確認
Rajiv Movva, Jason Y. Zhao(参考訳) 抽選券仮説に関する最近の研究は、bleuを維持しながら、nmt用の非常にスパースなトランスフォーマーを生み出している。 しかし、そのような刈り取り技術がモデルの学習した表現にどのように影響するかは不明である。 より低マグニチュード重みを持つトランスフォーマーを探索することにより、複雑なセマンティック情報が最初に分解されることが分かる。 内部の活性化の解析により、高い層はプルーニングの過程で最も分散し、密度の高い層よりも徐々に複雑になることが明らかとなった。 一方、スパースモデルの初期の層はよりエンコーディングを行うようになる。 散発性が増すにつれて、注意のメカニズムは著しく一貫している。

Recent work on the lottery ticket hypothesis has produced highly sparse Transformers for NMT while maintaining BLEU. However, it is unclear how such pruning techniques affect a model's learned representations. By probing Transformers with more and more low-magnitude weights pruned away, we find that complex semantic information is first to be degraded. Analysis of internal activations reveals that higher layers diverge most over the course of pruning, gradually becoming less complex than their dense counterparts. Meanwhile, early layers of sparse models begin to perform more encoding. Attention mechanisms remain remarkably consistent as sparsity increases.
翻訳日:2022-10-17 07:58:22 公開日:2020-10-12
# 階層的知識グラフを用いた生物医学イベント抽出

Biomedical Event Extraction with Hierarchical Knowledge Graphs ( http://arxiv.org/abs/2009.09335v3 )

ライセンス: Link先を確認
Kung-Hsiang Huang, Mu Yang, Nanyun Peng(参考訳) バイオメディカルイベント抽出は、科学的コーパスで記述された生体分子相互作用を理解する上で重要である。 主な課題の1つは、非指示的トリガーワードに関連するネストされた構造化イベントを特定することである。 本稿では,統合医療言語システム(umls)から,グラフエッジコンディションアテンションネットワーク(geanet)と階層グラフ表現を用いた事前学習言語モデルへのドメイン知識の導入を提案する。 引き起こし語をよりよく認識するために、各文はUMLSの協調モデル化された階層的知識グラフに基づいて、まず文グラフに接地される。 接地グラフは、複雑なイベントを推論する能力を高める新しいグラフニューラルネットワークであるGAANetによって伝播される。 BioNLP 2011 GENIA Event extract taskでは,全イベントの1.41% F1と3.19% F1の改善が達成された。 アブレーション研究は、GAANetと階層的KGの重要性を裏付ける。

Biomedical event extraction is critical in understanding biomolecular interactions described in scientific corpus. One of the main challenges is to identify nested structured events that are associated with non-indicative trigger words. We propose to incorporate domain knowledge from Unified Medical Language System (UMLS) to a pre-trained language model via Graph Edge-conditioned Attention Networks (GEANet) and hierarchical graph representation. To better recognize the trigger words, each sentence is first grounded to a sentence graph based on a jointly modeled hierarchical knowledge graph from UMLS. The grounded graphs are then propagated by GEANet, a novel graph neural networks for enhanced capabilities in inferring complex events. On BioNLP 2011 GENIA Event Extraction task, our approach achieved 1.41% F1 and 3.19% F1 improvements on all events and complex events, respectively. Ablation studies confirm the importance of GEANet and hierarchical KG.
翻訳日:2022-10-16 12:24:38 公開日:2020-10-12
# W-NUT 2020 Shared Task-3: A Text to Text Approach for COVID-19 Event extract on Social Media

UCD-CS at W-NUT 2020 Shared Task-3: A Text to Text Approach for COVID-19 Event Extraction on Social Media ( http://arxiv.org/abs/2009.10047v2 )

ライセンス: Link先を確認
Congcong Wang and David Lillis(参考訳) 本稿では,TwitterからのCOVID-19イベント抽出という,共有タスクにおけるアプローチについて述べる。 このタスクの目的は、covid-19関連のツイートから、事前に定義されたスロット満載の質問に答えを抽出することである。 本稿では,t5テキストからテキストへの変換モデルを用いて,イベント抽出タスクを質問応答タスクとして扱う。 得られた公式評価スコア,すなわちF1では,我々の提出したランは,他の参加ランと比較して競争性能が向上する(第3位)。 しかし,本評価はテキスト生成に基づく実行性能を過小評価する可能性がある。 そのような実行はスロットの質問によく答えるかもしれないが、ゴールドの標準の回答と正確な文字列マッチではないかもしれない。 この過小評価の程度を測るために、よく解答された予測を正確に整合した予測に変換することを目的とした、単純な正解変換法を採用する。 その結果,5つのCOVID関連イベントのうち3つにおいて,私たちのラン全体のパフォーマンスは,最高の参加ランと最先端のF1スコアと同等であることが判明した。 私たちのコードは再現性を支援するために公開されています

In this paper, we describe our approach in the shared task: COVID-19 event extraction from Twitter. The objective of this task is to extract answers from COVID-related tweets to a set of predefined slot-filling questions. Our approach treats the event extraction task as a question answering task by leveraging the transformer-based T5 text-to-text model. According to the official evaluation scores returned, namely F1, our submitted run achieves competitive performance compared to other participating runs (Top 3). However, we argue that this evaluation may underestimate the actual performance of runs based on text-generation. Although some such runs may answer the slot questions well, they may not be an exact string match for the gold standard answers. To measure the extent of this underestimation, we adopt a simple exact-answer transformation method aiming at converting the well-answered predictions to exactly-matched predictions. The results show that after this transformation our run overall reaches the same level of performance as the best participating run and state-of-the-art F1 scores in three of five COVID-related events. Our code is publicly available to aid reproducibility
翻訳日:2022-10-16 04:49:48 公開日:2020-10-12
# 非一貫性角膜スペクトル光を用いたGAN生成顔の露光

Exposing GAN-generated Faces Using Inconsistent Corneal Specular Highlights ( http://arxiv.org/abs/2009.11924v2 )

ライセンス: Link先を確認
Shu Hu, Yuezun Li, and Siwei Lyu(参考訳) GAN(Sophisticated Generative Adversary Network)モデルでは,現実的な顔を視覚的に識別することが難しい,極めて現実的な顔を合成できるようになった。 本研究では,GAN合成顔は両眼の角膜特異なハイライトで露出することができることを示す。 この矛盾は、GANモデルにおける物理的・生理学的制約の欠如に起因する。 高品質なGAN合成顔に広く存在することを示し、さらに2つの目から角膜スペクトルのハイライトを抽出・比較する自動手法について述べる。 本手法の質的,定量的評価は,GAN合成顔の識別における簡便さと有効性を示している。

Sophisticated generative adversary network (GAN) models are now able to synthesize highly realistic human faces that are difficult to discern from real ones visually. In this work, we show that GAN synthesized faces can be exposed with the inconsistent corneal specular highlights between two eyes. The inconsistency is caused by the lack of physical/physiological constraints in the GAN models. We show that such artifacts exist widely in high-quality GAN synthesized faces and further describe an automatic method to extract and compare corneal specular highlights from two eyes. Qualitative and quantitative evaluations of our method suggest its simplicity and effectiveness in distinguishing GAN synthesized faces.
翻訳日:2022-10-15 04:56:56 公開日:2020-10-12
# EIS -- Exponential、ISRU、Softplusを組み合わせたアクティベーション機能のファミリー

EIS -- a family of activation functions combining Exponential, ISRU, and Softplus ( http://arxiv.org/abs/2009.13501v2 )

ライセンス: Link先を確認
Koushik Biswas, Sandeep Kumar, Shilpak Banerjee, Ashish Kumar Pandey(参考訳) 活性化関数はニューラルネットワークを用いた関数学習において重要な役割を果たす。 学習関数の非線形性は、アクティベーション関数の繰り返し使用によって達成される。 長年にわたり、いくつかのタスクで精度を向上させるために多くのアクティベーション関数が提案されてきた。 ReLU、Sigmoid、Tanh、Softplusといった基本的な機能は、その単純さからディープラーニングコミュニティで好まれている。 近年、これらの基本関数から生じるいくつかの新しい活性化関数が提案され、いくつかの挑戦的なデータセットにおいて精度が向上した。 活性化関数の5つの超パラメータ群、すなわち EIS を \[ \frac{x(\ln(1+e^x))^\alpha}{\sqrt{\beta+\gamma x^2}+\delta e^{-\theta x}} と定義する。 筆者らは、よく知られたデータセットやモデルにおいて、広く使われているアクティベーション関数よりも優れているEISファミリーのアクティベーション関数の例を示す。 例えば、$\frac{x\ln(1+e^x)}{x+1.16e^{-x}}$は、DenseNet-169でReLUを0.89\%、CIFAR100データセットでInception V3で0.24\%、DenseNet-169で0.13\%、CIFAR10データセットでSimpleNetモデルで0.94\%を上回る。 また、$\frac{x\ln(1+e^x)}{\sqrt{1+x^2}}$は、DenseNet-169ではReLUを1.68\%、CIFAR100データセットではInception V3では0.30\%、DenseNet-169では0.15\%、CIFAR10データセットではSimpleNetモデルでは1.13\%を上回る。

Activation functions play a pivotal role in the function learning using neural networks. The non-linearity in the learned function is achieved by repeated use of the activation function. Over the years, numerous activation functions have been proposed to improve accuracy in several tasks. Basic functions like ReLU, Sigmoid, Tanh, or Softplus have been favorite among the deep learning community because of their simplicity. In recent years, several novel activation functions arising from these basic functions have been proposed, which have improved accuracy in some challenging datasets. We propose a five hyper-parameters family of activation functions, namely EIS, defined as, \[ \frac{x(\ln(1+e^x))^\alpha}{\sqrt{\beta+\gamma x^2}+\delta e^{-\theta x}}. \] We show examples of activation functions from the EIS family which outperform widely used activation functions on some well known datasets and models. For example, $\frac{x\ln(1+e^x)}{x+1.16e^{-x}}$ beats ReLU by 0.89\% in DenseNet-169, 0.24\% in Inception V3 in CIFAR100 dataset while 1.13\% in Inception V3, 0.13\% in DenseNet-169, 0.94\% in SimpleNet model in CIFAR10 dataset. Also, $\frac{x\ln(1+e^x)}{\sqrt{1+x^2}}$ beats ReLU by 1.68\% in DenseNet-169, 0.30\% in Inception V3 in CIFAR100 dataset while 1.0\% in Inception V3, 0.15\% in DenseNet-169, 1.13\% in SimpleNet model in CIFAR10 dataset.
翻訳日:2022-10-13 20:40:26 公開日:2020-10-12
# 造船所における不規則な移動を伴うフォークリフト車両の状態分析のための機械学習手法

Machine-Learning Approach to Analyze the Status of Forklift Vehicles with Irregular Movement in a Shipyard ( http://arxiv.org/abs/2009.14025v2 )

ライセンス: Link先を確認
Hyeonju Lee, Jongho Lee, Minji An, Gunil Park, Sungchul Choi(参考訳) 大型造船所では、様々な船舶の建造に使用される設備の管理が重要である。 発注は年々異なるため、造船所管理者は限られた資源を最大限に活用するための方法を決定する必要がある。 造船所の性質と大きさが原因で生じる特に難しいのは、移動車両の管理である。 近年、造船会社はgps(global positioning system)モジュールを使用して車両の位置や移動を管理し追跡しようと試みている。 しかし、フォークリフトなどの一部の車両は庭を不規則に歩き回っているため、現場にいなくても作業状態を特定することは困難である。 位置情報だけでは、車両の動作、移動、待機、休息を判断するには不十分だ。 本研究は,各フォークリフトの作業状況を特定するための機械学習に基づくアプローチを提案する。 我々はDBSCANとk平均アルゴリズムを用いて、特定のフォークリフトが動作している領域と、それが実行している作業の種類を特定する。 我々はGPSとIoT(Internet of Things)デバイスを備えたフォークリフトから情報を集めるビジネスインテリジェンスシステムを開発した。 このシステムは個々のフォークリフトの状態に関する視覚的情報を提供し、大型造船所における移動の効率的な管理を支援する。

In large shipyards, the management of equipment, which are used for building a variety of ships, is critical. Because orders vary year to year, shipyard managers are required to determine methods to make the most of their limited resources. A particular difficulty that arises because of the nature and size of shipyards is the management of moving vehicles. In recent years, shipbuilding companies have attempted to manage and track the locations and movements of vehicles using Global Positioning System (GPS) modules. However, because certain vehicles, such as forklifts, roam irregularly around a yard, identifying their working status without being onsite is difficult. Location information alone is not sufficient to determine whether a vehicle is working, moving, waiting, or resting. This study proposes an approach based on machine learning to identify the work status of each forklift. We use the DBSCAN and k-means algorithms to identify the area in which a particular forklift is operating and the type of work it is performing. We developed a business intelligence system to collect information from forklifts equipped with GPS and Internet of Things (IoT) devices. The system provides visual information on the status of individual forklifts and helps in the efficient management of their movements within large shipyards.
翻訳日:2022-10-13 06:46:13 公開日:2020-10-12
# ダブルq学習のための有限時間解析

Finite-Time Analysis for Double Q-learning ( http://arxiv.org/abs/2009.14257v2 )

ライセンス: Link先を確認
Huaqing Xiong, Lin Zhao, Yingbin Liang, Wei Zhang(参考訳) q-learningは強化学習において最善のアクション値関数(つまり最適なポリシー)を見つけるための最も成功したアルゴリズムの1つであるが、その実装はしばしばランダムサンプリングによって生じるq-関数値の過大評価に苦しむ。 The double Q-learning algorithm proposed in~\citet{hasselt2010double} は、2つのQ-estimator間で更新をランダムに切り替えることでそのような過大評価問題を克服し、実際にかなりの人気を得た。 しかし、二重Q学習の理論的理解は限られている。 これまでのところ、アルゴリズムの収束速度を特徴づけない漸近収束のみが確立されている。 本稿では,二重q学習のための非漸近的(すなわち有限時間)解析を初めて提供する。 同期および非同期の二重q-ラーニングは、$\tilde{\omega}\left(\left(\left( \frac{1}{(1-\gamma)^6\epsilon^2}\right)^{\frac{1}{\omega}} +\left(\frac{1}{1-\gamma}\right)^{\frac{1}{1-\omega}}\right)$イテレーション、ここで$\omega\in(0,1)$は学習率の減衰パラメータ、$\gamma$は割引係数である。 本解析は, 2つの連結確率過程間の差分に関する有限時間境界を導出する新しい手法を開発し, 確率近似の文献に新たな知見を与える。

Although Q-learning is one of the most successful algorithms for finding the best action-value function (and thus the optimal policy) in reinforcement learning, its implementation often suffers from large overestimation of Q-function values incurred by random sampling. The double Q-learning algorithm proposed in~\citet{hasselt2010double} overcomes such an overestimation issue by randomly switching the update between two Q-estimators, and has thus gained significant popularity in practice. However, the theoretical understanding of double Q-learning is rather limited. So far only the asymptotic convergence has been established, which does not characterize how fast the algorithm converges. In this paper, we provide the first non-asymptotic (i.e., finite-time) analysis for double Q-learning. We show that both synchronous and asynchronous double Q-learning are guaranteed to converge to an $\epsilon$-accurate neighborhood of the global optimum by taking $\tilde{\Omega}\left(\left( \frac{1}{(1-\gamma)^6\epsilon^2}\right)^{\frac{1}{\omega}} +\left(\frac{1}{1-\gamma}\right)^{\frac{1}{1-\omega}}\right)$ iterations, where $\omega\in(0,1)$ is the decay parameter of the learning rate, and $\gamma$ is the discount factor. Our analysis develops novel techniques to derive finite-time bounds on the difference between two inter-connected stochastic processes, which is new to the literature of stochastic approximation.
翻訳日:2022-10-13 06:03:03 公開日:2020-10-12
# バウンディングボックス: 検出された建物のコンテキストエンコーディングによるストリートビュー画像の分類

Bounding Boxes Are All We Need: Street View Image Classification via Context Encoding of Detected Buildings ( http://arxiv.org/abs/2010.01305v2 )

ライセンス: Link先を確認
Kun Zhao, Yongkun Liu, Siyuan Hao, Shaoxing Lu, Hongbin Liu, Lijian Zhou(参考訳) 都市の土地利用分析を目的としたストリートビュー画像分類は、クラスラベル(商業地域など)が一般的な視覚的タスク(人や車など)に比べて抽象レベルの高い概念であるため、難しい。 したがって、視覚的特徴のみを用いた分類モデルは、しばしば十分な性能を達成することができない。 本稿では,「Detector-Encoder-Classifier」フレームワークに基づく新しい手法を提案する。 畳み込みニューラルネットワーク(cnns)に基づいて,画像全体の視覚的特徴を直接共通の画像レベルモデルとして使用する代わりに,提案手法ではまず,ストリートビュー画像内の建物のバウンディングボックスを検出器から取得する。 構築クラスの共起パターンやそれらのレイアウトといったそれらのコンテキスト情報は、提案するアルゴリズム「コーディング」(検出された建物のコンテキストエンコーディング)によってメタデータにエンコードされる。 最後に、これらのバウンディングボックスメタデータは、recurrent neural network(rnn)によって分類される。 さらに,既存のBIC GSV [1]に基づいて,19,070のストリートビューイメージと38,857の建物からなるBEAUTY (Building dEtection And Urban funcTional-zone PortraYing) という2つのラベル付きデータセットを作成した。 このデータセットは、ストリートビューイメージの分類だけでなく、マルチクラスのビルディング検出にも利用できる。 BEAUTY実験の結果,画像レベルのCNNモデルを用いたマクロリコールでは12.65%,マクロリコールでは12%の性能向上が得られた。 私たちのコードとデータセットはhttps://github.com/kyle-one/Context-Encoding-of-Detected-Buildings/で利用可能です。

Street view images classification aiming at urban land use analysis is difficult because the class labels (e.g., commercial area), are concepts with higher abstract level compared to the ones of general visual tasks (e.g., persons and cars). Therefore, classification models using only visual features often fail to achieve satisfactory performance. In this paper, a novel approach based on a "Detector-Encoder-Classifier" framework is proposed. Instead of using visual features of the whole image directly as common image-level models based on convolutional neural networks (CNNs) do, the proposed framework firstly obtains the bounding boxes of buildings in street view images from a detector. Their contextual information such as the co-occurrence patterns of building classes and their layout are then encoded into metadata by the proposed algorithm "CODING" (Context encOding of Detected buildINGs). Finally, these bounding box metadata are classified by a recurrent neural network (RNN). In addition, we made a dual-labeled dataset named "BEAUTY" (Building dEtection And Urban funcTional-zone portraYing) of 19,070 street view images and 38,857 buildings based on the existing BIC GSV [1]. The dataset can be used not only for street view image classification, but also for multi-class building detection. Experiments on "BEAUTY" show that the proposed approach achieves a 12.65% performance improvement on macro-precision and 12% on macro-recall over image-level CNN based models. Our code and dataset are available at https://github.com/kyle-one/Context-Encoding-of-Detected-Buildings/
翻訳日:2022-10-11 11:41:09 公開日:2020-10-12
# cough sound signal processingを用いた解釈可能な症状埋め込みによるcovid-19の早期診断

Pay Attention to the cough: Early Diagnosis of COVID-19 using Interpretable Symptoms Embeddings with Cough Sound Signal Processing ( http://arxiv.org/abs/2010.02417v2 )

ライセンス: Link先を確認
Ankit Pal, Malaikannan Sankarasubbu(参考訳) sars-cov-2によるcovid-19(coonavirus disease 2019)のパンデミックは、人類にとって悲惨で壊滅的な大惨事につながった。 執筆時点では、感染の伝達と拡散を制御するために特定の抗ウイルス薬やワクチンは推奨されていない。 現在のcovid-19の診断はrt-pcr(reverse-transcription polymer chain reaction)によって行われる。 しかし、この方法は高価で時間がかかり、海峡地帯では容易に利用できない。 これらの制限を克服するために,cough soundの特徴と症状メタデータに基づいて,解釈可能かつcovid-19診断aiフレームワークを考案し,開発する。 提案フレームワークの性能は,30000音声区間の症状と人口統計データ,150名(covid-19,気管支喘息,気管支炎,健康)から得られた328cough音を含む医療データセットを用いて評価した。 実験の結果、このモデルがより良くロバストな特徴の埋め込みを捉えており、covid-19患者は、より特異性と正確性が高く、それぞれ95.04$\pm$ 0.18%と96.83$\pm$ 0.18%と、解釈性を維持しながら、いくつかのタイプの非共用性cooughとを区別できる。

COVID-19 (coronavirus disease 2019) pandemic caused by SARS-CoV-2 has led to a treacherous and devastating catastrophe for humanity. At the time of writing, no specific antivirus drugs or vaccines are recommended to control infection transmission and spread. The current diagnosis of COVID-19 is done by Reverse-Transcription Polymer Chain Reaction (RT-PCR) testing. However, this method is expensive, time-consuming, and not easily available in straitened regions. An interpretable and COVID-19 diagnosis AI framework is devised and developed based on the cough sounds features and symptoms metadata to overcome these limitations. The proposed framework's performance was evaluated using a medical dataset containing Symptoms and Demographic data of 30000 audio segments, 328 cough sounds from 150 patients with four cough classes ( COVID-19, Asthma, Bronchitis, and Healthy). Experiments' results show that the model captures the better and robust feature embedding to distinguish between COVID-19 patient coughs and several types of non-COVID-19 coughs with higher specificity and accuracy of 95.04 $\pm$ 0.18% and 96.83$\pm$ 0.18% respectively, all the while maintaining interpretability.
翻訳日:2022-10-10 08:07:44 公開日:2020-10-12
# 学習結果の予測,解釈,改善のためのフレームワーク

A framework for predicting, interpreting, and improving Learning Outcomes ( http://arxiv.org/abs/2010.02629v2 )

ライセンス: Link先を確認
Chintan Donda, Sayan Dasgupta, Soma S Dhavala, Keyur Faldu, Aditi Avasthi(参考訳) 学術的成功は認知的次元と非認知的次元の両方が一緒に行動した結果であると長年認識されてきた。 したがって、学習成果(LO)を改善するために設計された知的学習プラットフォームは、これらの次元において学習者に実用的な入力を提供しなければならない。 しかし、そのような入力をスケーラブルな運用環境で運用するのは簡単ではない。 本研究では,学生の観察的,行動的,受験的特徴に基づいて,テストスコアを予測するEmbibe Score Quotient Model(ESQ)を開発した。 ESQは、学生の将来的な採点可能性の予測や、LOの改善に不可欠な個別の学習ナッジの提供に使用できる。 予測タスクのために複数の機械学習モデルを評価する。 学習者に有意義なフィードバックを提供するために、各特徴に対する個別化されたShapley特徴属性が計算される。 予測間隔は、予測の不確実性を定量化するために、非パラメトリック量子化回帰を適用して得られる。 上記のモデリング戦略を,1億以上の学習者インタラクションからなるデータセットに,エンビブ学習プラットフォーム上で適用する。 観測値と予測値の中間絶対誤差は複数のユーザセグメントで4.58%であり,予測値と観測値の相関は0.93である。 ゲームライクなwhat-ifシナリオは、反事実的な例でlosの変更を見るために行われる。 我々は,Oracleのように上記のモデルを扱うことによって,学習結果に最適な政策を適用する方法を簡単に議論する。

It has long been recognized that academic success is a result of both cognitive and non-cognitive dimensions acting together. Consequently, any intelligent learning platform designed to improve learning outcomes (LOs) must provide actionable inputs to the learner in these dimensions. However, operationalizing such inputs in a production setting that is scalable is not trivial. We develop an Embibe Score Quotient model (ESQ) to predict test scores based on observed academic, behavioral and test-taking features of a student. ESQ can be used to predict the future scoring potential of a student as well as offer personalized learning nudges, both critical to improving LOs. Multiple machine learning models are evaluated for the prediction task. In order to provide meaningful feedback to the learner, individualized Shapley feature attributions for each feature are computed. Prediction intervals are obtained by applying non-parametric quantile regression, in an attempt to quantify the uncertainty in the predictions. We apply the above modelling strategy on a dataset consisting of more than a hundred million learner interactions on the Embibe learning platform. We observe that the Median Absolute Error between the observed and predicted scores is 4.58% across several user segments, and the correlation between predicted and observed responses is 0.93. Game-like what-if scenarios are played out to see the changes in LOs, on counterfactual examples. We briefly discuss how a rational agent can then apply an optimal policy to affect the learning outcomes by treating the above model like an Oracle.
翻訳日:2022-10-10 06:12:55 公開日:2020-10-12
# 条件付きテキスト生成のためのプラグアンドプレイオートエンコーダ

Plug and Play Autoencoders for Conditional Text Generation ( http://arxiv.org/abs/2010.02983v2 )

ライセンス: Link先を確認
Florian Mai (1 and 2), Nikolaos Pappas (3), Ivan Montero (3), Noah A. Smith (3 and 4), James Henderson (1) ((1) Idiap Research Institute, (2) EPFL, (3) University of Washington, (4) Allen Institute for Artificial Intelligence)(参考訳) テキストオートエンコーダは、スタイル転送などの条件生成タスクに一般的に使用される。 本稿では,プリトレーニング済みのオートエンコーダが使用可能で,自動エンコーダの埋め込み空間内のマッピングを学習し,emb2emb(embed-to-embedding)をトレーニングする手法を提案する。 これにより、タスクのラベル付きトレーニングデータの必要性を低減し、トレーニング手順をより効率的にする。 この手法の成功に不可欠なのは、オートエンコーダの多様体上にマッピングを埋め込むための損失項と、オフセットベクトルを学習して多様体をナビゲートするように訓練されたマッピングである。 シーケンス・ツー・シーケンスの監督を伴わないスタイル転送タスクの評価は,提案手法が最大4倍高速で,強いベースラインに匹敵する性能を示した。

Text autoencoders are commonly used for conditional generation tasks such as style transfer. We propose methods which are plug and play, where any pretrained autoencoder can be used, and only require learning a mapping within the autoencoder's embedding space, training embedding-to-embedding (Emb2Emb). This reduces the need for labeled training data for the task and makes the training procedure more efficient. Crucial to the success of this method is a loss term for keeping the mapped embedding on the manifold of the autoencoder and a mapping which is trained to navigate the manifold by learning offset vectors. Evaluations on style transfer tasks both with and without sequence-to-sequence supervision show that our method performs better than or comparable to strong baselines while being up to four times faster.
翻訳日:2022-10-10 05:19:20 公開日:2020-10-12
# PoinT-5:ポインタネットワークとT-5に基づく金融ナラティブ要約

PoinT-5: Pointer Network and T-5 based Financial NarrativeSummarisation ( http://arxiv.org/abs/2010.04191v2 )

ライセンス: Link先を確認
Abhishek Singh(参考訳) 企業は年度末に株主に対して、運用状況や財務状況に関する年次報告書を提出する。 これらのレポートの平均の長さは80で、最大250ページに及ぶ可能性がある。 本稿では,PinT-5(Pointer NetworkとT-5(Test-to-text Transfer Transformer)アルゴリズムの組み合わせ)をFN(Financial Narrative Summarisation)2020タスクで使用した手法を提案する。 提案手法では,ポインタネットワークを用いてレポートから重要な物語文を抽出し,t-5を用いて抽出した文を簡潔で有意義な文にパラフレーズする。 ROUGE-N (1,2), L, SU4を用いて評価を行った。 提案手法は,すべての指標における最高精度スコアと,ルージュ1,lcsにおける最高f1スコアを達成し,ルージュlcsメトリクスにおけるmuseソリューションベースラインを横断する唯一の解である。

Companies provide annual reports to their shareholders at the end of the financial year that describes their operations and financial conditions. The average length of these reports is 80, and it may extend up to 250 pages long. In this paper, we propose our methodology PoinT-5 (the combination of Pointer Network and T-5 (Test-to-text transfer Transformer) algorithms) that we used in the Financial Narrative Summarisation (FNS) 2020 task. The proposed method uses pointer networks to extract important narrative sentences from the report, and then T-5 is used to paraphrase extracted sentences into a concise yet informative sentence. We evaluate our method using ROUGE-N (1,2), L, and SU4. The proposed method achieves the highest precision scores in all the metrics and highest F1 scores in ROUGE1, and LCS and the only solution to cross the MUSE solution baseline in ROUGE-LCS metrics.
翻訳日:2022-10-09 12:16:03 公開日:2020-10-12
# ブドウ葉の窒素状態検出のためのアンサンブルハイパースペクトルバンド選択

Ensemble Hyperspectral Band Selection for Detecting Nitrogen Status in Grape Leaves ( http://arxiv.org/abs/2010.04225v2 )

ライセンス: Link先を確認
Ryan Omidi, Ali Moghimi, Alireza Pourreza, Mohamed El-Hadedy, Anas Salah Eddin(参考訳) ハイパースペクトルデータの大きなデータサイズと寸法は、複雑な処理とデータ分析を必要とする。 マルチスペクトルデータは、同じ制限を受けることはないが、通常は青、緑、赤、赤、赤、近赤外線帯域に限定される。 本研究は,150種のフレームシードレステーブルブドウから3000種以上の葉から抽出した高スペクトルデータを用いて,ブドウ葉の窒素検出のための最適なスペクトル帯を同定することを目的とした。 random forest, lasso, selectkbest, relieff, svm-rfe, chaotic crow search algorithm (ccsa) の6つの機械学習ベースランカがアンサンブルに含まれていた。 パイプラインは、ブドウの窒素状態に関して最も有益であるバンドの0.45%未満を識別した。 選択された紫色、黄色、短波の赤外線帯は、商用マルチスペクトルカメラの典型的な青、緑、赤、赤、赤の縁および近赤外線帯の外にあり、選択されたバンドを中心としたカスタマイズされたマルチスペクトルセンサによってもたらされるブドウの窒素のリモートセンシングの潜在的な改善は有望であり、さらなる調査に値する。 提案されたパイプラインは、農業以外の分野におけるアプリケーション固有のマルチスペクトルセンサ設計にも使用できる。

The large data size and dimensionality of hyperspectral data demands complex processing and data analysis. Multispectral data do not suffer the same limitations, but are normally restricted to blue, green, red, red edge, and near infrared bands. This study aimed to identify the optimal set of spectral bands for nitrogen detection in grape leaves using ensemble feature selection on hyperspectral data from over 3,000 leaves from 150 Flame Seedless table grapevines. Six machine learning base rankers were included in the ensemble: random forest, LASSO, SelectKBest, ReliefF, SVM-RFE, and chaotic crow search algorithm (CCSA). The pipeline identified less than 0.45% of the bands as most informative about grape nitrogen status. The selected violet, yellow-orange, and shortwave infrared bands lie outside of the typical blue, green, red, red edge, and near infrared bands of commercial multispectral cameras, so the potential improvement in remote sensing of nitrogen in grapevines brought forth by a customized multispectral sensor centered at the selected bands is promising and worth further investigation. The proposed pipeline may also be used for application-specific multispectral sensor design in domains other than agriculture.
翻訳日:2022-10-09 11:59:33 公開日:2020-10-12
# 説得的要求における修辞戦略の順序の検討

Examining the Ordering of Rhetorical Strategies in Persuasive Requests ( http://arxiv.org/abs/2010.04625v2 )

ライセンス: Link先を確認
Omar Shaikh, Jiaao Chen, Jon Saad-Falcon, Duen Horng Chau and Diyi Yang(参考訳) 説得力のある言語が聴衆に与える影響を理解することは、広告、議論、プロパガンダなど多くの領域に影響を及ぼす。 説得はメッセージの内容以上のものに依存します。 メッセージ自体の順序(すなわち特定の修辞的戦略の順序)も重要な役割を果たす。 まず,大規模ローン要求コーパスからのテキスト要求において,コンテンツや修辞的戦略を歪めるために,変分オートエンコーダモデルを用いて,戦略順序が説得性にどのように寄与するかを検討する。 次に,テキスト要求の成功を予測するLSTMを用いて,コンテンツと戦略間の相互作用を可視化する。 特定の(順序の)戦略が要求の内容と一意に相互作用して成功率に影響を与え、要求の説得力を高めることが分かりました。

Interpreting how persuasive language influences audiences has implications across many domains like advertising, argumentation, and propaganda. Persuasion relies on more than a message's content. Arranging the order of the message itself (i.e., ordering specific rhetorical strategies) also plays an important role. To examine how strategy orderings contribute to persuasiveness, we first utilize a Variational Autoencoder model to disentangle content and rhetorical strategies in textual requests from a large-scale loan request corpus. We then visualize interplay between content and strategy through an attentional LSTM that predicts the success of textual requests. We find that specific (orderings of) strategies interact uniquely with a request's content to impact success rate, and thus the persuasiveness of a request.
翻訳日:2022-10-09 03:53:10 公開日:2020-10-12
# 高速道路のボトルネックを緩和するコネクテッド・自律走行車の能力とマルチエージェント強化学習の活用

Leveraging the Capabilities of Connected and Autonomous Vehicles and Multi-Agent Reinforcement Learning to Mitigate Highway Bottleneck Congestion ( http://arxiv.org/abs/2010.05436v1 )

ライセンス: Link先を確認
Paul Young Joun Ha, Sikai Chen, Jiqian Dong, Runjia Du, Yujie Li, Samuel Labi(参考訳) このような突然のフローダウンに対処するために、リアルタイムにアクティブなトラフィック管理戦略が採用されることが多い。 キューが差し迫った場合には、上流トラフィックの速度を調整して下流トラフィックのショークウェーブを緩和するSpeed Harmonization (SH)を適用することができる。 しかし、SHは運転者の認識とコンプライアンスに依存しているため、渋滞を緩和するのに必ずしも有効ではない。 協調学習におけるマルチエージェント強化学習の利用は、この課題に対する有望な解決策である。 この手法をコネクテッド・アンド・オートマチック・ビークル(CAV)の制御アルゴリズムに組み込むことで、CAVを訓練することで、人間のドライバーが速度制限を変更することなく、高速道路の混雑を緩和できる共同決定を行うことができるかもしれない。 本稿では,RLをベースとした多エージェントCAV制御モデルを提案し,混合交通(CAVとHDVの両方)で運用する。 その結果、CAVのシェアが10%以下であっても、CAVはハイウェイ交通のボトルネックを著しく軽減できることがわかった。 もう1つの目的は、ルールベースのコントローラの有効性を評価することである。 この目的に対処する上で、RLベースのCAVコントローラの主な課題の1つは、他の接続されたエンティティや知覚情報によってCAVに提供される情報など、現実世界に存在する入力の多様性と複雑さであるということを正しく認識する。 これらは、処理や学習が難しい動的長さ入力として翻訳される。 そこで本稿では,情報ネットワークのトポロジと対応する動的長さ入力を保存するために,特定のRL手法であるGCN(Graphical Convolution Networks)を提案する。 次に,これとDDPG(Deep Deterministic Policy Gradient)を組み合わせることで,CAVコントローラを用いた混雑軽減のためのマルチエージェントトレーニングを行う。

Active Traffic Management strategies are often adopted in real-time to address such sudden flow breakdowns. When queuing is imminent, Speed Harmonization (SH), which adjusts speeds in upstream traffic to mitigate traffic showckwaves downstream, can be applied. However, because SH depends on driver awareness and compliance, it may not always be effective in mitigating congestion. The use of multiagent reinforcement learning for collaborative learning, is a promising solution to this challenge. By incorporating this technique in the control algorithms of connected and autonomous vehicle (CAV), it may be possible to train the CAVs to make joint decisions that can mitigate highway bottleneck congestion without human driver compliance to altered speed limits. In this regard, we present an RL-based multi-agent CAV control model to operate in mixed traffic (both CAVs and human-driven vehicles (HDVs)). The results suggest that even at CAV percent share of corridor traffic as low as 10%, CAVs can significantly mitigate bottlenecks in highway traffic. Another objective was to assess the efficacy of the RL-based controller vis-\`a-vis that of the rule-based controller. In addressing this objective, we duly recognize that one of the main challenges of RL-based CAV controllers is the variety and complexity of inputs that exist in the real world, such as the information provided to the CAV by other connected entities and sensed information. These translate as dynamic length inputs which are difficult to process and learn from. For this reason, we propose the use of Graphical Convolution Networks (GCN), a specific RL technique, to preserve information network topology and corresponding dynamic length inputs. We then use this, combined with Deep Deterministic Policy Gradient (DDPG), to carry out multi-agent training for congestion mitigation using the CAV controllers.
翻訳日:2022-10-08 08:21:09 公開日:2020-10-12
# 局所因果状態を用いた時空オートエンコーダ

Spacetime Autoencoders Using Local Causal States ( http://arxiv.org/abs/2010.05451v1 )

ライセンス: Link先を確認
Adam Rupe and James P. Crutchfield(参考訳) 局所因果状態は、複雑な時空間系における組織的パターンと構造を捉える潜在表現である。 機能を拡張し、時空オートエンコーダと組み合わせます。 以前は、観測可能な時空場から潜在する局所因果状態場への写像としてのみ考慮されていた。 ここでは,潜在フィールドから可観測フィールドへバックマップする確率的デコードが存在することを示す。 さらに、それらのマルコフ性質は潜在空間における確率力学を定義する。 確率的デコーディングと組み合わせることで、時空場を予測するための新しい方法が提供される。

Local causal states are latent representations that capture organized pattern and structure in complex spatiotemporal systems. We expand their functionality, framing them as spacetime autoencoders. Previously, they were only considered as maps from observable spacetime fields to latent local causal state fields. Here, we show that there is a stochastic decoding that maps back from the latent fields to observable fields. Furthermore, their Markovian properties define a stochastic dynamic in the latent space. Combined with stochastic decoding, this gives a new method for forecasting spacetime fields.
翻訳日:2022-10-08 08:20:37 公開日:2020-10-12
# 脳波における「沈黙の音」 --認知的音声活動検出-

The "Sound of Silence" in EEG -- Cognitive voice activity detection ( http://arxiv.org/abs/2010.05497v1 )

ライセンス: Link先を確認
Rini A Sharon, Hema A Murthy(参考訳) 音声認知は、他のコミュニケーションに障害のある人々の生活の質を向上させる脳コンピューターインタフェースとして応用される可能性がある。 音声と安静状態脳波は一般に研究されているが,本研究では音声の沈黙領域に対応する脳活動の「非音声(NS)」状態を探究する。 まず、そのような状態の存在を検査するために、音声認識の研究を行い、続いて、音声の想像力の同定を行う。 音声認識の性能向上に音声活動検出を用いる方法と類似して,ここで実装した脳波状態行動検出プロトコルを適用し,脳波復号の信頼性を高める。 音声とns状態の分類は、実験室および商用デバイスから収集された2つのデータセットを用いて行われる。 また、得られた状態シーケンシャル情報を利用して、想像された脳波単位認識の検索スペースを削減する。 NS状態の時間信号構造と地形図は、被験者とセッション間で可視化される。 認識性能と視覚的区別は脳波におけるサイレントシグネチャの存在を示す。

Speech cognition bears potential application as a brain computer interface that can improve the quality of life for the otherwise communication impaired people. While speech and resting state EEG are popularly studied, here we attempt to explore a "non-speech"(NS) state of brain activity corresponding to the silence regions of speech audio. Firstly, speech perception is studied to inspect the existence of such a state, followed by its identification in speech imagination. Analogous to how voice activity detection is employed to enhance the performance of speech recognition, the EEG state activity detection protocol implemented here is applied to boost the confidence of imagined speech EEG decoding. Classification of speech and NS state is done using two datasets collected from laboratory-based and commercial-based devices. The state sequential information thus obtained is further utilized to reduce the search space of imagined EEG unit recognition. Temporal signal structures and topographic maps of NS states are visualized across subjects and sessions. The recognition performance and the visual distinction observed demonstrates the existence of silence signatures in EEG.
翻訳日:2022-10-08 08:20:29 公開日:2020-10-12
# 内因性サンプリングを用いた経験的収益最大化アルゴリズムのゲーム理論解析

A Game-Theoretic Analysis of the Empirical Revenue Maximization Algorithm with Endogenous Sampling ( http://arxiv.org/abs/2010.05519v1 )

ライセンス: Link先を確認
Xiaotie Deng, Ron Lavi, Tao Lin, Qi Qi, Wenwei Wang, Xiang Yan(参考訳) 経験的収益最大化(experience revenue maximization, erm)は、オークションデザインにおいて最も重要な価格学習アルゴリズムの1つである。 しかしながら、これらのアプリケーションでは、ERMに入力を提供するエージェントは、出力された価格を下げるために入力を操作するインセンティブを持つ。 lavi et al (2019) が提案したインセンティブ・アウェアネス尺度の定義を一般化し、入力サンプルから$m\ge 1$ の変更によるermの出力価格の削減を定量化し、様々な入力分布に対して$n$ が無限になるにつれて、この尺度の特定の収束率を 0 にする。 本手法を応用し, 単価オークションにおいて, 単価オークションにおけるグループインセンティブの適合性を近似的に示すため, ERMを用いた効率よく, ほぼインセンティブ互換, 収益最適学習アルゴリズムを構築した。

The Empirical Revenue Maximization (ERM) is one of the most important price learning algorithms in auction design: as the literature shows it can learn approximately optimal reserve prices for revenue-maximizing auctioneers in both repeated auctions and uniform-price auctions. However, in these applications the agents who provide inputs to ERM have incentives to manipulate the inputs to lower the outputted price. We generalize the definition of an incentive-awareness measure proposed by Lavi et al (2019), to quantify the reduction of ERM's outputted price due to a change of $m\ge 1$ out of $N$ input samples, and provide specific convergence rates of this measure to zero as $N$ goes to infinity for different types of input distributions. By adopting this measure, we construct an efficient, approximately incentive-compatible, and revenue-optimal learning algorithm using ERM in repeated auctions against non-myopic bidders, and show approximate group incentive-compatibility in uniform-price auctions.
翻訳日:2022-10-08 08:20:13 公開日:2020-10-12
# マスク型ポストフィルタを用いた符号化音声の強調

Enhancement Of Coded Speech Using a Mask-Based Post-Filter ( http://arxiv.org/abs/2010.05571v1 )

ライセンス: Link先を確認
Srikanth Korse, Kishan Gupta, Guillaume Fuchs(参考訳) 音声コーデックの品質は高量子化ノイズにより低ビットレートで劣化する。 一般に、ポストフィルタは符号化された音声の品質を高めるために用いられる。 本稿では,時間周波数領域におけるマスキングに依存するデータ駆動ポストフィルタを提案する。 完全に接続されたニューラルネットワーク(FCNN)、畳み込みエンコーダデコーダ(CED)ネットワーク、長い短期記憶(LSTM)ネットワークは、時間周波数ビン当たりの実数値マスクを推定するために不必要である。 提案モデルは適応型マルチレート広帯域コーデック (amr-wb) の最低動作モード (6.65 kbps-15.85 kbps) でテストされた。 ITU-T G.718のような標準で使用される従来のヒューリスティックポストフィルタよりも、目的的および主観的評価は、符号化音声の強化を確認し、マスクベースのニューラルネットワークシステムの優位性を示す。

The quality of speech codecs deteriorates at low bitrates due to high quantization noise. A post-filter is generally employed to enhance the quality of the coded speech. In this paper, a data-driven post-filter relying on masking in the time-frequency domain is proposed. A fully connected neural network (FCNN), a convolutional encoder-decoder (CED) network and a long short-term memory (LSTM) network are implemeted to estimate a real-valued mask per time-frequency bin. The proposed models were tested on the five lowest operating modes (6.65 kbps-15.85 kbps) of the Adaptive Multi-Rate Wideband codec (AMR-WB). Both objective and subjective evaluations confirm the enhancement of the coded speech and also show the superiority of the mask-based neural network system over a conventional heuristic post-filter used in the standard like ITU-T G.718.
翻訳日:2022-10-08 08:19:51 公開日:2020-10-12
# ガウス過程を用いた未知非線形系の制御障壁関数

Control Barrier Functions for Unknown Nonlinear Systems using Gaussian Processes ( http://arxiv.org/abs/2010.05818v1 )

ライセンス: Link先を確認
Pushpak Jagtap, George J. Pappas, Majid Zamani(参考訳) 本稿では,安全制約を確保しつつ未知の非線形系の制御器合成に着目する。 提案手法は,ガウス過程を用いた学習ステップと,制御障壁関数に基づく制御合成ステップの2段階からなる。 学習段階において、ガウス過程を利用したデータ駆動手法を用いて、未知の制御アフィン非線形ダイナミクスと学習モデルの精度の統計的境界を学習する。 第2のコントローラ合成ステップでは,学習モデルの不確かさを明示的に考慮した制御障壁関数を体系的に計算する手法を開発した。 制御バリア関数は、構成によって安全な制御装置が生成されるだけでなく、安全仕様の満足度に関する厳密な下限も提供する。 最後に,ジェットエンジンの例に対する安全制御器の合成による提案手法の有効性について述べる。

This paper focuses on the controller synthesis for unknown, nonlinear systems while ensuring safety constraints. Our approach consists of two steps, a learning step that uses Gaussian processes and a controller synthesis step that is based on control barrier functions. In the learning step, we use a data-driven approach utilizing Gaussian processes to learn the unknown control affine nonlinear dynamics together with a statistical bound on the accuracy of the learned model. In the second controller synthesis steps, we develop a systematic approach to compute control barrier functions that explicitly take into consideration the uncertainty of the learned model. The control barrier function not only results in a safe controller by construction but also provides a rigorous lower bound on the probability of satisfaction of the safety specification. Finally, we illustrate the effectiveness of the proposed results by synthesizing a safety controller for a jet engine example.
翻訳日:2022-10-08 08:19:16 公開日:2020-10-12
# 安定gan訓練用コンディショニングトリック

Conditioning Trick for Training Stable GANs ( http://arxiv.org/abs/2010.05844v1 )

ライセンス: Link先を確認
Mohammad Esmaeilpour, Raymel Alfonso Sallo, Olivier St-Georges, Patrick Cardinal, Alessandro Lameiras Koerich(参考訳) 本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱した条件付け手法を提案する。 生成器は、シューア分解のスペクトル領域で計算された実サンプルの正規性関数の出発点に近づくように強制する。 この結合により、ジェネレータは切り離すことができ、可能な全てのモードを探索することを制限することはできない。 音声信号の2次元表現を合成するための残差ネットワークを組み込んだBigGANアーキテクチャを少し改良し、保存された位相情報で高品質な音の再構成を可能にする。 さらに,提案する条件訓練シナリオでは,生成されたスペクトログラムの忠実度とバラエティのトレードオフを行う。 UrbanSound8k と ESC-50 の環境音データセットと Mozilla の共通音声データセットによる実験結果から,提案した条件付け手法による GAN 構成は,開始スコア,Frechet 開始距離,信号対雑音比の3つの客観的指標により,ベースラインアーキテクチャを著しく上回ることがわかった。

In this paper we propose a conditioning trick, called difference departure from normality, applied on the generator network in response to instability issues during GAN training. We force the generator to get closer to the departure from normality function of real samples computed in the spectral domain of Schur decomposition. This binding makes the generator amenable to truncation and does not limit exploring all the possible modes. We slightly modify the BigGAN architecture incorporating residual network for synthesizing 2D representations of audio signals which enables reconstructing high quality sounds with some preserved phase information. Additionally, the proposed conditional training scenario makes a trade-off between fidelity and variety for the generated spectrograms. The experimental results on UrbanSound8k and ESC-50 environmental sound datasets and the Mozilla common voice dataset have shown that the proposed GAN configuration with the conditioning trick remarkably outperforms baseline architectures, according to three objective metrics: inception score, Frechet inception distance, and signal-to-noise ratio.
翻訳日:2022-10-08 08:19:04 公開日:2020-10-12
# 計算生物学におけるトレース再構成問題

Trace Reconstruction Problems in Computational Biology ( http://arxiv.org/abs/2010.06083v1 )

ライセンス: Link先を確認
Vinnu Bhardwaj, Pavel A. Pevzner, Cyrus Rashtchian, Yana Safonova(参考訳) エラーが発生しやすいコピーから文字列を再構築する問題、トレース復元問題(trace reconstruction problem)は20年前にウラジーミル・レベンシュテイン(vladimir levenshtein)によって導入された。 痕跡の復元に関する理論的な研究は盛んに行われてきたが、実際的な解決策は、急速に発展している2つの研究分野、すなわち免疫ゲノム学とDNAデータストレージの文脈でのみ現れ始めている。 免疫ゲノム学において、トレースは、適応免疫系によって自然に生成される突然変異を伴う遺伝子の変異コピーに対応する。 DNAデータストレージでは、トレースはデジタルデータをエンコードするDNA分子のノイズの多いコピーに対応し、エラーはデータ検索プロセスの成果物である。 本稿では,いくつかの新しいトレース生成モデルと,免疫遺伝学とdnaデータ保存のトレース再構成に関する疑問,トレース再構成に関する理論的結果,およびそれらの計算生物学との関連について紹介する。 総合的に,既知のソリューションの適用可能性と欠点を議論し,今後の研究の方向性を提案する。

The problem of reconstructing a string from its error-prone copies, the trace reconstruction problem, was introduced by Vladimir Levenshtein two decades ago. While there has been considerable theoretical work on trace reconstruction, practical solutions have only recently started to emerge in the context of two rapidly developing research areas: immunogenomics and DNA data storage. In immunogenomics, traces correspond to mutated copies of genes, with mutations generated naturally by the adaptive immune system. In DNA data storage, traces correspond to noisy copies of DNA molecules that encode digital data, with errors being artifacts of the data retrieval process. In this paper, we introduce several new trace generation models and open questions relevant to trace reconstruction for immunogenomics and DNA data storage, survey theoretical results on trace reconstruction, and highlight their connections to computational biology. Throughout, we discuss the applicability and shortcomings of known solutions and suggest future research directions.
翻訳日:2022-10-08 08:18:13 公開日:2020-10-12
# オンライン学習による逆多目的最適化

Inverse Multiobjective Optimization Through Online Learning ( http://arxiv.org/abs/2010.06140v1 )

ライセンス: Link先を確認
Chaosheng Dong, Bo Zeng(参考訳) 本研究では,多目的意思決定モデルの目的的機能や制約を逐次決定のセットに基づいて学習する問題について検討する。 特に、これらの決定は正確ではなく、測定ノイズを伝達したり、意思決定者の有界合理性によって生成されたりする可能性がある。 本稿では,逆多目的最適化を用いて,この学習問題に対処する一般的なオンライン学習フレームワークを提案する。 より正確には、ノイズのあるデータを処理できる暗黙の更新ルールを持つ2つのオンライン学習アルゴリズムを開発した。 数値計算の結果,両アルゴリズムはパラメータを高い精度で学習でき,ノイズに強いことがわかった。

We study the problem of learning the objective functions or constraints of a multiobjective decision making model, based on a set of sequentially arrived decisions. In particular, these decisions might not be exact and possibly carry measurement noise or are generated with the bounded rationality of decision makers. In this paper, we propose a general online learning framework to deal with this learning problem using inverse multiobjective optimization. More precisely, we develop two online learning algorithms with implicit update rules which can handle noisy data. Numerical results show that both algorithms can learn the parameters with great accuracy and are robust to noise.
翻訳日:2022-10-08 08:12:25 公開日:2020-10-12
# 機能工学によるエスカレーション予測:ibmエコシステムにおけるサポートチケットエスカレーションへの対応

Escalation Prediction using Feature Engineering: Addressing Support Ticket Escalations within IBM's Ecosystem ( http://arxiv.org/abs/2010.06390v1 )

ライセンス: Link先を確認
Lloyd Montgomery(参考訳) 大規模なソフトウェア組織は、バグレポートや機能要求、顧客が提出した一般的な誤解といった形で、毎日多くの顧客サポートの問題を扱っています。 要求を収集、分析、交渉する戦略は、製品がデプロイされた後、顧客の入力を管理する努力によって補完される。 後者の場合、サポートチケットは、顧客が問題やバグレポート、機能要求を提出できるようにするための鍵となる。 サポート上の問題に十分な注意が払われていない場合、顧客は問題をエスカレートする可能性があり、特に数百の顧客と数千のサポートチケットを管理する大企業では、マネジメントへのエスカレーションは時間と費用がかかる。 この論文は、特にサポートチケットのエスカレーションリスクの予測において、サポートアナリストやマネージャの仕事を単純化するためのステップを提供します。 当社の大手産業パートナーであるIBMにおけるフィールドスタディでは、エスカレーション管理においてIBMアナリストが利用可能なサポートプロセスとデータを特徴付けるために、デザインサイエンス方法論が採用されました。 設計と評価の反復サイクルを通じて、顧客に関するサポートアナリストのエキスパート知識はサポートチケットモデルの特徴に変換され、サポートチケットエスカレーションを予測するために機械学習モデルに実装される。 機械学習モデルは250万以上のサポートチケットと10,000エスカレーションでトレーニングされ、エスカレーションのリスクがあるサポートアナリストに対して79.9%のリコールと80.8%のワークロード削減を実現した。 サポートチケットモデルで開発された機能は、サポートチケットエスカレーションを予測するモデルの実装に関心のある組織や、将来の研究者がエスカレーション予測の研究を進めるための出発点として設計されている。

Large software organizations handle many customer support issues every day in the form of bug reports, feature requests, and general misunderstandings as submitted by customers. Strategies to gather, analyze, and negotiate requirements are complemented by efforts to manage customer input after products have been deployed. For the latter, support tickets are key in allowing customers to submit their issues, bug reports, and feature requests. Whenever insufficient attention is given to support issues, there is a chance customers will escalate their issues, and escalation to management is time-consuming and expensive, especially for large organizations managing hundreds of customers and thousands of support tickets. This thesis provides a step towards simplifying the job for support analysts and managers, particularly in predicting the risk of escalating support tickets. In a field study at our large industrial partner, IBM, a design science methodology was employed to characterize the support process and data available to IBM analysts in managing escalations. Through iterative cycles of design and evaluation, support analysts' expert knowledge about their customers was translated into features of a support ticket model to be implemented into a Machine Learning model to predict support ticket escalations. The Machine Learning model was trained and evaluated on over 2.5 million support tickets and 10,000 escalations, obtaining a recall of 79.9% and an 80.8% reduction in the workload for support analysts looking to identify support tickets at risk of escalation. The features developed in the Support Ticket Model are designed to serve as a starting place for organizations interested in implementing the model to predict support ticket escalations, and for future researchers to build on to advance research in Escalation Prediction.
翻訳日:2022-10-08 08:12:16 公開日:2020-10-12
# データ駆動型エンドツーエンドによるスマートウォッチを用いた食事行動監視

A Data Driven End-to-end Approach for In-the-wild Monitoring of Eating Behavior Using Smartwatches ( http://arxiv.org/abs/2010.07051v1 )

ライセンス: Link先を確認
Konstantinos Kyritsis, Christos Diou and Anastasios Delopoulos(参考訳) 世界の肥満の流行が高まり、科学界は食行動の客観的かつ自動監視を行うツールに関心を寄せている。 肥満の研究が注目されているにもかかわらず、このようなツールは摂食障害(例えば食欲不振)の研究や、患者やアスリートにパーソナライズされたモニタリングプラットフォームを提供するためにも利用できる。 本稿では,自動化に向けた完全な枠組みを提案する。 i)内食行動のモデル化と課題 二 市販のスマートウォッチを用いて収集した生慣性データから食事の時間的局所化 まず,摂食イベント(噛み込み)を検出するエンド・ツー・エンドニューラルネットワークを提案する。 提案するネットワークは、同時にトレーニングされる畳み込み層と繰り返し層の両方を使用する。 その後,信号処理アルゴリズムを用いて1日を通して検出された咬合の分布を用いて食事の開始点と終了点を推定する方法を示す。 各フレームワークを個別に広範囲に評価する。 leave-one-subject-out (loso) 評価では,食事中(0.923 f1スコア)の咬合検出において,咬合検出アプローチが4つの最先端アルゴリズムよりも優れていることが示された。 さらに, 食事開始点・終了点の推定に関するLOSOとホールトアウトセット実験の結果, 提案手法は文献上の関連するアプローチ(LOSOではJaccard Index, 0.820, 0.821)より優れていた。 FICと新たに導入されたFreeFICデータセットを用いて実験を行った。

The increased worldwide prevalence of obesity has sparked the interest of the scientific community towards tools that objectively and automatically monitor eating behavior. Despite the study of obesity being in the spotlight, such tools can also be used to study eating disorders (e.g. anorexia nervosa) or provide a personalized monitoring platform for patients or athletes. This paper presents a complete framework towards the automated i) modeling of in-meal eating behavior and ii) temporal localization of meals, from raw inertial data collected in-the-wild using commercially available smartwatches. Initially, we present an end-to-end Neural Network which detects food intake events (i.e. bites). The proposed network uses both convolutional and recurrent layers that are trained simultaneously. Subsequently, we show how the distribution of the detected bites throughout the day can be used to estimate the start and end points of meals, using signal processing algorithms. We perform extensive evaluation on each framework part individually. Leave-one-subject-out (LOSO) evaluation shows that our bite detection approach outperforms four state-of-the-art algorithms towards the detection of bites during the course of a meal (0.923 F1 score). Furthermore, LOSO and held-out set experiments regarding the estimation of meal start/end points reveal that the proposed approach outperforms a relevant approach found in the literature (Jaccard Index of 0.820 and 0.821 for the LOSO and heldout experiments, respectively). Experiments are performed using our publicly available FIC and the newly introduced FreeFIC datasets.
翻訳日:2022-10-08 08:11:47 公開日:2020-10-12
# Miniscope3D: 単一ショットの小型3D蛍光顕微鏡

Miniscope3D: optimized single-shot miniature 3D fluorescence microscopy ( http://arxiv.org/abs/2010.05382v1 )

ライセンス: Link先を確認
Kyrollos Yanny, Nick Antipa, William Liberti, Sam Dehaeck, Kristina Monakhova, Fanglin Linda Liu, Konlin Shen, Ren Ng and Laura Waller(参考訳) ミニチュア蛍光顕微鏡はシステム生物学の標準ツールである。 しかし、広視野小型顕微鏡は2D情報のみをキャプチャし、3D機能を実現する修正によってサイズと重量が増加し、狭い奥行き範囲の外側では解像度が低下する。 本稿では,従来の2dミニスコープのチューブレンズを対象物の開口停止時に最適化された多焦点位相マスクに置き換え,3d機能を実現する。 開口端に位相マスクを置くとデバイスのサイズが大幅に小さくなり、焦点長が変化することで、広い深度にわたって均一な解像度が得られる。 位相マスクは、3次元蛍光強度を1つの2次元計測に符号化し、スパーシティ制約された逆問題を解いて3次元ボリュームを回復する。 位相マスクの設計と製作を行う方法と、ミニチュア目的のフィールドバリアリング収差を考慮した効率的なフォワードモデルを提供する。 900x700x390$\mu m^3$ボリュームで毎秒40ボリュームの900x700x390$\mu m^3$ボリュームで、高さ17mm、重量2.5g、横方向2.76ドル、軸方向15ドルのプロトタイプを実証した。 性能は、解像度目標、動的生物学的サンプル、マウス脳組織で実験的に検証される。 従来のミニチュア・シングルショット・ボリュームキャプチャーシステムと比較すると,本システムは小型で軽量であり,最大10倍の深さ範囲で,横軸および軸方向の解像度が2倍以上向上している。 我々の顕微鏡設計は、自由に動く動物における体積型ニューラルイメージングや、インキュベーターやラボオンチップデバイスにおける動的サンプルの3次元運動研究など、コンパクトなプラットフォームが重要な用途に、単発3Dイメージングを提供する。

Miniature fluorescence microscopes are a standard tool in systems biology. However, widefield miniature microscopes capture only 2D information, and modifications that enable 3D capabilities increase the size and weight and have poor resolution outside a narrow depth range. Here, we achieve the 3D capability by replacing the tube lens of a conventional 2D Miniscope with an optimized multifocal phase mask at the objective's aperture stop. Placing the phase mask at the aperture stop significantly reduces the size of the device, and varying the focal lengths enables a uniform resolution across a wide depth range. The phase mask encodes the 3D fluorescence intensity into a single 2D measurement, and the 3D volume is recovered by solving a sparsity-constrained inverse problem. We provide methods for designing and fabricating the phase mask and an efficient forward model that accounts for the field-varying aberrations in miniature objectives. We demonstrate a prototype that is 17 mm tall and weighs 2.5 grams, achieving 2.76 $\mu$m lateral, and 15 $\mu$m axial resolution across most of the 900x700x390 $\mu m^3$ volume at 40 volumes per second. The performance is validated experimentally on resolution targets, dynamic biological samples, and mouse brain tissue. Compared with existing miniature single-shot volume-capture implementations, our system is smaller and lighter and achieves a more than 2x better lateral and axial resolution throughout a 10x larger usable depth range. Our microscope design provides single-shot 3D imaging for applications where a compact platform matters, such as volumetric neural imaging in freely moving animals and 3D motion studies of dynamic samples in incubators and lab-on-a-chip devices.
翻訳日:2022-10-08 08:11:22 公開日:2020-10-12
# 深層学習に基づくパンスターズ銀河の広い形態のカタログ

A catalog of broad morphology of Pan-STARRS galaxies based on deep learning ( http://arxiv.org/abs/2010.06073v1 )

ライセンス: Link先を確認
Hunter Goddard, Lior Shamir(参考訳) Pan-STARRSのような自律型デジタルスカイサーベイは、非常に多くの銀河や外銀河の天体を撮影する能力があり、画像データの大規模で複雑な性質は、自動化の使用を補強する。 本稿では,銀河の自動広義形態弁別のためのデータ解析プロセスの設計と実装について述べ,パンスターズdr1のデータに適用する。 このプロセスはフィルタに基づいて、2段階畳み込みニューラルネットワーク(cnn)の分類を行う。 トレーニングサンプルは、手動で分類された銀河の強化と平衡によって生成される。 SDSS銀河の以前の広い形態素カタログに含まれるPan-STARRSのアノテーションとの比較により、精度を評価する。 解析の結果、cnnと複数のフィルターが組み合わさることで、銀河の注釈やアンダーマン像の除去に有効な方法であることが判明した。 カタログには約95%の精度で1,662,190の銀河の形態ラベルが含まれている。 信頼しきい値以上のラベルを選択することで、精度をさらに向上させることができる。 カタログは公開されている。

Autonomous digital sky surveys such as Pan-STARRS have the ability to image a very large number of galactic and extra-galactic objects, and the large and complex nature of the image data reinforces the use of automation. Here we describe the design and implementation of a data analysis process for automatic broad morphology annotation of galaxies, and applied it to the data of Pan-STARRS DR1. The process is based on filters followed by a two-step convolutional neural network (CNN) classification. Training samples are generated by using an augmented and balanced set of manually classified galaxies. Results are evaluated for accuracy by comparison to the annotation of Pan-STARRS included in a previous broad morphology catalog of SDSS galaxies. Our analysis shows that a CNN combined with several filters is an effective approach for annotating the galaxies and removing unclean images. The catalog contains morphology labels for 1,662,190 galaxies with ~95% accuracy. The accuracy can be further improved by selecting labels above certain confidence thresholds. The catalog is publicly available.
翻訳日:2022-10-08 08:10:12 公開日:2020-10-12
# アクティブセンサ融合のための多目的ベイズ最適化とジョイントインバージョン

Multi-Objective Bayesian Optimisation and Joint Inversion for Active Sensor Fusion ( http://arxiv.org/abs/2010.05386v1 )

ライセンス: Link先を確認
Sebastian Haan, Fabio Ramos, Dietmar M\"uller(参考訳) ミネラルおよびエネルギー資源探査のためのデータ取得における決定過程は、様々なセンサータイプを効率的に組み合わせ、総コストを最小化する方法である。 本稿では,多目的最適化と逆問題に対する確率的フレームワークを提案する。 本手法は,2次元センサデータと3次元物理特性の多次元フォワードモデルを,異なるパラメータの交叉分散を考慮したスパースガウスプロセスカーネルを用いて共同で解く。 複数の最適化戦略を, 合成および実測地データを用いて検証し, 評価する。 2次元重力・磁気センサデータによる新しいドリルコアの配置を推奨するジョイント逆問題の具体例では,線形フォワードモデルを用いた様々なリモートセンシング問題に対して,データ取得のための表面アクセス制限から適応型マルチセンサ測位まで,同様のアプローチが適用可能であることを示す。

A critical decision process in data acquisition for mineral and energy resource exploration is how to efficiently combine a variety of sensor types and to minimize total cost. We propose a probabilistic framework for multi-objective optimisation and inverse problems given an expensive cost function for allocating new measurements. This new method is devised to jointly solve multi-linear forward models of 2D-sensor data and 3D-geophysical properties using sparse Gaussian Process kernels while taking into account the cross-variances of different parameters. Multiple optimisation strategies are tested and evaluated on a set of synthetic and real geophysical data. We demonstrate the advantages on a specific example of a joint inverse problem, recommending where to place new drill-core measurements given 2D gravity and magnetic sensor data, the same approach can be applied to a variety of remote sensing problems with linear forward models - ranging from constraints limiting surface access for data acquisition to adaptive multi-sensor positioning.
翻訳日:2022-10-08 08:09:47 公開日:2020-10-12
# AIソングコンテスト:人間とAIの合唱曲

AI Song Contest: Human-AI Co-Creation in Songwriting ( http://arxiv.org/abs/2010.05388v1 )

ライセンス: Link先を確認
Cheng-Zhi Anna Huang, Hendrik Vincent Koops, Ed Newton-Rex, Monica Dinculescu, Carrie J. Cai(参考訳) 機械学習は音楽の作り方に挑戦している。 深層生成モデルの研究は、音楽モデルの能力と流布度を劇的に向上させたが、最近の研究は、人間がこの新しい種類のアルゴリズムと組むことが困難であることを示している。 本稿では、13のミュージシャン/開発者チーム、合計61人のユーザ、AIで曲を共同制作する上で必要なもの、直面した課題、そしてこれらの課題を克服するためにAIの既存の特徴をどのように活用し再利用したか、について述べる。 多くのチームがモジュラーなアプローチを採用し、曲の音楽的な構成要素に合わせて複数の小さなモデルを独立に実行し、結果を再結合するなどした。 MLモデルは簡単には操縦できないため、チームは大量のサンプルを生成してポストホックでキュレートしたり、生成を指示したり、アルゴリズムでサンプルをランク付けするためにさまざまな戦略を使った。 最終的にチームは、創造プロセスの"フレアとフォーカス"の側面を管理するだけでなく、複数のmlモデルとアウトプットを探索し、キュレーションする並列プロセスでそれらをジャグリングする必要があった。 これらの発見は、より分解性があり、操作性があり、解釈可能で、適応性がある、機械学習による音楽インターフェースを設計する必要性を反映している。

Machine learning is challenging the way we make music. Although research in deep generative models has dramatically improved the capability and fluency of music models, recent work has shown that it can be challenging for humans to partner with this new class of algorithms. In this paper, we present findings on what 13 musician/developer teams, a total of 61 users, needed when co-creating a song with AI, the challenges they faced, and how they leveraged and repurposed existing characteristics of AI to overcome some of these challenges. Many teams adopted modular approaches, such as independently running multiple smaller models that align with the musical building blocks of a song, before re-combining their results. As ML models are not easily steerable, teams also generated massive numbers of samples and curated them post-hoc, or used a range of strategies to direct the generation, or algorithmically ranked the samples. Ultimately, teams not only had to manage the "flare and focus" aspects of the creative process, but also juggle them with a parallel process of exploring and curating multiple ML models and outputs. These findings reflect a need to design machine learning-powered music interfaces that are more decomposable, steerable, interpretable, and adaptive, which in return will enable artists to more effectively explore how AI can extend their personal expression.
翻訳日:2022-10-08 08:09:28 公開日:2020-10-12
# rags2ridges:高次元精度行列のグラフィカルモデリングのためのワンストップショップ

rags2ridges: A One-Stop-Shop for Graphical Modeling of High-Dimensional Precision Matrices ( http://arxiv.org/abs/2010.05619v1 )

ライセンス: Link先を確認
Carel F.W. Peeters, Anders Ellern Bilgrau, Wessel N. van Wieringen(参考訳) グラフィカルモデルは、変数間の条件付き独立性を表す非方向ネットワークである。 グラフィカルモデリングは、多変量データに対するシステムやネットワークアプローチの一部となり、特に、可変次元が観測次元を超えている場合である。 rags2ridgesは、高次元精度行列のグラフィカルモデリングのためのRパッケージである。 高次元データからガウス図形モデルを抽出、可視化、分析するためのモジュラーフレームワークを提供する。 さらに、複数の異種データクラスだけでなく、事前情報の取り込みも処理できる。 そのため、高次元精度行列のグラフィカルモデリングのためのワンストップショップを提供する。 このパッケージの機能は、アルツハイマー病の患者における血液ベースの代謝産物の測定に関するサンプルデータセットで示される。

A graphical model is an undirected network representing the conditional independence properties between random variables. Graphical modeling has become part and parcel of systems or network approaches to multivariate data, in particular when the variable dimension exceeds the observation dimension. rags2ridges is an R package for graphical modeling of high-dimensional precision matrices. It provides a modular framework for the extraction, visualization, and analysis of Gaussian graphical models from high-dimensional data. Moreover, it can handle the incorporation of prior information as well as multiple heterogeneous data classes. As such, it provides a one-stop-shop for graphical modeling of high-dimensional precision matrices. The functionality of the package is illustrated with an example dataset pertaining to blood-based metabolite measurements in persons suffering from Alzheimer's Disease.
翻訳日:2022-10-08 08:03:00 公開日:2020-10-12
# 条件変動オートエンコーダによる異常検出

Anomaly Detection With Conditional Variational Autoencoders ( http://arxiv.org/abs/2010.05531v1 )

ライセンス: Link先を確認
Adrian Alan Pol, Victor Berger, Gianluca Cerminara, Cecile Germain and Maurizio Pierini(参考訳) 確率的推論の急速な進歩、特に変分ベイズと変分オートエンコーダ(VAE)による異常検出(AD)タスクの爆発は、オープンな研究課題である。 以前の研究では、異常なインスタンスを識別するためにvaeモデルのトレーニングは不十分であり、フレームワークは大幅に修正されるべきであると主張した。 本研究では,Deep Conditional Variational Autoencoder (CVAE) を用いて,階層的に構造化されたデータ AD を対象とするメトリクスとともに,元の損失関数を定義する。 cernの大型ハドロン衝突型加速器(lhc)における多くの素粒子物理学実験の基本的な構成要素であるトリガーシステムのモニタリングです。 実験では,従来の機械学習(ML)ベンチマークおよびアプリケーションに対して,本手法の優れた性能を示す。

Exploiting the rapid advances in probabilistic inference, in particular variational Bayes and variational autoencoders (VAEs), for anomaly detection (AD) tasks remains an open research question. Previous works argued that training VAE models only with inliers is insufficient and the framework should be significantly modified in order to discriminate the anomalous instances. In this work, we exploit the deep conditional variational autoencoder (CVAE) and we define an original loss function together with a metric that targets hierarchically structured data AD. Our motivating application is a real world problem: monitoring the trigger system which is a basic component of many particle physics experiments at the CERN Large Hadron Collider (LHC). In the experiments we show the superior performance of this method for classical machine learning (ML) benchmarks and for our application.
翻訳日:2022-10-08 08:02:29 公開日:2020-10-12
# seismocardiogramsを用いたエンド・ツー・エンド型ディープラーニングによる心活動モニタリング

End-to-End Deep Learning for Reliable Cardiac Activity Monitoring using Seismocardiograms ( http://arxiv.org/abs/2010.05662v1 )

ライセンス: Link先を確認
Prithvi Suresh, Naveen Narayanan, Chakilam Vijay Pranav, Vineeth Vijayaraghavan(参考訳) 心活動の連続的なモニタリングは、心房細動などの病態の前駆体を同定することに加えて、心臓の機能を理解する上で重要である。 心臓の連続モニタリングによって、潜在的な障害の早期の兆候を実際の事象の前に検出することができ、適切な予防措置を講じることができる。 心電図(ecg)は、臨床および非臨床応用のために心臓の機能をモニターするための確立された標準であるが、その電極ベースの実装は、特に非干渉モニタリングにおいて、面倒である。 そこで本研究では,心電図(SCG)信号から心臓活動を堅牢に観察するエンド・ツー・エンドのソリューションの提供を目的とした,深層畳み込みニューラルネットワークであるSeesmoNetを提案する。 これらのSCG信号はモーションベースであり、簡単にユーザフレンドリーな方法で取得できる。 さらに, 深層学習を用いることで, scg信号から直接rピークの検出が可能となるとともに, 手作り特徴の抽出が不要となる。 SeismoNetはCEBSデータセットをモデル化し、それぞれ0.98と0.98の総合感度と正の予測値を達成した。

Continuous monitoring of cardiac activity is paramount to understanding the functioning of the heart in addition to identifying precursors to conditions such as Atrial Fibrillation. Through continuous cardiac monitoring, early indications of any potential disorder can be detected before the actual event, allowing timely preventive measures to be taken. Electrocardiography (ECG) is an established standard for monitoring the function of the heart for clinical and non-clinical applications, but its electrode-based implementation makes it cumbersome, especially for uninterrupted monitoring. Hence we propose SeismoNet, a Deep Convolutional Neural Network which aims to provide an end-to-end solution to robustly observe heart activity from Seismocardiogram (SCG) signals. These SCG signals are motion-based and can be acquired in an easy, user-friendly fashion. Furthermore, the use of deep learning enables the detection of R-peaks directly from SCG signals in spite of their noise-ridden morphology and obviates the need for extracting hand-crafted features. SeismoNet was modelled on the publicly available CEBS dataset and achieved a high overall Sensitivity and Positive Predictive Value of 0.98 and 0.98 respectively.
翻訳日:2022-10-08 08:01:54 公開日:2020-10-12
# ハイブリッドレコメンダシステムにおけるニューラル表現:正規化と予測

Neural Representations in Hybrid Recommender Systems: Prediction versus Regularization ( http://arxiv.org/abs/2010.06070v1 )

ライセンス: Link先を確認
Ramin Raziperchikolaei, Tianyu Li, Young-joo Chung(参考訳) 自動エンコーダベースのハイブリッドレコメンダシステムは,アイテムに対するユーザのフィードバック(レーティングなど)やユーザやアイテムのサイド情報(ユーザの職業やタイトルなど)など,さまざまな情報ソースを再構築することで,ユーザやアイテムの表現を学習する能力から,近年普及している。 しかし、既存のシステムは依然として行列分解(mf)によって学習された表現を用いて評価を予測し、ニューラルネットワークによって学習された表現を正規化として用いる。 本稿では、予測のためのニューラル表現(NRP)フレームワークを定義し、オートエンコーダに基づくレコメンデーションシステムに適用する。 目的関数が従来のmfおよびオートエンコーダに基づく手法とどのように関連しているかを理論的に解析し、神経表現を正規化器として使用する意味を説明する。 また, nrpフレームワークを直接ニューラルネットワーク構造に適用し, ユーザおよびアイテム情報を再構築することなく, 評価値を予測する。 我々は2つのmovielensデータセットと2つの実世界のeコマースデータセットについて広範な実験を行う。 その結果、ニューラル表現は正規化よりも予測に適しており、NRPフレームワークと直接ニューラルネットワーク構造が組み合わさって、予測タスクにおける最先端の手法よりも、トレーニング時間と記憶時間が少ないことが確認された。

Autoencoder-based hybrid recommender systems have become popular recently because of their ability to learn user and item representations by reconstructing various information sources, including users' feedback on items (e.g., ratings) and side information of users and items (e.g., users' occupation and items' title). However, existing systems still use representations learned by matrix factorization (MF) to predict the rating, while using representations learned by neural networks as the regularizer. In this paper, we define the neural representation for prediction (NRP) framework and apply it to the autoencoder-based recommendation systems. We theoretically analyze how our objective function is related to the previous MF and autoencoder-based methods and explain what it means to use neural representations as the regularizer. We also apply the NRP framework to a direct neural network structure which predicts the ratings without reconstructing the user and item information. We conduct extensive experiments on two MovieLens datasets and two real-world e-commerce datasets. The results confirm that neural representations are better for prediction than regularization and show that the NRP framework, combined with the direct neural network structure, outperforms the state-of-the-art methods in the prediction task, with less training time and memory.
翻訳日:2022-10-08 08:00:30 公開日:2020-10-12
# 沈黙の円錐:局所化による音声分離

The Cone of Silence: Speech Separation by Localization ( http://arxiv.org/abs/2010.06007v1 )

ライセンス: Link先を確認
Teerapat Jenrungrot, Vivek Jayaram, Steve Seitz, Ira Kemelmacher-Shlizerman(参考訳) 未知数の話者が同時に話しているマルチマイクロホン記録が与えられた場合,音源のローカライズと個々の話者の分離を同時に行う。 我々の手法のコアとなるのは、波形領域における深いネットワークであり、興味の角度が$\theta$とangular window sizeが$w$であることから、角領域内のソースを$\theta \pm w/2$で分離する。 w$を指数関数的に減少させることで、対数時間ですべてのソースをローカライズし分離するバイナリ検索を行うことができる。 我々のアルゴリズムは、トレーニング中に見るよりも多くの話者を含む、テスト時に潜在的に動く話者を任意に数えることを可能にする。 実験は、特に高レベルの背景雑音において、ソース分離とソースローカライゼーションの両方の最先端性能を示す。

Given a multi-microphone recording of an unknown number of speakers talking concurrently, we simultaneously localize the sources and separate the individual speakers. At the core of our method is a deep network, in the waveform domain, which isolates sources within an angular region $\theta \pm w/2$, given an angle of interest $\theta$ and angular window size $w$. By exponentially decreasing $w$, we can perform a binary search to localize and separate all sources in logarithmic time. Our algorithm allows for an arbitrary number of potentially moving speakers at test time, including more speakers than seen during training. Experiments demonstrate state-of-the-art performance for both source separation and source localization, particularly in high levels of background noise.
翻訳日:2022-10-08 07:54:34 公開日:2020-10-12
# 位置インテリジェンスプラットフォームによるマルチモーダル統合AIシステムの開発の加速

Accelerating the Development of Multimodal, Integrative-AI Systems with Platform for Situated Intelligence ( http://arxiv.org/abs/2010.06084v1 )

ライセンス: Link先を確認
Sean Andrist and Dan Bohus(参考訳) マルチモーダル統合AIシステムのためのオープンソースのフレームワークであるPlatform for Situated Intelligenceについて説明する。 このフレームワークは、マルチモーダルなデータストリームを処理し、タイミングが重要なアプリケーションの開発を可能にするインフラストラクチャ、ツール、コンポーネントを提供する。 このフレームワークは、ソーシャルロボット、バーチャルアシスタント、スマートミーティングルームなどの人との対話性を高めるために、周囲を知覚し推論する、物理的に配置されたインタラクティブなシステムを開発するのに特に適しています。 本稿では,フレームワークの概要とその有効性について概説するとともに,そのhriに対する意義について述べる。

We describe Platform for Situated Intelligence, an open-source framework for multimodal, integrative-AI systems. The framework provides infrastructure, tools, and components that enable and accelerate the development of applications that process multimodal streams of data and in which timing is critical. The framework is particularly well-suited for developing physically situated interactive systems that perceive and reason about their surroundings in order to better interact with people, such as social robots, virtual assistants, smart meeting rooms, etc. In this paper, we provide a brief, high-level overview of the framework and its main affordances, and discuss its implications for HRI.
翻訳日:2022-10-08 07:54:18 公開日:2020-10-12
# 深層畳み込みニューラルネットワークを用いた完全自動創傷セグメンテーション

Fully Automatic Wound Segmentation with Deep Convolutional Neural Networks ( http://arxiv.org/abs/2010.05855v1 )

ライセンス: Link先を確認
Chuanbo Wang, DM Anisuzzaman, Victor Williamson, Mrinal Kanti Dhar, Behrouz Rostami, Jeffrey Niezgoda, Sandeep Gopalakrishnan and Zeyun Yu(参考訳) 急性および慢性の傷は様々な病因を持ち、世界中の医療システムにとって経済的負担となっている。 先進的な創傷ケア市場は2024年までに220億ドルを超えると予想されている。 ワーンドケアの専門家は適切な診断と治療のために画像と画像ドキュメントに大きく依存している。 残念ながら、専門知識の欠如は創傷の病因を不適切な診断と不正確な創傷管理と文書化につながる可能性がある。 自然画像における傷領域の完全自動分割は, 傷の面積を計測し, 定量的な指標を提供することが重要であるため, 診断・治療プロトコルの重要な部分である。 様々なディープラーニングモデルがセマンティックセグメンテーションを含む画像解析に成功している。 特にmobilenetv2は、軽量なアーキテクチャと妥協されていないパフォーマンスで際立っている。 本論文は,MobileNetV2をベースとした新たな畳み込みフレームワークを提案する。 深層学習モデルの訓練と試験のために,889例の足部潰瘍画像1,109枚からなる注記傷画像データセットを構築した。 本稿では,様々なセグメンテーションニューラルネット上での包括的実験と解析を行い,提案手法の有効性と移動性を示す。

Acute and chronic wounds have varying etiologies and are an economic burden to healthcare systems around the world. The advanced wound care market is expected to exceed $22 billion by 2024. Wound care professionals rely heavily on images and image documentation for proper diagnosis and treatment. Unfortunately lack of expertise can lead to improper diagnosis of wound etiology and inaccurate wound management and documentation. Fully automatic segmentation of wound areas in natural images is an important part of the diagnosis and care protocol since it is crucial to measure the area of the wound and provide quantitative parameters in the treatment. Various deep learning models have gained success in image analysis including semantic segmentation. Particularly, MobileNetV2 stands out among others due to its lightweight architecture and uncompromised performance. This manuscript proposes a novel convolutional framework based on MobileNetV2 and connected component labelling to segment wound regions from natural images. We build an annotated wound image dataset consisting of 1,109 foot ulcer images from 889 patients to train and test the deep learning models. We demonstrate the effectiveness and mobility of our method by conducting comprehensive experiments and analyses on various segmentation neural networks.
翻訳日:2022-10-08 07:53:41 公開日:2020-10-12
# 統計運動モデルに基づくロボットの状態推定と可観測性解析

Robots State Estimation and Observability Analysis Based on Statistical Motion Models ( http://arxiv.org/abs/2010.05957v1 )

ライセンス: Link先を確認
Wei Xu, Dongjiao He, Yixi Cai, Fu Zhang(参考訳) 本稿では,移動ロボットの動特性(翻訳と回転)を捉える汎用動作モデルを提案する。 このモデルは白色ランダムプロセスによって駆動される統計モデルに基づいており、エラー状態拡張カルマンフィルタリングフレームワーク(ESEKF)に基づいて完全な状態推定アルゴリズムに定式化されている。 この方法の主な利点は、ロボットの特定の力学を正確にモデル化することなく、異なるロボットシステムに適用でき、ロボットの(角)加速度、ジャーク、またはより高次の動的状態を低遅延で推定できることである。 数値シミュレーションを用いた数学的解析を行い, 統計モデルに基づく推定フレームワークの特性を示し, 既存の低域フィルタとの関係を明らかにする。 さらに、リー微分と関連する部分微分を多様体に直接展開することにより、ロボットの可観測性解析のための新しいパラダイムを開発した。 この新たなパラダイムは、四元数パラメータ化に基づく既存手法よりもずっとシンプルで自然なものであることが示されている。 また、高次元システムにも拡張性がある。 システム状態の観測不能な部分集合を特徴付けるために、新しい \textbf{\textit{thin}} セットの概念を導入し、多様体と高次元で動作するロボットシステムの可観測性解析の理論的基礎を提供する。 最後に, 立方体UAV, ハンドヘルドプラットフォーム, 地上車両の完全状態推定, 外部校正(POS-IMUとIMU-IMUの両方)を含む広範な実験を行った。 既存の手法との比較により,提案手法は,ロボットの翻訳/角度加速度,その他の状態変数(位置,速度,姿勢など)を高精度かつ低遅延で効果的に推定できることが示されている。

This paper presents a generic motion model to capture mobile robots' dynamic behaviors (translation and rotation). The model is based on statistical models driven by white random processes and is formulated into a full state estimation algorithm based on the error-state extended Kalman filtering framework (ESEKF). Major benefits of this method are its versatility, being applicable to different robotic systems without accurately modeling the robots' specific dynamics, and ability to estimate the robot's (angular) acceleration, jerk, or higher-order dynamic states with low delay. Mathematical analysis with numerical simulations are presented to show the properties of the statistical model-based estimation framework and to reveal its connection to existing low-pass filters. Furthermore, a new paradigm is developed for robots observability analysis by developing Lie derivatives and associated partial differentiation directly on manifolds. It is shown that this new paradigm is much simpler and more natural than existing methods based on quaternion parameterizations. It is also scalable to high dimensional systems. A novel \textbf{\textit{thin}} set concept is introduced to characterize the unobservable subset of the system states, providing the theoretical foundation to observability analysis of robotic systems operating on manifolds and in high dimension. Finally, extensive experiments including full state estimation and extrinsic calibration (both POS-IMU and IMU-IMU) on a quadrotor UAV, a handheld platform and a ground vehicle are conducted. Comparisons with existing methods show that the proposed method can effectively estimate all extrinsic parameters, the robot's translation/angular acceleration and other state variables (e.g., position, velocity, attitude) of high accuracy and low delay.
翻訳日:2022-10-08 07:53:25 公開日:2020-10-12
# LASSR:植物病診断に有効な超解像法

LASSR: Effective Super-Resolution Method for Plant Disease Diagnosis ( http://arxiv.org/abs/2010.06499v1 )

ライセンス: Link先を確認
Quan Huu Cap, Hiroki Tani, Hiroyuki Uga, Satoshi Kagiwada and Hitoshi Iyatomi(参考訳) 高解像度のトレーニングデータの収集は、診断性能に大きな影響を及ぼすため、堅牢な植物病診断システムの構築に不可欠である。 しかし、入手は非常に困難であり、実際に利用できるとは限らない。 ディープラーニングに基づく技術、特にGAN(Generative Adversarial Network)は高品質な超高解像度画像を生成するために応用できるが、これらの手法は診断性能を低下させる予期せぬ成果物を生成することが多い。 本稿では,リーフアーティファクト・サプレッション・スーパーレゾリューション(LASSR)と呼ばれる葉疾患の診断に特化して設計された新しいアーティファクト・プレッション・スーパーレゾリューション法を提案する。 アーティファクトをかなり検出し、抑制する独自のアーティファクト除去モジュールのおかげで、LASSRは最先端のESRGANモデルと比較して、ずっと快適で高品質な画像を生成することができる。 5種類のキュウリ病(健康診断モデルを含む)に基づく実験では、RASRが生成したデータによるトレーニングは、ベースラインに比べて22%近く向上し、我々のアプローチはESRGANが生成した画像で訓練したモデルよりも2%以上優れていることが示された。

The collection of high-resolution training data is crucial in building robust plant disease diagnosis systems, since such data have a significant impact on diagnostic performance. However, they are very difficult to obtain and are not always available in practice. Deep learning-based techniques, and particularly generative adversarial networks (GANs), can be applied to generate high-quality super-resolution images, but these methods often produce unexpected artifacts that can lower the diagnostic performance. In this paper, we propose a novel artifact-suppression super-resolution method that is specifically designed for diagnosing leaf disease, called Leaf Artifact-Suppression Super Resolution (LASSR). Thanks to its own artifact removal module that detects and suppresses artifacts to a considerable extent, LASSR can generate much more pleasing, high-quality images compared to the state-of-the-art ESRGAN model. Experiments based on a five-class cucumber disease (including healthy) discrimination model show that training with data generated by LASSR significantly boosts the performance on an unseen test dataset by nearly 22% compared with the baseline, and that our approach is more than 2% better than a model trained with images generated by ESRGAN.
翻訳日:2022-10-08 07:52:54 公開日:2020-10-12
# CAVネットワークのためのDRLに基づくマルチエージェント協調制御フレームワーク:グラフ畳み込みQネットワーク

A DRL-based Multiagent Cooperative Control Framework for CAV Networks: a Graphic Convolution Q Network ( http://arxiv.org/abs/2010.05437v1 )

ライセンス: Link先を確認
Jiqian Dong, Sikai Chen, Paul Young Joun Ha, Yujie Li, Samuel Labi(参考訳) コネクテッド・オートモービル(CAV)ネットワークは、多車線回廊の異なる場所で運用されているCAVの集合体として定義することができ、運用情報の拡散と制御指示を容易にするプラットフォームを提供する。 CAVの安全性と移動性が向上し,CAVネットワーク内での協調計画と制御により,CAV間の高レベル協力が期待できるため,CAVオペレーティングシステムにおいて協力は不可欠である。 しかし,多エージェント駆動タスクにおいて,動的なエージェント数(キャビテーション)や指数関数的に増加する協調動作空間など,非常にダイナミックでコンビネータ的な性質から,協調制御は困難であり,単純なルールベース手法では制御できない。 さらに、既存の文献には、自動運転のセンシング技術と制御ロジックに関する豊富な情報が含まれているが、融合情報の上に、協調センシングおよびビルド決定プロセッサから取得した情報を融合する方法についてのガイダンスは比較的少ない。 本稿では、情報融合モジュールと決定プロセッサとして、グラフ畳み込みニューラルネットワーク(GCN)とディープQネットワーク(DQN)を組み合わせた新しいDeep Reinforcement Learning(DRL)ベースのアプローチを提案する。 提案モデルでは,複数のCAVに対して協調的なセンシングと出力から得られる情報を集約し,動的かつ部分的に観測された混合トラフィックの下でも個別の意図を満たすことができる。 提案アルゴリズムは,道路側ユニット(RSU)やクラウドプラットフォームなどの集中制御基盤上に展開し,CAV操作を改善する。

Connected Autonomous Vehicle (CAV) Network can be defined as a collection of CAVs operating at different locations on a multilane corridor, which provides a platform to facilitate the dissemination of operational information as well as control instructions. Cooperation is crucial in CAV operating systems since it can greatly enhance operation in terms of safety and mobility, and high-level cooperation between CAVs can be expected by jointly plan and control within CAV network. However, due to the highly dynamic and combinatory nature such as dynamic number of agents (CAVs) and exponentially growing joint action space in a multiagent driving task, achieving cooperative control is NP hard and cannot be governed by any simple rule-based methods. In addition, existing literature contains abundant information on autonomous driving's sensing technology and control logic but relatively little guidance on how to fuse the information acquired from collaborative sensing and build decision processor on top of fused information. In this paper, a novel Deep Reinforcement Learning (DRL) based approach combining Graphic Convolution Neural Network (GCN) and Deep Q Network (DQN), namely Graphic Convolution Q network (GCQ) is proposed as the information fusion module and decision processor. The proposed model can aggregate the information acquired from collaborative sensing and output safe and cooperative lane changing decisions for multiple CAVs so that individual intention can be satisfied even under a highly dynamic and partially observed mixed traffic. The proposed algorithm can be deployed on centralized control infrastructures such as road-side units (RSU) or cloud platforms to improve the CAV operation.
翻訳日:2022-10-08 07:52:28 公開日:2020-10-12
# PAST-AI: 深層学習による衛星送信機の物理層認証

PAST-AI: Physical-layer Authentication of Satellite Transmitters via Deep Learning ( http://arxiv.org/abs/2010.05470v1 )

ライセンス: Link先を確認
Gabriele Oligeri, Simone Raponi, Savio Sciancalepore, Roberto Di Pietro(参考訳) ディープラーニングの分類アルゴリズムによる性能向上により, 物理層セキュリティは研究コミュニティの勢いを取り戻している。 これは、無線指紋認証による無線通信における送信者認証に特に当てはまる。 しかし、これまでの研究は地上無線機器に重点を置いていたが、我々の知る限り、衛星送信機を考慮に入れなかった。 衛星無線トランスデューサは非標準電子回路(通常は高齢で、厳しい条件のために特別に設計された)を備えているため、衛星のシナリオは一般的に困難である。 さらに、地球から約800km、約25,000km/hの速度で周回しているため、低地球軌道(leo)衛星では特に指紋認証の作業は困難であり、受信機はユニークな減衰と減衰特性を持つダウンリンクを経験できる。 本稿では、高度なAIソリューションを用いて、IQサンプルの指紋認証によりLEO衛星を認証する手法であるPAST-AIを提案する。 我々の手法は、IRIDium LEO衛星の大規模な観測キャンペーンから収集された実データ(1億個以上のI/Qサンプル)で589時間持続する。 その結果,畳み込みニューラルネットワーク(CNN)とオートエンコーダ(適切に校正された場合)が,従来想定されていた0.8~1の精度で衛星トランスデューサの認証に有効であることを証明した。 提案した手法,達成された結果,提供された洞察は,私たちが公開しているデータセットに関連付けることで,その領域における今後の研究の道を開くものである。

Physical-layer security is regaining traction in the research community, due to the performance boost introduced by deep learning classification algorithms. This is particularly true for sender authentication in wireless communications via radio fingerprinting. However, previous research efforts mainly focused on terrestrial wireless devices while, to the best of our knowledge, none of the previous work took into consideration satellite transmitters. The satellite scenario is generally challenging because, among others, satellite radio transducers feature non-standard electronics (usually aged and specifically designed for harsh conditions). Moreover, the fingerprinting task is specifically difficult for Low-Earth Orbit (LEO) satellites (like the ones we focus in this paper) since they orbit at about 800Km from the Earth, at a speed of around 25,000Km/h, thus making the receiver experiencing a down-link with unique attenuation and fading characteristics. In this paper, we propose PAST-AI, a methodology tailored to authenticate LEO satellites through fingerprinting of their IQ samples, using advanced AI solutions. Our methodology is tested on real data -- more than 100M I/Q samples -- collected from an extensive measurements campaign on the IRIDIUM LEO satellites constellation, lasting 589 hours. Results are striking: we prove that Convolutional Neural Networks (CNN) and autoencoders (if properly calibrated) can be successfully adopted to authenticate the satellite transducers, with an accuracy spanning between 0.8 and 1, depending on prior assumptions. The proposed methodology, the achieved results, and the provided insights, other than being interesting on their own, when associated to the dataset that we made publicly available, will also pave the way for future research in the area.
翻訳日:2022-10-08 07:52:00 公開日:2020-10-12
# 金融分野におけるフェデレート学習のための微分プライベートセキュアマルチパーティ計算

Differentially Private Secure Multi-Party Computation for Federated Learning in Financial Applications ( http://arxiv.org/abs/2010.05867v1 )

ライセンス: Link先を確認
David Byrd and Antigoni Polychroniadou(参考訳) フェデレーション学習(federated learning)は、信頼されたサーバと作業するクライアント集団が、各クライアントのデータを自身のローカルシステム内に保持しながら、共有機械学習モデルを共同学習することを可能にする。 これにより機密データを露出するリスクが軽減されるが、通信モデルパラメータからクライアントのプライベートデータセットに関する情報をリバースすることが可能になる。 したがって、ほとんどの連合学習システムはパラメータにノイズを導入するために差分プライバシーを使用する。 これにより、プライベートクライアントデータを明らかにする試みに不確実性が加わり、共有モデルの精度が低下し、プライバシ保存ノイズの有効なスケールが制限される。 システムは、セキュアなマルチパーティ計算を含むことで、さらに精度を損なうことなく、プライベートクライアント情報を復元するサーバのコーディネート能力をさらに削減することができる。 両方のテクニックを組み合わせるアプローチは、機密性の高いクライアントデータを公開せずに、協調学習の新たな可能性を実現するため、金融機関にとって特に重要となる。 これにより、最適な取引実行、クレジットの発案、不正検出といった重要なタスクのより正確なモデルが作成できる。 本稿では,非専門的オーディエンスに対して,プライバシ保護型フェデレーション学習プロトコルを提示するとともに,実世界のクレジットカード詐欺データセット上でロジスティック回帰を用いて実証し,フェデレーション学習システムの開発に適応したオープンソースシミュレーションプラットフォームを用いて評価する。

Federated Learning enables a population of clients, working with a trusted server, to collaboratively learn a shared machine learning model while keeping each client's data within its own local systems. This reduces the risk of exposing sensitive data, but it is still possible to reverse engineer information about a client's private data set from communicated model parameters. Most federated learning systems therefore use differential privacy to introduce noise to the parameters. This adds uncertainty to any attempt to reveal private client data, but also reduces the accuracy of the shared model, limiting the useful scale of privacy-preserving noise. A system can further reduce the coordinating server's ability to recover private client information, without additional accuracy loss, by also including secure multiparty computation. An approach combining both techniques is especially relevant to financial firms as it allows new possibilities for collaborative learning without exposing sensitive client data. This could produce more accurate models for important tasks like optimal trade execution, credit origination, or fraud detection. The key contributions of this paper are: We present a privacy-preserving federated learning protocol to a non-specialist audience, demonstrate it using logistic regression on a real-world credit card fraud data set, and evaluate it using an open-source simulation platform which we have adapted for the development of federated learning systems.
翻訳日:2022-10-08 07:51:29 公開日:2020-10-12
# PGM-Explainer:グラフニューラルネットワークの確率的グラフモデル記述

PGM-Explainer: Probabilistic Graphical Model Explanations for Graph Neural Networks ( http://arxiv.org/abs/2010.05788v1 )

ライセンス: Link先を確認
Minh N. Vu, My T. Thai(参考訳) グラフニューラルネットワーク(GNN)では、グラフ構造がノード表現の学習に組み込まれている。 この複雑な構造により、gnnの予測がより困難になる。 本稿では,GNNに対する確率的グラフィカルモデル(PGM)モデル非依存の説明器であるPGM-Explainerを提案する。 説明すべき予測を与えられたPGM-Explainerは、重要なグラフコンポーネントを特定し、その予測を近似したPGM形式で説明を生成する。 説明機能の線形関数の集合から説明を引き出すGNNの既存の説明器とは異なり、PGM-Explainerは条件付き確率の形で説明機能の依存関係を実証することができる。 理論的解析により, pgm-explainer が生成する pgm は, 目標予測のマルコフ・ブランケット, すなわちすべての統計情報を含むことを示した。 また、PGM-Explainerが返した説明には、完全マップに同じ独立性ステートメントが含まれていることも示している。 PGM-Explainerは,多くのベンチマークタスクにおいて既存の説明器よりも優れた性能を示すことを示す。

In Graph Neural Networks (GNNs), the graph structure is incorporated into the learning of node representations. This complex structure makes explaining GNNs' predictions become much more challenging. In this paper, we propose PGM-Explainer, a Probabilistic Graphical Model (PGM) model-agnostic explainer for GNNs. Given a prediction to be explained, PGM-Explainer identifies crucial graph components and generates an explanation in form of a PGM approximating that prediction. Different from existing explainers for GNNs where the explanations are drawn from a set of linear functions of explained features, PGM-Explainer is able to demonstrate the dependencies of explained features in form of conditional probabilities. Our theoretical analysis shows that the PGM generated by PGM-Explainer includes the Markov-blanket of the target prediction, i.e. including all its statistical information. We also show that the explanation returned by PGM-Explainer contains the same set of independence statements in the perfect map. Our experiments on both synthetic and real-world datasets show that PGM-Explainer achieves better performance than existing explainers in many benchmark tasks.
翻訳日:2022-10-08 07:45:44 公開日:2020-10-12
# ニューラルネットワークにおける特徴選択のための埋め込み手法

Embedded methods for feature selection in neural networks ( http://arxiv.org/abs/2010.05834v1 )

ライセンス: Link先を確認
Vinay Varma K(参考訳) 現代のニューラルネットワークアーキテクチャの表現能力は、高次元特徴集合を持つ様々なアプリケーションにおいてデフォルトの選択となっている。 しかし、ニューラルネットワークのようなブラックボックスモデルと組み合わさった高次元で潜在的にうるさい特徴は、解釈可能性、一般化可能性、これらのモデルのトレーニング時間に悪影響を及ぼす。 本稿では,パラメータ学習に直接組み込むことのできる機能選択のための2つの統合アプローチを提案する。 ひとつは、ドロップインレイヤーの追加とシーケンシャルウェイトプルーニングの実行だ。 もう1つは感度に基づくアプローチです。 pfi(permutation feature importance) - 汎用機能ランキング法とランダムベースラインの比較を行った。 提案されたアプローチは、テストされたデータセット(MNIST、ISOLET、HAR)のベースラインを一貫して上回る、機能選択のための実行可能な方法であることが判明した。 数行のコードだけで既存のモデルに追加できます。

The representational capacity of modern neural network architectures has made them a default choice in various applications with high dimensional feature sets. But these high dimensional and potentially noisy features combined with the black box models like neural networks negatively affect the interpretability, generalizability, and the training time of these models. Here, I propose two integrated approaches for feature selection that can be incorporated directly into the parameter learning. One of them involves adding a drop-in layer and performing sequential weight pruning. The other is a sensitivity-based approach. I benchmarked both the methods against Permutation Feature Importance (PFI) - a general-purpose feature ranking method and a random baseline. The suggested approaches turn out to be viable methods for feature selection, consistently outperform the baselines on the tested datasets - MNIST, ISOLET, and HAR. We can add them to any existing model with only a few lines of code.
翻訳日:2022-10-08 07:45:25 公開日:2020-10-12
# SURF:多忙でノイズの多いエンドユーザから学ぶ生産における分類器の改善

SURF: Improving classifiers in production by learning from busy and noisy end users ( http://arxiv.org/abs/2010.05852v1 )

ライセンス: Link先を確認
Joshua Lockhart, Samuel Assefa, Ayham Alajdad, Andrew Alexander, Tucker Balch, Manuela Veloso(参考訳) 教師付き学習分類器は、必然的にプロダクションでミスを犯したり、eメールのラベルを間違えたり、あるいは通常のトランザクションに不正行為としてフラグを付ける。 このようなシステムのエンドユーザーは、誤ってラベル付けされたと判断されるデータポイントをリラベルする手段を備えることが不可欠である。 その後、性能改善を期待して、分類器をrelabeledデータポイントで再トレーニングすることができる。 このフィードバックデータのノイズを低減するために、クラウドソーシング文献からよく知られたアルゴリズムを用いることができる。 しかし、フィードバック設定は、新しい課題を与えている。 ユーザ応答しない場合、どうすればよいのかをどうやって知るのか? ユーザがラベルに対するフィードバックを提供していない場合、彼らが暗黙的に同意していると仮定することは危険です。 本稿では,従来のクラウドソーシングアルゴリズムがユーザフィードバック設定に苦慮していることを示し,この非応答曖昧性に対処可能な新しいアルゴリズムであるSURFを提案する。

Supervised learning classifiers inevitably make mistakes in production, perhaps mis-labeling an email, or flagging an otherwise routine transaction as fraudulent. It is vital that the end users of such a system are provided with a means of relabeling data points that they deem to have been mislabeled. The classifier can then be retrained on the relabeled data points in the hope of performance improvement. To reduce noise in this feedback data, well known algorithms from the crowdsourcing literature can be employed. However, the feedback setting provides a new challenge: how do we know what to do in the case of user non-response? If a user provides us with no feedback on a label then it can be dangerous to assume they implicitly agree: a user can be busy, lazy, or no longer a user of the system! We show that conventional crowdsourcing algorithms struggle in this user feedback setting, and present a new algorithm, SURF, that can cope with this non-response ambiguity.
翻訳日:2022-10-08 07:44:49 公開日:2020-10-12
# 材料キャラクタリゼーションのための機械学習と機械的特性予測への応用

Machine Learning for Material Characterization with an Application for Predicting Mechanical Properties ( http://arxiv.org/abs/2010.06010v1 )

ライセンス: Link先を確認
Anke Stoll, Peter Benner(参考訳) 現在、実験やシミュレーションによる材料データの成長は、処理可能な量を超えて拡大している。 これにより、複数の長さスケールと時間スケール間のパターン発見のための新しいデータ駆動手法の開発が不可欠となる。 これらのデータ駆動アプローチは、材料科学において大きな可能性を秘めている。 金属材料のキャラクタリゼーションのための機械学習応用について概説する。 材料の加工と構造に関連する多くのパラメータが、製造部品の特性と性能に影響を及ぼす。 そこで本研究では,材料特性予測における機械学習手法の有用性を検討する試みである。 強度、靭性、硬さ、脆性、延性などの材料特性は、材料または部品の品質に応じて分類される。 業界では、引張試験、圧縮試験、クリープ試験などの材料テストは、しばしば時間を消費し、実行にコストがかかる。 したがって,機械学習の応用は,資料情報を容易に生成する上で有用であると考えられる。 本研究は, 各種材料の特性究極引張強度を判定するために, 小型パンチ試験データへの機械学習手法の適用も行った。 小さなパンチテストデータと引張テストデータとの間に強い相関関係が発見され、最終的には機械学習と組み合わせることで、よりコストのかかるテストを置き換えることが可能になった。

Currently, the growth of material data from experiments and simulations is expanding beyond processable amounts. This makes the development of new data-driven methods for the discovery of patterns among multiple lengthscales and time-scales and structure-property relationships essential. These data-driven approaches show enormous promise within materials science. The following review covers machine learning applications for metallic material characterization. Many parameters associated with the processing and the structure of materials affect the properties and the performance of manufactured components. Thus, this study is an attempt to investigate the usefulness of machine learning methods for material property prediction. Material characteristics such as strength, toughness, hardness, brittleness or ductility are relevant to categorize a material or component according to their quality. In industry, material tests like tensile tests, compression tests or creep tests are often time consuming and expensive to perform. Therefore, the application of machine learning approaches is considered helpful for an easier generation of material property information. This study also gives an application of machine learning methods on small punch test data for the determination of the property ultimate tensile strength for various materials. A strong correlation between small punch test data and tensile test data was found which ultimately allows to replace more costly tests by simple and fast tests in combination with machine learning.
翻訳日:2022-10-08 07:43:07 公開日:2020-10-12
# SLEDGE-Z: 新型コロナウイルスの文献検索のためのゼロショットベースライン

SLEDGE-Z: A Zero-Shot Baseline for COVID-19 Literature Search ( http://arxiv.org/abs/2010.05987v1 )

ライセンス: Link先を確認
Sean MacAvaney, Arman Cohan, Nazli Goharian(参考訳) 重症急性呼吸症候群 コロナウイルス2 (SARS-CoV-2) を取り巻く世界的な懸念から、このウイルスに関する科学的文献は急速に増えている。 臨床医、研究者、政策立案者はこれらの論文を効果的に検索できる必要がある。 本研究では,新型コロナウイルス関連科学文献に適応したゼロショットランキングアルゴリズムを提案する。 我々のアプローチは、他のコレクションから医療関連クエリまで、トレーニングデータをフィルタリングし、科学テキスト(SciBERT)で事前訓練されたニューラルリグレードモデルを使用し、対象のドキュメントコレクションをフィルタリングする。 このアプローチは、trec covid round 1 leaderboardのゼロショットメソッドの中でトップにランクインし、第1ラウンドと第2ラウンドの両方で評価すると、0.80のp@5と0.68のndcg@10を示す。 TREC-COVIDデータに依存しないにもかかわらず、我々の手法はモデルよりも優れています。 新型コロナウイルス(COVID-19)の検索を徹底的に評価する最初の方法の1つとして、強力なベースラインとして機能し、世界的な危機に役立てることを願っています。

With worldwide concerns surrounding the Severe Acute Respiratory Syndrome Coronavirus 2 (SARS-CoV-2), there is a rapidly growing body of scientific literature on the virus. Clinicians, researchers, and policy-makers need to be able to search these articles effectively. In this work, we present a zero-shot ranking algorithm that adapts to COVID-related scientific literature. Our approach filters training data from another collection down to medical-related queries, uses a neural re-ranking model pre-trained on scientific text (SciBERT), and filters the target document collection. This approach ranks top among zero-shot methods on the TREC COVID Round 1 leaderboard, and exhibits a P@5 of 0.80 and an nDCG@10 of 0.68 when evaluated on both Round 1 and 2 judgments. Despite not relying on TREC-COVID data, our method outperforms models that do. As one of the first search methods to thoroughly evaluate COVID-19 search, we hope that this serves as a strong baseline and helps in the global crisis.
翻訳日:2022-10-08 07:36:23 公開日:2020-10-12
# グラフコンテキスト認識ノード表現を用いた高密度グラフ畳み込みネットワークの局所性保存

Locality Preserving Dense Graph Convolutional Networks with Graph Context-Aware Node Representations ( http://arxiv.org/abs/2010.05404v1 )

ライセンス: Link先を確認
Wenfeng Liu, Maoguo Gong, Zedong Tang, A. K. Qin(参考訳) グラフ畳み込みネットワーク(GCN)は、グラフデータの表現学習に広く使われており、具体的に設計された畳み込みと読み出し操作によってグラフ上の構造パターンをキャプチャすることができる。 多くのグラフ分類アプリケーションでは、gcnベースのアプローチが従来の手法を上回っている。 しかし、既存のGCNのほとんどは、グラフの局所的な情報を保存するのに非効率である。 本研究では,グラフコンテキスト対応ノード表現を用いた局所性保存型高密度GCNを提案する。 具体的には、初期ノードの特徴をノード表現に保存するためのローカルノード特徴再構成モジュールを組み込み、単純だが効果的なエンコーダデコーダ機構によって実現した。 異なる範囲の局所性を示す近傍の局所構造パターンを捉えるため、各畳み込み層とそれに対応する読み出し層を従来の畳み込み層に接続するために密結合を導入する。 ノード代表性を高めるために、各畳み込み層の出力と前層の読み出しの出力とを結合して、グローバルコンテキスト認識ノード表現を形成する。 さらに、レイヤ毎の表現を集約して最終的な表現を形成するセルフアテンションモジュールが導入された。 ベンチマークデータセットの実験は、分類精度の観点から、最先端手法よりも提案モデルの方が優れていることを示す。

Graph convolutional networks (GCNs) have been widely used for representation learning on graph data, which can capture structural patterns on a graph via specifically designed convolution and readout operations. In many graph classification applications, GCN-based approaches have outperformed traditional methods. However, most of the existing GCNs are inefficient to preserve local information of graphs -- a limitation that is especially problematic for graph classification. In this work, we propose a locality-preserving dense GCN with graph context-aware node representations. Specifically, our proposed model incorporates a local node feature reconstruction module to preserve initial node features into node representations, which is realized via a simple but effective encoder-decoder mechanism. To capture local structural patterns in neighbourhoods representing different ranges of locality, dense connectivity is introduced to connect each convolutional layer and its corresponding readout with all previous convolutional layers. To enhance node representativeness, the output of each convolutional layer is concatenated with the output of the previous layer's readout to form a global context-aware node representation. In addition, a self-attention module is introduced to aggregate layer-wise representations to form the final representation. Experiments on benchmark datasets demonstrate the superiority of the proposed model over state-of-the-art methods in terms of classification accuracy.
翻訳日:2022-10-08 07:35:56 公開日:2020-10-12
# ディープエコー状態Q-ネットワーク(DEQN)と5G以上の動的スペクトル共有への応用

Deep Echo State Q-Network (DEQN) and Its Application in Dynamic Spectrum Sharing for 5G and Beyond ( http://arxiv.org/abs/2010.05449v1 )

ライセンス: Link先を確認
Hao-Hsuan Chang, Lingjia Liu, and Yang Yi(参考訳) 深部強化学習(DRL)は多くのアプリケーション領域で成功している。 リカレントニューラルネットワーク(RNN)とDRLを組み合わせることで、時間的情報をキャプチャすることでDRLを非マルコフ環境に適用することができる。 しかし、DRLとRNNの双方のトレーニングは、収束を達成するために大量のトレーニングデータを必要とすることが知られている。 第5世代(5g)のセルラー通信で使用されるような多くのターゲットアプリケーションでは、利用可能なトレーニングデータが非常に制限されている一方で、環境は非常に動的である。 したがって、限られたトレーニングオーバーヘッドを必要とする動的環境の時間的相関を捉えることができるdrl戦略を開発することは極めて重要である。 本稿では,限られたトレーニングデータを用いて短時間で高ダイナミックな環境に適応できるディープエコー状態q-network(deqn)を提案する。 本稿では,5gネットワークと将来の6gネットワークで有望な技術であるdynamic spectrum sharing (dss) シナリオで導入したdeqn法の性能評価を行い,スペクトル利用率の向上を図る。 排他的アクセスのために単一系に固定スペクトル帯域を付与する従来のスペクトル管理ポリシーと比較して、DSSは二次系を一次系と共有することを可能にする。 我々の研究は、限られたトレーニングデータを持つ高ダイナミック環境における効率的なDRLフレームワークの適用に光を当てています。

Deep reinforcement learning (DRL) has been shown to be successful in many application domains. Combining recurrent neural networks (RNNs) and DRL further enables DRL to be applicable in non-Markovian environments by capturing temporal information. However, training of both DRL and RNNs is known to be challenging requiring a large amount of training data to achieve convergence. In many targeted applications, such as those used in the fifth generation (5G) cellular communication, the environment is highly dynamic while the available training data is very limited. Therefore, it is extremely important to develop DRL strategies that are capable of capturing the temporal correlation of the dynamic environment requiring limited training overhead. In this paper, we introduce the deep echo state Q-network (DEQN) that can adapt to the highly dynamic environment in a short period of time with limited training data. We evaluate the performance of the introduced DEQN method under the dynamic spectrum sharing (DSS) scenario, which is a promising technology in 5G and future 6G networks to increase the spectrum utilization. Compared to conventional spectrum management policy that grants a fixed spectrum band to a single system for exclusive access, DSS allows the secondary system to share the spectrum with the primary system. Our work sheds light on the application of an efficient DRL framework in highly dynamic environments with limited available training data.
翻訳日:2022-10-08 07:35:34 公開日:2020-10-12
# 凝集型階層クラスタリングアルゴリズムにおけるアイソレーションカーネルの影響

The Impact of Isolation Kernel on Agglomerative Hierarchical Clustering Algorithms ( http://arxiv.org/abs/2010.05473v1 )

ライセンス: Link先を確認
Xin Han, Ye Zhu, Kai Ming Ting, Gang Li(参考訳) agglomerative hierarchical clustering (ahc) は一般的なクラスタリングアプローチの1つである。 既存のAHC法は距離測定に基づいており, 得られたデンドログラムに適用されるクラスタ抽出法によらず, 様々な密度の隣接クラスタを特定するのが困難である。 本稿では,この問題の根本原因を特定し,データ依存型カーネル(距離や既存のカーネルではなく)の使用が,それに対処する効果的な手段であることを示す。 本稿では,既存のahc手法がクラスタを効果的に抽出できない条件と,データ依存型カーネルが有効な対策である理由について分析する。 これにより、既存の従来のahcアルゴリズム、hdbscan、gdl、phaなどの階層的クラスタリングアルゴリズムをカーネル化する新しいアプローチが導かれる。 これらのアルゴリズムをそれぞれ評価した結果,最近導入された分離核は,距離,ガウス核,適応ガウス核よりも高品質あるいは純粋なデンドログラムを生成することがわかった。

Agglomerative hierarchical clustering (AHC) is one of the popular clustering approaches. Existing AHC methods, which are based on a distance measure, have one key issue: it has difficulty in identifying adjacent clusters with varied densities, regardless of the cluster extraction methods applied on the resultant dendrogram. In this paper, we identify the root cause of this issue and show that the use of a data-dependent kernel (instead of distance or existing kernel) provides an effective means to address it. We analyse the condition under which existing AHC methods fail to extract clusters effectively; and the reason why the data-dependent kernel is an effective remedy. This leads to a new approach to kernerlise existing hierarchical clustering algorithms such as existing traditional AHC algorithms, HDBSCAN, GDL and PHA. In each of these algorithms, our empirical evaluation shows that a recently introduced Isolation Kernel produces a higher quality or purer dendrogram than distance, Gaussian Kernel and adaptive Gaussian Kernel.
翻訳日:2022-10-08 07:35:12 公開日:2020-10-12
# 研修後バッチノートの校正

Post-Training BatchNorm Recalibration ( http://arxiv.org/abs/2010.05625v1 )

ライセンス: Link先を確認
Gil Shomron, Uri Weiser(参考訳) 我々はshomron と weiser (2020) が以前に導入した非ブロッキング同時マルチスレッディング (nb-smt) を再検討する。 NB-SMTは、複数のスレッドを共有多重累積(MAC)ユニットに"スクイーズ"することで、パフォーマンスの正確さを交換する。 しかし、共有MACユニット内の複数のスレッドを収容する方法は、計算にノイズを与える可能性があり、それによってモデルの内部統計が変化する。 nb-smt の存在を考慮し,バッチ正規化層の実行平均と実行分散統計値のトレーニング後再校正により,モデル性能が大幅に向上することを示す。

We revisit non-blocking simultaneous multithreading (NB-SMT) introduced previously by Shomron and Weiser (2020). NB-SMT trades accuracy for performance by occasionally "squeezing" more than one thread into a shared multiply-and-accumulate (MAC) unit. However, the method of accommodating more than one thread in a shared MAC unit may contribute noise to the computations, thereby changing the internal statistics of the model. We show that substantial model performance can be recouped by post-training recalibration of the batch normalization layers' running mean and running variance statistics, given the presence of NB-SMT.
翻訳日:2022-10-08 07:34:34 公開日:2020-10-12
# DESCNet: カプセルネットワークハードウェアのための効率的なスクラッチパッドメモリの開発

DESCNet: Developing Efficient Scratchpad Memories for Capsule Network Hardware ( http://arxiv.org/abs/2010.05754v1 )

ライセンス: Link先を確認
Alberto Marchisio, Vojtech Mrazek, Muhammad Abdullah Hanif, Muhammad Shafique(参考訳) 高度な機械学習アプリケーションのための最先端アルゴリズムとして、ディープニューラルネットワーク(DNN)が確立されている。 Google Brainのチームが最近提案したCapsule Networks(CapsNets)は、多次元カプセルと異なるオブジェクト間の空間的関係を保存するため、DNNと比較して一般化能力を改善している。 しかし、計算とメモリの要求は著しく高く、エネルギー効率の良い推論は難しい課題である。 本稿では,ハードウェアアクセラレーションに(チップ上で)デプロイされたメモリの設計と管理に関する課題を,高速capsnets推論を実行する上で,初めて詳細に分析する。 効率的な設計を実現するため,ハードウェアアクセラレータにデータを効率よく供給しながら,チップ外のメモリアクセスを最小限に抑えるアプリケーション固有のメモリ階層を提案する。 対応するオンチップメモリ要求を分析し、これを利用して異なるスクラッチパッドメモリ設計とそのエネルギー・領域トレードオフを探索する新しい手法を提案する。 その後, カプスネットの異なる操作における利用状況に応じて, エネルギー消費をさらに削減するために, アプリケーション固有の電力ゲーティング手法が提案されている。 MNISTデータセットに対してGoogleのCapsNetモデルを実行する最新設計と比較した場合,提案したPareto-Optimalソリューションは性能損失がなく,計算単位やメモリを含む完全なアクセラレータでは79%のエネルギー削減が達成された。

Deep Neural Networks (DNNs) have been established as the state-of-the-art algorithm for advanced machine learning applications. Recently proposed by the Google Brain's team, the Capsule Networks (CapsNets) have improved the generalization ability, as compared to DNNs, due to their multi-dimensional capsules and preserving the spatial relationship between different objects. However, they pose significantly high computational and memory requirements, making their energy-efficient inference a challenging task. This paper provides, for the first time, an in-depth analysis to highlight the design and management related challenges for the (on-chip) memories deployed in hardware accelerators executing fast CapsNets inference. To enable an efficient design, we propose an application-specific memory hierarchy, which minimizes the off-chip memory accesses, while efficiently feeding the data to the hardware accelerator. We analyze the corresponding on-chip memory requirements and leverage it to propose a novel methodology to explore different scratchpad memory designs and their energy/area trade-offs. Afterwards, an application-specific power-gating technique is proposed to further reduce the energy consumption, depending upon the utilization across different operations of the CapsNets. Our results for a selected Pareto-optimal solution demonstrate no performance loss and an energy reduction of 79% for the complete accelerator, including computational units and memories, when compared to a state-of-the-art design executing Google's CapsNet model for the MNIST dataset.
翻訳日:2022-10-08 07:33:33 公開日:2020-10-12
# チャネル再評価アテンションモジュールによる畳み込みニューラルネットワーク最適化

Convolutional Neural Network optimization via Channel Reassessment Attention module ( http://arxiv.org/abs/2010.05605v1 )

ライセンス: Link先を確認
YuTao Shen and Ying Wen(参考訳) チャネル間の相互関係をアテンション機構で調整することにより、畳み込みニューラルネットワーク(CNN)の性能を向上させることができる。 しかし,近年の注目機構は特徴マップの空間情報を十分に活用していないため,生み出したチャネルアテンションの結果に大きな違いがある。 本稿では,チャネルアテンションと特徴マップの空間情報を用いて,ネットワークの表現力を高める新しいネットワーク最適化モジュールCRA(Channel Reassesment Attention)を提案する。 我々はcraモジュールを用いて異なるチャネル内の特徴マップに基づいてチャネルの注意度を評価する。最終機能はチャネルの注意度と機能マップの間の積によって適応的に洗練される。craモジュールは計算軽量モジュールであり、cnnのどのアーキテクチャにも組み込むことができる。 ImageNet, CIFAR, MS COCOデータセットを用いた実験により, 各種ネットワークへのCRAモジュールの埋め込みは, 異なる評価基準下での性能を効果的に向上することを示した。

The performance of convolutional neural networks (CNNs) can be improved by adjusting the interrelationship between channels with attention mechanism. However, attention mechanism in recent advance has not fully utilized spatial information of feature maps, which makes a great difference to the results of generated channel attentions. In this paper, we propose a novel network optimization module called Channel Reassessment Attention (CRA) module which uses channel attentions with spatial information of feature maps to enhance representational power of networks. We employ CRA module to assess channel attentions based on feature maps in different channels, then the final features are refined adaptively by product between channel attentions and feature maps.CRA module is a computational lightweight module and it can be embedded into any architectures of CNNs. The experiments on ImageNet, CIFAR and MS COCO datasets demonstrate that the embedding of CRA module on various networks effectively improves the performance under different evaluation standards.
翻訳日:2022-10-08 07:27:50 公開日:2020-10-12
# MECCANOデータセット:産業的ドメインにおける人間と物体の相互作用を理解する

The MECCANO Dataset: Understanding Human-Object Interactions from Egocentric Videos in an Industrial-like Domain ( http://arxiv.org/abs/2010.05654v1 )

ライセンス: Link先を確認
Francesco Ragusa and Antonino Furnari and Salvatore Livatino and Giovanni Maria Farinella(参考訳) ウェアラブルカメラは、世界と対話する人間の画像やビデオを集めることができる。 人間とオブジェクトの相互作用は第三者のビジョンで徹底的に研究されてきたが、エゴセントリックな設定や産業シナリオではこの問題は未解決である。 このギャップを埋めるために、産業的な環境で人間とオブジェクトの相互作用を研究する最初のエゴセントリックなビデオデータセットであるMECCANOを紹介します。 MECCANOは20人の参加者に買収され、バイクモデルの構築を依頼された。 データセットは、人間とオブジェクトの相互作用を自我中心の観点から認識するタスクのために明示的にラベル付けされている。 具体的には、各インタラクションは、時間的(アクションセグメント)と空間的(アクティブなオブジェクトバウンディングボックス)の両方にラベル付けされている。 提案するデータセットでは,これら4つのタスクについて検討する。 1)行動認識 2)アクティブオブジェクト検出。 3)能動的物体認識 4)人間-物体相互作用検出は,人間-物体相互作用検出タスクの改訂版である。 ベースラインの結果から,MECCANOデータセットは,産業的なシナリオにおける自我中心の人間とオブジェクトの相互作用を研究する上で,困難なベンチマークであることが示された。 私たちはデータセットをhttps://iplab.dmi.unict.it/MECCANO.comで公開しています。

Wearable cameras allow to collect images and videos of humans interacting with the world. While human-object interactions have been thoroughly investigated in third person vision, the problem has been understudied in egocentric settings and in industrial scenarios. To fill this gap, we introduce MECCANO, the first dataset of egocentric videos to study human-object interactions in industrial-like settings. MECCANO has been acquired by 20 participants who were asked to build a motorbike model, for which they had to interact with tiny objects and tools. The dataset has been explicitly labeled for the task of recognizing human-object interactions from an egocentric perspective. Specifically, each interaction has been labeled both temporally (with action segments) and spatially (with active object bounding boxes). With the proposed dataset, we investigate four different tasks including 1) action recognition, 2) active object detection, 3) active object recognition and 4) egocentric human-object interaction detection, which is a revisited version of the standard human-object interaction detection task. Baseline results show that the MECCANO dataset is a challenging benchmark to study egocentric human-object interactions in industrial-like scenarios. We publicy release the dataset at https://iplab.dmi.unict.it/MECCANO.
翻訳日:2022-10-08 07:27:35 公開日:2020-10-12
# マルチウェイ表現学習のためのグラフ正規化非負テンソルリング分解

Graph Regularized Nonnegative Tensor Ring Decomposition for Multiway Representation Learning ( http://arxiv.org/abs/2010.05657v1 )

ライセンス: Link先を確認
Yuyuan Yu, Guoxu Zhou, Ning Zheng, Shengli Xie and Qibin Zhao(参考訳) テンソルリング(TR)分解は、マルチウェイデータの低ランクな性質を利用する強力なツールであり、様々な重要な応用において大きな可能性を示している。 本稿では、非負のテンソルリング(NTR)分解とグラフ正規化NTR(GNTR)分解を提案し、前者は、コアテンソルに非負性を与えることにより局所特徴抽出による局所特徴抽出によるTR分解を行い、後者はテンソルデータの多様体幾何情報も捉えることができ、TR分解の非負のマルチウェイ表現学習への応用を大きく拡張することができる。 加速近位勾配法はNTRおよびGNTRに対して導出される。 実験の結果,提案手法は,より解釈可能で有意義な表現を提供するテンソルオブジェクトから,豊かな色とリッチラインを持つ部分ベースベースを抽出でき,クラスタリングや分類タスクにおいて最先端のテンソルベース手法よりも優れた性能が得られることがわかった。

Tensor ring (TR) decomposition is a powerful tool for exploiting the low-rank nature of multiway data and has demonstrated great potential in a variety of important applications. In this paper, nonnegative tensor ring (NTR) decomposition and graph regularized NTR (GNTR) decomposition are proposed, where the former equips TR decomposition with local feature extraction by imposing nonnegativity on the core tensors and the latter is additionally able to capture manifold geometry information of tensor data, both significantly extend the applications of TR decomposition for nonnegative multiway representation learning. Accelerated proximal gradient based methods are derived for NTR and GNTR. The experimental result demonstrate that the proposed algorithms can extract parts-based basis with rich colors and rich lines from tensor objects that provide more interpretable and meaningful representation, and hence yield better performance than the state-of-the-art tensor based methods in clustering and classification tasks.
翻訳日:2022-10-08 07:27:13 公開日:2020-10-12
# 3次元点雲におけるシーンフローの階層的注意学習

Hierarchical Attention Learning of Scene Flow in 3D Point Clouds ( http://arxiv.org/abs/2010.05762v1 )

ライセンス: Link先を確認
Guangming Wang, Xinrui Wu, Zhe Liu, and Hesheng Wang(参考訳) シーンフローは動的環境におけるすべての点の3次元運動を表す。 2d画像中のピクセルの動きを表す光学フローのように、シーンフローの3dモーション表現は、自動運転やサービスロボットなど、多くの応用に役立つ。 本論文では,連続する3次元点雲からのシーンフロー推定の問題点について検討する。 本稿では,隣接フレーム内の点特徴の相関関係を学習し,粗層から微細層へのシーンフローの微細化を図るために,二重注意の階層型ニューラルネットワークを提案する。 提案するネットワークは、新しい階層型アーキテクチャを備えている。 インプットポイントの数はシーンフロー推定のアウトプットポイントの数よりも大きく、より多くのインプット情報をもたらし、精度とリソース消費のバランスをとることを意味する。 この階層アーキテクチャでは、それぞれ異なるレベルのシーンフローを生成し、管理する。 パッチ・ツー・パッチ方式でダブルアテンション法を用いて隣接点の特徴を集約する新しい注意埋め込みモジュールを導入する。 ネットワーク設計において,フロー埋め込みとフロー監視のための適切なレイヤを慎重に検討する。 実験の結果,提案したネットワークはFlyingThings3DとKITTI Scene Flow 2015データセット上での3Dシーンフロー推定の最先端性能よりも優れていた。 また,提案したネットワークを現実的なLiDAR計測タスクに適用する。 実験の結果,提案するネットワークはICP方式よりも優れており,実用性が高いことを示した。

Scene flow represents the 3D motion of every point in the dynamic environments. Like the optical flow that represents the motion of pixels in 2D images, 3D motion representation of scene flow benefits many applications, such as autonomous driving and service robot. This paper studies the problem of scene flow estimation from two consecutive 3D point clouds. In this paper, a novel hierarchical neural network with double attention is proposed for learning the correlation of point features in adjacent frames and refining scene flow from coarse to fine layer by layer. The proposed network has a new more-for-less hierarchical architecture. The more-for-less means that the number of input points is greater than the number of output points for scene flow estimation, which brings more input information and balances the precision and resource consumption. In this hierarchical architecture, scene flow of different levels is generated and supervised respectively. A novel attentive embedding module is introduced to aggregate the features of adjacent points using a double attention method in a patch-to-patch manner. The proper layers for flow embedding and flow supervision are carefully considered in our network designment. Experiments show that the proposed network outperforms the state-of-the-art performance of 3D scene flow estimation on the FlyingThings3D and KITTI Scene Flow 2015 datasets. We also apply the proposed network to realistic LiDAR odometry task, which is an key problem in autonomous driving. The experiment results demonstrate that our proposed network can outperform the ICP-based method and shows the good practical application ability.
翻訳日:2022-10-08 07:26:13 公開日:2020-10-12
# 車両再識別のための視点対応チャネルワイズ注意ネットワーク

Viewpoint-Aware Channel-Wise Attentive Network for Vehicle Re-Identification ( http://arxiv.org/abs/2010.05810v1 )

ライセンス: Link先を確認
Tsai-Shien Chen, Man-Yu Lee, Chih-Ting Liu, Shao-Yi Chien(参考訳) 車両の再識別(re-ID)は、異なるカメラで同じ車両の画像と一致する。 異なる視点によって引き起こされる劇的に異なる外観は、フレームワークが同一の2台の車両と一致しないため、基本的には困難である。 既存の作品の多くは、空間的注意機構を通じて視点認識機能を抽出することで問題を解決したが、これは通常、ノイズが発生する注意マップに苦しむか、品質を改善するために高価なキーポイントラベルを必要とする。 本研究では,異なる視点から注目機構を観察し,視点認識型チャネルワイドアテンションメカニズム(VCAM)を提案する。 当社のVCAMは,入力車両の「視点」に応じて,各特徴マップの重要性を再考する機能学習フレームワークを実現する。 提案手法の有効性を検証し,veri-776データセットの最先端手法に対して好適な対策を行い,2020年のai city challengeで有望な結果を得た。 また、vcamが学習フレームワークを実際に支援する方法の解釈可能性を示すために、他の実験も行います。

Vehicle re-identification (re-ID) matches images of the same vehicle across different cameras. It is fundamentally challenging because the dramatically different appearance caused by different viewpoints would make the framework fail to match two vehicles of the same identity. Most existing works solved the problem by extracting viewpoint-aware feature via spatial attention mechanism, which, yet, usually suffers from noisy generated attention map or otherwise requires expensive keypoint labels to improve the quality. In this work, we propose Viewpoint-aware Channel-wise Attention Mechanism (VCAM) by observing the attention mechanism from a different aspect. Our VCAM enables the feature learning framework channel-wisely reweighing the importance of each feature maps according to the "viewpoint" of input vehicle. Extensive experiments validate the effectiveness of the proposed method and show that we perform favorably against state-of-the-arts methods on the public VeRi-776 dataset and obtain promising results on the 2020 AI City Challenge. We also conduct other experiments to demonstrate the interpretability of how our VCAM practically assists the learning framework.
翻訳日:2022-10-08 07:25:54 公開日:2020-10-12
# 最小認識可能な画像パッチについて

On the Minimal Recognizable Image Patch ( http://arxiv.org/abs/2010.05858v1 )

ライセンス: Link先を確認
Mark Fonaryov and Michael Lindenbaum(参考訳) 人間の視覚とは対照的に、一般的な認識アルゴリズムは部分的に遮蔽された画像では失敗する。 本稿では,画像を認識するのに十分な最小限のパッチ(MRP)を見つけることにより,アルゴリズムの限界を特徴付けることを提案する。 専門的なディープネットワークにより、特定のサイズの最も情報性の高いパッチを見つけ、実験ツールとして機能する。 人間の視覚研究は、最近、関連する(しかし異なる)最小認識可能な構成(MIRC)[1]を特徴付け、計算類似体(cMIRC)を指定した。 これらのmircのサイズ削減に伴う人間の決定精度の低下は、相当で鋭い。 興味深いことに、我々が指定した計算バージョンでも、このような鋭利な削減が見つかりました。

In contrast to human vision, common recognition algorithms often fail on partially occluded images. We propose characterizing, empirically, the algorithmic limits by finding a minimal recognizable patch (MRP) that is by itself sufficient to recognize the image. A specialized deep network allows us to find the most informative patches of a given size, and serves as an experimental tool. A human vision study recently characterized related (but different) minimally recognizable configurations (MIRCs) [1], for which we specify computational analogues (denoted cMIRCs). The drop in human decision accuracy associated with size reduction of these MIRCs is substantial and sharp. Interestingly, such sharp reductions were also found for the computational versions we specified.
翻訳日:2022-10-08 07:25:34 公開日:2020-10-12
# メタデータを用いたWebly Supervised Image Classification: Visual-Semantic Graphによるノイズラベルの自動補正

Webly Supervised Image Classification with Metadata: Automatic Noisy Label Correction via Visual-Semantic Graph ( http://arxiv.org/abs/2010.05864v1 )

ライセンス: Link先を確認
Jingkang Yang, Weirong Chen, Litong Feng, Xiaopeng Yan, Huabin Zheng, Wayne Zhang(参考訳) ウェブ教師あり学習は、高価な人間のラベル付けなしでデータ拡張の効率を向上するために近年魅力的になっている。 しかし、検索クエリやハッシュタグをトレーニング用画像のWebラベルとして採用すると、DNNのパフォーマンスが低下する大きなノイズが発生する。 特に、クエリワードのセマンティックな混同により、あるクエリによって検索された画像は、他の概念に属する膨大な画像を含む可能性がある。 例えば、Flickrで‘タイガー猫’を検索すると、猫の画像ではなく、支配的な数のトラ画像が返される。 これらの現実的なノイズのサンプルは、通常、視覚空間に明確な視覚的セマンティッククラスタを持ち、DNNが正確なセマンティックラベルを学習することを誤解させる。 現実世界の騒がしいラベルを正すには、高価な人間のアノテーションは不可欠に思える。 幸いなことに、メタデータは、労働自由な方法でクリーンなWebラベルを発見するための余分な知識を提供するので、巨大なラベルにうるさいWebデータの中で、正しいセマンティックガイダンスを自動で提供することが可能である。 本稿では,ビジュアル・セマンティックグラフに基づく自動ラベル修正器VSGraph-LCを提案する。 VSGraph-LCは、メタデータと正しいラベル概念のセマンティックな類似性を参照してアンカー選択から始まり、グラフニューラルネットワーク(GNN)を使用して視覚グラフ上のアンカーから正しいラベルを伝搬する。 Webvision-1000 と NUS-81-Web による現実的な Web 教師あり学習データセットの実験は,VSGraph-LC の有効性と堅牢性を示している。 さらに、vsgraph-lcはオープンセットバリデーションセットの利点を明らかにしている。

Webly supervised learning becomes attractive recently for its efficiency in data expansion without expensive human labeling. However, adopting search queries or hashtags as web labels of images for training brings massive noise that degrades the performance of DNNs. Especially, due to the semantic confusion of query words, the images retrieved by one query may contain tremendous images belonging to other concepts. For example, searching `tiger cat' on Flickr will return a dominating number of tiger images rather than the cat images. These realistic noisy samples usually have clear visual semantic clusters in the visual space that mislead DNNs from learning accurate semantic labels. To correct real-world noisy labels, expensive human annotations seem indispensable. Fortunately, we find that metadata can provide extra knowledge to discover clean web labels in a labor-free fashion, making it feasible to automatically provide correct semantic guidance among the massive label-noisy web data. In this paper, we propose an automatic label corrector VSGraph-LC based on the visual-semantic graph. VSGraph-LC starts from anchor selection referring to the semantic similarity between metadata and correct label concepts, and then propagates correct labels from anchors on a visual graph using graph neural network (GNN). Experiments on realistic webly supervised learning datasets Webvision-1000 and NUS-81-Web show the effectiveness and robustness of VSGraph-LC. Moreover, VSGraph-LC reveals its advantage on the open-set validation set.
翻訳日:2022-10-08 07:25:22 公開日:2020-10-12
# AI対応バーチャルヘルスコーチのリスクと機会に対処するためのフレームワーク

A Framework for Addressing the Risks and Opportunities In AI-Supported Virtual Health Coaches ( http://arxiv.org/abs/2010.06059v1 )

ライセンス: Link先を確認
Sonia Baee, Mark Rucker, Anna Baglione, Mawulolo K. Ameko, Laura Barnes(参考訳) バーチャルコーチングは急速に進化し、現代の臨床実践の基礎的要素となった。 医療専門家が不足し、低コストな治療の需要がますます高まる中、バーチャルヘルスコーチ(vhcs)は、財政や医療への地理的アクセスに制限された人々に対して、介入をオンデマンドで提供する。 最近では、AIで動くバーチャルコーチが、人間のコーチを補完する存在になりつつある。 しかし、aiを活用したコーチングシステムの導入は、研究者、デザイナー、臨床医、患者にとって重要な課題を提起する。 本稿では,仮想コーチングシステムの設計と開発を導くための新しい枠組みを提案する。 このフレームワークは、信頼性、公平性、エンゲージメント、倫理という4つの主要な目標を持つ、従来のデータサイエンスパイプラインを強化する。

Virtual coaching has rapidly evolved into a foundational component of modern clinical practice. At a time when healthcare professionals are in short supply and the demand for low-cost treatments is ever-increasing, virtual health coaches (VHCs) offer intervention-on-demand for those limited by finances or geographic access to care. More recently, AI-powered virtual coaches have become a viable complement to human coaches. However, the push for AI-powered coaching systems raises several important issues for researchers, designers, clinicians, and patients. In this paper, we present a novel framework to guide the design and development of virtual coaching systems. This framework augments a traditional data science pipeline with four key guiding goals: reliability, fairness, engagement, and ethics.
翻訳日:2022-10-08 07:18:40 公開日:2020-10-12
# Top-DB-Net: 人物再同定におけるアクティベーション向上のためのTop DropBlock

Top-DB-Net: Top DropBlock for Activation Enhancement in Person Re-Identification ( http://arxiv.org/abs/2010.05435v1 )

ライセンス: Link先を確認
Rodolfo Quispe and Helio Pedrini(参考訳) Person Re-Identificationは、重複しないカメラのシステム間でクエリイメージのすべてのインスタンスを検索することを目的とした、難しいタスクである。 様々な極端な視点の変化から、人間に合わせるために使用できる地域が抑圧されることが一般的であり、より情報に乏しい地域に基づいて画像の類似性を評価するアプローチのシナリオに繋がる。 本稿では,トップドロップブロックに基づく手法であるtop-db-netについて紹介する。この手法は,ネットワークにシーンの前景に焦点を合わせるように促し,最もタスク対応領域を強調すると同時に,低情報領域をエンコードし,高い識別性を提供する。 Top-DB-Netは3つのストリームで構成されています。 (i)グローバルストリームは、バックボーンからリッチな画像情報をエンコードする。 (ii)Top DropBlockストリームは、高い識別特性を持つ低情報領域を符号化するようバックボーンに促す。 (iii) 正規化ストリームは、第1の2つのストリームをテストする際に、第2のストリームの落下プロセスによって発生するノイズに対処するのに役立つ。 3つの挑戦的なデータセットに対するVast実験は、最先端の手法に対する我々のアプローチの能力を示している。 定性的な結果から,本手法は入力画像の信頼性の高い部分に焦点を当てた活性化マップを示す。

Person Re-Identification is a challenging task that aims to retrieve all instances of a query image across a system of non-overlapping cameras. Due to the various extreme changes of view, it is common that local regions that could be used to match people are suppressed, which leads to a scenario where approaches have to evaluate the similarity of images based on less informative regions. In this work, we introduce the Top-DB-Net, a method based on Top DropBlock that pushes the network to learn to focus on the scene foreground, with special emphasis on the most task-relevant regions and, at the same time, encodes low informative regions to provide high discriminability. The Top-DB-Net is composed of three streams: (i) a global stream encodes rich image information from a backbone, (ii) the Top DropBlock stream encourages the backbone to encode low informative regions with high discriminative features, and (iii) a regularization stream helps to deal with the noise created by the dropping process of the second stream, when testing the first two streams are used. Vast experiments on three challenging datasets show the capabilities of our approach against state-of-the-art methods. Qualitative results demonstrate that our method exhibits better activation maps focusing on reliable parts of the input images.
翻訳日:2022-10-08 07:18:14 公開日:2020-10-12
# CC-Loss:画像分類のチャンネル相関損失

CC-Loss: Channel Correlation Loss For Image Classification ( http://arxiv.org/abs/2010.05469v1 )

ライセンス: Link先を確認
Zeyu Song, Dongliang Chang, Zhanyu Ma, Xiaoxu Li, Zheng-Hua Tan(参考訳) 損失関数はディープラーニングモデルにおいて重要な要素である。 分類によく用いられる損失関数はクロスエントロピー損失であり、分類問題に対する情報理論の単純かつ効果的な応用である。 この損失に基づいて、学習された特徴の識別能力を高めるためにクラス内およびクラス間制約を追加することで、他の多くの損失関数が提案されている。 しかし、これらの損失関数は特徴分布とモデル構造との間の接続を考慮できない。 この問題に対処するために,クラス内およびクラス間分離性を維持するとともに,クラスとチャネル間の特定の関係を制限できるチャネル相関損失(CC-Loss)を提案する。 CC-Lossはチャネルアテンションモジュールを使用して、トレーニングステージの各サンプルの特徴のチャネルアテンションを生成する。 次に、ユークリッド距離行列を計算し、同一のクラスに関連するチャネル注意ベクトルを同一とし、異なるクラス間の差を増加させる。 実験の結果,提案したCC-Lossでトレーニングした2種類のバックボーンモデルが,3つの画像分類データセットにおける最先端の損失関数より優れていることが示された。

The loss function is a key component in deep learning models. A commonly used loss function for classification is the cross entropy loss, which is a simple yet effective application of information theory for classification problems. Based on this loss, many other loss functions have been proposed,~\emph{e.g.}, by adding intra-class and inter-class constraints to enhance the discriminative ability of the learned features. However, these loss functions fail to consider the connections between the feature distribution and the model structure. Aiming at addressing this problem, we propose a channel correlation loss (CC-Loss) that is able to constrain the specific relations between classes and channels as well as maintain the intra-class and the inter-class separability. CC-Loss uses a channel attention module to generate channel attention of features for each sample in the training stage. Next, an Euclidean distance matrix is calculated to make the channel attention vectors associated with the same class become identical and to increase the difference between different classes. Finally, we obtain a feature embedding with good intra-class compactness and inter-class separability.Experimental results show that two different backbone models trained with the proposed CC-Loss outperform the state-of-the-art loss functions on three image classification datasets.
翻訳日:2022-10-08 07:17:50 公開日:2020-10-12
# 絵画数による意味セグメンテーションモデルのロバスト性の向上

Increasing the Robustness of Semantic Segmentation Models with Painting-by-Numbers ( http://arxiv.org/abs/2010.05495v1 )

ライセンス: Link先を確認
Christoph Kamann, Burkhard G\"ussefeld, Robin Hutmacher, Jan Hendrik Metzen, Carsten Rother(参考訳) 自動運転のような安全クリティカルなアプリケーションでは、CNNは画像ノイズのような避けられない画像の破損に対して堅牢でなければならない。 前回の研究はフルイメージ分類の文脈で頑健な予測の課題を扱ったが, 密集した意味セグメンテーションとして考察した。 我々は,ネットワークバイアスを物体形状へと高めることで,出力ロバスト性を向上させるための画像分類からの洞察を構築する。 この形状バイアスを増大させる新しいトレーニングスキーマを提案する。 我々の基本的な考え方は、RGBのトレーニング画像の一部を偽画像でアルファブレンドすることであり、そこでは各クラスラベルには、実際の画像に現れない、固定されたランダムな色が与えられる。 これにより、ネットワークは形状の手がかりに強く依存せざるを得なくなる。 これを `Painting-by-Numbers'' と呼ぶ。 各種ネットワークバックボーン,MobileNet-V2,ResNets,Xceptionを用いたDeepLabv3+のトレーニングスキーマの有効性を実証し,Cityscapesデータセットで評価した。 16種類の画像破損と5つの異なるネットワークバックボーンに関しては、クリーンなデータによるトレーニングよりも74%良いです。 トレーニングスキーマなしでトレーニングされたモデルよりも悪い場合、ほとんどがわずかに悪いだけです。 しかし、ノイズのある画像のような画像の破損によっては、パフォーマンスが25%向上する。

For safety-critical applications such as autonomous driving, CNNs have to be robust with respect to unavoidable image corruptions, such as image noise. While previous works addressed the task of robust prediction in the context of full-image classification, we consider it for dense semantic segmentation. We build upon an insight from image classification that output robustness can be improved by increasing the network-bias towards object shapes. We present a new training schema that increases this shape bias. Our basic idea is to alpha-blend a portion of the RGB training images with faked images, where each class-label is given a fixed, randomly chosen color that is not likely to appear in real imagery. This forces the network to rely more strongly on shape cues. We call this data augmentation technique ``Painting-by-Numbers''. We demonstrate the effectiveness of our training schema for DeepLabv3+ with various network backbones, MobileNet-V2, ResNets, and Xception, and evaluate it on the Cityscapes dataset. With respect to our 16 different types of image corruptions and 5 different network backbones, we are in 74% better than training with clean data. For cases where we are worse than a model trained without our training schema, it is mostly only marginally worse. However, for some image corruptions such as images with noise, we see a considerable performance gain of up to 25%.
翻訳日:2022-10-08 07:17:27 公開日:2020-10-12
# シーンゲート型ソーシャルグラフ:動的ソーシャルグラフとシーン制約に基づく歩行者追跡予測

Scene Gated Social Graph: Pedestrian Trajectory Prediction Based on Dynamic Social Graphs and Scene Constraints ( http://arxiv.org/abs/2010.05507v1 )

ライセンス: Link先を確認
Hao Xue, Du Q.Huynh, Mark Reynolds(参考訳) 歩行者の軌跡予測は人間の行動の理解に有用であり、他の歩行者からの社会的影響、シーンの制約、予測される軌道の多様化の可能性から困難である。 既存の手法のほとんどは、上記の3つの主要な要素のうち2つだけに焦点を当てている。 これらすべての要素を共同で検討するために,Scene Gated Social Graph (SGSG) という新しい軌道予測手法を提案する。 提案したSGSGでは,歩行者間の社会的関係を記述するために動的グラフを用いた。 ソーシャルグラフの特徴は、エンコードされたソーシャルグラフの特徴とセマンティックなシーンの特徴を組み合わせたシーンゲートされたソーシャルグラフの特徴を通して考慮される。 さらに、VAEモジュールが組み込まれ、社会的かつ環境的に許容される複数の軌跡を生成するために、シーンゲートされた社会的特徴と潜伏変数のサンプルを学習する。 提案手法と最新の歩行者軌跡予測法との比較を行い,提案手法が2つの軌道予測ベンチマークにおいて優れた性能が得られることを示す。

Pedestrian trajectory prediction is valuable for understanding human motion behaviors and it is challenging because of the social influence from other pedestrians, the scene constraints and the multimodal possibilities of predicted trajectories. Most existing methods only focus on two of the above three key elements. In order to jointly consider all these elements, we propose a novel trajectory prediction method named Scene Gated Social Graph (SGSG). In the proposed SGSG, dynamic graphs are used to describe the social relationship among pedestrians. The social and scene influences are taken into account through the scene gated social graph features which combine the encoded social graph features and semantic scene features. In addition, a VAE module is incorporated to learn the scene gated social feature and sample latent variables for generating multiple trajectories that are socially and environmentally acceptable. We compare our SGSG against twenty state-of-the-art pedestrian trajectory prediction methods and the results show that the proposed method achieves superior performance on two widely used trajectory prediction benchmarks.
翻訳日:2022-10-08 07:16:40 公開日:2020-10-12
# 二重ブラインド顔復元のための暗黙のサブスペース事前学習

Implicit Subspace Prior Learning for Dual-Blind Face Restoration ( http://arxiv.org/abs/2010.05508v1 )

ライセンス: Link先を確認
Lingbo Yang, Pan Wang, Zhanning Gao, Shanshe Wang, Peiran Ren, Siwei Ma, Wen Gao(参考訳) 顔の復元は本質的に不適切な問題であり、そのような病理の緩和には、通常、追加の事前制約が不可欠であると考えられている。 しかし、実世界の画像先行は、既存の事前正規化復元法の性能と一般化能力を必然的に制限する、正確な数学的モデルでシミュレートすることが難しいことが多い。 本稿では,より実用的な「双盲」設定,すなわち,劣化プロファイルや画像内容の事前仮定や手作り正規化条件を伴わない顔復元の問題について検討する。 この目的のために、2つの重要な要素を持つ双盲顔復元の汎用解として,新しい暗黙的部分空間事前学習(ispl)フレームワークが提案されている。 1)不明確な復元マッピングを回避するための暗黙の定式化 2) 劣化レベルの異なる入力を一貫した高品質な復元結果で動的に処理する部分空間事前分解・融合機構。 実験の結果、2018年のNTIRE SRチャレンジの勝者であるESRGANに対する3.69dbのPSNRと45.8%のFIDゲインを含む、様々な修復サブタスクに対する既存の最先端の手法に対するISPLの認識歪改善が顕著に示された。 全体としては、事前知識を明示的に定式化せずにキャプチャし、活用することが可能であることを証明し、低レベルのビジョンタスクに対する新たな研究パラダイムの促進に役立ちます。

Face restoration is an inherently ill-posed problem, where additional prior constraints are typically considered crucial for mitigating such pathology. However, real-world image prior are often hard to simulate with precise mathematical models, which inevitably limits the performance and generalization ability of existing prior-regularized restoration methods. In this paper, we study the problem of face restoration under a more practical ``dual blind'' setting, i.e., without prior assumptions or hand-crafted regularization terms on the degradation profile or image contents. To this end, a novel implicit subspace prior learning (ISPL) framework is proposed as a generic solution to dual-blind face restoration, with two key elements: 1) an implicit formulation to circumvent the ill-defined restoration mapping and 2) a subspace prior decomposition and fusion mechanism to dynamically handle inputs at varying degradation levels with consistent high-quality restoration results. Experimental results demonstrate significant perception-distortion improvement of ISPL against existing state-of-the-art methods for a variety of restoration subtasks, including a 3.69db PSNR and 45.8% FID gain against ESRGAN, the 2018 NTIRE SR challenge winner. Overall, we prove that it is possible to capture and utilize prior knowledge without explicitly formulating it, which will help inspire new research paradigms towards low-level vision tasks.
翻訳日:2022-10-08 07:16:23 公開日:2020-10-12
# RGB-Dサリエンシ検出のための学習的相互注意とコントラスト

Learning Selective Mutual Attention and Contrast for RGB-D Saliency Detection ( http://arxiv.org/abs/2010.05537v1 )

ライセンス: Link先を確認
Nian Liu, Ni Zhang, Ling Shao, Junwei Han(参考訳) クロスモーダル情報を効果的に融合する方法は、rgb-dサルエント物体検出の重要な問題である。 初期融合と結果融合スキームは、それぞれ入力および出力段階でRGBと深さ情報を融合することにより、分配ギャップや情報損失の問題を引き起こす。 多くのモデルは機能融合戦略を用いるが、低次点対点融合法によって制限される。 本稿では,異なるモダリティからの注意と文脈を融合して,新たな相互注意モデルを提案する。 一方のモーダリティの非局所的な注意は、他のモーダリティに対する長距離文脈依存を伝播させ、相補的な注意手段を活用して高次および三線形のクロスモーダル相互作用を行う。 また、相互の注意からコントラスト推論を誘導し、統一されたモデルを得ることを提案する。 低品質の深度データがモデル性能を損なう可能性があることを考慮し、追加の深度手がかりを再重み付けするための選択的注意を提案する。 提案するモジュールをRGB-D SOD用の2ストリームCNNに埋め込む。 実験の結果,提案モデルの有効性が示された。 さらに,高画質の大規模rgb-d sodデータセットを新たに構築することで,深層モデルのトレーニングと評価を促進できる。

How to effectively fuse cross-modal information is the key problem for RGB-D salient object detection. Early fusion and the result fusion schemes fuse RGB and depth information at the input and output stages, respectively, hence incur the problem of distribution gap or information loss. Many models use the feature fusion strategy but are limited by the low-order point-to-point fusion methods. In this paper, we propose a novel mutual attention model by fusing attention and contexts from different modalities. We use the non-local attention of one modality to propagate long-range contextual dependencies for the other modality, thus leveraging complementary attention cues to perform high-order and trilinear cross-modal interaction. We also propose to induce contrast inference from the mutual attention and obtain a unified model. Considering low-quality depth data may detriment the model performance, we further propose selective attention to reweight the added depth cues. We embed the proposed modules in a two-stream CNN for RGB-D SOD. Experimental results have demonstrated the effectiveness of our proposed model. Moreover, we also construct a new challenging large-scale RGB-D SOD dataset with high-quality, thus can both promote the training and evaluation of deep models.
翻訳日:2022-10-08 07:15:57 公開日:2020-10-12
# 単一スナップショット画像からのOmni方向画像生成

Omni-Directional Image Generation from Single Snapshot Image ( http://arxiv.org/abs/2010.05600v1 )

ライセンス: Link先を確認
Keisuke Okubo and Takao Yamanaka(参考訳) ODI(Omni-directional image)は、カメラの周囲の球体全体を覆う視野を持つ画像である。 ODIは、仮想現実(VR)、ロボット工学、ソーシャルネットワークサービスなど、幅広い分野で使われ始めている。 ODIを使用したコンテンツは増えているが、利用可能な画像やビデオは、広く使われているスナップショット画像と比較しても、まだ限られている。 多数のODIがVRコンテンツだけでなく、ODIのためのディープラーニングモデルのトレーニングにも望まれている。 これらの目的のために,単一スナップショット画像からODIを生成する新しいコンピュータビジョンタスクを提案する。 この問題に対処するために,条件付き生成逆ネットワークをクラス条件付き畳み込み層と組み合わせて適用した。 この新しいタスクでは、スマートフォンのカメラでもVR画像やビデオを簡単に作成できる。

An omni-directional image (ODI) is the image that has a field of view covering the entire sphere around the camera. The ODIs have begun to be used in a wide range of fields such as virtual reality (VR), robotics, and social network services. Although the contents using ODI have increased, the available images and videos are still limited, compared with widespread snapshot images. A large number of ODIs are desired not only for the VR contents, but also for training deep learning models for ODI. For these purposes, a novel computer vision task to generate ODI from a single snapshot image is proposed in this paper. To tackle this problem, the conditional generative adversarial network was applied in combination with class-conditioned convolution layers. With this novel task, VR images and videos will be easily created even with a smartphone camera.
翻訳日:2022-10-08 07:15:37 公開日:2020-10-12
# 質問応答システムのドメイン適応のためのエンドツーエンド合成データ生成

End-to-End Synthetic Data Generation for Domain Adaptation of Question Answering Systems ( http://arxiv.org/abs/2010.06028v1 )

ライセンス: Link先を確認
Siamak Shakeri, Cicero Nogueira dos Santos, Henry Zhu, Patrick Ng, Feng Nan, Zhiguo Wang, Ramesh Nallapati, Bing Xiang(参考訳) 合成QAデータ生成のためのエンドツーエンドアプローチを提案する。 本モデルでは,1つのトランスをベースとしたエンコーダデコーダネットワークをエンドツーエンドにトレーニングし,問合せと問合せの両方を生成する。 一言で言えば、私たちはエンコーダにパスを送付し、デコーダに質問と回答のトークンを生成するように依頼します。 生成過程において生じる確率は、分離されたフィルタリングモデルの必要性を避けるフィルタリングスコアとして使用される。 我々の発電機は、最大推定値を用いて予め訓練されたLMを微調整することで訓練される。 実験結果から,QAモデルの領域適応性は現在の最先端手法よりも向上したことが示された。

We propose an end-to-end approach for synthetic QA data generation. Our model comprises a single transformer-based encoder-decoder network that is trained end-to-end to generate both answers and questions. In a nutshell, we feed a passage to the encoder and ask the decoder to generate a question and an answer token-by-token. The likelihood produced in the generation process is used as a filtering score, which avoids the need for a separate filtering model. Our generator is trained by fine-tuning a pretrained LM using maximum likelihood estimation. The experimental results indicate significant improvements in the domain adaptation of QA models outperforming current state-of-the-art methods.
翻訳日:2022-10-08 07:09:12 公開日:2020-10-12
# クルド語の機械翻訳に向けて

Towards Machine Translation for the Kurdish Language ( http://arxiv.org/abs/2010.06041v1 )

ライセンス: Link先を確認
Sina Ahmadi, Mariam Masoud(参考訳) 機械翻訳はコンピュータを使ってある言語から別の言語へテキストを翻訳する作業である。 自然言語処理と計算言語学の主要なタスクの1つであり、人間のコミュニケーションを促進する動機となっている。 インド・ヨーロッパ語であるクルド語はこの領域でほとんど注目を集めていない。 そこで,本稿では,ソラニ方言に着目したクルド語機械翻訳システムの構築における主な課題について論じる。 本稿では,Sorani Kurdish-English翻訳のためのニューラルマシン翻訳モデルのトレーニングに適した少ない並列データについて述べる。 また,クルド語翻訳における主な課題を議論し,トークン化などのテキスト処理タスクが翻訳性能をいかに向上するかを実証する。

Machine translation is the task of translating texts from one language to another using computers. It has been one of the major tasks in natural language processing and computational linguistics and has been motivating to facilitate human communication. Kurdish, an Indo-European language, has received little attention in this realm due to the language being less-resourced. Therefore, in this paper, we are addressing the main issues in creating a machine translation system for the Kurdish language, with a focus on the Sorani dialect. We describe the available scarce parallel data suitable for training a neural machine translation model for Sorani Kurdish-English translation. We also discuss some of the major challenges in Kurdish language translation and demonstrate how fundamental text processing tasks, such as tokenization, can improve translation performance.
翻訳日:2022-10-08 07:08:47 公開日:2020-10-12
# 2010-2020年度の低コスト視線追跡システムの検討

A review of the low-cost eye-tracking systems for 2010-2020 ( http://arxiv.org/abs/2010.05480v1 )

ライセンス: Link先を確認
Ildar Rakhmatulin(参考訳) この写本は、過去10年間、低コストで行われた視線追跡の分野における業績の分析を行った。 我々は,手法,アルゴリズム,ハードウェアの開発について詳細に研究した。 このタスクを実現するため、我々はハードウェアとソフトウェアとフリーソフトウェアを備えた商用アイトラッキングシステムを検討した。 さらに、この原稿は、視線追跡タスクのためのニューラルネットワーク分野の進歩と、低コスト視線追跡システムの開発を支えている問題を検討した。 原稿の特筆すべき点は、低コスト分野における視線追跡装置分野のさらなる研究のための勧告である。

The manuscript presented an analysis of the work in the field of eye-tracking over the past ten years in the low-cost filed. We researched in detail the methods, algorithms, and developed hardware. To realization, this task we considered the commercial eye-tracking systems with hardware and software and Free software. Additionally, the manuscript considered advances in the neural network fields for eye-tracking tasks and problems which hold back the development of the low-cost eye-tracking system. special attention in the manuscript is given to recommendations for further research in the field of eye-tracking devices in the low-cost field.
翻訳日:2022-10-08 07:07:17 公開日:2020-10-12
# テールシッター航空機の非線形性推定のためのニューラルネットワークの実装

Implementation of a neural network for non-linearities estimation in a tail-sitter aircraft ( http://arxiv.org/abs/2010.06049v1 )

ライセンス: Link先を確認
A. Flores and G. Flores(参考訳) 尾翼航空機の制御は、特に揚力と抵抗力が高度に非線形である遷移操作において難しい課題である。 本研究では,そのような非線形性を推定できるニューラルネットワーク(NN)を実装した。 一度見積もれば、これらの力が正しくフィードフォワードできる制御方式を提案することができる。 NNの実装は、ドローンのためのオープンソースのオートパイロットであるPX4 Autopilot上で、C++でプログラムされています。 この実装がオートパイロットの性能に大きく影響しないよう、コード化されたnnは軽い計算負荷でなければならない。 このアプローチをテストするため,我々はpx4オートパイロットを用いて,ソフトウェア・イン・ザ・ループ(sitl)の現実的なシミュレーションを行った。 これらの実験により、実装されたnnはテールシッターの空力の推定に使用され、ホバー、クルーズ、トランジションといったテールシッター機のすべての飛行フェーズにおける制御アルゴリズムの改善に使用できることが示されている。

The control of a tail-sitter aircraft is a challenging task, especially during transition maneuver where the lift and drag forces are highly nonlinear. In this work, we implement a Neural Network (NN) capable of estimate such nonlinearities. Once they are estimated, one can propose a control scheme where these forces can correctly feed-forwarded. Our implementation of the NN has been programmed in C++ on the PX4 Autopilot an open-source autopilot for drones. To ensure that this implementation does not considerably affect the autopilot's performance, the coded NN must be of a light computational load. With the aim to test our approach, we have carried out a series of realistic simulations in the Software in The Loop (SITL) using the PX4 Autopilot. These experiments demonstrate that the implemented NN can be used to estimate the tail-sitter aerodynamic forces, and can be used to improve the control algorithms during all the flight phases of the tail-sitter aircraft: hover, cruise flight, and transition.
翻訳日:2022-10-08 07:06:55 公開日:2020-10-12
# EFSG:進化的食文生成装置

EFSG: Evolutionary Fooling Sentences Generator ( http://arxiv.org/abs/2010.05736v1 )

ライセンス: Link先を確認
Marco Di Giovanni and Marco Brambilla(参考訳) 大規模な事前学習言語表現モデル(LM)は、最近、多くのNLPタスクで多くの成功を集めている。 2018年、BERTとその後継(例えばRoBERTa)はGLUEベンチマークのような古典的なベンチマークタスクで最先端の結果を得た。 その後、敵攻撃に関する研究が公開され、その一般化の妥当性と堅牢性をテストする。 本研究では,二分分類タスクに対して偽陽性文を生成する進化的手法を用いて構築した,モデルおよびタスク非依存の逆攻撃アルゴリズムであるefsgを設計する。 BERT および RoBERTa 上で,EFSG を CoLA および MRPC タスクに適用し,性能の比較を行った。 その結果,最先端のlmsにおける弱点の存在が証明された。 EFSGに対するデータ強化防衛アプローチとして、最終的に敵対的トレーニングをテストし、元のデータセットでテストした場合の精度を損なうことなく、より強力な改善モデルを得る。

Large pre-trained language representation models (LMs) have recently collected a huge number of successes in many NLP tasks. In 2018 BERT, and later its successors (e.g. RoBERTa), obtained state-of-the-art results in classical benchmark tasks, such as GLUE benchmark. After that, works about adversarial attacks have been published to test their generalization proprieties and robustness. In this work, we design Evolutionary Fooling Sentences Generator (EFSG), a model- and task-agnostic adversarial attack algorithm built using an evolutionary approach to generate false-positive sentences for binary classification tasks. We successfully apply EFSG to CoLA and MRPC tasks, on BERT and RoBERTa, comparing performances. Results prove the presence of weak spots in state-of-the-art LMs. We finally test adversarial training as a data augmentation defence approach against EFSG, obtaining stronger improved models with no loss of accuracy when tested on the original datasets.
翻訳日:2022-10-08 07:00:17 公開日:2020-10-12
# BERTの階層的指導--漸進的に書き直された文書表現の学習

Layer-wise Guided Training for BERT: Learning Incrementally Refined Document Representations ( http://arxiv.org/abs/2010.05763v1 )

ライセンス: Link先を確認
Nikolaos Manginas, Ilias Chalkidis and Prodromos Malakasiotis(参考訳) BERTはNLPコミュニティで広く使われているが、内部構造についてはほとんど知られていない。 BERTの特定の側面についていくつかの試みが行われ、しばしば矛盾する結論が得られた。 BERTの過度なパラメータ化と低ユーティリティ化の問題に注目が集まっている。 この目的のために, 構造的手法による微細チューン bert に対する o の斬新なアプローチを提案する。 具体的には,大規模多言語テキスト分類(LMTC)に注目し,文書には階層的に整理された大きなラベルセットから1つ以上のラベルが割り当てられる。 我々のアプローチは特定の階層レベルからラベルを予測するために特定のbert層を導く。 2つのlmtcデータセットを実験した結果、この構造的微調整アプローチは、より良い分類結果をもたらすだけでなく、パラメータの利用率も向上することが示された。

Although BERT is widely used by the NLP community, little is known about its inner workings. Several attempts have been made to shed light on certain aspects of BERT, often with contradicting conclusions. A much raised concern focuses on BERT's over-parameterization and under-utilization issues. To this end, we propose o novel approach to fine-tune BERT in a structured manner. Specifically, we focus on Large Scale Multilabel Text Classification (LMTC) where documents are assigned with one or more labels from a large predefined set of hierarchically organized labels. Our approach guides specific BERT layers to predict labels from specific hierarchy levels. Experimenting with two LMTC datasets we show that this structured fine-tuning approach not only yields better classification results but also leads to better parameter utilization.
翻訳日:2022-10-08 06:59:44 公開日:2020-10-12
# 制御幻覚:ノイズデータから忠実に生成する学習

Controlled Hallucinations: Learning to Generate Faithfully from Noisy Data ( http://arxiv.org/abs/2010.05873v1 )

ライセンス: Link先を確認
Katja Filippova(参考訳) ニューラルテキスト生成(データまたはテキスト・トゥ・テキスト)は、トレーニングデータが豊富である場合に顕著なパフォーマンスを示し、多くのアプリケーションではそうではない。 並列データの大規模なコーパス収集には、しばしばヒューリスティックなルールが使用されるが、入力によって説明できない出力のフレーズなど、必然的にデータにノイズを与える。 その結果、モデルがノイズを拾い上げ、生成するがサポートされないテキストを幻覚させる可能性がある。 我々の貢献は、そのような幻覚を、入力を排除せず、モデルアーキテクチャを変更することなく、生成したテキストの制御可能な側面として扱う、単純だが強力な技術である。 特にノイズの多いデータセットであるWikiBio corpus(Lebret et al., 2016)では,自動評価と人的評価の両方において,この手法の有効性を実証している。

Neural text generation (data- or text-to-text) demonstrates remarkable performance when training data is abundant which for many applications is not the case. To collect a large corpus of parallel data, heuristic rules are often used but they inevitably let noise into the data, such as phrases in the output which cannot be explained by the input. Consequently, models pick up on the noise and may hallucinate--generate fluent but unsupported text. Our contribution is a simple but powerful technique to treat such hallucinations as a controllable aspect of the generated text, without dismissing any input and without modifying the model architecture. On the WikiBio corpus (Lebret et al., 2016), a particularly noisy dataset, we demonstrate the efficacy of the technique both in an automatic and in a human evaluation.
翻訳日:2022-10-08 06:59:07 公開日:2020-10-12
# 低リソース領域適応のためのマルチステージ事前学習

Multi-Stage Pre-training for Low-Resource Domain Adaptation ( http://arxiv.org/abs/2010.05904v1 )

ライセンス: Link先を確認
Rong Zhang, Revanth Gangi Reddy, Md Arafat Sultan, Vittorio Castelli, Anthony Ferritto, Radu Florian, Efsun Sarioglu Kayi, Salim Roukos, Avirup Sil, Todd Ward(参考訳) 転送学習技術は,高品質な注釈付きデータの大量取得が困難なNLPタスクにおいて特に有用である。 現在のアプローチは、ダウンストリームタスクに微調整する前に、ドメイン内のテキストに事前訓練された言語モデル(LM)を直接適用する。 LMの語彙をドメイン固有の用語で拡張することは、さらなる利益をもたらすことを示す。 より大きな効果として、ラベルのないデータの構造を利用して補助的な合成タスクを作成し、LMを下流タスクに転送するのに役立つ。 我々はこれらのアプローチをトレーニング済みのRoberta-large LMに漸進的に適用し、IT領域の3つのタスク(抽出読解、文書ランク付け、重複質問検出)でかなりのパフォーマンス向上を示す。

Transfer learning techniques are particularly useful in NLP tasks where a sizable amount of high-quality annotated data is difficult to obtain. Current approaches directly adapt a pre-trained language model (LM) on in-domain text before fine-tuning to downstream tasks. We show that extending the vocabulary of the LM with domain-specific terms leads to further gains. To a bigger effect, we utilize structure in the unlabeled data to create auxiliary synthetic tasks, which helps the LM transfer to downstream tasks. We apply these approaches incrementally on a pre-trained Roberta-large LM and show considerable performance gain on three tasks in the IT domain: Extractive Reading Comprehension, Document Ranking and Duplicate Question Detection.
翻訳日:2022-10-08 06:58:45 公開日:2020-10-12
# 構造音素インベントリの誘導に向けて

Towards Induction of Structured Phoneme Inventories ( http://arxiv.org/abs/2010.05959v1 )

ライセンス: Link先を確認
Alexander Gutkin and Martin Jansche and Lucy Skidmore(参考訳) 本研究は,emnlp 2020で開催予定の「sigtyp 2020: the second workshop on computational research in linguistic typology」に向けて,音韻的タイポロジー研究に関する詳細な調査を行った。

This extended abstract surveying the work on phonological typology was prepared for "SIGTYP 2020: The Second Workshop on Computational Research in Linguistic Typology" to be held at EMNLP 2020.
翻訳日:2022-10-08 06:58:08 公開日:2020-10-12
# 補完的強制的クラウドソーシングの異常な失敗

The Extraordinary Failure of Complement Coercion Crowdsourcing ( http://arxiv.org/abs/2010.05971v1 )

ライセンス: Link先を確認
Yanai Elazar, Victoria Basmov, Shauli Ravfogel, Yoav Goldberg, Reut Tsarfaty(参考訳) クラウドソーシングは近年,言語アノテーションの収集を緩和し,スケールアップしている。 本研究では,相補的強制現象のラベル付きデータを収集する既知の手法に従う。 それらは暗黙のアクションを持つ建設物で、例えば「先週買った新しい本」では暗示のアクションが読み上げられている。 本研究の目的は,この現象の注釈付きデータを2つの既知のタスク – 明示的補完と自然言語推論 – に還元することで収集することである。 しかし,どちらの場合も,以前と同じ手法を踏襲したにも関わらず,クラウドソーシングによる合意スコアは低かった。 なぜ同じプロセスは高い合意のスコアを得られないのか? モデリングスキームを定義し、以前の作業との違いを強調し、そのタスクと失敗の可能な説明についていくつかの洞察を提供する。 特定の現象は、特殊なアルゴリズムだけでなく、データ収集手法においても、適切な解を必要とすると結論付けている。

Crowdsourcing has eased and scaled up the collection of linguistic annotation in recent years. In this work, we follow known methodologies of collecting labeled data for the complement coercion phenomenon. These are constructions with an implied action -- e.g., "I started a new book I bought last week", where the implied action is reading. We aim to collect annotated data for this phenomenon by reducing it to either of two known tasks: Explicit Completion and Natural Language Inference. However, in both cases, crowdsourcing resulted in low agreement scores, even though we followed the same methodologies as in previous work. Why does the same process fail to yield high agreement scores? We specify our modeling schemes, highlight the differences with previous work and provide some insights about the task and possible explanations for the failure. We conclude that specific phenomena require tailored solutions, not only in specialized algorithms, but also in data collection methods.
翻訳日:2022-10-08 06:58:03 公開日:2020-10-12
# WMT 2020におけるジェンダー基準とバイアス評価

Gender Coreference and Bias Evaluation at WMT 2020 ( http://arxiv.org/abs/2010.06018v1 )

ライセンス: Link先を確認
Tom Kocmi, Tomasz Limisiewicz, Gabriel Stanovsky(参考訳) 機械翻訳における性バイアスは、スプリアスな性相関に基づいて性転換を選択するときに現れる。 例えば、常に医師を男性として、看護師を女性として翻訳する。 これは、モデルがより普及し、商用システムにデプロイされるにつれて、特に有害である。 我々の研究は、チェコ語、ドイツ語、ポーランド語、ロシア語の4つの異なるターゲット言語に対して、WMTに提出された19以上のシステムにおいて、この現象の最大の証拠を示す。 これを実現するために、WinoMTは、英語から文法的なジェンダーを持つ言語に翻訳する際に、性別の基準とバイアスを検査する、最近の自動テストスイートである。 WMTでテストされた2つの新しい言語、ポーランド語とチェコ語を扱うためにWinoMTを拡張します。 すべてのシステムは、意味のある文脈情報ではなく、データ内の刺激的な相関を一貫して利用している。

Gender bias in machine translation can manifest when choosing gender inflections based on spurious gender correlations. For example, always translating doctors as men and nurses as women. This can be particularly harmful as models become more popular and deployed within commercial systems. Our work presents the largest evidence for the phenomenon in more than 19 systems submitted to the WMT over four diverse target languages: Czech, German, Polish, and Russian. To achieve this, we use WinoMT, a recent automatic test suite which examines gender coreference and bias when translating from English to languages with grammatical gender. We extend WinoMT to handle two new languages tested in WMT: Polish and Czech. We find that all systems consistently use spurious correlations in the data rather than meaningful contextual information.
翻訳日:2022-10-08 06:57:50 公開日:2020-10-12
# 多頭知識を考慮した社会常識推論

Social Commonsense Reasoning with Multi-Head Knowledge Attention ( http://arxiv.org/abs/2010.05587v1 )

ライセンス: Link先を確認
Debjit Paul and Anette Frank(参考訳) 社会的コモンセンス推論には、テキストの理解、社会イベントに関する知識、その実践的な意味、およびコモンセンス推論スキルが必要である。 本研究では,半構造化コモンセンス推論規則を符号化し,それをトランスフォーマベース推論セルに組み込む方法を学ぶマルチヘッド知識注目モデルを提案する。 帰納的自然言語推論(Abductive Natural Language Inference)と反現実的不変性予測( Counterfactual Invariance Prediction)の2つのタスクにおいて,モデルの性能を評価する。 提案モデルでは,2つの推論タスク間で,強力な最先端モデル(RoBERTa)よりも性能が向上することを示す。 特に、私たちの知る限りでは、反事実的推論を行うために学習するモデルが、アブダクション的推論タスクで最良の説明を予測するのに役立つことを最初に示すのは私たちの知識です。 我々は,モデルの推論能力の頑健さを,知識を摂動させることで検証し,モデルの知識導入能力に関する質的分析を行う。

Social Commonsense Reasoning requires understanding of text, knowledge about social events and their pragmatic implications, as well as commonsense reasoning skills. In this work we propose a novel multi-head knowledge attention model that encodes semi-structured commonsense inference rules and learns to incorporate them in a transformer-based reasoning cell. We assess the model's performance on two tasks that require different reasoning skills: Abductive Natural Language Inference and Counterfactual Invariance Prediction as a new task. We show that our proposed model improves performance over strong state-of-the-art models (i.e., RoBERTa) across both reasoning tasks. Notably we are, to the best of our knowledge, the first to demonstrate that a model that learns to perform counterfactual reasoning helps predicting the best explanation in an abductive reasoning task. We validate the robustness of the model's reasoning capabilities by perturbing the knowledge and provide qualitative analysis on the model's knowledge incorporation capabilities.
翻訳日:2022-10-08 06:51:36 公開日:2020-10-12
# 通訳室の象:サリエンシの方法があるとき、なぜ注意を説明として使うのか?

The elephant in the interpretability room: Why use attention as explanation when we have saliency methods? ( http://arxiv.org/abs/2010.05607v1 )

ライセンス: Link先を確認
Jasmijn Bastings and Katja Filippova(参考訳) 近年,注意をモデル予測の説明として利用することへの関心が高まっている。 注意力は入力トークン毎に1重みを与え、簡単に抽出できるが、どの目的を説明として使うのかはよくわからない。 明確に述べられているかどうかに関わらず、そのゴールが予測に最も関係のある入力トークンを見つけることであり、その説明の暗黙のユーザはモデル開発者であることが多いことが分かりました。 この目的とユーザのために、入力の給与方法がより適しており、各入力に重みを与えるという偶然にもかかわらず、注意を使う説得力のある理由はないと主張する。 このポジションペーパーでは、最近の注目のいくつかをサリエンシ手法にシフトさせ、著者が彼らの説明の目的とユーザを明確に述べることを望んでいる。

There is a recent surge of interest in using attention as explanation of model predictions, with mixed evidence on whether attention can be used as such. While attention conveniently gives us one weight per input token and is easily extracted, it is often unclear toward what goal it is used as explanation. We find that often that goal, whether explicitly stated or not, is to find out what input tokens are the most relevant to a prediction, and that the implied user for the explanation is a model developer. For this goal and user, we argue that input saliency methods are better suited, and that there are no compelling reasons to use attention, despite the coincidence that it provides a weight for each input. With this position paper, we hope to shift some of the recent focus on attention to saliency methods, and for authors to clearly state the goal and user for their explanations.
翻訳日:2022-10-08 06:51:02 公開日:2020-10-12
# 関係レベルメタファー同定のための文脈変調

Contextual Modulation for Relation-Level Metaphor Identification ( http://arxiv.org/abs/2010.05633v1 )

ライセンス: Link先を確認
Omnia Zayed, John P. McCrae, Paul Buitelaar(参考訳) テキスト中のメタファの特定は非常に困難であり、基礎となる比較を理解する必要がある。 この認知プロセスの自動化は、最近広く注目を集めている。 しかし,既存の手法の大部分は,メタファコンポーネント間の相互作用を明示的にモデル化することなく,タスクを単一単語分類あるいは逐次ラベリングとして扱うことで,単語レベルの識別に重点を置いている。 一方、既存の関係レベルアプローチはこの相互作用を暗黙的にモデル化する一方で、メタファーが発生するコンテキストを無視する。 本研究では,文脈変調に基づく関係レベルの比喩表現を識別する新しいアーキテクチャを導入することにより,これらの制約に対処する。 視覚的推論の研究から着想を得た方法論では,特徴量線形変調を用いた候補表現の深い文脈化特徴に対するニューラルネットワーク計算の条件付けに基づいている。 提案したアーキテクチャは,ベンチマークデータセット上で最先端の結果が得られることを示す。 提案手法は汎用的であり、文脈相互作用の恩恵を受ける他のテキスト分類問題に適用できる。

Identifying metaphors in text is very challenging and requires comprehending the underlying comparison. The automation of this cognitive process has gained wide attention lately. However, the majority of existing approaches concentrate on word-level identification by treating the task as either single-word classification or sequential labelling without explicitly modelling the interaction between the metaphor components. On the other hand, while existing relation-level approaches implicitly model this interaction, they ignore the context where the metaphor occurs. In this work, we address these limitations by introducing a novel architecture for identifying relation-level metaphoric expressions of certain grammatical relations based on contextual modulation. In a methodology inspired by works in visual reasoning, our approach is based on conditioning the neural network computation on the deep contextualised features of the candidate expressions using feature-wise linear modulation. We demonstrate that the proposed architecture achieves state-of-the-art results on benchmark datasets. The proposed methodology is generic and could be applied to other textual classification problems that benefit from contextual interaction.
翻訳日:2022-10-08 06:50:44 公開日:2020-10-12
# 意味構文解析における合成一般化の改善

Improving Compositional Generalization in Semantic Parsing ( http://arxiv.org/abs/2010.05647v1 )

ライセンス: Link先を確認
Inbar Oren, Jonathan Herzig, Nitish Gupta, Matt Gardner, Jonathan Berant(参考訳) アウト・オブ・ディストリビューション(ood)データへのモデルの一般化は、近年大きな注目を集めている。 具体的には、構成一般化、すなわち、モデルがトレーニング中に観察されるコンポーネントで構成された新しい構造に一般化するかどうかが大きな関心を呼んだ。 本研究では,合成一般化のための自然なテストベッドである意味解析における合成一般化を,サブコンポーネントから構築した出力プログラムを用いて検討する。 我々は,多種多様なモデルを分析し,セマンティックパーサの注目モジュールに対する複数の拡張を提案する。 構成一般化を改善する要因は以下のとおりである。 (a)ELMoやBERTなどの文脈表現を用いる (b)デコーダに予め入力トークンを入力した旨を通知する (c)あらかじめ計算されたトークンアライメントに一致するようにデコーダ注意を訓練し、 (d) 頻繁なプログラムテンプレートに対応するサンプルのサンプル。 分布内分布とOOD一般化のギャップを著しく低減するが,OOD合成の性能は依然として著しく低い。

Generalization of models to out-of-distribution (OOD) data has captured tremendous attention recently. Specifically, compositional generalization, i.e., whether a model generalizes to new structures built of components observed during training, has sparked substantial interest. In this work, we investigate compositional generalization in semantic parsing, a natural test-bed for compositional generalization, as output programs are constructed from sub-components. We analyze a wide variety of models and propose multiple extensions to the attention module of the semantic parser, aiming to improve compositional generalization. We find that the following factors improve compositional generalization: (a) using contextual representations, such as ELMo and BERT, (b) informing the decoder what input tokens have previously been attended to, (c) training the decoder attention to agree with pre-computed token alignments, and (d) downsampling examples corresponding to frequent program templates. While we substantially reduce the gap between in-distribution and OOD generalization, performance on OOD compositions is still substantially lower.
翻訳日:2022-10-08 06:50:32 公開日:2020-10-12
# 密度行列を用いた語彙の曖昧さのモデル化

Modelling Lexical Ambiguity with Density Matrices ( http://arxiv.org/abs/2010.05670v1 )

ライセンス: Link先を確認
Francois Meyer and Martha Lewis(参考訳) 言葉には複数の感覚がある。 意味の組成分布モデルは、ポリセミーとして知られる意味変化の微妙なシェードをうまく扱うことが主張されているが、語源的に無関係な単語感覚やホモニーミーを扱うには十分ではない。 ベクトルから密度行列への移動は、単語の異なる感覚上の確率分布を符号化することができ、また意味の合成分布モデルにも適用できる。 本稿では,コーパスから密度行列を学習するための3つのニューラルモデルを提案する。 特定の合成法と組み合わせると、我々の最良のモデルは既存のベクトルベース合成モデルと強い文エンコーダよりも優れる。

Words can have multiple senses. Compositional distributional models of meaning have been argued to deal well with finer shades of meaning variation known as polysemy, but are not so well equipped to handle word senses that are etymologically unrelated, or homonymy. Moving from vectors to density matrices allows us to encode a probability distribution over different senses of a word, and can also be accommodated within a compositional distributional model of meaning. In this paper we present three new neural models for learning density matrices from a corpus, and test their ability to discriminate between word senses on a range of compositional datasets. When paired with a particular composition method, our best model outperforms existing vector-based compositional models as well as strong sentence encoders.
翻訳日:2022-10-08 06:50:03 公開日:2020-10-12
# パラフレーズ生成としての教師なしスタイル転送の改革

Reformulating Unsupervised Style Transfer as Paraphrase Generation ( http://arxiv.org/abs/2010.05700v1 )

ライセンス: Link先を確認
Kalpesh Krishna, John Wieting, Mohit Iyyer(参考訳) 現代のnlpは、スタイル転送のタスクを、スタイル転送システムの出力は入力のパラフレーズであるべきという意味合いを変えずに、与えられた文のスタイルを変更するものとして定義している。 しかし、多くの既存システムは、感情のような意味的特性を変化させる属性転送を通じて、入力の意味を本質的に歪めている。 本稿では, 教師なしスタイル転送をパラフレーズ生成問題として再検討し, 自動生成パラフレーズデータに基づく微調整事前学習言語モデルに基づく簡単な手法を提案する。 そのシンプルさにもかかわらず、この手法は人間と自動評価の両方において最先端のスタイル転送システムを大幅に上回っている。 また,23種類の転送論文を調査し,既存の自動メトリクスを簡単にゲーム化でき,固定変種を提案する。 最後に,15万文の大規模データセットを11の多様なスタイルで収集し,より現実世界的な転送設定に転換し,システムの詳細な分析を行う。

Modern NLP defines the task of style transfer as modifying the style of a given sentence without appreciably changing its semantics, which implies that the outputs of style transfer systems should be paraphrases of their inputs. However, many existing systems purportedly designed for style transfer inherently warp the input's meaning through attribute transfer, which changes semantic properties such as sentiment. In this paper, we reformulate unsupervised style transfer as a paraphrase generation problem, and present a simple methodology based on fine-tuning pretrained language models on automatically generated paraphrase data. Despite its simplicity, our method significantly outperforms state-of-the-art style transfer systems on both human and automatic evaluations. We also survey 23 style transfer papers and discover that existing automatic metrics can be easily gamed and propose fixed variants. Finally, we pivot to a more real-world style transfer setting by collecting a large dataset of 15M sentences in 11 diverse styles, which we use for an in-depth analysis of our system.
翻訳日:2022-10-08 06:49:51 公開日:2020-10-12
# ニューラルネットワークモデルにおけるFew-Shot学習と構文一般化の改良

Structural Supervision Improves Few-Shot Learning and Syntactic Generalization in Neural Language Models ( http://arxiv.org/abs/2010.05725v1 )

ライセンス: Link先を確認
Ethan Wilcox, Peng Qian, Richard Futrell, Ryosuke Kohita, Roger Levy and Miguel Ballesteros(参考訳) 人間は、最小限の経験から単語の構造的性質を学び、学習した構文表現を異なる文法的文脈に均一に展開することができる。 現代のニューラル言語モデルが英語でこの行動を再現する能力を評価し,構造的監督が学習結果に与える影響を評価する。 まず,モデルの構文的名目数と言語的引数構造を学習中に2回も見られるトークンの一般化を探索する制御実験を開発することにより,少数ショット学習能力を評価する。 第二に、学習された表現の不変性を評価する: ベースコンテキスト(例えば、単純な宣言的アクティブ音声文)から変換されたコンテキスト(例えば、疑問文)に構文一般化を転送するモデルの能力。 同じデータセットでトレーニングされた4つのモデル(n-gramベースライン、LSTM、および明示的な構造管理によってトレーニングされたLSTM変異体(Dyer et al., 2016; Charniak et al., 2016)をテストする。 ほとんどの場合、ニューラルネットワークは、トレーニング中のわずか2つの例から、最小限の露光後に適切な構文一般化を誘導することができ、2つの構造的教師付きモデルはLSTMモデルよりも正確に一般化できる。 すべてのニューラルモデルは、ベースコンテキストで学習した情報を活用して、変換されたコンテキストでの期待を駆動し、構文の不変性を学習したことを示す。

Humans can learn structural properties about a word from minimal experience, and deploy their learned syntactic representations uniformly in different grammatical contexts. We assess the ability of modern neural language models to reproduce this behavior in English and evaluate the effect of structural supervision on learning outcomes. First, we assess few-shot learning capabilities by developing controlled experiments that probe models' syntactic nominal number and verbal argument structure generalizations for tokens seen as few as two times during training. Second, we assess invariance properties of learned representation: the ability of a model to transfer syntactic generalizations from a base context (e.g., a simple declarative active-voice sentence) to a transformed context (e.g., an interrogative sentence). We test four models trained on the same dataset: an n-gram baseline, an LSTM, and two LSTM-variants trained with explicit structural supervision (Dyer et al.,2016; Charniak et al., 2016). We find that in most cases, the neural models are able to induce the proper syntactic generalizations after minimal exposure, often from just two examples during training, and that the two structurally supervised models generalize more accurately than the LSTM model. All neural models are able to leverage information learned in base contexts to drive expectations in transformed contexts, indicating that they have learned some invariance properties of syntax.
翻訳日:2022-10-08 06:49:34 公開日:2020-10-12
# 語彙意味論のための事前学習言語モデルの提案

Probing Pretrained Language Models for Lexical Semantics ( http://arxiv.org/abs/2010.05731v1 )

ライセンス: Link先を確認
Ivan Vuli\'c, Edoardo Maria Ponti, Robert Litschko, Goran Glava\v{s}, Anna Korhonen(参考訳) BERTやRoBERTaのような大規模な事前訓練された言語モデル(LM)の成功は、暗黙的に捉えた知識の種類を明らかにするために、それらの表現を探索することへの関心を喚起した。 以前の研究は形態素的、意味的、世界的知識に焦点が当てられていたが、lmsが文脈における単語から語彙的タイプレベルの知識をどの程度引き出すのかは、まだ不明である。 本研究は,6つの型的多様言語と5つの異なる語彙課題にまたがる系統的経験分析を行い,以下の問題に対処する。 1)語彙的知識抽出戦略(単言語対多言語ソースlm、文脈外対文脈内エンコーディング、特殊トークンの包含、階層的平均化)はパフォーマンスにどのように影響するか? タスクと言語間で観察される影響はどの程度一貫性があるのか? 2) 語彙知識は少数のパラメータに格納されているか,あるいはネットワーク全体に散在しているか? 3) レキシカルタスクにおける従来の静的単語ベクトルに対して,これらの表現はどのように振る舞うのか? 4) 独立学習単言語lmsから出現する語彙情報は潜在類似性を示すか? 私たちの主な成果は、普遍的に維持されるパターンとベストプラクティスを示しますが、言語やタスクの相違点も示しています。 さらに,低レベルトランスフォーマ層がより型レベルの語彙知識を持つという主張を検証するとともに,この知識が複数の層に分散していることを示す。

The success of large pretrained language models (LMs) such as BERT and RoBERTa has sparked interest in probing their representations, in order to unveil what types of knowledge they implicitly capture. While prior research focused on morphosyntactic, semantic, and world knowledge, it remains unclear to which extent LMs also derive lexical type-level knowledge from words in context. In this work, we present a systematic empirical analysis across six typologically diverse languages and five different lexical tasks, addressing the following questions: 1) How do different lexical knowledge extraction strategies (monolingual versus multilingual source LM, out-of-context versus in-context encoding, inclusion of special tokens, and layer-wise averaging) impact performance? How consistent are the observed effects across tasks and languages? 2) Is lexical knowledge stored in few parameters, or is it scattered throughout the network? 3) How do these representations fare against traditional static word vectors in lexical tasks? 4) Does the lexical information emerging from independently trained monolingual LMs display latent similarities? Our main results indicate patterns and best practices that hold universally, but also point to prominent variations across languages and tasks. Moreover, we validate the claim that lower Transformer layers carry more type-level lexical knowledge, but also show that this knowledge is distributed across multiple layers.
翻訳日:2022-10-08 06:49:06 公開日:2020-10-12
# COGS:意味論的解釈に基づく構成的一般化の挑戦

COGS: A Compositional Generalization Challenge Based on Semantic Interpretation ( http://arxiv.org/abs/2010.05465v1 )

ライセンス: Link先を確認
Najoung Kim and Tal Linzen(参考訳) 自然言語は構成性によって特徴づけられ、複雑な表現の意味はその構成要素の意味から構築される。 言語処理アーキテクチャの構成能力の評価を容易にするために,英語の断片に基づく意味解析データセットであるCOGSを導入する。 cogsの評価部分は、組成の一般化によってのみ対処できる複数の体系的ギャップを含み、親しみやすい構文構造の新たな組み合わせ、親しみやすい単語と親しみのある構造の新たな組み合わせが含まれる。 変圧器とlstmを用いた実験では,cogsテストセットの分布精度はほぼ完全 (96~99%) であるが,一般化精度は(16~35%) に低下し,無作為種子に対して高い感度 (\pm$6~88%) を示した。 これらの結果から, コンテンポラリー標準NLPモデルは, 構成一般化能力に制限があり, COGSが進行度を測定する良い方法であることが示された。

Natural language is characterized by compositionality: the meaning of a complex expression is constructed from the meanings of its constituent parts. To facilitate the evaluation of the compositional abilities of language processing architectures, we introduce COGS, a semantic parsing dataset based on a fragment of English. The evaluation portion of COGS contains multiple systematic gaps that can only be addressed by compositional generalization; these include new combinations of familiar syntactic structures, or new combinations of familiar words and familiar structures. In experiments with Transformers and LSTMs, we found that in-distribution accuracy on the COGS test set was near-perfect (96--99%), but generalization accuracy was substantially lower (16--35%) and showed high sensitivity to random seed ($\pm$6--8%). These findings indicate that contemporary standard NLP models are limited in their compositional generalization capacity, and position COGS as a good way to measure progress.
翻訳日:2022-10-08 06:42:53 公開日:2020-10-12
# トピック知識グラフを用いた感性制御可能なトピック・ツー・エッセイ・ジェネレータ

A Sentiment-Controllable Topic-to-Essay Generator with Topic Knowledge Graph ( http://arxiv.org/abs/2010.05511v1 )

ライセンス: Link先を確認
Lin Qiao, Jianhao Yan, Fandong Meng, Zhendong Yang, Jie Zhou(参考訳) 自然言語生成の課題は、いくつかの与えられた話題語しか持たない、鮮やかで斬新で多彩なエッセイを生成することである。 以前の研究では、テキストの下の感情の無視と、トピック関連の知識の不十分な利用という2つの問題が未解決のまま残されている。 そこで本稿では,条件付き変分オートエンコーダ(cvae)フレームワークに基づく,トピックナレッジグラフ拡張デコーダ(sctkg)を備えた,新たな感情制御型トピック・ツー・エスセイ生成器を提案する。 まず、各文に対する感情を制御するために、感情情報をジェネレータに注入し、様々なエッセイを生み出す。 次に,トピック知識グラフ拡張デコーダを設計する。 知識エンティティを別々に使用する既存のモデルとは異なり、我々のモデルは知識グラフ全体を扱い、より構造化され、連結されたセマンティック情報をグラフにエンコードし、より関連するエッセイを生成する。 実験結果から,SCTKGは感情制御可能なエッセイを生成でき,話題の関連性,流布度,多様性の両面において最先端のアプローチより優れることがわかった。

Generating a vivid, novel, and diverse essay with only several given topic words is a challenging task of natural language generation. In previous work, there are two problems left unsolved: neglect of sentiment beneath the text and insufficient utilization of topic-related knowledge. Therefore, we propose a novel Sentiment-Controllable topic-to-essay generator with a Topic Knowledge Graph enhanced decoder, named SCTKG, which is based on the conditional variational autoencoder (CVAE) framework. We firstly inject the sentiment information into the generator for controlling sentiment for each sentence, which leads to various generated essays. Then we design a Topic Knowledge Graph enhanced decoder. Unlike existing models that use knowledge entities separately, our model treats the knowledge graph as a whole and encodes more structured, connected semantic information in the graph to generate a more relevant essay. Experimental results show that our SCTKG can generate sentiment controllable essays and outperform the state-of-the-art approach in terms of topic relevance, fluency, and diversity on both automatic and human evaluation.
翻訳日:2022-10-08 06:42:14 公開日:2020-10-12
# 文マッチングのための事前学習言語モデルに基づく能動的学習

Pre-trained Language Model Based Active Learning for Sentence Matching ( http://arxiv.org/abs/2010.05522v1 )

ライセンス: Link先を確認
Guirong Bai, Shizhu He, Kang Liu, Jun Zhao, Zaiqing Nie(参考訳) アクティブラーニングは、データ駆動手法のアノテーションコストを大幅に削減することができる。 しかし、従来の自然言語処理のアクティブな学習手法は主にエントロピーに基づく不確実性基準に依存し、自然言語の特徴を無視する。 本稿では,文マッチングのための事前学習型言語モデルに基づくアクティブラーニング手法を提案する。 従来のアクティブラーニングとは違い、インスタンスを測定するための言語基準を提供し、アノテーションのより効率的なインスタンスを選択するのに役立つ。 実験により,ラベル付きトレーニングインスタンスを少なくすることで,高い精度を実現することができた。

Active learning is able to significantly reduce the annotation cost for data-driven techniques. However, previous active learning approaches for natural language processing mainly depend on the entropy-based uncertainty criterion, and ignore the characteristics of natural language. In this paper, we propose a pre-trained language model based active learning approach for sentence matching. Differing from previous active learning, it can provide linguistic criteria to measure instances and help select more efficient instances for annotation. Experiments demonstrate our approach can achieve greater accuracy with fewer labeled training instances.
翻訳日:2022-10-08 06:41:51 公開日:2020-10-12
# 言語学習者のための言語横断定義生成に向けて

Toward Cross-Lingual Definition Generation for Language Learners ( http://arxiv.org/abs/2010.05533v1 )

ライセンス: Link先を確認
Cunliang Kong, Liner Yang, Tianzuo Zhang, Qinan Fan, Zhenghao Liu, Yun Chen, Erhong Yang(参考訳) 辞書定義の自動生成は、言語学習者にとって有用である。 しかし、言語間定義の生成は依然として難しい課題である。 本稿では,様々な言語における単語の定義を英語で生成することを提案する。 そこで本研究では,公開事前学習型言語モデルに基づく簡易かつ効果的なアプローチを提案する。 このアプローチでは、モデルを英語データセットでトレーニングした後、他の言語に直接適用することができる。 ゼロショット定義生成におけるこのアプローチの有効性を示す。 新たに構築されたデータセットに対する実験と手動解析により、我々のモデルは強い言語間移動能力を持ち、中国語の単語に対する流用な英語定義を生成できることが示されている。 さらに,生成および参照定義の語彙複雑性を計測する。 その結果,生成した定義はより単純であり,言語学習者に適していることがわかった。

Generating dictionary definitions automatically can prove useful for language learners. However, it's still a challenging task of cross-lingual definition generation. In this work, we propose to generate definitions in English for words in various languages. To achieve this, we present a simple yet effective approach based on publicly available pretrained language models. In this approach, models can be directly applied to other languages after trained on the English dataset. We demonstrate the effectiveness of this approach on zero-shot definition generation. Experiments and manual analyses on newly constructed datasets show that our models have a strong cross-lingual transfer ability and can generate fluent English definitions for Chinese words. We further measure the lexical complexity of generated and reference definitions. The results show that the generated definitions are much simpler, which is more suitable for language learners.
翻訳日:2022-10-08 06:41:43 公開日:2020-10-12
# The National Corpus of Contemporary Wales: Project Report | Y Corpws Cenedlaethol Cymraeg Cyfoes: Adroddiad y Prosiect

The National Corpus of Contemporary Welsh: Project Report | Y Corpws Cenedlaethol Cymraeg Cyfoes: Adroddiad y Prosiect ( http://arxiv.org/abs/2010.05542v1 )

ライセンス: Link先を確認
Dawn Knight, Steve Morris, Tess Fitzpatrick, Paul Rayson, Irena Spasi\'c, Enlli M\^on Thomas(参考訳) 本報告では,corcenccプロジェクトの概要と,プロジェクト作業の結果として開発されたオンラインコーパスリソースについて述べる。 報告書は研究の理論的基盤を概説し、このプロジェクトがどのようにしてこの理論を構築し、拡張したかを示している。 また、プロジェクトの過程で生じた重要な運用上の問題をいくつか取り上げ、それらが答えられる方法、これらの決定が生成したリソースに与える影響、コーパスビルディングにおける実践に対する長期的な貢献について概説します。 最後に、corcenccがさまざまな個人とユーザグループに与える影響を概説して、アプリケーションと作業の有用性について論じる。

This report provides an overview of the CorCenCC project and the online corpus resource that was developed as a result of work on the project. The report lays out the theoretical underpinnings of the research, demonstrating how the project has built on and extended this theory. We also raise and discuss some of the key operational questions that arose during the course of the project, outlining the ways in which they were answered, the impact of these decisions on the resource that has been produced and the longer-term contribution they will make to practices in corpus-building. Finally, we discuss some of the applications and the utility of the work, outlining the impact that CorCenCC is set to have on a range of different individuals and user groups.
翻訳日:2022-10-08 06:41:32 公開日:2020-10-12
# Augmented Code-switched TTSによる低リソースコードスイッチングASRの改善

Improving Low Resource Code-switched ASR using Augmented Code-switched TTS ( http://arxiv.org/abs/2010.05549v1 )

ライセンス: Link先を確認
Yash Sharma, Basil Abraham, Karan Taneja, Preethi Jyothi(参考訳) 近年,多言語コミュニティにおける音声技術の普及により,コードスイッチ音声の自動音声認識(ASR)システムの構築が注目されている。 エンドツーエンドのasrシステムは、使いやすさとモノリンガル設定のパフォーマンスが優れているため、自然なモデリング選択である。 しかし、エンドツーエンドシステムは大量のラベル付き音声を必要とすることはよく知られている。 本研究では,コード切替テキスト音声合成(TTS)を用いたデータ拡張による低リソース環境におけるコード切替ASRの改善について検討する。 TTS音声サンプルを効果的に活用するための2つの手法を提案する。 1) 既存のサンプルの線形補間による新たなトレーニングサンプル作成手法であるMixupをTTSおよび実音声サンプルに適用し, 2) TTS サンプルと組み合わせた新たな損失関数は,コード変更による予測を促進する。 本稿では, 絶対単語誤り率(WER)を最大5%向上させるASR性能の大幅な改善と, 提案手法を用いたHindi-Brited ASRタスクにおけるコードスイッチングの可測化について報告する。

Building Automatic Speech Recognition (ASR) systems for code-switched speech has recently gained renewed attention due to the widespread use of speech technologies in multilingual communities worldwide. End-to-end ASR systems are a natural modeling choice due to their ease of use and superior performance in monolingual settings. However, it is well known that end-to-end systems require large amounts of labeled speech. In this work, we investigate improving code-switched ASR in low resource settings via data augmentation using code-switched text-to-speech (TTS) synthesis. We propose two targeted techniques to effectively leverage TTS speech samples: 1) Mixup, an existing technique to create new training samples via linear interpolation of existing samples, applied to TTS and real speech samples, and 2) a new loss function, used in conjunction with TTS samples, to encourage code-switched predictions. We report significant improvements in ASR performance achieving absolute word error rate (WER) reductions of up to 5%, and measurable improvement in code switching using our proposed techniques on a Hindi-English code-switched ASR task.
翻訳日:2022-10-08 06:41:17 公開日:2020-10-12
# 文書レベルのクロスタスクコヒーレンス報酬を用いた共同意味分析

Joint Semantic Analysis with Document-Level Cross-Task Coherence Rewards ( http://arxiv.org/abs/2010.05567v1 )

ライセンス: Link先を確認
Rahul Aralikatte, Mostafa Abdou, Heather Lent, Daniel Hershcovich, Anders S{\o}gaard(参考訳) 参照解決とセマンティックロールラベリングは、意味論の異なる側面をキャプチャするNLPタスクであり、それぞれ、どの表現が同じ実体を指し、どのセマンティックロールが文の中でどのような表現を提供するかを示す。 しかし、それらはしばしば密接に相互依存しており、どちらも一般的に自然言語の理解を必要とする。 それらは文書のコヒーレントな抽象表現を形成するか? 本稿では、英語の共用コア参照解決とセマンティックロールラベリングのためのニューラルネットワークアーキテクチャと、浅層セマンティックグラフの'コヒーレンス'をモデル化するトレーニンググラフニューラルネットワークを提案する。 共同セマンティックアナライザの報酬として得られたコヒーレンススコアを用いて、文書とセマンティックアノテーション間のグローバルコヒーレンスを促進するために強化学習を利用する。 これにより、異なるドメインからの複数のデータセットにおけるタスクと、異なる表現性を持つ幅広いエンコーダの両方が改善され、NLPのセマンティクスに対するより包括的なアプローチが期待できる。

Coreference resolution and semantic role labeling are NLP tasks that capture different aspects of semantics, indicating respectively, which expressions refer to the same entity, and what semantic roles expressions serve in the sentence. However, they are often closely interdependent, and both generally necessitate natural language understanding. Do they form a coherent abstract representation of documents? We present a neural network architecture for joint coreference resolution and semantic role labeling for English, and train graph neural networks to model the 'coherence' of the combined shallow semantic graph. Using the resulting coherence score as a reward for our joint semantic analyzer, we use reinforcement learning to encourage global coherence over the document and between semantic annotations. This leads to improvements on both tasks in multiple datasets from different domains, and across a range of encoders of different expressivity, calling, we believe, for a more holistic approach to semantics in NLP.
翻訳日:2022-10-08 06:40:54 公開日:2020-10-12
# ドメイン固有応答生成のためのメタコンテキストトランスフォーマー

Meta-Context Transformers for Domain-Specific Response Generation ( http://arxiv.org/abs/2010.05572v1 )

ライセンス: Link先を確認
Debanjana Kar, Suranjana Samanta, Amar Prakash Azad(参考訳) 近年のニューラル対話モデルの成功にもかかわらず、その関連性、多様性、場合によっては生成した応答の一貫性の欠如に苦しむ。 近年、gpt-2のようなトランスフォーマーベースのモデルは、言語モデリングによって長距離構造を捉え、対話生成の展望に革命をもたらした。 これらのモデルは優れた言語コヒーレンスを示してきたが、ドメイン固有の応答生成に使用する場合、関連性や用語を欠いていることが多い。 本稿では,ドメイン固有属性強化による対話応答生成のためのトランスフォーマティブモデルdsrnet(domain specific response network)を提案する。 特に、コンテキストからメタ属性を抽出し、コンテキスト発話を注入し、ドメイン固有のキーワードや関連性をよりよく注目する。 ドメイン固有応答生成のためのマルチターンマルチインタロケータ環境におけるDSRNetの利用について検討する。 実験では,主にITドメインの課題解決のための技術ドメイン関連対話と,レストランドメインの会話を含むCamRest676データセットで構成されるUbuntuの対話データセット上でDSRNetを評価する。 本モデルでは, BLEUと意味的類似度(BertScore)が向上したマルチターン対話システムにおいて, 最先端の対話システムよりも大幅に向上したことを示す。 さらに、我々のモデルが生成する応答は、コンテキストの属性とのオーバーラップを示すドメイン固有のキー属性の存在により、より高い関連性をもたらすことも観察します。 分析の結果,キーワードの注入による性能向上と,ドメイン関連用語に対する注目度の向上が主な原因であることが示唆された。 その他のコントリビューション要因としては、対話コンテキストとドメイン固有のメタ属性とトピックの併用モデリングがある。

Despite the tremendous success of neural dialogue models in recent years, it suffers a lack of relevance, diversity, and some times coherence in generated responses. Lately, transformer-based models, such as GPT-2, have revolutionized the landscape of dialogue generation by capturing the long-range structures through language modeling. Though these models have exhibited excellent language coherence, they often lack relevance and terms when used for domain-specific response generation. In this paper, we present DSRNet (Domain Specific Response Network), a transformer-based model for dialogue response generation by reinforcing domain-specific attributes. In particular, we extract meta attributes from context and infuse them with the context utterances for better attention over domain-specific key terms and relevance. We study the use of DSRNet in a multi-turn multi-interlocutor environment for domain-specific response generation. In our experiments, we evaluate DSRNet on Ubuntu dialogue datasets, which are mainly composed of various technical domain related dialogues for IT domain issue resolutions and also on CamRest676 dataset, which contains restaurant domain conversations. Trained with maximum likelihood objective, our model shows significant improvement over the state-of-the-art for multi-turn dialogue systems supported by better BLEU and semantic similarity (BertScore) scores. Besides, we also observe that the responses produced by our model carry higher relevance due to the presence of domain-specific key attributes that exhibit better overlap with the attributes of the context. Our analysis shows that the performance improvement is mostly due to the infusion of key terms along with dialogues which result in better attention over domain-relevant terms. Other contributing factors include joint modeling of dialogue context with the domain-specific meta attributes and topics.
翻訳日:2022-10-08 06:40:33 公開日:2020-10-12
# ロバストで解釈可能な質問応答に対する要因変数制御

Counterfactual Variable Control for Robust and Interpretable Question Answering ( http://arxiv.org/abs/2010.05581v1 )

ライセンス: Link先を確認
Sicheng Yu, Yulei Niu, Shuohang Wang, Jing Jiang, Qianru Sun(参考訳) deep neural network based question answering (qa)モデルは、多くの場合、堅牢でも説明もできない。 例えば、質問の入力なしでテストされる多重選択QAモデルは、驚くほど「可能」であり、正しい選択肢の最も多くを予測する。 本稿では、因果推論を用いてQAモデルのこのような素早い「能力」を検証する。 クラックはショートカットの相関関係であり、例えば、モデルの学習したパスとオプションの間の不規則な単語アライメントである。 提案手法は,任意のショートカット相関を明示的に緩和し,ロバストなQAに対する包括的推論を保持する,CVC(Counterfactual Variable Control)と呼ばれる新しい手法を提案する。 具体的には、qaのトレーニングプロセスでロバストな相関と近距離相関を分離できるマルチブランチアーキテクチャを活用しています。 次に,包括的推論の効果を最終予測として捉えるために,2つの新しいcvc推論手法(トレーニングモデル上で)を実施する。 評価のために,マルチチョイスおよびスパントラクションQAベンチマークの2つのBERTバックボーンを用いて広範囲な実験を行った。 以上の結果から,我々のCVCは,高い解釈能力を維持しつつ,QAにおける様々な敵攻撃に対して高い堅牢性を達成できることが示唆された。

Deep neural network based question answering (QA) models are neither robust nor explainable in many cases. For example, a multiple-choice QA model, tested without any input of question, is surprisingly "capable" to predict the most of correct options. In this paper, we inspect such spurious "capability" of QA models using causal inference. We find the crux is the shortcut correlation, e.g., unrobust word alignment between passage and options learned by the models. We propose a novel approach called Counterfactual Variable Control (CVC) that explicitly mitigates any shortcut correlation and preserves the comprehensive reasoning for robust QA. Specifically, we leverage multi-branch architecture that allows us to disentangle robust and shortcut correlations in the training process of QA. We then conduct two novel CVC inference methods (on trained models) to capture the effect of comprehensive reasoning as the final prediction. For evaluation, we conduct extensive experiments using two BERT backbones on both multi-choice and span-extraction QA benchmarks. The results show that our CVC achieves high robustness against a variety of adversarial attacks in QA while maintaining good interpretation ability.
翻訳日:2022-10-08 06:40:06 公開日:2020-10-12
# 敵対的多腕バンディットにおける遅延とデータへの適応

Adapting to Delays and Data in Adversarial Multi-Armed Bandits ( http://arxiv.org/abs/2010.06022v1 )

ライセンス: Link先を確認
Andr\'as Gy\"orgy, Pooria Joulani(参考訳) 遅延フィードバック下での対向型多腕バンディット問題を考える。 決定時に利用可能な情報(損失や遅延について)のみを用いてステップサイズを調整したExp3アルゴリズムの変種を分析し、観測された(最悪のケースではなく)遅延や損失のシーケンスに適応した後悔の保証を得る。 まず、非常に単純な証明手法により、ステップサイズの適切なチューニングにより、アルゴリズムは、期待値と高い確率値の両方において、$k$がアーム数、$t$がタイムホライズン、$d$が累積遅延の両方において、最適な(対数係数まで)後悔を実現できることを示す。 文献における最初の高確率遅延適応境界である高確率バージョンは、損失を推定する暗黙の探索の使用に大きく依存する。 すると、zimmert と seldin [2019] に続いて、これらの結果を拡張して、アルゴリズムが大きな遅延でラウンドをスキップできるようにし、その結果、$\sqrt{tk\log(k)} + |r| + \sqrt{d_{\bar{r}}\log(k)}$、ただし $r$ は任意のラウンドの集合(スキップされる)であり、$d_{\bar{r}}$ は他のラウンドに対するフィードバックの累積遅延である。 最後に、累積遅延にのみ適応する代わりに、後悔が観測された(遅延)損失に適応する(このアルゴリズムは、最大遅延の事前の上限または各決定の遅延の事前知識を必要とする)アルゴリズムの別のデータ適応型(アデグラード型)バージョンを提案する。 結果として得られる境界は、良質な問題では桁違いに小さくなり、遅れは最善の腕を失うことで後悔にしか影響しないことを示すことができる。

We consider the adversarial multi-armed bandit problem under delayed feedback. We analyze variants of the Exp3 algorithm that tune their step-size using only information (about the losses and delays) available at the time of the decisions, and obtain regret guarantees that adapt to the observed (rather than the worst-case) sequences of delays and/or losses. First, through a remarkably simple proof technique, we show that with proper tuning of the step size, the algorithm achieves an optimal (up to logarithmic factors) regret of order $\sqrt{\log(K)(TK + D)}$ both in expectation and in high probability, where $K$ is the number of arms, $T$ is the time horizon, and $D$ is the cumulative delay. The high-probability version of the bound, which is the first high-probability delay-adaptive bound in the literature, crucially depends on the use of implicit exploration in estimating the losses. Then, following Zimmert and Seldin [2019], we extend these results so that the algorithm can "skip" rounds with large delays, resulting in regret bounds of order $\sqrt{TK\log(K)} + |R| + \sqrt{D_{\bar{R}}\log(K)}$, where $R$ is an arbitrary set of rounds (which are skipped) and $D_{\bar{R}}$ is the cumulative delay of the feedback for other rounds. Finally, we present another, data-adaptive (AdaGrad-style) version of the algorithm for which the regret adapts to the observed (delayed) losses instead of only adapting to the cumulative delay (this algorithm requires an a priori upper bound on the maximum delay, or the advance knowledge of the delay for each decision when it is made). The resulting bound can be orders of magnitude smaller on benign problems, and it can be shown that the delay only affects the regret through the loss of the best arm.
翻訳日:2022-10-08 06:34:47 公開日:2020-10-12
# 不均一および欠失データを用いた薬物過剰のポイントプロセスモデリング

Point Process Modeling of Drug Overdoses with Heterogeneous and Missing Data ( http://arxiv.org/abs/2010.06080v1 )

ライセンス: Link先を確認
Xueying Liu, Jeremy Carter, Brad Ray and George Mohler(参考訳) オピオイドの過剰摂取率は過去10年間で米国で増加し、主要な公衆衛生危機を反映している。 薬物やオピオイドのホットスポットのモデル化と予測は、時空のわずかな割合で発生する事象の割合が高く、社会的および健康的なサービスにより良い焦点を合わせるのに役立つ。 本研究では,薬物過剰クラスタリングのための時空間プロセスモデルを提案する。 モデルへのデータ入力は、2つの異種ソースから来ます。 1) 場所と時刻を記載したEMS(High volume emergency medical call for Service)の記録には、非致命的な過剰摂取の種類や情報はない。 2) 致死的な過剰摂取毒性は, 死亡時に存在する薬物について, 位置および高次元情報を含む検死器から報告される。 まず,非負のマトリックス因子分解を用いて薬物過剰摂取カテゴリに分類し,emsデータに対して過剰摂取カテゴリに対応するマークを推定し,高量emsデータを用いて薬物過剰摂取死亡ホットスポットをより正確に予測する2つの不均一データセットを統合するemアルゴリズムを開発した。 このアルゴリズムをインディアナポリスの薬物過剰データに適用し、同種EMS(AUC Improvement .72 to .8)またはコロナデータ(AUC Improvement .81 to .85)のみを使用する点プロセスよりも優れていることを示す。 また, オーバードーズがどの程度感染しているか, オーバードーズの種類の機能として検討し, また, クラスター化に寄与する可能性のある背景因子の変動を制御した。 薬物とオピオイドの過剰摂取による死亡は有意な興奮を示し、分岐比は .72 から .98 である。

Opioid overdose rates have increased in the United States over the past decade and reflect a major public health crisis. Modeling and prediction of drug and opioid hotspots, where a high percentage of events fall in a small percentage of space-time, could help better focus limited social and health services. In this work we present a spatial-temporal point process model for drug overdose clustering. The data input into the model comes from two heterogeneous sources: 1) high volume emergency medical calls for service (EMS) records containing location and time, but no information on the type of non-fatal overdose and 2) fatal overdose toxicology reports from the coroner containing location and high-dimensional information from the toxicology screen on the drugs present at the time of death. We first use non-negative matrix factorization to cluster toxicology reports into drug overdose categories and we then develop an EM algorithm for integrating the two heterogeneous data sets, where the mark corresponding to overdose category is inferred for the EMS data and the high volume EMS data is used to more accurately predict drug overdose death hotspots. We apply the algorithm to drug overdose data from Indianapolis, showing that the point process defined on the integrated data outperforms point processes that use only homogeneous EMS (AUC improvement .72 to .8) or coroner data (AUC improvement .81 to .85).We also investigate the extent to which overdoses are contagious, as a function of the type of overdose, while controlling for exogenous fluctuations in the background rate that might also contribute to clustering. We find that drug and opioid overdose deaths exhibit significant excitation, with branching ratio ranging from .72 to .98.
翻訳日:2022-10-08 06:34:06 公開日:2020-10-12
# 運動破壊脳MRIにおけるニューラルネットワークの病変分割バイアスの評価

Assessing Lesion Segmentation Bias of Neural Networks on Motion Corrupted Brain MRI ( http://arxiv.org/abs/2010.06027v1 )

ライセンス: Link先を確認
Tejas Sudharshan Mathai, Yi Wang, Nathan Cross(参考訳) mri取得過程における患者の運動は運動アーチファクトを生じさせ、放射線科医が可視化された状態の定量的評価を提供する能力を制限する。 しばしば、放射線技師は診断の信頼性を低下させたアーティファクトを「見る」か、MRスキャンを拒否し、患者にリコールと再スキャンを依頼する。 現在、MRIアーチファクトの検出と修正に焦点を当てた多くのアプローチが公開されている。 しかし、これらのアルゴリズムがMRI画像に示すバイアスに関する重要な疑問は、まだ答えられていない。 本稿では,運動アーチファクトの異なるレベルが,病変分節作業に係わるニューラルネットワークの性能に与える影響について,バイアスを定量化することを目的とした。 さらに,異なる学習戦略,カリキュラム学習がセグメンテーション性能に及ぼす影響についても検討する。 この結果から,カリキュラム学習を用いて学習したネットワークは,異なるレベルの動作アーティファクトの補償に有効であることが示唆され,同じ動作データ上で従来のシャッフル学習戦略と比較した場合のセグメンテーション性能が約9%~15%向上した。 各動作カテゴリでは、ダイススコアを改善したり維持したりした。 私たちの知る限りでは、脳mri画像に存在する様々なレベルの運動アーチファクトのセグメンテーションバイアスを定量的に評価する最初の方法です。

Patient motion during the magnetic resonance imaging (MRI) acquisition process results in motion artifacts, which limits the ability of radiologists to provide a quantitative assessment of a condition visualized. Often times, radiologists either "see through" the artifacts with reduced diagnostic confidence, or the MR scans are rejected and patients are asked to be recalled and re-scanned. Presently, there are many published approaches that focus on MRI artifact detection and correction. However, the key question of the bias exhibited by these algorithms on motion corrupted MRI images is still unanswered. In this paper, we seek to quantify the bias in terms of the impact that different levels of motion artifacts have on the performance of neural networks engaged in a lesion segmentation task. Additionally, we explore the effect of a different learning strategy, curriculum learning, on the segmentation performance. Our results suggest that a network trained using curriculum learning is effective at compensating for different levels of motion artifacts, and improved the segmentation performance by ~9%-15% (p < 0.05) when compared against a conventional shuffled learning strategy on the same motion data. Within each motion category, it either improved or maintained the dice score. To the best of our knowledge, we are the first to quantitatively assess the segmentation bias on various levels of motion artifacts present in a brain MRI image.
翻訳日:2022-10-08 06:33:15 公開日:2020-10-12
# 衛星-衛星間翻訳のための分光合成

Spectral Synthesis for Satellite-to-Satellite Translation ( http://arxiv.org/abs/2010.06045v1 )

ライセンス: Link先を確認
Thomas Vandal, Daniel McDuff, Weile Wang, Andrew Michaelis, Ramakrishna Nemani(参考訳) マルチスペクトルセンサーを搭載した地球観測衛星は、大気、陸地、海洋の物理的および生物学的状態を監視するために広く使われている。 これらの衛星は、地球上に異なるヴァンテージポイントを持ち、異なるスペクトルイメージングバンドを持つため、画像の一貫性が損なわれる。 これは下流アプリケーションを構築する際の課題である。 もしすべての領域の連合から既存の衛星のための合成バンドを作れるとしたら? 我々は、部分ラベルを用いた教師なし画像-画像変換問題として、マルチスペクトルセンサの合成スペクトル画像を生成する問題に取り組み、新しい共有スペクトル再構成損失を導入する。 1つ以上のスペクトルバンドを落としてシミュレーション実験を行い、クロスドメイン再構成が第2のバンテージポイントから得られた測定値を上回ることを示した。 下流クラウド検出タスクでは,モデルを用いた合成バンドの生成により,ベースラインを超えてセグメンテーション性能が向上することを示す。 提案手法は,マルチスペクトルデータの同期を可能にし,より均質なリモートセンシングデータセットの基盤を提供する。

Earth observing satellites carrying multi-spectral sensors are widely used to monitor the physical and biological states of the atmosphere, land, and oceans. These satellites have different vantage points above the earth and different spectral imaging bands resulting in inconsistent imagery from one to another. This presents challenges in building downstream applications. What if we could generate synthetic bands for existing satellites from the union of all domains? We tackle the problem of generating synthetic spectral imagery for multispectral sensors as an unsupervised image-to-image translation problem with partial labels and introduce a novel shared spectral reconstruction loss. Simulated experiments performed by dropping one or more spectral bands show that cross-domain reconstruction outperforms measurements obtained from a second vantage point. On a downstream cloud detection task, we show that generating synthetic bands with our model improves segmentation performance beyond our baseline. Our proposed approach enables synchronization of multispectral data and provides a basis for more homogeneous remote sensing datasets.
翻訳日:2022-10-08 06:32:53 公開日:2020-10-12
# 自己教師付き視聴覚マッチングによる識別聴覚物体の定位

Discriminative Sounding Objects Localization via Self-supervised Audiovisual Matching ( http://arxiv.org/abs/2010.05466v1 )

ライセンス: Link先を確認
Di Hu, Rui Qian, Minyue Jiang, Xiao Tan, Shilei Wen, Errui Ding, Weiyao Lin and Dejing Dou(参考訳) 混成音のシーンは人間にとって一般的な場所であるが、それでも機械にとっては難しい。 本稿では,自己教師付きクラス認識音像定位を行う2段階学習フレームワークを提案する。 まず,単一音源シーンにおける候補音像定位結果を集約することにより,ロバストな物体表現を学習することを提案する。 そして、予め学習したオブジェクト知識を参照して、カクテルパーティシナリオにおいて、クラス対応オブジェクトローカライズマップを生成し、オーディオと視覚オブジェクトのカテゴリ分布を一致させて音色オブジェクトを選択し、視聴覚的一貫性を自己教師付き信号とする。 実写と合成の両方のカクテルパーティービデオによる実験結果から, サイレントオブジェクトのフィルタリングや, 異なるクラスの音響オブジェクトの位置の指摘に優れたモデルが得られた。 コードはhttps://github.com/DTaoo/Discriminative-Sounding-Objects-Localizationで入手できる。

Discriminatively localizing sounding objects in cocktail-party, i.e., mixed sound scenes, is commonplace for humans, but still challenging for machines. In this paper, we propose a two-stage learning framework to perform self-supervised class-aware sounding object localization. First, we propose to learn robust object representations by aggregating the candidate sound localization results in the single source scenes. Then, class-aware object localization maps are generated in the cocktail-party scenarios by referring the pre-learned object knowledge, and the sounding objects are accordingly selected by matching audio and visual object category distributions, where the audiovisual consistency is viewed as the self-supervised signal. Experimental results in both realistic and synthesized cocktail-party videos demonstrate that our model is superior in filtering out silent objects and pointing out the location of sounding objects of different classes. Code is available at https://github.com/DTaoo/Discriminative-Sounding-Objects-Localization.
翻訳日:2022-10-08 06:32:14 公開日:2020-10-12
# SLIP: 長期記憶を持つ未知の力学系における予測学習

SLIP: Learning to Predict in Unknown Dynamical Systems with Long-Term Memory ( http://arxiv.org/abs/2010.05899v1 )

ライセンス: Link先を確認
Paria Rashidinejad, Jiantao Jiao, Stuart Russell(参考訳) 確率雑音下での線形力学系(LDS)のオンライン予測のための効率的で実用的な(多項式時間)アルゴリズムを提案する。 システムパラメータが知られているとき、最適線形予測器はカルマンフィルタである。 しかし, 既存の予測モデルの性能は, 限界的に安定し, 長期予測メモリを示すLDSの重要なクラスでは不十分である。 我々は、スペクトル法によるカルマンフィルタモデルの一般化されたコルモゴロフ幅の有界化と密凸緩和によりこの問題に取り組む。 有限サンプル解析を行い,本アルゴリズムがカルマンフィルタと対数的後悔のみで後見的に競合することを示した。 我々の後悔分析はメンデルソンの小球法に依存し、濃度、有界性、指数的忘れる仮定のない鋭い誤差境界を与える。 また,本アルゴリズムが最先端手法よりも優れていることを示す実験結果を示す。 我々の理論的および実験的結果は、部分的に観測されたデータからカルマンフィルタのほぼ正しいPAC学習に必要な条件に光を当てた。

We present an efficient and practical (polynomial time) algorithm for online prediction in unknown and partially observed linear dynamical systems (LDS) under stochastic noise. When the system parameters are known, the optimal linear predictor is the Kalman filter. However, the performance of existing predictive models is poor in important classes of LDS that are only marginally stable and exhibit long-term forecast memory. We tackle this problem through bounding the generalized Kolmogorov width of the Kalman filter model by spectral methods and conducting tight convex relaxation. We provide a finite-sample analysis, showing that our algorithm competes with Kalman filter in hindsight with only logarithmic regret. Our regret analysis relies on Mendelson's small-ball method, providing sharp error bounds without concentration, boundedness, or exponential forgetting assumptions. We also give experimental results demonstrating that our algorithm outperforms state-of-the-art methods. Our theoretical and experimental results shed light on the conditions required for efficient probably approximately correct (PAC) learning of the Kalman filter from partially observed data.
翻訳日:2022-10-08 06:31:55 公開日:2020-10-12
# OCNLI:中国原産の自然言語推論

OCNLI: Original Chinese Natural Language Inference ( http://arxiv.org/abs/2010.05444v1 )

ライセンス: Link先を確認
Hai Hu, Kyle Richardson, Liang Xu, Lu Li, Sandra Kuebler, Lawrence S. Moss(参考訳) 自然言語推論(NLI)の著しい進歩は、新しいデータセット(SNLI、MNLIなど)への大規模な投資とモデリングの進歩に大きく引き起こされているが、世界のほとんどの言語に信頼性のあるデータセットがないため、ほとんどの進歩は英語に限られている。 本稿では,中国語における最初の大規模nliデータセット(注釈付き文ペア約56,000)について,中国語の自然言語推論データセット(ocnli)について述べる。 NLIを他の言語に拡張しようとする最近の試みとは異なり、私たちのデータセットは自動翻訳や非専門家アノテーションに依存していません。 代わりに、言語学を専門とするネイティブスピーカーからアノテーションを引き出す。 我々はMNLIのアノテーションプロトコルに忠実に従うが、多様な仮説を導き出すための新しい戦略を作成する。 我々は、中国における最先端の事前訓練モデルを用いてデータセット上でいくつかのベースライン結果を確立し、人間のパフォーマンス(絶対的なパフォーマンスギャップが12%)によってはるかに上回っている最高のパフォーマンスモデルでさえも見つける。 我々の知る限りでは、これは英語以外の言語のための人間によるMNLIスタイルコーパスとしては初めてである。

Despite the tremendous recent progress on natural language inference (NLI), driven largely by large-scale investment in new datasets (e.g., SNLI, MNLI) and advances in modeling, most progress has been limited to English due to a lack of reliable datasets for most of the world's languages. In this paper, we present the first large-scale NLI dataset (consisting of ~56,000 annotated sentence pairs) for Chinese called the Original Chinese Natural Language Inference dataset (OCNLI). Unlike recent attempts at extending NLI to other languages, our dataset does not rely on any automatic translation or non-expert annotation. Instead, we elicit annotations from native speakers specializing in linguistics. We follow closely the annotation protocol used for MNLI, but create new strategies for eliciting diverse hypotheses. We establish several baseline results on our dataset using state-of-the-art pre-trained models for Chinese, and find even the best performing models to be far outpaced by human performance (~12% absolute performance gap), making it a challenging new resource that we hope will help to accelerate progress in Chinese NLU. To the best of our knowledge, this is the first human-elicited MNLI-style corpus for a non-English language.
翻訳日:2022-10-08 06:31:39 公開日:2020-10-12
# collective wisdom:adaptive knowledge distillationを用いた低リソースニューラルマシン翻訳の改善

Collective Wisdom: Improving Low-resource Neural Machine Translation using Adaptive Knowledge Distillation ( http://arxiv.org/abs/2010.05445v1 )

ライセンス: Link先を確認
Fahimeh Saleh, Wray Buntine, Gholamreza Haffari(参考訳) 並列文ペアの不足は、バイリンガル的に低リソースシナリオで高品質のニューラルマシン翻訳(nmt)モデルをトレーニングする上で大きな障害となる。 標準的なアプローチはトランスファー・ラーニングであり、高リソースの言語ペアでトレーニングされたモデルを低リソースのmt条件のデータに微調整する。 しかし、どの高リソース言語ペアがターゲットMT設定に最適な転送学習を提供するのかは、一般には明らかになっていない。 さらに、異なる伝達モデルには相補的な意味的および/または構文的強みがあるため、1つのモデルのみを使用することが最適となる。 本稿では,知識蒸留を用いてこの問題に対処し,教師モデルのアンサンブルの知識を単一学生モデルに蒸留することを提案する。 これらの教師モデルの質が変化するにつれて, 教員モデルの蒸留過程における貢献度を動的に調整する効果的な適応的知識蒸留手法を提案する。 IWSLTからTED Talksから5つの低リソース言語ペアへ6つの言語ペアのコレクションを移行する実験は、強いベースラインに比べて最大0.9BLEUスコアの改善を達成し、我々のアプローチの有効性を実証する。

Scarcity of parallel sentence-pairs poses a significant hurdle for training high-quality Neural Machine Translation (NMT) models in bilingually low-resource scenarios. A standard approach is transfer learning, which involves taking a model trained on a high-resource language-pair and fine-tuning it on the data of the low-resource MT condition of interest. However, it is not clear generally which high-resource language-pair offers the best transfer learning for the target MT setting. Furthermore, different transferred models may have complementary semantic and/or syntactic strengths, hence using only one model may be sub-optimal. In this paper, we tackle this problem using knowledge distillation, where we propose to distill the knowledge of ensemble of teacher models to a single student model. As the quality of these teacher models varies, we propose an effective adaptive knowledge distillation approach to dynamically adjust the contribution of the teacher models during the distillation process. Experiments on transferring from a collection of six language pairs from IWSLT to five low-resource language-pairs from TED Talks demonstrate the effectiveness of our approach, achieving up to +0.9 BLEU score improvement compared to strong baselines.
翻訳日:2022-10-08 06:31:19 公開日:2020-10-12
# スパースニューラルネットワークにおける活性化関数の影響

Activation function impact on Sparse Neural Networks ( http://arxiv.org/abs/2010.05943v1 )

ライセンス: Link先を確認
Adam Dubowski(参考訳) スパースニューラルネットワーク(Sparse Neural Network)という概念は、しばらく前から研究されてきたが、研究者たちは最近、この問題で顕著な進歩を遂げたばかりである。 Sparse Evolutionary Trainingのようなテクニックは、冗長な接続を減らして完全に接続されたモデルと比較して計算の複雑さを著しく低減します。 通常は、ネットワークトレーニング中の重量生成と除去の反復的なプロセスで行われる。 除去した重量の再分配を最適化するための多くのアプローチがあるが、スパースネットワークの性能に対する活性化関数の影響についてはほとんど、あるいは全く研究されていないようである。 本研究は, 使用したアクティベーション関数とネットワーク性能の関係に関する知見を提供する。

While the concept of a Sparse Neural Network has been researched for some time, researchers have only recently made notable progress in the matter. Techniques like Sparse Evolutionary Training allow for significantly lower computational complexity when compared to fully connected models by reducing redundant connections. That typically takes place in an iterative process of weight creation and removal during network training. Although there have been numerous approaches to optimize the redistribution of the removed weights, there seems to be little or no study on the effect of activation functions on the performance of the Sparse Networks. This research provides insights into the relationship between the activation function used and the network performance at various sparsity levels.
翻訳日:2022-10-08 06:24:24 公開日:2020-10-12
# 分解可能なグラフ畳み込みネットワーク

Factorizable Graph Convolutional Networks ( http://arxiv.org/abs/2010.05421v1 )

ライセンス: Link先を確認
Yiding Yang, Zunlei Feng, Mingli Song, Xinchao Wang(参考訳) グラフはエンティティ間の構造的接続を表すために広く採用されている。 関係は多くの場合異質であるが、互いに絡み合っており、単に一対のノードの間の1つのエッジとして表される。 例えば、ソーシャルネットワークグラフでは、友人や同僚のような異なる潜在関係のユーザーは、通常、そのような内在的なつながりを隠すベアエッジを介して接続される。 本稿では,グラフにエンコードされた絡み合った関係を明示的に区別する,ファクタブルグラフ畳み込みネットワーク(factorgcn)と呼ばれる新しいグラフ畳み込みネットワーク(gcn)を提案する。 FactorGCNは単純なグラフを入力として取り、それをいくつかの因子化グラフに分解する。 ノードの特徴は各因子化された潜在空間に別々に集約され、不連続な特徴が生成され、下流タスクのパフォーマンスがさらに向上する。 提案したFacterGCNは,合成データセットと実世界のデータセットの両方で質的,定量的に評価し,アンタングリングと特徴集約の両面で真に促進的な結果が得られることを示した。 コードはhttps://github.com/ihollywhy/FactorGCN.PyTorchで公開されている。

Graphs have been widely adopted to denote structural connections between entities. The relations are in many cases heterogeneous, but entangled together and denoted merely as a single edge between a pair of nodes. For example, in a social network graph, users in different latent relationships like friends and colleagues, are usually connected via a bare edge that conceals such intrinsic connections. In this paper, we introduce a novel graph convolutional network (GCN), termed as factorizable graph convolutional network(FactorGCN), that explicitly disentangles such intertwined relations encoded in a graph. FactorGCN takes a simple graph as input, and disentangles it into several factorized graphs, each of which represents a latent and disentangled relation among nodes. The features of the nodes are then aggregated separately in each factorized latent space to produce disentangled features, which further leads to better performances for downstream tasks. We evaluate the proposed FactorGCN both qualitatively and quantitatively on the synthetic and real-world datasets, and demonstrate that it yields truly encouraging results in terms of both disentangling and feature aggregation. Code is publicly available at https://github.com/ihollywhy/FactorGCN.PyTorch.
翻訳日:2022-10-08 06:24:13 公開日:2020-10-12
# 表現的グラフ表現に向けて

Towards Expressive Graph Representation ( http://arxiv.org/abs/2010.05427v1 )

ライセンス: Link先を確認
Chengsheng Mao, Liang Yao, Yuan Luo(参考訳) グラフニューラルネットワーク(GNN)は、各ノードの近傍をノード埋め込みに集約し、グラフ表現学習の強力な能力を示す。 しかし、既存のほとんどのGNN変種は、異なるグラフやノードを同じ埋め込みにマッピングし、モデル表現性を低下させる固定された非射影的な方法で近隣情報を集約する。 GNNにおける近傍集約のための連続的入射集合関数を設計するための理論的枠組みを提案する。 このフレームワークを用いて、各ノードの近傍を連続的な射影集合関数で集約する表現的GNNを提案し、GNN層が類似した近傍の類似ノードを類似の埋め込み、異なる埋め込みへの異なるノード、同じ埋め込みへの等価ノードまたは同型グラフにマッピングする。 さらに、提案した表現表現GNNは、連続ノード属性を持つグラフの表現表現を自然に学習することができる。 簡単なグラフや属性グラフを含む複数のベンチマークデータセットのグラフ分類のための表現型GNN(ExpGNN)を検証した。 実験により,本モデルがほとんどのベンチマークで最先端の性能を達成することを示す。

Graph Neural Network (GNN) aggregates the neighborhood of each node into the node embedding and shows its powerful capability for graph representation learning. However, most existing GNN variants aggregate the neighborhood information in a fixed non-injective fashion, which may map different graphs or nodes to the same embedding, reducing the model expressiveness. We present a theoretical framework to design a continuous injective set function for neighborhood aggregation in GNN. Using the framework, we propose expressive GNN that aggregates the neighborhood of each node with a continuous injective set function, so that a GNN layer maps similar nodes with similar neighborhoods to similar embeddings, different nodes to different embeddings and the equivalent nodes or isomorphic graphs to the same embeddings. Moreover, the proposed expressive GNN can naturally learn expressive representations for graphs with continuous node attributes. We validate the proposed expressive GNN (ExpGNN) for graph classification on multiple benchmark datasets including simple graphs and attributed graphs. The experimental results demonstrate that our model achieves state-of-the-art performances on most of the benchmarks.
翻訳日:2022-10-08 06:23:54 公開日:2020-10-12
# 分布ロバスト局所非パラメトリック条件推定

Distributionally Robust Local Non-parametric Conditional Estimation ( http://arxiv.org/abs/2010.05373v1 )

ライセンス: Link先を確認
Viet Anh Nguyen and Fan Zhang and Jose Blanchet and Erick Delage and Yinyu Ye(参考訳) 特定の共変量値(すなわち局所条件推定や関数推定)が与えられた条件推定は、工学、社会科学、自然科学の応用において普遍的に有用である。 既存のデータ駆動の非パラメトリック推定器は、主に構造的同質データ(例えば、弱い独立性や定常性データ)に焦点を当てており、対向ノイズに敏感であり、低いサンプルサイズでは性能が良くない。 これらの問題を緩和するために、ワッサーシュタインの曖昧性集合における全ての逆分布に対する最悪の条件付き損失を最小限に抑え、非パラメトリック局所推定を生成する新しい分布頑健な推定器を提案する。 一般に難解であるにもかかわらず,局所的推定器は広く適用可能な条件下で凸最適化により効率的に発見でき,データの腐敗や不均一性に頑健である。 合成およびMNISTデータセットを用いた実験は、この新しいクラスの推定器の競合性能を示している。

Conditional estimation given specific covariate values (i.e., local conditional estimation or functional estimation) is ubiquitously useful with applications in engineering, social and natural sciences. Existing data-driven non-parametric estimators mostly focus on structured homogeneous data (e.g., weakly independent and stationary data), thus they are sensitive to adversarial noise and may perform poorly under a low sample size. To alleviate these issues, we propose a new distributionally robust estimator that generates non-parametric local estimates by minimizing the worst-case conditional expected loss over all adversarial distributions in a Wasserstein ambiguity set. We show that despite being generally intractable, the local estimator can be efficiently found via convex optimization under broadly applicable settings, and it is robust to the corruption and heterogeneity of the data. Experiments with synthetic and MNIST datasets show the competitive performance of this new class of estimators.
翻訳日:2022-10-08 06:22:54 公開日:2020-10-12
# 衛星画像の深層学習による沈下損傷の自動定量化

Automatic Quantification of Settlement Damage using Deep Learning of Satellite Images ( http://arxiv.org/abs/2010.05512v1 )

ライセンス: Link先を確認
Lili Lu, Weisi Guo(参考訳) 人道的災害や政治的暴力は我々の生活空間に大きな損害を与えます。 住宅、インフラ、生態系に対する賠償費用は、リアルタイムで定量化することがしばしば困難である。 リアルタイムの定量化は救援活動だけでなく、再建計画にも不可欠である。 ここでは,世界の大危機前後の衛星画像を用いて,ロバストなベースラインResidual Network (ResNet) と災害定量化Praamid Scene Parsing Network (PSPNet) を訓練する。 ResNetは画像品質の低さに対して堅牢性を提供し、高い精度で破壊領域を識別する(92\%)一方、PSPNetはビルド環境の損傷の文脈的定量化を精度良く行う(84\%)。 複数の損傷次元(経済損失や死亡率など)があるので、全体的な損傷を定量化するために、マルチリニア回帰モデルに適合する。 深層学習と回帰モデルを組み合わせたシステムの有効性を検証するため,2020年のベイルート港爆発の回復を予測した。 これらの革新は、災害の規模をより正確に定量化し、災害を拡大するインテリジェントな人道システムに通知する。

Humanitarian disasters and political violence cause significant damage to our living space. The reparation cost to homes, infrastructure, and the ecosystem is often difficult to quantify in real-time. Real-time quantification is critical to both informing relief operations, but also planning ahead for rebuilding. Here, we use satellite images before and after major crisis around the world to train a robust baseline Residual Network (ResNet) and a disaster quantification Pyramid Scene Parsing Network (PSPNet). ResNet offers robustness to poor image quality and can identify areas of destruction with high accuracy (92\%), whereas PSPNet offers contextualised quantification of built environment damage with good accuracy (84\%). As there are multiple damage dimensions to consider (e.g. economic loss and fatalities), we fit a multi-linear regression model to quantify the overall damage. To validate our combined system of deep learning and regression modeling, we successfully match our prediction to the ongoing recovery in the 2020 Beirut port explosion. These innovations provide a better quantification of overall disaster magnitude and inform intelligent humanitarian systems of unfolding disasters.
翻訳日:2022-10-08 06:16:13 公開日:2020-10-12
# 半教師付き学習のための教師なし意味集合と変形可能なテンプレートマッチング

Unsupervised Semantic Aggregation and Deformable Template Matching for Semi-Supervised Learning ( http://arxiv.org/abs/2010.05517v1 )

ライセンス: Link先を確認
Tao Han, Junyu Gao, Yuan Yuan, Qi Wang(参考訳) 最近、ラベルのないデータ学習が注目されている。 しかし、教師なし学習で期待されるハイレベルなセマンティックな特徴を抽出することは依然として容易である。 一方、半教師付き学習(SSL)は、少数のサンプルを活用する将来性を示している。 本稿では,教師なしの意味的アグリゲーションと変形可能なテンプレートマッチング(usadtm, deformable template matching for ssl)フレームワークを提案する。 具体的には,Triplet Mutual Information (T-MI)損失に基づく教師なしセマンティックアグリゲーションを探索し,ラベルなしデータのセマンティックラベルを生成する。 次に、ラベル付きデータの監督により、セマンティックラベルを実際のクラスにアライメントする。 さらに、ラベル付きサンプルを格納する機能プールを動的に更新して、ラベルなしデータのプロキシラベルを割り当てる。 4つの標準半教師付き学習ベンチマークの広範な実験と分析により、USADTMは最高性能を達成する(例えば、CIFAR-10では40ラベルで90.46$\%、250ラベルで95.20$\%)。 コードはhttps://github.com/taohan10200/usadtmでリリースされる。

Unlabeled data learning has attracted considerable attention recently. However, it is still elusive to extract the expected high-level semantic feature with mere unsupervised learning. In the meantime, semi-supervised learning (SSL) demonstrates a promising future in leveraging few samples. In this paper, we combine both to propose an Unsupervised Semantic Aggregation and Deformable Template Matching (USADTM) framework for SSL, which strives to improve the classification performance with few labeled data and then reduce the cost in data annotating. Specifically, unsupervised semantic aggregation based on Triplet Mutual Information (T-MI) loss is explored to generate semantic labels for unlabeled data. Then the semantic labels are aligned to the actual class by the supervision of labeled data. Furthermore, a feature pool that stores the labeled samples is dynamically updated to assign proxy labels for unlabeled data, which are used as targets for cross-entropy minimization. Extensive experiments and analysis across four standard semi-supervised learning benchmarks validate that USADTM achieves top performance (e.g., 90.46$\%$ accuracy on CIFAR-10 with 40 labels and 95.20$\%$ accuracy with 250 labels). The code is released at https://github.com/taohan10200/USADTM.
翻訳日:2022-10-08 06:15:54 公開日:2020-10-12
# サブモジュラー情報尺度を用いた汎用的,クエリ重視,プライバシ保護,更新要約のための統一フレームワーク

A Unified Framework for Generic, Query-Focused, Privacy Preserving and Update Summarization using Submodular Information Measures ( http://arxiv.org/abs/2010.05631v1 )

ライセンス: Link先を確認
Vishal Kaushal, Suraj Kothawade, Ganesh Ramakrishnan, Jeff Bilmes, Himanshu Asnani, Rishabh Iyer(参考訳) 我々は,汎用的,クエリ重視,プライバシに敏感な,更新要約タスクのためのリッチなフレームワークとして,サブモジュラー情報尺度を調査した。 過去の研究は一般的にこれらの問題を異なる方法で扱うが(例えば、様々なモデルが総称的および問合せに焦点を絞った要約にしばしば使用される)、サブモジュラー情報測度はこれらの問題を統一的なアプローチで研究することができる。 まず,従来の問合せと更新の要約技術が,これらのモデルの利点と自然性を示す証拠として,前述のサブモジュラー情報尺度の様々なインスタンス化を用いていることを示す。 次に,提案した関数の異なる設定でのモデリング能力を慎重に検討し,既存の実世界の画像収集データセット(このタスクに適した画像に概念アノテーションを追加することで拡張された)と合成データセットの双方での知見を実証的に検証し,公開する。 提案したサブモジュール情報尺度のインスタンス化を用いて構築した混合モデルを学習するために,最大マージンのフレームワークを用い,提案手法の有効性を実証する。 我々の実験は画像要約の文脈にあるが、我々のフレームワークは汎用的であり、他の要約設定(ビデオやドキュメントなど)に容易に拡張できる。

We study submodular information measures as a rich framework for generic, query-focused, privacy sensitive, and update summarization tasks. While past work generally treats these problems differently ({\em e.g.}, different models are often used for generic and query-focused summarization), the submodular information measures allow us to study each of these problems via a unified approach. We first show that several previous query-focused and update summarization techniques have, unknowingly, used various instantiations of the aforesaid submodular information measures, providing evidence for the benefit and naturalness of these models. We then carefully study and demonstrate the modelling capabilities of the proposed functions in different settings and empirically verify our findings on both a synthetic dataset and an existing real-world image collection dataset (that has been extended by adding concept annotations to each image making it suitable for this task) and will be publicly released. We employ a max-margin framework to learn a mixture model built using the proposed instantiations of submodular information measures and demonstrate the effectiveness of our approach. While our experiments are in the context of image summarization, our framework is generic and can be easily extended to other summarization settings (e.g., videos or documents).
翻訳日:2022-10-08 06:15:32 公開日:2020-10-12
# ロバスト最適輸送と生成モデリングとドメイン適応への応用

Robust Optimal Transport with Applications in Generative Modeling and Domain Adaptation ( http://arxiv.org/abs/2010.05862v1 )

ライセンス: Link先を確認
Yogesh Balaji, Rama Chellappa and Soheil Feizi(参考訳) ワッサーシュタインのような最適輸送(OT)距離は、GANやドメイン適応のようないくつかの領域で使用されている。 しかし、otはデータ内の外れ値(ノイズの多いサンプル)に非常に敏感であり、目的関数では、外れ値を含むすべてのサンプルは限界制約のため同様に重み付けされる。 この問題を解決するために、未均衡な限界制約を持つOTの堅牢な定式化が提案されている。 しかし、これらの手法をGANやドメイン適応といったディープラーニング問題に応用することは、その双対最適化解法の不安定性のために困難である。 本稿では,最新の深層学習アプリケーションに適用可能なロバストot最適化の計算効率の高い2重形式を導出することにより,これらの問題を解決する。 我々は、GANとドメイン適応の2つの応用において、我々の定式化の有効性を示す。 提案手法では, ノイズの多いデータセット上で, 外部分布で劣化したGANモデルをトレーニングすることができる。 特にこの最適化では,モデル内で生成するサンプルの難易度を反映して,サンプルのトレーニングに重みを計算します。 ドメイン適応では, 標準逆適応法と比較して, 頑健なot定式化により精度が向上した。 私たちのコードはhttps://github.com/yogeshbalaji/robustotで利用可能です。

Optimal Transport (OT) distances such as Wasserstein have been used in several areas such as GANs and domain adaptation. OT, however, is very sensitive to outliers (samples with large noise) in the data since in its objective function, every sample, including outliers, is weighed similarly due to the marginal constraints. To remedy this issue, robust formulations of OT with unbalanced marginal constraints have previously been proposed. However, employing these methods in deep learning problems such as GANs and domain adaptation is challenging due to the instability of their dual optimization solvers. In this paper, we resolve these issues by deriving a computationally-efficient dual form of the robust OT optimization that is amenable to modern deep learning applications. We demonstrate the effectiveness of our formulation in two applications of GANs and domain adaptation. Our approach can train state-of-the-art GAN models on noisy datasets corrupted with outlier distributions. In particular, our optimization computes weights for training samples reflecting how difficult it is for those samples to be generated in the model. In domain adaptation, our robust OT formulation leads to improved accuracy compared to the standard adversarial adaptation methods. Our code is available at https://github.com/yogeshbalaji/robustOT.
翻訳日:2022-10-08 06:14:52 公開日:2020-10-12
# Carbon to Diamond: ハイブリッドクラウド運用におけるサイト信頼性エンジニアの会話からのインシデント修復支援システム

Carbon to Diamond: An Incident Remediation Assistant System From Site Reliability Engineers' Conversations in Hybrid Cloud Operations ( http://arxiv.org/abs/2010.05569v1 )

ライセンス: Link先を確認
Suranjana Samanta, Ajay Gupta, Prateeti Mohapatra, Amar Prakash Azad(参考訳) 会話チャネルはハイブリッドクラウドサービス管理の状況を変えつつある。 これらのチャネルは、SRE(Site Reliability Engineers) %Subject Matter Experts(SME)が、インシデントや問題を解決するために協力して作業するための重要な手段になりつつある。 セグメント化された会話を特定し、それらから重要な洞察やアーティファクトを抽出することで、エンジニアは同様のインシデントに対する情報検索機構を使用することで、インシデント修復プロセスの効率を向上させることができる。 しかし、そのような会話(人間言語)の半形式的な振る舞いから、それらは本質的に非常に独特であり、ドメイン固有の用語も数多く含むことが実証的に観察されている。 これにより、標準のNLPタスクで広く使われている標準自然言語処理フレームワークを直接使用するのが難しくなる。 %)は,会話チャットに含まれる適切なキーワードや症状,問題などのアーティファクトを特定することが重要である。 本稿では,会話チャネルをタップして,様々な学習手法を利用するフレームワークを構築する。 (a)診断手順や解決行動等の会話から重要な成果物を理解して抽出し、 b)類似問題に関する過去の会話を識別するアプローチを提案する。 実験の結果,提案手法の有効性が示された。

Conversational channels are changing the landscape of hybrid cloud service management. These channels are becoming important avenues for Site Reliability Engineers (SREs) %Subject Matter Experts (SME) to collaboratively work together to resolve an incident or issue. Identifying segmented conversations and extracting key insights or artefacts from them can help engineers to improve the efficiency of the incident remediation process by using information retrieval mechanisms for similar incidents. However, it has been empirically observed that due to the semi-formal behavior of such conversations (human language) they are very unique in nature and also contain lot of domain-specific terms. This makes it difficult to use the standard natural language processing frameworks directly, which are popularly used in standard NLP tasks. %It is important to identify the correct keywords and artefacts like symptoms, issue etc., present in the conversation chats. In this paper, we build a framework that taps into the conversational channels and uses various learning methods to (a) understand and extract key artefacts from conversations like diagnostic steps and resolution actions taken, and (b) present an approach to identify past conversations about similar issues. Experimental results on our dataset show the efficacy of our proposed method.
翻訳日:2022-10-08 06:13:52 公開日:2020-10-12
# TSPNet:手話翻訳のための時間意味ピラミッドによる階層的特徴学習

TSPNet: Hierarchical Feature Learning via Temporal Semantic Pyramid for Sign Language Translation ( http://arxiv.org/abs/2010.05468v1 )

ライセンス: Link先を確認
Dongxu Li, Chenchen Xu, Xin Yu, Kaihao Zhang, Ben Swift, Hanna Suominen, Hongdong Li(参考訳) 手話翻訳(SLT)は、手話のシーケンスをテキストベースの自然言語文に解釈することを目的としている。 サインビデオは、その間に明確な境界のない連続した手振りで構成されている。 既存のSLTモデルは、ビデオが分離されたサインに明示的にセグメント化されるのを避けるために、通常、フレームワイズで手書きの視覚的特徴を表現する。 しかし、これらの手法は記号の時間的情報を無視し、翻訳の曖昧さに繋がる。 本稿では,シグビデオの時間的意味構造について検討し,より識別的な特徴を学習する。 そこで本研究では,まず,複数の時間的粒度を考慮した新しい手話映像セグメント表現を提案する。 提案したセグメント表現を利用して,TSPNetと呼ばれる時間的意味ピラミッドネットワークを介して,階層的な手話ビデオ特徴学習手法を開発した。 具体的には、TSPNetは、符号セグメントの局所的な意味的一貫性を評価し、強化するためのスケール間注意と、非ローカルなビデオコンテキストを用いて意味的あいまいさを解決するためのスケール内注意を導入する。 実験の結果、我々のTSPNetはBLEUスコア(9.58から13.41)とROUGEスコア(31.80から34.96)を最大で、最先端のSLTデータセットよりも優れています。 私たちの実装はhttps://github.com/verashira/tspnetで利用可能です。

Sign language translation (SLT) aims to interpret sign video sequences into text-based natural language sentences. Sign videos consist of continuous sequences of sign gestures with no clear boundaries in between. Existing SLT models usually represent sign visual features in a frame-wise manner so as to avoid needing to explicitly segmenting the videos into isolated signs. However, these methods neglect the temporal information of signs and lead to substantial ambiguity in translation. In this paper, we explore the temporal semantic structures of signvideos to learn more discriminative features. To this end, we first present a novel sign video segment representation which takes into account multiple temporal granularities, thus alleviating the need for accurate video segmentation. Taking advantage of the proposed segment representation, we develop a novel hierarchical sign video feature learning method via a temporal semantic pyramid network, called TSPNet. Specifically, TSPNet introduces an inter-scale attention to evaluate and enhance local semantic consistency of sign segments and an intra-scale attention to resolve semantic ambiguity by using non-local video context. Experiments show that our TSPNet outperforms the state-of-the-art with significant improvements on the BLEU score (from 9.58 to 13.41) and ROUGE score (from 31.80 to 34.96)on the largest commonly-used SLT dataset. Our implementation is available at https://github.com/verashira/TSPNet.
翻訳日:2022-10-08 06:13:31 公開日:2020-10-12
# 不均衡データ分類のためのクラス重み付け評価指標

Class-Weighted Evaluation Metrics for Imbalanced Data Classification ( http://arxiv.org/abs/2010.05995v1 )

ライセンス: Link先を確認
Akhilesh Gupta, Nesime Tatbul, Ryan Marcus, Shengtian Zhou, Insup Lee, Justin Gottschlich(参考訳) 不均衡データセットのクラス分布スキューは、多数クラスに対する予測バイアスを伴うモデルにつながり、分類器の公平な評価が難しい課題となる。 balanced accuracyは、そのようなシナリオで分類器の予測性能を評価するために使われる一般的な指標である。 しかし、この計量はクラスが重要度が異なる場合、特にクラス重要度がクラス濃度分布とは異なる歪曲される場合に短い。 本稿では,クラス濃度と重要度における任意の歪に敏感な不均衡データ分類のための簡易かつ汎用的な評価フレームワークを提案する。 実世界のデータセットと2つの異なるドメインのベンチマークでテストされた最先端の分類器を使った実験は、新しいフレームワークがバランスの取れた正確さよりも効果的であることを示している。

Class distribution skews in imbalanced datasets may lead to models with prediction bias towards majority classes, making fair assessment of classifiers a challenging task. Balanced Accuracy is a popular metric used to evaluate a classifier's prediction performance under such scenarios. However, this metric falls short when classes vary in importance, especially when class importance is skewed differently from class cardinality distributions. In this paper, we propose a simple and general-purpose evaluation framework for imbalanced data classification that is sensitive to arbitrary skews in class cardinalities and importances. Experiments with several state-of-the-art classifiers tested on real-world datasets and benchmarks from two different domains show that our new framework is more effective than Balanced Accuracy -- not only in evaluating and ranking model predictions, but also in training the models themselves.
翻訳日:2022-10-08 06:06:47 公開日:2020-10-12
# 十分な統計量を持つ因果学習:情報ボトルネックアプローチ

Causal learning with sufficient statistics: an information bottleneck approach ( http://arxiv.org/abs/2010.05375v1 )

ライセンス: Link先を確認
Daniel Chicharro, Michel Besserve, Stefano Panzeri(参考訳) 隠れ変数を持つ部分観測多変量系の観測データを用いた因果関係の推定は多くの科学的領域において根本的な問題である。 システムの変数間の条件付き無依存から因果情報を抽出する方法は、この目的のために一般的なツールであるが、非依存の欠如によって制限される。 この限界を克服するために、システムの生成機構を規定する法則は、しばしば変数の生成汎関数方程式に具現化された部分構造を生じさせ、他の変数がそれに影響を与えるのに十分な統計として機能するという事実に乗じる。 これらの機能的十分統計は、テストすべき新しい条件付き独立性を提供する中間隠れ変数を構成する。 本研究では,次元の低減に一般的に用いられる手法である情報ボトルネック法を用いて,十分な統計量を求めることを提案する。 これらの統計を用いて、観測変数間の条件依存性のみを利用する標準構造学習アルゴリズムから取得できない因果情報を提供する因果方向の新しい規則を定式化する。 本研究では, 特定の統計量を含むシミュレーションシステムと, 生体信号伝達ネットワークをモデル化するためにこれまでおよび独立に提案された規制規則によるベンチマークデータの両方を用いて, 構造学習のための十分な統計の利用を検証する。

The inference of causal relationships using observational data from partially observed multivariate systems with hidden variables is a fundamental question in many scientific domains. Methods extracting causal information from conditional independencies between variables of a system are common tools for this purpose, but are limited in the lack of independencies. To surmount this limitation, we capitalize on the fact that the laws governing the generative mechanisms of a system often result in substructures embodied in the generative functional equation of a variable, which act as sufficient statistics for the influence that other variables have on it. These functional sufficient statistics constitute intermediate hidden variables providing new conditional independencies to be tested. We propose to use the Information Bottleneck method, a technique commonly applied for dimensionality reduction, to find underlying sufficient sets of statistics. Using these statistics we formulate new additional rules of causal orientation that provide causal information not obtainable from standard structure learning algorithms, which exploit only conditional independencies between observable variables. We validate the use of sufficient statistics for structure learning both with simulated systems built to contain specific sufficient statistics and with benchmark data from regulatory rules previously and independently proposed to model biological signal transduction networks.
翻訳日:2022-10-08 06:06:32 公開日:2020-10-12
# グラフにおけるノード応答予測のためのメタアクティブ学習

Meta-Active Learning for Node Response Prediction in Graphs ( http://arxiv.org/abs/2010.05387v1 )

ライセンス: Link先を確認
Tomoharu Iwata(参考訳) メタ学習は、ターゲットタスクに対する限られた数の観察で機械学習のパフォーマンスを改善するための重要なアプローチである。 しかし, 観察が不均衡に得られた場合, メタラーニング手法においても, 性能の向上は困難である。 本稿では,観測対象ノード数を極力少なく抑えるために,観測対象ノードを選択したグラフにおけるノード応答予測タスクをメタラーニングするアクティブラーニング手法を提案する。 提案手法では,ノード応答の予測とノードの選択の両方を行うグラフ畳み込みニューラルネットワークに基づくモデルを用いて,未知の応答変数を持つグラフに対しても応答の予測とノードの選択を行う。 応答予測モデルは、期待されるテストエラーを最小限にして訓練される。 強化学習による期待誤差低減を最大化することにより、ノード選択モデルを訓練する。 提案手法の有効性を,11種類の道路混雑予測タスクを用いて実証する。

Meta-learning is an important approach to improve machine learning performance with a limited number of observations for target tasks. However, when observations are unbalancedly obtained, it is difficult to improve the performance even with meta-learning methods. In this paper, we propose an active learning method for meta-learning on node response prediction tasks in attributed graphs, where nodes to observe are selected to improve performance with as few observed nodes as possible. With the proposed method, we use models based on graph convolutional neural networks for both predicting node responses and selecting nodes, by which we can predict responses and select nodes even for graphs with unseen response variables. The response prediction model is trained by minimizing the expected test error. The node selection model is trained by maximizing the expected error reduction with reinforcement learning. We demonstrate the effectiveness of the proposed method with 11 types of road congestion prediction tasks.
翻訳日:2022-10-08 06:06:08 公開日:2020-10-12
# 不均一ターゲットに対するロバスト有限混合回帰

Robust Finite Mixture Regression for Heterogeneous Targets ( http://arxiv.org/abs/2010.05430v1 )

ライセンス: Link先を確認
Jian Liang, Kun Chen, Ming Lin, Changshui Zhang, Fei Wang(参考訳) FMR(Finite Mixture Regression)とは、学習データセットから複数の回帰モデルを学習する混合モデリングスキームである。 それぞれがサブセットを担当している。 FMRはサンプルの不均一性を扱うための有効な手法であり、単一の回帰モデルでは特徴が与えられた標本の条件分布の複雑さを捉えるには不十分である。 本稿では,FMRモデルを提案する。 1) サンプルクラスタと連成モデルとを同時に検出する。 2)タスクとクラスタコンポーネント間の共有機能選択を実現し、 3) タスク間の異常タスクやクラスタ構造を検出し,異常サンプルを収容する。 我々は,高次元学習フレームワークを用いて,無症状のオラクル性能境界をモデルに提供する。 提案モデルは合成データと実世界データの両方で評価される。 その結果,我々のモデルは最先端の性能を達成できることがわかった。

Finite Mixture Regression (FMR) refers to the mixture modeling scheme which learns multiple regression models from the training data set. Each of them is in charge of a subset. FMR is an effective scheme for handling sample heterogeneity, where a single regression model is not enough for capturing the complexities of the conditional distribution of the observed samples given the features. In this paper, we propose an FMR model that 1) finds sample clusters and jointly models multiple incomplete mixed-type targets simultaneously, 2) achieves shared feature selection among tasks and cluster components, and 3) detects anomaly tasks or clustered structure among tasks, and accommodates outlier samples. We provide non-asymptotic oracle performance bounds for our model under a high-dimensional learning framework. The proposed model is evaluated on both synthetic and real-world data sets. The results show that our model can achieve state-of-the-art performance.
翻訳日:2022-10-08 06:05:55 公開日:2020-10-12
# グラフ情報を用いたサブグラフ認識

Graph Information Bottleneck for Subgraph Recognition ( http://arxiv.org/abs/2010.05563v1 )

ライセンス: Link先を確認
Junchi Yu, Tingyang Xu, Yu Rong, Yatao Bian, Junzhou Huang, Ran He(参考訳) 入力グラフとそのラベル/プロパティを考えると、解釈可能な部分グラフの発見、グラフの復号化、グラフの圧縮といったグラフ学習のいくつかの重要な問題は、元の部分グラフを認識するという根本的な問題に起因する。 このサブグラフは可能な限り情報的だが、冗長で騒がしい構造を含まない。 この問題は、不規則なグラフデータやグラフニューラルネットワーク(GNN)では研究されていない、よく知られた情報ボトルネック(IB)原理と密接に関連している。 本稿では,深層グラフ学習における部分グラフ認識問題に対するグラフ情報ブートネック(GIB)の枠組みを提案する。 この枠組みの下では、最大情報でありながら圧縮的な部分グラフ(IB-subgraph)を認識できる。 しかし、gibの目標は、不規則なグラフデータの相互情報や不安定な最適化プロセスが難解なため、最適化が難しいことで悪名高い。 これらの課題に取り組むために、我々は 一 不規則グラフデータの相互情報推定装置に基づくGIB目標 二 gibの目的を最大化するための二段階最適化スキーム 三 最適化過程の安定化のための接続損失 本稿では, ib-subgraphの特性を, グラフ分類, グラフ解釈, グラフ分割の3つの応用シナリオで評価する。 広汎な実験により、情報理論のIB-グラフは優れたグラフ特性を持つことが示された。

Given the input graph and its label/property, several key problems of graph learning, such as finding interpretable subgraphs, graph denoising and graph compression, can be attributed to the fundamental problem of recognizing a subgraph of the original one. This subgraph shall be as informative as possible, yet contains less redundant and noisy structure. This problem setting is closely related to the well-known information bottleneck (IB) principle, which, however, has less been studied for the irregular graph data and graph neural networks (GNNs). In this paper, we propose a framework of Graph Information Bottleneck (GIB) for the subgraph recognition problem in deep graph learning. Under this framework, one can recognize the maximally informative yet compressive subgraph, named IB-subgraph. However, the GIB objective is notoriously hard to optimize, mostly due to the intractability of the mutual information of irregular graph data and the unstable optimization process. In order to tackle these challenges, we propose: i) a GIB objective based-on a mutual information estimator for the irregular graph data; ii) a bi-level optimization scheme to maximize the GIB objective; iii) a connectivity loss to stabilize the optimization process. We evaluate the properties of the IB-subgraph in three application scenarios: improvement of graph classification, graph interpretation and graph denoising. Extensive experiments demonstrate that the information-theoretic IB-subgraph enjoys superior graph properties.
翻訳日:2022-10-08 06:05:44 公開日:2020-10-12
# Rethinking Experience Replay: 継続的な学習のためのトリックの袋

Rethinking Experience Replay: a Bag of Tricks for Continual Learning ( http://arxiv.org/abs/2010.05595v1 )

ライセンス: Link先を確認
Pietro Buzzega, Matteo Boschini, Angelo Porrello, Simone Calderara(参考訳) 連続学習において、ニューラルネットワークは、時間とともに分布が変化するデータのストリームで訓練される。 これらの仮定の下では、ストリームに後で現れるクラスを改善することは特に困難であり、以前のクラスは正確である。 これは破滅的な忘れ込みの悪名高い問題によるもので、分類器が新しいカテゴリの学習に焦点を合わせると、すぐに性能が低下する。 最近の文献では、この問題に取り組むための様々なアプローチを提案しており、非常に洗練されたテクニックをしばしば用いている。 そこで本研究では,ナイーブリハーサルにパッチを当てて同様のパフォーマンスを実現する方法を提案する。 経験リプレイ(ER)を抑制するいくつかの欠点を指摘し、それらを緩和するための5つのトリックを提案する。 実験の結果、ERは改良され、CIFAR-10とCIFAR-100データセット(メモリバッファサイズ1000)で精度が51.2と26.9ポイント向上した。 その結果、現在の最先端リハーサルベースメソッドを上回っている。

In Continual Learning, a Neural Network is trained on a stream of data whose distribution shifts over time. Under these assumptions, it is especially challenging to improve on classes appearing later in the stream while remaining accurate on previous ones. This is due to the infamous problem of catastrophic forgetting, which causes a quick performance degradation when the classifier focuses on learning new categories. Recent literature proposed various approaches to tackle this issue, often resorting to very sophisticated techniques. In this work, we show that naive rehearsal can be patched to achieve similar performance. We point out some shortcomings that restrain Experience Replay (ER) and propose five tricks to mitigate them. Experiments show that ER, thus enhanced, displays an accuracy gain of 51.2 and 26.9 percentage points on the CIFAR-10 and CIFAR-100 datasets respectively (memory buffer size 1000). As a result, it surpasses current state-of-the-art rehearsal-based methods.
翻訳日:2022-10-08 06:05:26 公開日:2020-10-12
# 傾斜昇降機のアンサンブル化のための一般化スタック化

A Generalized Stacking for Implementing Ensembles of Gradient Boosting Machines ( http://arxiv.org/abs/2010.06026v1 )

ライセンス: Link先を確認
Andrei V. Konstantinov and Lev V. Utkin(参考訳) 勾配向上機は回帰問題を解くための強力なツールの1つである。 その欠点に対処するため、勾配促進モデルのアンサンブルを構築するためのアプローチを提案する。 このアプローチの背後にある主要なアイデアは、傾斜ブースティングモデルの様々なアンサンブルを実装するモデルと見なされる2レベルメタモデルを学ぶためにスタックアルゴリズムを使用することである。 まず、勾配ブースティングモデルの線形回帰は、線形モデルがその係数(重み)に対して微分可能であるという条件下でのメタモデルの最も単純な実現と見なされる。 そこで,提案手法は,例えば,微分可能で勾配ブースティングモデルの任意の関数を実装できるニューラルネットワーク上で,任意の微分可能結合モデル上で単純に拡張できることを示した。 様々な数値的な例が提案されている。

The gradient boosting machine is one of the powerful tools for solving regression problems. In order to cope with its shortcomings, an approach for constructing ensembles of gradient boosting models is proposed. The main idea behind the approach is to use the stacking algorithm in order to learn a second-level meta-model which can be regarded as a model for implementing various ensembles of gradient boosting models. First, the linear regression of the gradient boosting models is considered as a simplest realization of the meta-model under condition that the linear model is differentiable with respect to its coefficients (weights). Then it is shown that the proposed approach can be simply extended on arbitrary differentiable combination models, for example, on neural networks which are differentiable and can implement arbitrary functions of gradient boosting models. Various numerical examples illustrate the proposed approach.
翻訳日:2022-10-08 06:04:14 公開日:2020-10-12
# 暗黙的エビデンス統合による臨床試験結果の予測

Predicting Clinical Trial Results by Implicit Evidence Integration ( http://arxiv.org/abs/2010.05639v1 )

ライセンス: Link先を確認
Qiao Jin, Chuanqi Tan, Mosha Chen, Xiaozhong Liu, Songfang Huang(参考訳) 臨床試験はエビデンスベースの医療を実践するための必須のガイダンスを提供するが、しばしば不適切なコストとリスクを伴う。 臨床試験の設計を最適化するために,新しい臨床試験結果予測(CTRP)タスクを導入する。 ctrpフレームワークにおいて、モデルは、その背景を入力としてpico形式の臨床試験提案を受け取り、その結果を予測し、すなわち、研究人口における測定結果の観点から、介入群が比較群とどのように比較するかを予測する。 構造化された臨床証拠は手作業による採集には極めて高価であるが,PICOを暗黙的に含む医学文献からの大規模非構造化文を証拠として活用する。 具体的には、このような暗黙の証拠から不連続な結果を予測するモデルを事前学習し、下流のデータセットに関する限られたデータでモデルを微調整する。 ベンチマークのEvidence Integrationデータセットの実験では、提案されたモデルは、例えばマクロF1におけるBioBERTよりも10.7%の上昇率でベースラインを上回っている。 さらに、covid-19に関連する臨床試験からなる別のデータセットでも、パフォーマンス改善が検証される。

Clinical trials provide essential guidance for practicing Evidence-Based Medicine, though often accompanying with unendurable costs and risks. To optimize the design of clinical trials, we introduce a novel Clinical Trial Result Prediction (CTRP) task. In the CTRP framework, a model takes a PICO-formatted clinical trial proposal with its background as input and predicts the result, i.e. how the Intervention group compares with the Comparison group in terms of the measured Outcome in the studied Population. While structured clinical evidence is prohibitively expensive for manual collection, we exploit large-scale unstructured sentences from medical literature that implicitly contain PICOs and results as evidence. Specifically, we pre-train a model to predict the disentangled results from such implicit evidence and fine-tune the model with limited data on the downstream datasets. Experiments on the benchmark Evidence Integration dataset show that the proposed model outperforms the baselines by large margins, e.g., with a 10.7% relative gain over BioBERT in macro-F1. Moreover, the performance improvement is also validated on another dataset composed of clinical trials related to COVID-19.
翻訳日:2022-10-08 05:59:02 公開日:2020-10-12
# huji-ku at mrp~2020: 2つのトランジッションベースのニューラルパーサ

HUJI-KU at MRP~2020: Two Transition-based Neural Parsers ( http://arxiv.org/abs/2010.05710v1 )

ライセンス: Link先を確認
Ofir Arviv, Ruixiang Cui, Daniel Hershcovich(参考訳) 本稿では,2019 MRP共有タスクのベースラインシステムと入賞システムであるTUPAとHIT-SCIRパーサを併用した,2020 Conference for Computational Language Learning (CoNLL)におけるMRP(Cross-Framework Meaning Representation Parsing)の共有タスクに対するHUJI-KUシステムの適用について述べる。 どちらもbertコンテキスト埋め込みを使ったトランジッションベースのパーサである。 我々は,新たに追加されたMPPフレームワークと言語をサポートするためにTUPAを一般化し,HIT-SCIRパーサを用いたマルチタスク学習実験を行った。 クロスフレームとクロスランガルのトラックで4位に達しました。

This paper describes the HUJI-KU system submission to the shared task on Cross-Framework Meaning Representation Parsing (MRP) at the 2020 Conference for Computational Language Learning (CoNLL), employing TUPA and the HIT-SCIR parser, which were, respectively, the baseline system and winning system in the 2019 MRP shared task. Both are transition-based parsers using BERT contextualized embeddings. We generalized TUPA to support the newly-added MRP frameworks and languages, and experimented with multitask learning with the HIT-SCIR parser. We reached 4th place in both the cross-framework and cross-lingual tracks.
翻訳日:2022-10-08 05:58:43 公開日:2020-10-12
# オフライン強化学習による人間中心対話学習

Human-centric Dialog Training via Offline Reinforcement Learning ( http://arxiv.org/abs/2010.05848v1 )

ライセンス: Link先を確認
Natasha Jaques, Judy Hanwen Shen, Asma Ghandeharioun, Craig Ferguson, Agata Lapedriza, Noah Jones, Shixiang Shane Gu, and Rosalind Picard(参考訳) 人間が有害なチャット行動を教えるリスクなしに、人間のフィードバックから学び、より良い会話を生み出すために、どのようにダイアログモデルをトレーニングするか? まず、モデルをオンラインでホストし、リアルタイムでオープンな会話から人間のフィードバックを集め、オフライン強化学習(RL)を使用してモデルをトレーニングおよび改善するために使用します。 我々は、人間のポジティブなフィードバックを示す言語類似性、笑いの誘発、感情などを含む暗黙の会話的手がかりを特定し、これらを複数の報酬機能に組み込む。 オフライン環境でのRLポリシーの学習は、探索能力の欠如と、将来の報酬を過度に最適化的に見積もる傾向のため、通常失敗する。 これらの問題は、言語モデルにRLを使用することでさらに困難になる。 オフラインRLアルゴリズムの新しいクラスを開発することで,この問題を解決する。 これらのアルゴリズムはKL制御を用いて事前訓練された事前言語モデルから分岐を罰し、不確実性に直面して楽観的ではなく悲観的なアルゴリズムに新しい戦略を用いる。 オープンドメイン設定で80ユーザからのレーティングで結果のダイアログモデルをテストし,既存のオフラインRLアプローチよりも大幅に改善されていることを確認した。 新しいオフラインRL法は、人間のフィードバックの静的データセットを用いて、既存の生成ダイアログモデルを改善するために有効である。

How can we train a dialog model to produce better conversations by learning from human feedback, without the risk of humans teaching it harmful chat behaviors? We start by hosting models online, and gather human feedback from real-time, open-ended conversations, which we then use to train and improve the models using offline reinforcement learning (RL). We identify implicit conversational cues including language similarity, elicitation of laughter, sentiment, and more, which indicate positive human feedback, and embed these in multiple reward functions. A well-known challenge is that learning an RL policy in an offline setting usually fails due to the lack of ability to explore and the tendency to make over-optimistic estimates of future reward. These problems become even harder when using RL for language models, which can easily have a 20,000 action vocabulary and many possible reward functions. We solve the challenge by developing a novel class of offline RL algorithms. These algorithms use KL-control to penalize divergence from a pre-trained prior language model, and use a new strategy to make the algorithm pessimistic, instead of optimistic, in the face of uncertainty. We test the resulting dialog model with ratings from 80 users in an open-domain setting and find it achieves significant improvements over existing deep offline RL approaches. The novel offline RL method is viable for improving any existing generative dialog model using a static dataset of human feedback.
翻訳日:2022-10-08 05:58:26 公開日:2020-10-12
# 重度多言語モデルにおけるマルチタスク最適化の検討と改善

Gradient Vaccine: Investigating and Improving Multi-task Optimization in Massively Multilingual Models ( http://arxiv.org/abs/2010.05874v1 )

ライセンス: Link先を確認
Zirui Wang, Yulia Tsvetkov, Orhan Firat, Yuan Cao(参考訳) 数十から数百の言語を仮定する多言語モデルは、マルチタスク最適化に大きな課題をもたらす。 統合多言語タスク目的を最適化する言語非依存手法を適用するのが一般的であるが、その基礎となる問題構造を適切に特徴付け、活用して最適化効率を向上させる方法は未検討のままである。 本稿では、損失関数幾何学のレンズを通して多言語最適化のブラックボックスを覗き込もうとする。 最適化軌道に沿って測定された勾配類似性は重要な信号であり、言語に近いだけでなく、全体のモデル性能と相関する。 このような観察は,既存のグラデーションに基づくマルチタスク学習手法の重要な限界を特定するのに役立ち,より幾何学的に調整されたタスクのパラメータ更新を促進する簡易かつスケーラブルな最適化手順であるgradient vaccine を導出する。 本手法は,多言語言語モデルに対して,多言語機械翻訳およびxtremeベンチマークタスクにおいて有意なモデル性能向上を実現する。 本研究は,多言語最適化における言語近接度を適切に測定し,活用することの重要性を明らかにし,多言語モデリング以上のマルチタスク学習に幅広い意味を持つ。

Massively multilingual models subsuming tens or even hundreds of languages pose great challenges to multi-task optimization. While it is a common practice to apply a language-agnostic procedure optimizing a joint multilingual task objective, how to properly characterize and take advantage of its underlying problem structure for improving optimization efficiency remains under-explored. In this paper, we attempt to peek into the black-box of multilingual optimization through the lens of loss function geometry. We find that gradient similarity measured along the optimization trajectory is an important signal, which correlates well with not only language proximity but also the overall model performance. Such observation helps us to identify a critical limitation of existing gradient-based multi-task learning methods, and thus we derive a simple and scalable optimization procedure, named Gradient Vaccine, which encourages more geometrically aligned parameter updates for close tasks. Empirically, our method obtains significant model performance gains on multilingual machine translation and XTREME benchmark tasks for multilingual language models. Our work reveals the importance of properly measuring and utilizing language proximity in multilingual optimization, and has broader implications for multi-task learning beyond multilingual modeling.
翻訳日:2022-10-08 05:58:01 公開日:2020-10-12
# 学生の最適トランスポートによるテキスト生成の改善

Improving Text Generation with Student-Forcing Optimal Transport ( http://arxiv.org/abs/2010.05994v1 )

ライセンス: Link先を確認
Guoyin Wang, Chunyuan Li, Jianqiao Li, Hao Fu, Yuh-Chen Lin, Liqun Chen, Yizhe Zhang, Chenyang Tao, Ruiyi Zhang, Wenlin Wang, Dinghan Shen, Qian Yang and Lawrence Carin(参考訳) ニューラルネットワークモデルは、しばしば最大確率推定(mle)で訓練され、次の単語が接頭辞のトークンで条件付けされた状態で生成される。 しかし、テスト中、モデルは事前に生成されたトークンに条件付けされるため、露光バイアスと呼ばれる。 トレーニングとテストのギャップを軽減するため,これらの2つのモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。 テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。 提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。

Neural language models are often trained with maximum likelihood estimation (MLE), where the next word is generated conditioned on the ground-truth word tokens. During testing, however, the model is instead conditioned on previously generated tokens, resulting in what is termed exposure bias. To reduce this gap between training and testing, we propose using optimal transport (OT) to match the sequences generated in these two modes. An extension is further proposed to improve the OT learning, based on the structural and contextual information of the text sequences. The effectiveness of the proposed method is validated on machine translation, text summarization, and text generation tasks.
翻訳日:2022-10-08 05:57:40 公開日:2020-10-12
# アルツハイマー病モニタリングのための人工知能, 音声, 言語処理のアプローチ : 体系的考察

Artificial Intelligence, speech and language processing approaches to monitoring Alzheimer's Disease: a systematic review ( http://arxiv.org/abs/2010.06047v1 )

ライセンス: Link先を確認
Sofia de la Fuente Garcia, Craig Ritchie and Saturnino Luz(参考訳) 言語はアルツハイマー病における臨床情報の貴重な情報源であり、神経変性と同時に減少する。 その結果,音声および言語データは,その診断に関連して広範囲に研究されている。 本稿では,アルツハイマー病の文脈における認知的低下を予測するための人工知能,音声,言語処理の利用に関する最近の知見を要約し,その限界を強調し,対処策を提案する。 筆者らは2000年から2019年にかけて, PROSPERO (reference CRD42018116606) に登録されたオリジナルの研究の体系的レビューを行った。 学際的検索では、工学(ACMとIEEE)、心理学(PsycINFO)、医学(PubMedとEmbase)、Web of Scienceの6つのデータベースを網羅した。 関連論文の書誌は2019年12月まで上映された。 3,654項目から51項目を適格基準に選択した。 研究の詳細(aim、人口、介入、比較、方法、結果)、データの詳細(サイズ、タイプ、モダリティ、注釈、バランス、可用性、研究言語)、方法論(前処理、特徴生成、機械学習、評価と結果)、臨床応用可能性(研究の意義、臨床の可能性、バイアスと強みのリスク)である。 有望な結果は51研究のほぼ全てで報告されているが、臨床研究や実践ではほとんど実施されていない。 この分野の主な制限は、標準化の貧弱さ、結果のコンパラビリティの制限、研究目的と臨床応用との切り離しの程度であると結論づけた。 これらのギャップを埋めようとする試みは、将来の臨床研究の翻訳を支援するべきである。

Language is a valuable source of clinical information in Alzheimer's Disease, as it declines concurrently with neurodegeneration. Consequently, speech and language data have been extensively studied in connection with its diagnosis. This paper summarises current findings on the use of artificial intelligence, speech and language processing to predict cognitive decline in the context of Alzheimer's Disease, detailing current research procedures, highlighting their limitations and suggesting strategies to address them. We conducted a systematic review of original research between 2000 and 2019, registered in PROSPERO (reference CRD42018116606). An interdisciplinary search covered six databases on engineering (ACM and IEEE), psychology (PsycINFO), medicine (PubMed and Embase) and Web of Science. Bibliographies of relevant papers were screened until December 2019. From 3,654 search results 51 articles were selected against the eligibility criteria. Four tables summarise their findings: study details (aim, population, interventions, comparisons, methods and outcomes), data details (size, type, modalities, annotation, balance, availability and language of study), methodology (pre-processing, feature generation, machine learning, evaluation and results) and clinical applicability (research implications, clinical potential, risk of bias and strengths/limitations). While promising results are reported across nearly all 51 studies, very few have been implemented in clinical research or practice. We concluded that the main limitations of the field are poor standardisation, limited comparability of results, and a degree of disconnect between study aims and clinical applications. Attempts to close these gaps should support translation of future research into clinical practice.
翻訳日:2022-10-08 05:57:06 公開日:2020-10-12
# セマンティックコード検索のためのシームズネットワークの評価

Evaluation of Siamese Networks for Semantic Code Search ( http://arxiv.org/abs/2011.01043v1 )

ライセンス: Link先を確認
Raunak Sinha, Utkarsh Desai, Srikanth Tamilselvam, Senthil Mani(参考訳) オープンリポジトリやディスカッションフォーラムの増加に伴い、セマンティックコード検索における自然言語の使用がますます一般的になっている。 しかし、そのようなシステムによって返される結果の精度は低い可能性がある。 1)コードとユーザクエリ間の共有語彙の制限 2) ユーザクエリのセマンティック理解の不十分さとコード構文との関連性。 シームズネットワークはデータ間の結合関係を学習するのに適しているが、コード検索の文脈では研究されていない。 本研究では,複数の抽出ネットワークアーキテクチャを探索し,この課題に対するシームズネットワークの評価を行う。 これらのネットワークは、シームズネットワークに渡す前にコードとテキスト記述を独立して処理し、共通の空間における埋め込みを学習する。 2つの異なるデータセットを実験し、コードとテキストからリッチな情報を抽出するネットワーク上で、siameseネットワークが強力な正規化者として機能できることを発見した。 また、これらのネットワークの埋め込み空間を解析し、シームズネットワークのパワーをセマンティックコード検索に活用するための方向性を提供する。

With the increase in the number of open repositories and discussion forums, the use of natural language for semantic code search has become increasingly common. The accuracy of the results returned by such systems, however, can be low due to 1) limited shared vocabulary between code and user query and 2) inadequate semantic understanding of user query and its relation to code syntax. Siamese networks are well suited to learning such joint relations between data, but have not been explored in the context of code search. In this work, we evaluate Siamese networks for this task by exploring multiple extraction network architectures. These networks independently process code and text descriptions before passing them to a Siamese network to learn embeddings in a common space. We experiment on two different datasets and discover that Siamese networks can act as strong regularizers on networks that extract rich information from code and text, which in turn helps achieve impressive performance on code search beating previous baselines on $2$ programming languages. We also analyze the embedding space of these networks and provide directions to fully leverage the power of Siamese networks for semantic code search.
翻訳日:2022-10-08 05:56:34 公開日:2020-10-12
# トラヒック信号制御のためのユニバーサルアテンションに基づく強化学習モデル

AttendLight: Universal Attention-Based Reinforcement Learning Model for Traffic Signal Control ( http://arxiv.org/abs/2010.05772v1 )

ライセンス: Link先を確認
Afshin Oroojlooy, Mohammadreza Nazari, Davood Hajinezhad, Jorge Silva(参考訳) 本稿では,交通信号制御問題に対するエンドツーエンド強化学習(RL)アルゴリズムであるAttendLightを提案する。 この問題の従来のアプローチは、異なる構造や交通流の分布を持つ新しい交差点の訓練を必要とするという欠点がある。 AttendLightはこの問題を解決するために、道路、車線、フェーズ(可能な信号)、交通の流れなどと交差する単一で普遍的なモデルを訓練している。 そこで本研究では,2つの注意モデルを含む深部RLモデルを提案する。 第1のアテンションモデルは異なる路盤数を扱うために導入され、第2のアテンションモデルは交差点の任意の位相で意思決定を可能にすることを意図している。 その結果、同様の構成がトレーニングセットで表現される限り、我々の提案したモデルは任意の交差点構成で機能する。 合成および実世界の標準ベンチマークデータセットを用いて実験を行った。 その結果,3車線・4車線の交差点,1車線・2車線・3車線・2車線・2車線・3車線・異なる位相の交差点,および交通の流れが異なることがわかった。 二つの体制を考えます (i)単一環境訓練、単一展開、及び (ii)マルチ環境トレーニング、マルチデプロイ。 AttendLightは、古典的および他のRLベースのアプローチよりも、両方のレシエーションにおけるすべてのケースで優れている。

We propose AttendLight, an end-to-end Reinforcement Learning (RL) algorithm for the problem of traffic signal control. Previous approaches for this problem have the shortcoming that they require training for each new intersection with a different structure or traffic flow distribution. AttendLight solves this issue by training a single, universal model for intersections with any number of roads, lanes, phases (possible signals), and traffic flow. To this end, we propose a deep RL model which incorporates two attention models. The first attention model is introduced to handle different numbers of roads-lanes; and the second attention model is intended for enabling decision-making with any number of phases in an intersection. As a result, our proposed model works for any intersection configuration, as long as a similar configuration is represented in the training set. Experiments were conducted with both synthetic and real-world standard benchmark data-sets. The results we show cover intersections with three or four approaching roads; one-directional/bi-directional roads with one, two, and three lanes; different number of phases; and different traffic flows. We consider two regimes: (i) single-environment training, single-deployment, and (ii) multi-environment training, multi-deployment. AttendLight outperforms both classical and other RL-based approaches on all cases in both regimes.
翻訳日:2022-10-08 05:55:52 公開日:2020-10-12
# nemo:sigtyp 2020共有タスクにおける制約付き言語タイポロジー特徴予測への頻繁な推論アプローチ

NEMO: Frequentist Inference Approach to Constrained Linguistic Typology Feature Prediction in SIGTYP 2020 Shared Task ( http://arxiv.org/abs/2010.05985v1 )

ライセンス: Link先を確認
Alexander Gutkin and Richard Sproat(参考訳) 本稿では、world atlas of language structures(wals)から得られたデータを用いて、複数の言語における言語的タイプ論的特徴の予測を扱うsigtyp 2020 share taskへのnemo提案について述べる。 我々は、型的特徴の相関を表すために頻繁な推論を行い、この表現を用いて個々の特徴を予測する単純な多クラス推定子を訓練する。 本稿では,制約タスクにおいて2位と3位にランク付けされたリッジ回帰型構成について述べる。 テスト言語149言語に対して,マイクロ平均精度0.66を達成できた。

This paper describes the NEMO submission to SIGTYP 2020 shared task which deals with prediction of linguistic typological features for multiple languages using the data derived from World Atlas of Language Structures (WALS). We employ frequentist inference to represent correlations between typological features and use this representation to train simple multi-class estimators that predict individual features. We describe two submitted ridge regression-based configurations which ranked second and third overall in the constrained task. Our best configuration achieved the micro-averaged accuracy score of 0.66 on 149 test languages.
翻訳日:2022-10-08 05:49:43 公開日:2020-10-12
# Vulgaris: イタリア語の中年品種コーパスの分析

Vulgaris: Analysis of a Corpus for Middle-Age Varieties of Italian Language ( http://arxiv.org/abs/2010.05993v1 )

ライセンス: Link先を確認
Andrea Zugarini and Matteo Tiezzi and Marco Maggini(参考訳) イタリア語は俗ラテン語に起源を持つロマンス言語である。 現代のイタリア人の誕生は14世紀頃にトスカーナで始まり、主にトスカーナにおける中世の最も著名な作家の一人であるダンテ・アリギエリ、フランチェスコ・ペトロカルカ、ジョヴァンニ・ボッカッチオの著作による。 しかし、イタリアは、過去の領土の断片化により、しばしば互いに緩やかに関連づけられる、多種多様な方言によって特徴づけられている。 イタリア語はこれらの方言の多くからの影響を吸収しており、スペインやフランスなどの他国による他言語の影響も受けている。 本研究は,1200年から1600年までの期間に,異なる地域の著者によるイタリアの文献資料のコーパス調査を目的としたプロジェクトであるvulgarisを提案する。 各構成は著者に関連付けられており、著者は家族、すなわち類似の様式的・年代的特徴を共有する。 したがって、データセットはイタリア語の進化と方言の違いを研究する上で貴重な資料であるだけでなく、単一の著者間の様式的側面を研究する上でも有用である。 本稿では,データの詳細な統計解析と,方言学およびダイアクロニック多様体におけるコーパス駆動研究について述べる。

Italian is a Romance language that has its roots in Vulgar Latin. The birth of the modern Italian started in Tuscany around the 14th century, and it is mainly attributed to the works of Dante Alighieri, Francesco Petrarca and Giovanni Boccaccio, who are among the most acclaimed authors of the medieval age in Tuscany. However, Italy has been characterized by a high variety of dialects, which are often loosely related to each other, due to the past fragmentation of the territory. Italian has absorbed influences from many of these dialects, as also from other languages due to dominion of portions of the country by other nations, such as Spain and France. In this work we present Vulgaris, a project aimed at studying a corpus of Italian textual resources from authors of different regions, ranging in a time period between 1200 and 1600. Each composition is associated to its author, and authors are also grouped in families, i.e. sharing similar stylistic/chronological characteristics. Hence, the dataset is not only a valuable resource for studying the diachronic evolution of Italian and the differences between its dialects, but it is also useful to investigate stylistic aspects between single authors. We provide a detailed statistical analysis of the data, and a corpus-driven study in dialectology and diachronic varieties.
翻訳日:2022-10-08 05:49:07 公開日:2020-10-12
# 効率的な長距離シーケンスモデリングによるゼロショットエンティティリンク

Zero-shot Entity Linking with Efficient Long Range Sequence Modeling ( http://arxiv.org/abs/2010.06065v1 )

ライセンス: Link先を確認
Zonghai Yao, Liangliang Cao and Huapu Pan(参考訳) 本稿では,テスト時間内のリンクがトレーニングに存在しない場合のゼロショットエンティティリンクの問題について考察する。 BERTをベースとした研究に続き、長距離シーケンスモデリングの拡張をシンプルかつ効果的に行う方法を見出した。 従来の方法とは異なり,提案手法では長い位置を埋め込んだBERTの事前学習は不要である。 そこで本研究では,BERT-Baseをベースとした位置埋め込みの初期化手法である Embedding-repeat を提案する。 WikiaのゼロショットELデータセットでは、SOTAを76.06%から79.08%に改善し、長いデータでは74.57%から82.14%に改善した。 本実験は,BERTモデルを再学習することなく,長距離シーケンスモデリングの有効性を示唆する。

This paper considers the problem of zero-shot entity linking, in which a link in the test time may not present in training. Following the prevailing BERT-based research efforts, we find a simple yet effective way is to expand the long-range sequence modeling. Unlike many previous methods, our method does not require expensive pre-training of BERT with long position embedding. Instead, we propose an efficient position embeddings initialization method called Embedding-repeat, which initializes larger position embeddings based on BERT-Base. On Wikia's zero-shot EL dataset, our method improves the SOTA from 76.06% to 79.08%, and for its long data, the corresponding improvement is from 74.57% to 82.14%. Our experiments suggest the effectiveness of long-range sequence modeling without retraining the BERT model.
翻訳日:2022-10-08 05:48:23 公開日:2020-10-12
# VMSMO:ビデオベースのニュース記事のマルチモーダル概要生成学習

VMSMO: Learning to Generate Multimodal Summary for Video-based News Articles ( http://arxiv.org/abs/2010.05406v1 )

ライセンス: Link先を確認
Mingzhe Li, Xiuying Chen, Shen Gao, Zhangming Chan, Dongyan Zhao and Rui Yan(参考訳) 現在、人気のあるマルチメディアニュースフォーマットは、CNN、BBC、Twitter、Weiboなどのソーシャルメディアに採用されているライブビデオとそれに対応するニュース記事を提供している。 この場合、ビデオの適切なカバーフレームを自動的に選択し、記事の適切なテキスト要約を生成することにより、編集者が時間を節約し、読者がより効果的に決定することができる。 そこで本稿では,マルチモーダル出力(VMSMO)を用いたビデオベースマルチモーダル要約の課題を提案する。 このタスクの主な課題は、ビデオの時間的依存性と記事の意味を共同でモデル化することである。 そこで本研究では,デュアルインタラクションモジュールとマルチモーダルジェネレータからなるDual-Interaction-based Multimodal Summarizer (DIMS)を提案する。 本稿では,ビデオ内の局所的な意味情報をキャプチャする条件付き自己認識機構と,高レベルからのニューステキストと映像のセマンティック関係を処理するグローバルアテンション機構を提案する。 大規模な実世界のVMSMOデータセットで実施された大規模な実験は、DIMSが自動メトリクスと人的評価の両方の観点から最先端のパフォーマンスを達成することを示している。

A popular multimedia news format nowadays is providing users with a lively video and a corresponding news article, which is employed by influential news media including CNN, BBC, and social media including Twitter and Weibo. In such a case, automatically choosing a proper cover frame of the video and generating an appropriate textual summary of the article can help editors save time, and readers make the decision more effectively. Hence, in this paper, we propose the task of Video-based Multimodal Summarization with Multimodal Output (VMSMO) to tackle such a problem. The main challenge in this task is to jointly model the temporal dependency of video with semantic meaning of article. To this end, we propose a Dual-Interaction-based Multimodal Summarizer (DIMS), consisting of a dual interaction module and multimodal generator. In the dual interaction module, we propose a conditional self-attention mechanism that captures local semantic information within video and a global-attention mechanism that handles the semantic relationship between news text and video from a high level. Extensive experiments conducted on a large-scale real-world VMSMO dataset show that DIMS achieves the state-of-the-art performance in terms of both automatic metrics and human evaluations.
翻訳日:2022-10-08 05:47:46 公開日:2020-10-12
# MedICaT:医療画像、キャプション、テキスト参照のデータセット

MedICaT: A Dataset of Medical Images, Captions, and Textual References ( http://arxiv.org/abs/2010.06000v1 )

ライセンス: Link先を確認
Sanjay Subramanian, Lucy Lu Wang, Sachin Mehta, Ben Bogin, Madeleine van Zuylen, Sravanthi Parasa, Sameer Singh, Matt Gardner, Hannaneh Hajishirzi(参考訳) 図形とテキストの関係を理解することは、科学的文書理解の鍵となる。 特に医学的な数字は非常に複雑で、しばしばいくつかのサブフィギュア(データセットの75%)で構成され、その内容を記述する詳細なテキストがある。 科学論文における図形の研究は、画像がテキストにどのように関係しているかを理解することよりも、図形内容の分類に重点を置いていた。 図形検索と図形テキストアライメントの課題に対処するために、コンテキスト内の医療画像のデータセットであるMedICaTを導入する。 MedICaTは131Kのオープンアクセスバイオメディカルペーパーからの217Kイメージで構成されており、キャプション、74%のフィギュアのインライン参照、サブフィギュアのサブフィギュアとサブキャプションが手作業で注釈付けされている。 MedICaTを用いて、複合図形におけるサブフィギュアとサブキャプションアライメントのタスクを導入し、画像テキストマッチングにおけるインライン参照の有用性を実証する。 私たちのデータとコードはhttps://github.com/allenai/medicat.comでアクセスできます。

Understanding the relationship between figures and text is key to scientific document understanding. Medical figures in particular are quite complex, often consisting of several subfigures (75% of figures in our dataset), with detailed text describing their content. Previous work studying figures in scientific papers focused on classifying figure content rather than understanding how images relate to the text. To address challenges in figure retrieval and figure-to-text alignment, we introduce MedICaT, a dataset of medical images in context. MedICaT consists of 217K images from 131K open access biomedical papers, and includes captions, inline references for 74% of figures, and manually annotated subfigures and subcaptions for a subset of figures. Using MedICaT, we introduce the task of subfigure to subcaption alignment in compound figures and demonstrate the utility of inline references in image-text matching. Our data and code can be accessed at https://github.com/allenai/medicat.
翻訳日:2022-10-08 05:47:25 公開日:2020-10-12
# ゲノム分類のためのニューロカオス学習アーキテクチャ

A Neurochaos Learning Architecture for Genome Classification ( http://arxiv.org/abs/2010.10995v1 )

ライセンス: Link先を確認
Harikrishnan NB and Pranay SY and Nithin Nagaraj(参考訳) 生体神経ネットワークにおける単一ニューロンのレベルでは、非線形性やカオスの存在が実証されている。 カオスニューロンの性質は、人工学習システムでそれを採用することを促す。 本稿では,データから特徴を抽出するために使用するニューロンが1次元カオスマップであるニューロカオス学習(NL)アーキテクチャを提案する。 このNLアーキテクチャの例であるChaosFEX+SVMは、カオスと古典的な機械学習アルゴリズムのハイブリッドの組み合わせとして提案されている。 有限個の1次元カオスニューロンを持つNLの単一層が、有限なサポートを持つ離散実値関数を近似するのに必要なカオスニューロンの数に対して正確な値でUniversal Approximation Theoremを満たすことを正式に証明する。 これはカオスのトポロジ的推移性や、選択された1次元カオス写像に対する無限個の高密度軌道の存在により可能となる。 NLのカオスニューロンは入力刺激(データ)の存在下で活性化され、カオス発火軌道を出力する。 NLの個々のニューロンのカオス的発火軌道から、ChaosFEXの特徴を構成するフィリング時間、フィリング速度、エネルギー、エントロピーを抽出する。 これらのChaosFEX機能は、分類のために線形カーネルを持つサポートベクトルマシンに送られる。 NL (ChaosFEX+SVM) によるカオス的特徴工学の有効性を, 低・高訓練試料群における合成および実世界のデータセットに示す。 具体的には,SARS-CoV-2のゲノム配列を他のウイルス(SARS-CoV-1,MERS-CoVなど)から分類する問題を考察する。 sars-cov-1ゲノム配列からsars-cov-2を分類する平均的マクロf1-score > 0.99をクラス毎に1つのトレーニングサンプルで報告した。 付加雑音に対するchaosfex特徴のロバスト性も示される。

There has been empirical evidence of presence of non-linearity and chaos at the level of single neurons in biological neural networks. The properties of chaotic neurons inspires us to employ them in artificial learning systems. Here, we propose a Neurochaos Learning (NL) architecture, where the neurons used to extract features from data are 1D chaotic maps. ChaosFEX+SVM, an instance of this NL architecture, is proposed as a hybrid combination of chaos and classical machine learning algorithm. We formally prove that a single layer of NL with a finite number of 1D chaotic neurons satisfies the Universal Approximation Theorem with an exact value for the number of chaotic neurons needed to approximate a discrete real valued function with finite support. This is made possible due to the topological transitivity property of chaos and the existence of uncountably infinite number of dense orbits for the chosen 1D chaotic map. The chaotic neurons in NL get activated under the presence of an input stimulus (data) and output a chaotic firing trajectory. From such chaotic firing trajectories of individual neurons of NL, we extract Firing Time, Firing Rate, Energy and Entropy that constitute ChaosFEX features. These ChaosFEX features are then fed to a Support Vector Machine with linear kernel for classification. The effectiveness of chaotic feature engineering performed by NL (ChaosFEX+SVM) is demonstrated for synthetic and real world datasets in the low and high training sample regimes. Specifically, we consider the problem of classification of genome sequences of SARS-CoV-2 from other coronaviruses (SARS-CoV-1, MERS-CoV and others). With just one training sample per class for 1000 random trials of training, we report an average macro F1-score > 0.99 for the classification of SARS-CoV-2 from SARS-CoV-1 genome sequences. Robustness of ChaosFEX features to additive noise is also demonstrated.
翻訳日:2022-10-08 05:47:04 公開日:2020-10-12
# NLPモデルの勾配解析は操作可能である

Gradient-based Analysis of NLP Models is Manipulable ( http://arxiv.org/abs/2010.05419v1 )

ライセンス: Link先を確認
Junlin Wang, Jens Tuyls, Eric Wallace, Sameer Singh(参考訳) サリエンシマップの可視化や逆入力の摂動といったグラディエントに基づく分析手法は、その単純さ、柔軟性、そして最も重要なことに、ニューラルNLPモデルの解釈に広く用いられている。 しかし,本論文では,モデルの勾配が容易に操作可能であることを示し,勾配に基づく解析の信頼性に疑問を呈する。 特に、ターゲットモデルの層を予測に影響を与えることなく勾配を圧倒するファサードにマージします。 このファサードは、入力中の停止語のみに焦点を当てるなど、タスクに無関係で誤解を招く勾配を持つように訓練することができる。 各種のNLPタスク(テキスト分類,NLI,QA)において,本手法は多種多様な勾配解析手法を操作可能であることを示す。 この論文のコードとチュートリアルは、http://ucinlp.github.io/facade.com/で入手できる。

Gradient-based analysis methods, such as saliency map visualizations and adversarial input perturbations, have found widespread use in interpreting neural NLP models due to their simplicity, flexibility, and most importantly, their faithfulness. In this paper, however, we demonstrate that the gradients of a model are easily manipulable, and thus bring into question the reliability of gradient-based analyses. In particular, we merge the layers of a target model with a Facade that overwhelms the gradients without affecting the predictions. This Facade can be trained to have gradients that are misleading and irrelevant to the task, such as focusing only on the stop words in the input. On a variety of NLP tasks (text classification, NLI, and QA), we show that our method can manipulate numerous gradient-based analysis techniques: saliency maps, input reduction, and adversarial perturbations all identify unimportant or targeted tokens as being highly important. The code and a tutorial of this paper is available at http://ucinlp.github.io/facade.
翻訳日:2022-10-08 05:46:34 公開日:2020-10-12
# 遺伝的二目的最適化によるハビタビリティスコア

Genetic Bi-objective Optimization Approach to Habitability Score ( http://arxiv.org/abs/2010.05494v1 )

ライセンス: Link先を確認
Sriram Krishna, Niharika Pentapati(参考訳) 太陽系外における生命の探索は、世界中の天文学者の努力である。 天文学の進歩により数百の太陽系外惑星が発見されており、これらの太陽系外惑星の居住性を分類する必要がある。 これは典型的には、地球類似度指数や惑星居住性指数といった様々な指標を用いて行われる。 本稿では,コブ・ダグラス・ハビタビリティスコアを用いて,遺伝的アルゴリズムを用いて居住可能性の最良のスコアを評価する。 遺伝的アルゴリズム(英: genetic algorithm)は、最適化問題を解決する古典的な進化アルゴリズムである。 ダーウィンの進化論(darwin's theory of evolution)に基づいており、"survival of the fittest"と呼ばれている。 アルゴリズムの動作は、様々なベンチマーク関数との比較により確立され、その機能を多目的最適化に拡張した。 コッブ・ダグラス・ハビタビリティ関数は、有望な外惑星の集合に対するコッブ・ダグラス・ハビタビリティスコアを最大化する最適な値を求めるために、双対象と単一の目的最適化問題として定式化される。

The search for life outside the Solar System is an endeavour of astronomers all around the world. With hundreds of exoplanets being discovered due to advances in astronomy, there is a need to classify the habitability of these exoplanets. This is typically done using various metrics such as the Earth Similarity Index or the Planetary Habitability Index. In this paper, Genetic Algorithms are used to evaluate the best possible habitability scores using the Cobb-Douglas Habitability Score. Genetic Algorithm is a classic evolutionary algorithm used for solving optimization problems. It is based on Darwin's theory of evolution, "Survival of the fittest". The working of the algorithm is established through comparison with various benchmark functions and extended its functionality to Multi-Objective optimization. The Cobb-Douglas Habitability Function is formulated as a bi-objective as well as a single objective optimization problem to find the optimal values to maximize the Cobb-Douglas Habitability Score for a set of promising exoplanets.
翻訳日:2022-10-08 05:39:13 公開日:2020-10-12
# マルチタスクと負答訓練戦略を用いたbertに基づく気晴らし生成法

A BERT-based Distractor Generation Scheme with Multi-tasking and Negative Answer Training Strategies ( http://arxiv.org/abs/2010.05384v1 )

ライセンス: Link先を確認
Ho-Lam Chung, Ying-Hong Chan, Yao-Chung Fan(参考訳) 本稿では,既存のトラクタ生成法(DG)の2つの限界について検討する。 第一に、既存のDG手法の品質はまだ実用には程遠い。 DGの品質改善の余地はまだあります。 第二に、既存のDG設計は主に単一イントラクタ生成のためのものである。 しかし、実用的なMCQの準備には、複数の気晴らし器が望まれる。 そこで本稿では,これらの目標を念頭に置いて,マルチタスクと負の回答のトレーニング戦略を用いた,<textit{multiple} distractor を効果的に生成するための新しい気晴らし生成方式を提案する。 実験結果から,(1)本モデルが28.65点から39.81点(BLEU 1点)まで進行し,(2)生成した複数の分散器は多種多様であり,複数の選択問題に対して強い注意力を示すことがわかった。

In this paper, we investigate the following two limitations for the existing distractor generation (DG) methods. First, the quality of the existing DG methods are still far from practical use. There is still room for DG quality improvement. Second, the existing DG designs are mainly for single distractor generation. However, for practical MCQ preparation, multiple distractors are desired. Aiming at these goals, in this paper, we present a new distractor generation scheme with multi-tasking and negative answer training strategies for effectively generating \textit{multiple} distractors. The experimental results show that (1) our model advances the state-of-the-art result from 28.65 to 39.81 (BLEU 1 score) and (2) the generated multiple distractors are diverse and show strong distracting power for multiple choice question.
翻訳日:2022-10-08 05:38:55 公開日:2020-10-12
# 非Issueではない:機械翻訳におけるエラーの原因としての否定

It's not a Non-Issue: Negation as a Source of Error in Machine Translation ( http://arxiv.org/abs/2010.05432v1 )

ライセンス: Link先を確認
Md Mosharaf Hossain, Antonios Anastasopoulos, Eduardo Blanco, and Alexis Palmer(参考訳) 機械翻訳(MT)システムが急速に進歩するにつれて、その正確性に関する疑問が持ち上がる。 本研究では,発話の意味論に大きな影響を及ぼす,人間言語の普遍的コア特性である否定に注目した。 現代のmtシステムでは17の翻訳方向をテストベッドとして用いる場合,翻訳否定が問題となるか検討する。 徹底的な分析を通じて,否定の存在が下流品質に著しく影響を与え,品質が60%以上低下するケースも見られた。 また, 言語学的に動機づけた分析を行い, 結果の大部分を直接的に説明する。 分析を再現するために、アノテーションとコードをここでリリースします。

As machine translation (MT) systems progress at a rapid pace, questions of their adequacy linger. In this study we focus on negation, a universal, core property of human language that significantly affects the semantics of an utterance. We investigate whether translating negation is an issue for modern MT systems using 17 translation directions as test bed. Through thorough analysis, we find that indeed the presence of negation can significantly impact downstream quality, in some cases resulting in quality reductions of more than 60%. We also provide a linguistically motivated analysis that directly explains the majority of our findings. We release our annotations and code to replicate our analysis here: https://github.com/mosharafhossain/negation-mt.
翻訳日:2022-10-08 05:38:40 公開日:2020-10-12
# 対向領域一般化による未知のターゲットスタンス検出

Unseen Target Stance Detection with Adversarial Domain Generalization ( http://arxiv.org/abs/2010.05471v1 )

ライセンス: Link先を確認
Zhen Wang, Qiansheng Wang, Chengguo Lv, Xue Cao and Guohong Fu(参考訳) 過去数年間、姿勢検出は大きな進歩を遂げてきたが、まだ目立たない標的の問題に直面している。 本研究では,ターゲット間の領域差を調査し,注意に基づく条件付きエンコーディングと敵対的ドメイン一般化を組み込むことにより,対象とする姿勢検出を行う。 実験の結果,本手法はsemeval-2016データセット上で新たな最先端性能を達成し,目標間のドメイン間差異の重要性を実証した。

Although stance detection has made great progress in the past few years, it is still facing the problem of unseen targets. In this study, we investigate the domain difference between targets and thus incorporate attention-based conditional encoding with adversarial domain generalization to perform unseen target stance detection. Experimental results show that our approach achieves new state-of-the-art performance on the SemEval-2016 dataset, demonstrating the importance of domain difference between targets in unseen target stance detection.
翻訳日:2022-10-08 05:38:29 公開日:2020-10-12
# 知識グラフ埋め込み, 微細粒状エンティティタイプ, 言語モデリングの相補性について

On the Complementary Nature of Knowledge Graph Embedding, Fine Grain Entity Types, and Language Modeling ( http://arxiv.org/abs/2010.05732v1 )

ライセンス: Link先を確認
Rajat Patel and Francis Ferraro(参考訳) 本稿では,ニューラル知識グラフの埋め込み,微粒実体型予測,ニューラル言語モデリングの相補的な性質を実証する。 言語モデルにインスパイアされた知識グラフの埋め込み手法は知識グラフの埋め込みと微粒な実体型表現の両方をもたらすことを示す。 私たちの研究は、構造化された知識タプルと言語の両方を共同でモデリングすることも示しています。

We demonstrate the complementary natures of neural knowledge graph embedding, fine-grain entity type prediction, and neural language modeling. We show that a language model-inspired knowledge graph embedding approach yields both improved knowledge graph embeddings and fine-grain entity type representations. Our work also shows that jointly modeling both structured knowledge tuples and language improves both.
翻訳日:2022-10-08 05:38:20 公開日:2020-10-12
# プレトレーニングトランスアーキテクチャを用いた臨床ノートからの狭心症症状の抽出

Extracting Angina Symptoms from Clinical Notes Using Pre-Trained Transformer Architectures ( http://arxiv.org/abs/2010.05757v1 )

ライセンス: Link先を確認
Aaron S. Eisman, Nishant R. Shah, Carsten Eickhoff, George Zerveas, Elizabeth S. Chen, Wen-Chih Wu, Indra Neil Sarkar(参考訳) 狭心症は、心臓のリスクの増加と心血管管理の変化を必要とする。 本研究は, ドメイン固有コーパスを微調整したトランスフォーマー言語モデルを用いた双方向エンコーダを用いて, 医師用ノートからこれらの症状を抽出する可能性を評価した。 動脈硬化性心血管疾患の既知例を伴わない心臓検査を主訴とした主治医ノート459名のうち,現在までの病歴について概説した。 注記は胸痛と呼吸特性の短さについて肯定的・否定的に言及した。 その結果, 胸痛, 不快感, 胸下痛, 呼吸困難, 運動時呼吸困難, 呼吸困難の検出に高い感度と特異性が得られた。 小標本は胸痛の誘発と緩和に関連する抽出因子を制限した。 本研究は,臨床作用性狭心症を特徴付けるために,医師ノートの自然言語処理に期待できる出発点を提供する。

Anginal symptoms can connote increased cardiac risk and a need for change in cardiovascular management. This study evaluated the potential to extract these symptoms from physician notes using the Bidirectional Encoder from Transformers language model fine-tuned on a domain-specific corpus. The history of present illness section of 459 expert annotated primary care physician notes from consecutive patients referred for cardiac testing without known atherosclerotic cardiovascular disease were included. Notes were annotated for positive and negative mentions of chest pain and shortness of breath characterization. The results demonstrate high sensitivity and specificity for the detection of chest pain or discomfort, substernal chest pain, shortness of breath, and dyspnea on exertion. Small sample size limited extracting factors related to provocation and palliation of chest pain. This study provides a promising starting point for the natural language processing of physician notes to characterize clinically actionable anginal symptoms.
翻訳日:2022-10-08 05:38:11 公開日:2020-10-12
# perceptimatic: 教師なしサブワードモデリングのための人間の音声知覚ベンチマーク

Perceptimatic: A human speech perception benchmark for unsupervised subword modelling ( http://arxiv.org/abs/2010.05961v1 )

ライセンス: Link先を確認
Juliette Millet and Ewan Dunbar(参考訳) 本稿では,電話識別タスクにおける音声処理モデルと人間の行動を比較するためのデータセットと手法を提案する。 フランス語と英語の音声刺激からなるオープンデータセットであるperceptimaticと、91人の英語話者と93人のフランス語話者の結果を提供する。 この刺激は、幅広いフランス語と英語のコントラストをテストし、2017年のzero resource speech challengeで使用された自然に流れる読み上げ音声のコーパスから直接抽出される。 我々は,人間の知覚空間とモデルの表現空間を比較する手法を提案し,課題に以前に提出したモデルに適用する。 教師なしモデルや教師付き多言語モデルとは異なり、標準教師付き単言語HMM-GMM音声認識システムでは、携帯電話の識別が得意であるが、人間のネイティブリスナーとはかなり異なる表現空間が得られることを示す。

In this paper, we present a data set and methods to compare speech processing models and human behaviour on a phone discrimination task. We provide Perceptimatic, an open data set which consists of French and English speech stimuli, as well as the results of 91 English- and 93 French-speaking listeners. The stimuli test a wide range of French and English contrasts, and are extracted directly from corpora of natural running read speech, used for the 2017 Zero Resource Speech Challenge. We provide a method to compare humans' perceptual space with models' representational space, and we apply it to models previously submitted to the Challenge. We show that, unlike unsupervised models and supervised multilingual models, a standard supervised monolingual HMM-GMM phone recognition system, while good at discriminating phones, yields a representational space very different from that of human native listeners.
翻訳日:2022-10-08 05:37:54 公開日:2020-10-12
# ゼロ・リソース・スピーチ・チャレンジ2020:個別のサブワードとワード・ユニットの発見

The Zero Resource Speech Challenge 2020: Discovering discrete subword and word units ( http://arxiv.org/abs/2010.05967v1 )

ライセンス: Link先を確認
Ewan Dunbar and Julien Karadayi and Mathieu Bernard and Xuan-Nga Cao and Robin Algayres and Lucas Ondel and Laurent Besacier and Sakriani Sakti and Emmanuel Dupoux(参考訳) ラベルなしで生音声信号から音声表現を学習することを目的としたZero Resource Speech Challenge 2020を紹介する。 以前の2つのベンチマーク(2017年と2019年)のデータセットとメトリクスを組み合わせて、2つのレベルの音声表現をタップする2つのタスクを特徴とする。 第1の課題は、音声合成の質を最適化する低ビットレートのサブワード表現を見つけることであり、第2の課題は、未分類の生音声から単語のような単位を発見することである。 提案20モデルの結果を提示し,教師なし音声学習における主結果の意義について考察する。

We present the Zero Resource Speech Challenge 2020, which aims at learning speech representations from raw audio signals without any labels. It combines the data sets and metrics from two previous benchmarks (2017 and 2019) and features two tasks which tap into two levels of speech representation. The first task is to discover low bit-rate subword representations that optimize the quality of speech synthesis; the second one is to discover word-like units from unsegmented raw speech. We present the results of the twenty submitted models and discuss the implications of the main findings for unsupervised speech learning.
翻訳日:2022-10-08 05:37:39 公開日:2020-10-12
# 重み付き直交回帰法による信号分類

Signal classification using weighted orthogonal regression method ( http://arxiv.org/abs/2010.05979v1 )

ライセンス: Link先を確認
Sahar Tavakoli(参考訳) 本稿では,データの固有特性に基づく新しい分類器を提案する。 分類はデータマイニングベースのアプリケーションにおいて不可欠なタスクである。 分類問題は、トレーニングセットのサイズが問題の次元と比較するのに十分でない場合に問題となる。 本稿では,対応する固有成分を通じて各クラス固有の構造を利用する新しい分類手法を提案する。 各コンポーネントは、各クラスの学習期間に特定の重みで寄与する。 重みは関連する固有値によって決定される。 このアプローチは、限られたトレーニングデータで分類問題に直面する場合の信頼性の高い学習を可能にする。 提案手法では,各クラスから取得したデータのSVDを用いて,各サブ空間の基底を選択する。 さらに、2つのクラスを識別する意思決定基準を効果的に重み付けする。 人工データの性能向上に加えて、この手法は国際競争の最良の結果をもたらしている。

In this paper, a new classifier based on the intrinsic properties of the data is proposed. Classification is an essential task in data mining-based applications. The classification problem will be challenging when the size of the training set is not sufficient to compare to the dimension of the problem. This paper proposes a new classification method that exploits the intrinsic structure of each class through the corresponding Eigen components. Each component contributes to the learned span of each class by specific weight. The weight is determined by the associated eigenvalue. This approach results in reliable learning robust in the case of facing a classification problem with limited training data. The proposed method involves the obtained Eigenvectors by SVD of data from each class to select the bases for each subspace. Moreover, it considers an efficient weighting for the decision-making criterion to discriminate two classes. In addition to high performance on artificial data, this method has increased the best result of international competition.
翻訳日:2022-10-08 05:30:51 公開日:2020-10-12
# maf: 弱教師付き句接地のためのマルチモーダルアライメントフレームワーク

MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase Grounding ( http://arxiv.org/abs/2010.05379v1 )

ライセンス: Link先を確認
Qinxin Wang, Hao Tan, Sheng Shen, Michael W. Mahoney, Zhewei Yao(参考訳) フレーズローカライゼーションは、テキストのフレーズから画像の領域へのマッピングを研究するタスクである。 フレーズからオブジェクトまでのデータセットを大規模にアノテートすることの難しさを踏まえ,より広く利用可能なキャプションイメージデータセットを活用するためのマルチモーダルアライメントフレームワーク(MAF)を開発した。 まず, きめ細かな視覚的表現と視覚認識言語表現を活用し, 句・対象関係をモデル化するアルゴリズムを提案する。 コントラスト的な目的を取り入れることで,キャプションとイメージのペアの情報を弱教師付きシナリオの性能向上に活用する。 広く採用されているFlickr30kデータセットで実施された実験は、既存の弱教師付き手法よりも大幅に改善されている。 視覚的に認識される言語表現の助けを借りて、以前の最高の教師なしの結果を5.56%改善できる。 我々は,新しいモデルと弱い教師付き戦略の両方が強い結果に大きく寄与することを示すため,アブレーション研究を行う。

Phrase localization is a task that studies the mapping from textual phrases to regions of an image. Given difficulties in annotating phrase-to-object datasets at scale, we develop a Multimodal Alignment Framework (MAF) to leverage more widely-available caption-image datasets, which can then be used as a form of weak supervision. We first present algorithms to model phrase-object relevance by leveraging fine-grained visual representations and visually-aware language representations. By adopting a contrastive objective, our method uses information in caption-image pairs to boost the performance in weakly-supervised scenarios. Experiments conducted on the widely-adopted Flickr30k dataset show a significant improvement over existing weakly-supervised methods. With the help of the visually-aware language representations, we can also improve the previous best unsupervised result by 5.56%. We conduct ablation studies to show that both our novel model and our weakly-supervised strategies significantly contribute to our strong results.
翻訳日:2022-10-08 05:30:40 公開日:2020-10-12
# 濃淡と色付き3次元点群生成のための段階的条件生成逆ネットワーク

A Progressive Conditional Generative Adversarial Network for Generating Dense and Colored 3D Point Clouds ( http://arxiv.org/abs/2010.05391v1 )

ライセンス: Link先を確認
Mohammad Samiul Arshad and William J. Beksi(参考訳) 本稿では,教師なしの方法でオブジェクトの分類を行うために,高密度な3次元点雲をカラーで生成する条件生成対向ネットワークを提案する。 高分解能で複雑な詳細を捉えることの難しさを克服するため,グラフ畳み込みを用いてネットワークを段階的に拡大する点変換器を提案する。 ネットワークは、リーフ出力層と、枝の初期セットからなる。 トレーニングの繰り返しは、ポイントベクトルを高解像度の点雲に進化させる。 一定回数のイテレーションの後、最後のブランチを複製することで、ブランチの数が増加する。 実験の結果,ネットワークは3次元データ分布の学習と模倣が可能であり,複数の解像度で詳細な色付き点雲を生成できることがわかった。

In this paper, we introduce a novel conditional generative adversarial network that creates dense 3D point clouds, with color, for assorted classes of objects in an unsupervised manner. To overcome the difficulty of capturing intricate details at high resolutions, we propose a point transformer that progressively grows the network through the use of graph convolutions. The network is composed of a leaf output layer and an initial set of branches. Every training iteration evolves a point vector into a point cloud of increasing resolution. After a fixed number of iterations, the number of branches is increased by replicating the last branch. Experimental results show that our network is capable of learning and mimicking a 3D data distribution, and produces colored point clouds with fine details at multiple resolutions.
翻訳日:2022-10-08 05:30:22 公開日:2020-10-12
# 人間と機械の知覚のディプチチ

Diptychs of human and machine perceptions ( http://arxiv.org/abs/2010.13864v1 )

ライセンス: Link先を確認
Vivien Cabannes and Thomas Kerdreux and Louis Thiry(参考訳) 我々は,アルゴリズムと人間との違いを視野に入れた視覚創造を提案する。 ニューラルネットワークのサリエンシーマップと、人間の視覚的焦点を利用して、マシンと人間の注意の両方に応じて元のイメージを再解釈するディプティッチを作成する。 これらのディップティフを知覚の質的評価として使用し、現在の \textit{task-oriented} 人工知能の重要な問題について議論する。

We propose visual creations that put differences in algorithms and humans \emph{perceptions} into perspective. We exploit saliency maps of neural networks and visual focus of humans to create diptychs that are reinterpretations of an original image according to both machine and human attentions. Using those diptychs as a qualitative evaluation of perception, we discuss some crucial issues of current \textit{task-oriented} artificial intelligence.
翻訳日:2022-10-08 05:29:18 公開日:2020-10-12
# TextHide: 言語理解タスクでデータのプライバシに取り組む

TextHide: Tackling Data Privacy in Language Understanding Tasks ( http://arxiv.org/abs/2010.06053v1 )

ライセンス: Link先を確認
Yangsibo Huang, Zhao Song, Danqi Chen, Kai Li, Sanjeev Arora(参考訳) 分散学習や連合学習における未解決の課題は、トレーニングを遅くしたり、精度を低下させることなく、効果的にプライバシーリスクを軽減することである。 本稿では,自然言語理解タスクの課題に対処することを目的としたTextHideを提案する。 すべての参加者は、盗聴攻撃者がプライベートテキストデータを復元しないように、簡単な暗号化ステップを追加する必要がある。 このような暗号化ステップは効率的であり、タスクのパフォーマンスにのみ影響する。 さらにTextHideは、任意の文や文ペアタスクに対して、微調整済みの言語モデル(例えばBERT)の一般的なフレームワークに適合する。 実験の結果、texthideは共有勾配や表現に対する攻撃を効果的に防御でき、平均的な精度の低下は1.9\%$であることがわかった。 また,数学的な問題に対する計算的難解性に関する予想を用いて,TextHideのセキュリティの分析を行った。 私たちのコードはhttps://github.com/Hazelsuko07/TextHideで利用可能です。

An unsolved challenge in distributed or federated learning is to effectively mitigate privacy risks without slowing down training or reducing accuracy. In this paper, we propose TextHide aiming at addressing this challenge for natural language understanding tasks. It requires all participants to add a simple encryption step to prevent an eavesdropping attacker from recovering private text data. Such an encryption step is efficient and only affects the task performance slightly. In addition, TextHide fits well with the popular framework of fine-tuning pre-trained language models (e.g., BERT) for any sentence or sentence-pair task. We evaluate TextHide on the GLUE benchmark, and our experiments show that TextHide can effectively defend attacks on shared gradients or representations and the averaged accuracy reduction is only $1.9\%$. We also present an analysis of the security of TextHide using a conjecture about the computational intractability of a mathematical problem. Our code is available at https://github.com/Hazelsuko07/TextHide
翻訳日:2022-10-08 05:28:44 公開日:2020-10-12
# 必要なものはロードする:マルチ言語BERTのより小さなバージョン

Load What You Need: Smaller Versions of Multilingual BERT ( http://arxiv.org/abs/2010.05609v1 )

ライセンス: Link先を確認
Amine Abdaoui, Camille Pradel and Gr\'egoire Sigel(参考訳) 事前学習されたトランスフォーマーベースのモデルは、さまざまな自然言語処理データセットで最先端の結果を得ています。 しかし、これらのモデルのサイズは、実際の実運用アプリケーションへのデプロイの欠点となることが多い。 多言語モデルの場合、パラメータのほとんどは埋め込み層にある。 したがって、語彙サイズの縮小はパラメータの総数に重要な影響を与えるべきである。 本稿では,対象コーパスに基づいて,少ない言語数を扱うより小さなモデルを生成することを提案する。 本稿では,xnliデータセットにおける多言語bertの小型化について検討するが,この手法は他の多言語トランスフォーマーに適用できると考えられる。 得られた結果から,パラメータの総数の最大45%を削減しつつ,比較結果を保持する小さなモデルを生成することができることを確認した。 また,本モデルとDistilmBERT(多言語BERTの蒸留版)を比較し,XNLIデータセットの総合的精度を1.7%から6%低下させた。 提示されたモデルとコードは公開されている。

Pre-trained Transformer-based models are achieving state-of-the-art results on a variety of Natural Language Processing data sets. However, the size of these models is often a drawback for their deployment in real production applications. In the case of multilingual models, most of the parameters are located in the embeddings layer. Therefore, reducing the vocabulary size should have an important impact on the total number of parameters. In this paper, we propose to generate smaller models that handle fewer number of languages according to the targeted corpora. We present an evaluation of smaller versions of multilingual BERT on the XNLI data set, but we believe that this method may be applied to other multilingual transformers. The obtained results confirm that we can generate smaller models that keep comparable results, while reducing up to 45% of the total number of parameters. We compared our models with DistilmBERT (a distilled version of multilingual BERT) and showed that unlike language reduction, distillation induced a 1.7% to 6% drop in the overall accuracy on the XNLI data set. The presented models and code are publicly available.
翻訳日:2022-10-08 05:22:06 公開日:2020-10-12
# 型情報を使ってエンティティの参照解決を改善する

Using Type Information to Improve Entity Coreference Resolution ( http://arxiv.org/abs/2010.05738v1 )

ライセンス: Link先を確認
Sopan Khosla, Carolyn Rose(参考訳) coreference resolution (cr) は談話分析の重要な部分である。 最近では、以前のパラダイムからSOTAモデルよりも改善する神経アプローチが提案されている。 今のところ、公開されたニューラルモデルは、型情報のような外部的な意味的知識を活用していない。 本稿は,金本位制か予測型のいずれかを導入することで,精度の低さを示す最初のモデルと評価を提供する。 提案手法では,(1)参照表現の改善,(2)参照候補参照間のソフト型一貫性チェックの作成などを行う。 評価は4種類のベンチマークコーパスに対して2種類の異なる粒度について行った。

Coreference resolution (CR) is an essential part of discourse analysis. Most recently, neural approaches have been proposed to improve over SOTA models from earlier paradigms. So far none of the published neural models leverage external semantic knowledge such as type information. This paper offers the first such model and evaluation, demonstrating modest gains in accuracy by introducing either gold standard or predicted types. In the proposed approach, type information serves both to (1) improve mention representation and (2) create a soft type consistency check between coreference candidate mentions. Our evaluation covers two different grain sizes of types over four different benchmark corpora.
翻訳日:2022-10-08 05:21:50 公開日:2020-10-12
# 連続制御における政策イテレーションの局所探索

Local Search for Policy Iteration in Continuous Control ( http://arxiv.org/abs/2010.05545v1 )

ライセンス: Link先を確認
Jost Tobias Springenberg, Nicolas Heess, Daniel Mankowitz, Josh Merel, Arunkumar Byravan, Abbas Abdolmaleki, Jackie Kay, Jonas Degrave, Julian Schrittwieser, Yuval Tassa, Jonas Buchli, Dan Belov, Martin Riedmiller(参考訳) モデルベースおよびモデルフリーな変種を1つのフレームワークで定式化できる強化学習(RL)における局所的・正規化・政策改善のためのアルゴリズムを提案する。 本アルゴリズムは,kl正規化rlに対する作業の自然な拡張として解釈でき,連続作用空間に対する木探索の一形態を導入する。 学習中のモデルベースのポリシー改善に費やす追加計算がデータ効率を向上させることを示し、行動選択におけるモデルベースのポリシー改善も有益であることを示す。 定量的に、本アルゴリズムは複数の連続制御ベンチマーク(モデルが並列に学習される場合)のデータ効率を改善し、高次元領域(基底真理モデルが利用可能である場合)における壁時計時間を大幅に改善する。 統一されたフレームワークは、モデルベースおよびモデルフリーアルゴリズムの空間をよりよく理解するのに役立ちます。 特に,モデルに基づく RL に起因した利点が,単に計算量を増やすことで,モデルなしで得られることを示す。

We present an algorithm for local, regularized, policy improvement in reinforcement learning (RL) that allows us to formulate model-based and model-free variants in a single framework. Our algorithm can be interpreted as a natural extension of work on KL-regularized RL and introduces a form of tree search for continuous action spaces. We demonstrate that additional computation spent on model-based policy improvement during learning can improve data efficiency, and confirm that model-based policy improvement during action selection can also be beneficial. Quantitatively, our algorithm improves data efficiency on several continuous control benchmarks (when a model is learned in parallel), and it provides significant improvements in wall-clock time in high-dimensional domains (when a ground truth model is available). The unified framework also helps us to better understand the space of model-based and model-free algorithms. In particular, we demonstrate that some benefits attributed to model-based RL can be obtained without a model, simply by utilizing more computation.
翻訳日:2022-10-08 05:20:49 公開日:2020-10-12
# 観測データから因果方向を推定する:複雑性アプローチ

Inferring Causal Direction from Observational Data: A Complexity Approach ( http://arxiv.org/abs/2010.05635v1 )

ライセンス: Link先を確認
Nikolaos Nikolaou and Konstantinos Sechidis(参考訳) 観測データから学ぶ因果構造の中心は、非常に単純な質問である:2つの統計的に依存する確率変数が与えられたとき、一方は他方に因果効果を持つか? これは統計的依存テストだけでは答えられず、追加の仮定が必要である。 離散確率変数と連続確率変数のペアにおいて、原因と効果を区別するための高速かつ簡単な基準を提案する。 その背後にある直感は、因果変数を用いた効果変数の予測は逆よりも「単純」でなければならないということである。 本研究では,幅広い因果的メカニズムとノイズの種類に基づいて生成した合成データの基準値の精度を示す。

At the heart of causal structure learning from observational data lies a deceivingly simple question: given two statistically dependent random variables, which one has a causal effect on the other? This is impossible to answer using statistical dependence testing alone and requires that we make additional assumptions. We propose several fast and simple criteria for distinguishing cause and effect in pairs of discrete or continuous random variables. The intuition behind them is that predicting the effect variable using the cause variable should be `simpler' than the reverse -- different notions of `simplicity' giving rise to different criteria. We demonstrate the accuracy of the criteria on synthetic data generated under a broad family of causal mechanisms and types of noise.
翻訳日:2022-10-08 05:19:57 公開日:2020-10-12
# 異方性一般回帰ニューラルネットワークを用いた特徴選択について

On Feature Selection Using Anisotropic General Regression Neural Network ( http://arxiv.org/abs/2010.05744v1 )

ライセンス: Link先を確認
Federico Amato, Fabian Guignard, Philippe Jacquet and Mikhail Kanevski(参考訳) 入力データセットに無関係な特徴が存在することは、機械学習モデルの解釈可能性と予測品質を低下させる傾向がある。 したがって,無関係な特徴を認識する特徴選択手法の開発は,機械学習において重要な課題である。 本稿では,異方性ガウス核を用いた一般回帰ニューラルネットワークを用いて特徴選択を行う方法を示す。 シミュレーションデータを用いて多数の数値実験を行い,提案手法の堅牢性と試料サイズに対する感度について検討した。 最後に、いくつかの実世界のデータセットで、他の4つの特徴選択方法との比較を行う。

The presence of irrelevant features in the input dataset tends to reduce the interpretability and predictive quality of machine learning models. Therefore, the development of feature selection methods to recognize irrelevant features is a crucial topic in machine learning. Here we show how the General Regression Neural Network used with an anisotropic Gaussian Kernel can be used to perform feature selection. A number of numerical experiments are conducted using simulated data to study the robustness of the proposed methodology and its sensitivity to sample size. Finally, a comparison with four other feature selection methods is performed on several real world datasets.
翻訳日:2022-10-08 05:19:45 公開日:2020-10-12