このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210919となっている論文です。

PDF登録状況(公開日: 20210919)

TitleAuthorsAbstract論文公表日・翻訳日
# 作物病検出のための2段階機械学習アプローチ : GANとUAV技術の応用

A two-step machine learning approach for crop disease detection: an application of GAN and UAV technology ( http://arxiv.org/abs/2109.11066v1 )

ライセンス: Link先を確認
Aaditya Prasad (1), Nikhil Mehta (1), Matthew Horak (2), Wan D. Bae (3) ((1) Tesla STEM High School, (2) Lockheed Martin Corporation, (3) Seattle University)(参考訳) 自動植物診断は、農業のコスト効率を大幅に向上させる技術である。 しかし、複数の問題により、解像度と速度の逆関係や適切なラベル付きトレーニングデータの欠如など、ドローンの有効性が低下する。 本稿では,低忠実度および高忠実度画像を連続的に解析し,効率と精度を維持した2段階機械学習手法を提案する。 2つのデータジェネレータは、高忠実度データセットのクラス不均衡を最小化し、UAV画像を表す低忠実度データを生成するためにも使用される。 クラス不均衡で劣化した高忠実度リンゴ樹画像のデータベース上で,応用と方法の解析を行う。 アプリケーションは、生成ネットワークを用いて高忠実度データを生成し、その新しいデータと元の高忠実度データを用いて低忠実度画像を生成する。 機械学習の識別子は植物を識別し、病原性の有無をラベル付けする。 機械学習の分類器は、病気の可能性のある植物イメージを与えられ、これらの植物に対して実際の診断を返す。 その結果,高忠実度システムでは96.3%,低忠実度システムでは75.5%の信頼性が得られた。 当社のドローン技術は、労働ベースの診断方法と比較して、有望な精度を示す。

Automated plant diagnosis is a technology that promises large increases in cost-efficiency for agriculture. However, multiple problems reduce the effectiveness of drones, including the inverse relationship between resolution and speed and the lack of adequate labeled training data. This paper presents a two-step machine learning approach that analyzes low-fidelity and high-fidelity images in sequence, preserving efficiency as well as accuracy. Two data-generators are also used to minimize class imbalance in the high-fidelity dataset and to produce low-fidelity data that is representative of UAV images. The analysis of applications and methods is conducted on a database of high-fidelity apple tree images which are corrupted with class imbalance. The application begins by generating high-fidelity data using generative networks and then uses this novel data alongside the original high-fidelity data to produce low-fidelity images. A machine-learning identifier identifies plants and labels them as potentially diseased or not. A machine learning classifier is then given the potentially diseased plant images and returns actual diagnoses for these plants. The results show an accuracy of 96.3% for the high-fidelity system and a 75.5% confidence level for our low-fidelity system. Our drone technology shows promising results in accuracy when compared to labor-based methods of diagnosis.
翻訳日:2021-09-24 15:13:09 公開日:2021-09-19
# (参考訳) コンピュータゲームの設計と使用による線形プログラミング学習体験の補完:F1チャンピオンシップゲーム [全文訳有]

Complementing the Linear-Programming Learning Experience with the Design and Use of Computerized Games: The Formula 1 Championship Game ( http://arxiv.org/abs/2109.10698v1 )

ライセンス: CC BY 4.0
Gerardo L. Febres(参考訳) この文書は競争的文脈の中で利点を達成するための複雑な状況のモデリングに焦点を当てています。 私たちのゴールは、数学モデリングプロセスに不可欠な非容易な定量化タスクを教え、実行するゲームの特徴を考案することです。 数学モデリングプロセスと最適化問題定式化を実行するコンピュータゲームを導入する。 ゲームは「フォーミュラ1選手権」と名付けられ、コンピュータシミュレーションプラットフォーム「MoNet」でゲームモデルが開発された。 チームマネージャが自分たちのレーシングカーを、実現可能で最も有利な状況まで拡張する決定を下さなければならない状況に似ています。 本稿では,本ゲームにおけるルール,制限,F1回路シミュレータの5つについて述べる。 最適化問題という形で,この状況を定式化している。 それぞれのレースに勝つための一連の回路に最適な車両調整を達成するための予算を割り当てることは、アプローチである。 各グランプリの予算の最適配分に注目して、割り当てられた資金を使って車を改善する方法も正しいアプローチである。 一般に、これらのアプローチには、同じマルチスケール最適化問題の異なる側面があるため、矛盾の程度があるかもしれない。 したがって、最適化問題を定式化する際に、最優先事項を要素または他の要素に割り当てることの影響を評価する。 このような最適化問題の解決の有効性を研究することは、あるスケールにフォーカスすることの利点を評価するエキサイティングな方法であることが判明した。 この研究の別のスレッドは、学習過程におけるゲームの意味を示唆している。 フォーミュラ1ゲームの適用は、複雑なシステム状況における機会を発見し、それらを公式化し、最終的に記述されたコンテキストに関連する利点を抽出し、具体化する効果的な方法であると考えている。

This document focuses on modeling a complex situations to achieve an advantage within a competitive context. Our goal is to devise the characteristics of games to teach and exercise non-easily quantifiable tasks crucial to the math-modeling process. A computerized game to exercise the math-modeling process and optimization problem formulation is introduced. The game is named The Formula 1 Championship, and models of the game were developed in the computerized simulation platform MoNet. It resembles some situations in which team managers must make crucial decisions to enhance their racing cars up to the feasible, most advantageous conditions. This paper describes the game's rules, limitations, and five Formula 1 circuit simulators used for the championship development. We present several formulations of this situation in the form of optimization problems. Administering the budget to reach the best car adjustment to a set of circuits to win the respective races can be an approach. Focusing on the best distribution of each Grand Prix's budget and then deciding how to use the assigned money to improve the car is also the right approach. In general, there may be a degree of conflict among these approaches because they are different aspects of the same multi-scale optimization problem. Therefore, we evaluate the impact of assigning the highest priority to an element, or another, when formulating the optimization problem. Studying the effectiveness of solving such optimization problems turns out to be an exciting way of evaluating the advantages of focusing on one scale or another. Another thread of this research directs to the meaning of the game in the teaching-learning process. We believe applying the Formula 1 Game is an effective way to discover opportunities in a complex-system situation and formulate them to finally extract and concrete the related benefit to the context described.
翻訳日:2021-09-24 01:10:12 公開日:2021-09-19
# 知識グラフの自動バイアス検出に向けて

Towards Automatic Bias Detection in Knowledge Graphs ( http://arxiv.org/abs/2109.10697v1 )

ライセンス: Link先を確認
Daphna Keidar, Mian Zhong, Ce Zhang, Yash Raj Shrestha, Bibek Paudel(参考訳) 近年,知識グラフを活用したソーシャルアプリケーションの普及に伴い,KGに基づく手法の公平性を確保する技術の必要性が高まっている。 これまでの研究では、KGは様々な社会的偏見の傾向を示し、それらを嫌悪する複数の方法を提案してきた。 しかし,このような研究では,デバイアス化技術に焦点が当てられ,デバイアス化される関係はユーザによって手作業で特定されている。 手動仕様は、それ自体が人間の認知バイアスに影響を受けやすいため、バイアスを定量化し、暴露できるシステムが必要である。 文献におけるこのギャップを解決するために,数値バイアス指標に基づいて知識グラフの埋め込みに存在するバイアスを識別する枠組みについて述べる。 本フレームワークは,職業予測の課題に対して,3つの異なるバイアス尺度で説明し,さらなるバイアス定義や応用に柔軟に拡張することができる。 バイアスを負った関係は、その後の偏見を判断するために意思決定者に渡される。

With the recent surge in social applications relying on knowledge graphs, the need for techniques to ensure fairness in KG based methods is becoming increasingly evident. Previous works have demonstrated that KGs are prone to various social biases, and have proposed multiple methods for debiasing them. However, in such studies, the focus has been on debiasing techniques, while the relations to be debiased are specified manually by the user. As manual specification is itself susceptible to human cognitive bias, there is a need for a system capable of quantifying and exposing biases, that can support more informed decisions on what to debias. To address this gap in the literature, we describe a framework for identifying biases present in knowledge graph embeddings, based on numerical bias metrics. We illustrate the framework with three different bias measures on the task of profession prediction, and it can be flexibly extended to further bias definitions and applications. The relations flagged as biased can then be handed to decision makers for judgement upon subsequent debiasing.
翻訳日:2021-09-23 13:55:30 公開日:2021-09-19
# (参考訳) Denoized Pseudo-Labelingによるソースフリードメイン適応基底画像分割 [全文訳有]

Source-Free Domain Adaptive Fundus Image Segmentation with Denoised Pseudo-Labeling ( http://arxiv.org/abs/2109.09735v1 )

ライセンス: CC BY 4.0
Cheng Chen, Quande Liu, Yueming Jin, Qi Dou, Pheng-Ann Heng(参考訳) ドメイン適応は通常、ターゲットデータとのドメインアライメントのためにその分散情報を利用するために、ソースドメインデータにアクセスする必要があります。 しかし、多くの実世界のシナリオでは、プライバシの問題により、ターゲットドメインのモデル適応中にソースデータがアクセスできない場合がある。 本稿では,既存のソースモデルとラベルなしターゲットデータのみをモデル適応に適用可能な,実用的かつ難解な非教師なし領域適応問題について検討する。 本稿では,疑似ラベルからのモデルの自己適応を促進するために,ソースモデルとラベルなしのターゲットデータを有効に活用する手法を提案する。 さらに、ソースモデルから生成された擬似ラベルは、ドメインシフトによって必然的にノイズが発生することを考慮し、不確実性推定とプロトタイプ推定を伴う2つの補完的な画素レベルおよびクラスレベルの分別スキームを導入し、ノイズを低減し、信頼性の高いラベルを選択することで擬似ラベルの有効性を高める。 クロスドメイン・ファンドス・イメージ・セグメンテーションの実験結果から,ソース・イメージの使用やソース・トレーニングの変更を伴わずに,最先端のソース・依存型ドメイン・アダプティブ・手法と同等あるいはそれ以上の性能を達成できた。

Domain adaptation typically requires to access source domain data to utilize their distribution information for domain alignment with the target data. However, in many real-world scenarios, the source data may not be accessible during the model adaptation in the target domain due to privacy issue. This paper studies the practical yet challenging source-free unsupervised domain adaptation problem, in which only an existing source model and the unlabeled target data are available for model adaptation. We present a novel denoised pseudo-labeling method for this problem, which effectively makes use of the source model and unlabeled target data to promote model self-adaptation from pseudo labels. Importantly, considering that the pseudo labels generated from source model are inevitably noisy due to domain shift, we further introduce two complementary pixel-level and class-level denoising schemes with uncertainty estimation and prototype estimation to reduce noisy pseudo labels and select reliable ones to enhance the pseudo-labeling efficacy. Experimental results on cross-domain fundus image segmentation show that without using any source images or altering source training, our approach achieves comparable or even higher performance than state-of-the-art source-dependent unsupervised domain adaptation methods.
翻訳日:2021-09-23 06:45:48 公開日:2021-09-19
# (参考訳) 単一チャンバーモデルに基づく呼吸コンプライアンス推定アルゴリズムの臨床的検証 [全文訳有]

Clinical Validation of Single-Chamber Model-Based Algorithms Used to Estimate Respiratory Compliance ( http://arxiv.org/abs/2109.10224v1 )

ライセンス: CC BY 4.0
Gregory Rehm, Jimmy Nguyen, Chelsea Gilbeau, Marc T Bomactao, Chen-Nee Chuah, Jason Adams(参考訳) 計算アルゴリズムを用いた呼吸生理学の非侵襲的推定は、将来の臨床医が患者の病態の有害な変化を検出するための貴重な技術である。 しかし、非侵襲的に肺生理学を分析するために用いられる臨床アルゴリズムは、臨床環境では厳密な検証を受けており、機械装置を使うか、2-8人の患者による小さな臨床検証データセットで検証されることが多い。 この研究は、まず、機械的肺からのデータと18人の挿管患者から4万近い呼吸を含むオープンで臨床的に検証されたデータセットを確立することで、この状況を改善することを目的としている。 次に,このデータを用いて呼吸コンプライアンスを推定する「シングルチャンバー」モデルを用いた15種類のアルゴリズムを評価する。 患者が入院時に経験する様々な臨床シナリオに基づいて,これらのアルゴリズムを評価する。 特に,4種類の患者換気器非同期性に基づくアルゴリズムの性能について検討する。 また,異なる換気モードのアルゴリズムを解析して,アルゴリズム性能をベンチマークし,換気モードがアルゴリズムに与える影響を判定する。 私たちのアプローチはいくつかの進歩をもたらします 1) 異なるモードおよび非同期シナリオ下で, どのアルゴリズムが最も有効かを示す。 2)アルゴリズム結果のばらつきを低減させる単純な数学的手法の開発 3)シングルチャンバーモデルアルゴリズムに関するさらなる洞察を提供する。 論文,アプローチ,データセット,ソフトウェアフレームワークを将来の研究者が活用して,作業を改善し,将来的な"単一チャンバ"アルゴリズムを臨床実践に統合できることを願っています。

Non-invasive estimation of respiratory physiology using computational algorithms promises to be a valuable technique for future clinicians to detect detrimental changes in patient pathophysiology. However, few clinical algorithms used to non-invasively analyze lung physiology have undergone rigorous validation in a clinical setting, and are often validated either using mechanical devices, or with small clinical validation datasets using 2-8 patients. This work aims to improve this situation by first, establishing an open, and clinically validated dataset comprising data from both mechanical lungs and nearly 40,000 breaths from 18 intubated patients. Next, we use this data to evaluate 15 different algorithms that use the "single chamber" model of estimating respiratory compliance. We evaluate these algorithms under varying clinical scenarios patients typically experience during hospitalization. In particular, we explore algorithm performance under four different types of patient ventilator asynchrony. We also analyze algorithms under varying ventilation modes to benchmark algorithm performance and to determine if ventilation mode has any impact on the algorithm. Our approach yields several advances by 1) showing which specific algorithms work best clinically under varying mode and asynchrony scenarios, 2) developing a simple mathematical method to reduce variance in algorithmic results, and 3) presenting additional insights about single-chamber model algorithms. We hope that our paper, approach, dataset, and software framework can thus be used by future researchers to improve their work and allow future integration of "single chamber" algorithms into clinical practice.
翻訳日:2021-09-23 06:34:37 公開日:2021-09-19
# (参考訳) MRI前立腺病変分節に対する非教師的領域適応と意味的整合性 [全文訳有]

Unsupervised Domain Adaptation with Semantic Consistency across Heterogeneous Modalities for MRI Prostate Lesion Segmentation ( http://arxiv.org/abs/2109.09736v1 )

ライセンス: CC BY 4.0
Eleni Chiou, Francesco Giganti, Shonit Punwani, Iasonas Kokkinos, and Eleftheria Panagiotaki(参考訳) 画像チャネルの数など、以前のプロトコルと異なる新しい医用画像モダリティでは、以前のものと異質な新しいドメインが導入される。 この一般的な医用イメージングシナリオは、同じ次元の領域にまたがるシフトを扱うドメイン適応文献では、ほとんど考慮されない。 我々の研究は、画素空間における2つの異種領域を翻訳する確率的生成モデルに依存し、意味的整合性を促進する2つの新しい損失関数を導入する。 まず、ソースドメインに意味的サイクル・コンシスタンス損失を導入し、翻訳が意味を保ち続けることを保証する。 次に、ターゲットデータをソースに変換し、ソースドメインネットワークでラベル付けし、生成した擬似ラベルを使用してターゲットドメインネットワークを監督する擬似ラベル損失を導入する。 その結果,対象領域に対して体系的により良い表現を抽出できることがわかった。 特に,高度拡散強調画像技術であるVERDICT-MRIの性能向上に,ラベル付きmp-MRIデータを活用することが課題である。 いくつかの教師なしドメイン適応アプローチと比較して、我々のアプローチは、半教師付きおよび教師付き学習設定に一貫して続く、大幅な改善をもたらす。

Any novel medical imaging modality that differs from previous protocols e.g. in the number of imaging channels, introduces a new domain that is heterogeneous from previous ones. This common medical imaging scenario is rarely considered in the domain adaptation literature, which handles shifts across domains of the same dimensionality. In our work we rely on stochastic generative modeling to translate across two heterogeneous domains at pixel space and introduce two new loss functions that promote semantic consistency. Firstly, we introduce a semantic cycle-consistency loss in the source domain to ensure that the translation preserves the semantics. Secondly, we introduce a pseudo-labelling loss, where we translate target data to source, label them by a source-domain network, and use the generated pseudo-labels to supervise the target-domain network. Our results show that this allows us to extract systematically better representations for the target domain. In particular, we address the challenge of enhancing performance on VERDICT-MRI, an advanced diffusion-weighted imaging technique, by exploiting labeled mp-MRI data. When compared to several unsupervised domain adaptation approaches, our approach yields substantial improvements, that consistently carry over to the semi-supervised and supervised learning settings.
翻訳日:2021-09-23 06:23:36 公開日:2021-09-19
# (参考訳) JEM++:JEMのトレーニング技術の改善 [全文訳有]

JEM++: Improved Techniques for Training JEM ( http://arxiv.org/abs/2109.09032v1 )

ライセンス: CC BY 4.0
Xiulong Yang, Shihao Ji(参考訳) JEM(Joint Energy-based Model)は、最近のCNN分類器の強力な識別能力を維持しつつ、GANベースのアプローチの質に匹敵するサンプルを生成するハイブリッドモデルである。 本稿では,JEMの精度,トレーニング安定性,スピードを全面的に向上させるために,新しいトレーニング手順とアーキテクチャ機能を提案する。 1) 前段からサンプルに近いサンプルを生成するための近位SGLDを提案し,安定性を向上した。 2) ebmの近似最大度学習を多段階微分ゲームとして扱い, バックプロパゲーション中に冗長な計算を省くようyopoフレームワークを拡張し, トレーニングを実質的に高速化する。 3) ランダムノイズからSGLD鎖を初期化する代わりに, トレーニングデータから推定した分布からサンプルを抽出する情報初期化を導入する。 4) この情報的初期化により、JEMのバッチ正規化が可能となり、ハイブリッドモデリングのための最新のCNNアーキテクチャのパワーがさらに解放される。 コード: https://github.com/s ndnyang/jempp

Joint Energy-based Model (JEM) is a recently proposed hybrid model that retains strong discriminative power of modern CNN classifiers, while generating samples rivaling the quality of GAN-based approaches. In this paper, we propose a variety of new training procedures and architecture features to improve JEM's accuracy, training stability, and speed altogether. 1) We propose a proximal SGLD to generate samples in the proximity of samples from the previous step, which improves the stability. 2) We further treat the approximate maximum likelihood learning of EBM as a multi-step differential game, and extend the YOPO framework to cut out redundant calculations during backpropagation, which accelerates the training substantially. 3) Rather than initializing SGLD chain from random noise, we introduce a new informative initialization that samples from a distribution estimated from training data. 4) This informative initialization allows us to enable batch normalization in JEM, which further releases the power of modern CNN architectures for hybrid modeling. Code: https://github.com/s ndnyang/JEMPP
翻訳日:2021-09-22 14:00:25 公開日:2021-09-19
# (参考訳) 画像分類を行うオントロジーに基づくn-ball概念埋め込み [全文訳有]

Ontology-based n-ball Concept Embeddings Informing Few-shot Image Classification ( http://arxiv.org/abs/2109.09063v1 )

ライセンス: CC BY 4.0
Mirantha Jayathilaka, Tingting Mu, Uli Sattler(参考訳) 我々は、オントロジーに基づく背景知識を、ニューラルネットワークベースの視覚アーキテクチャに組み込んだ、$n$-ballの概念の形で統合する、ViOCEという新しいフレームワークを提案する。 このアプローチは、2つの要素からなるオントロジーの象徴的知識を連続空間に変換し、仮定と不一致の性質をキャプチャするn-ボール埋め込みを学習し、学習した埋め込みを用いて視覚モデルのトレーニングと推論を導く。 本稿では,2つの標準ベンチマークにおいて,画像分類のタスクを用いてViOCEを評価し,優れた性能を示す。

We propose a novel framework named ViOCE that integrates ontology-based background knowledge in the form of $n$-ball concept embeddings into a neural network based vision architecture. The approach consists of two components - converting symbolic knowledge of an ontology into continuous space by learning n-ball embeddings that capture properties of subsumption and disjointness, and guiding the training and inference of a vision model using the learnt embeddings. We evaluate ViOCE using the task of few-shot image classification, where it demonstrates superior performance on two standard benchmarks.
翻訳日:2021-09-22 13:40:52 公開日:2021-09-19
# (参考訳) NLPにおけるコントラスト学習による対人訓練 [全文訳有]

Adversarial Training with Contrastive Learning in NLP ( http://arxiv.org/abs/2109.09075v1 )

ライセンス: CC BY-SA 4.0
Daniela N. Rim, DongNyeong Heo, Heeyoul Choi(参考訳) 長年、自然言語処理(NLP)設定において、敵の訓練が広く研究されてきた。 主な目的は、類似した入力が意味論的に類似した結果をもたらすようにモデルを堅牢にすることであり、言語に意味的類似性の客観的な尺度がないため、これは自明な問題ではない。 以前の作業では、この課題に対処するために、外部トレーニング済みのNLPモデルを使用していた。 しかし、近年の言語処理におけるコントラスト学習の一般的なアプローチは、そのような類似性制限を得るための便利な方法を示している。 対照的な学習アプローチの主な利点は、類似したデータポイントを互いに近づき、さらに表現空間の異なるものからマッピングすることを目指していることである。 本研究では,コントラッシブラーニング(ATCL)を用いた対人訓練を提案し,コントラストラーニングの利点を利用した言語処理タスクの対人訓練を行う。 中心となるアイデアは、入力の埋め込み空間を高速勾配法(fgm)で線形摂動させ、モデルにコントラスト学習を通じて元の摂動表現を近づけるように訓練することである。 NLP実験では,ATCLを言語モデルおよびニューラルマシン翻訳タスクに適用した。 この結果から, ベースラインに比較して定量的(複雑度, BLEU)のスコアが向上するだけでなく, ATCLは事前学習モデルを用いることなく, 両タスクのセマンティックレベルにおいて, 質的な結果が得られることがわかった。

For years, adversarial training has been extensively studied in natural language processing (NLP) settings. The main goal is to make models robust so that similar inputs derive in semantically similar outcomes, which is not a trivial problem since there is no objective measure of semantic similarity in language. Previous works use an external pre-trained NLP model to tackle this challenge, introducing an extra training stage with huge memory consumption during training. However, the recent popular approach of contrastive learning in language processing hints a convenient way of obtaining such similarity restrictions. The main advantage of the contrastive learning approach is that it aims for similar data points to be mapped close to each other and further from different ones in the representation space. In this work, we propose adversarial training with contrastive learning (ATCL) to adversarially train a language processing task using the benefits of contrastive learning. The core idea is to make linear perturbations in the embedding space of the input via fast gradient methods (FGM) and train the model to keep the original and perturbed representations close via contrastive learning. In NLP experiments, we applied ATCL to language modeling and neural machine translation tasks. The results show not only an improvement in the quantitative (perplexity and BLEU) scores when compared to the baselines, but ATCL also achieves good qualitative results in the semantic level for both tasks without using a pre-trained model.
翻訳日:2021-09-22 13:29:26 公開日:2021-09-19
# (参考訳) 大気力学の表現学習に向けて [全文訳有]

Towards Representation Learning for Atmospheric Dynamics ( http://arxiv.org/abs/2109.09076v1 )

ライセンス: CC BY 4.0
Sebastian Hoffmann and Christian Lessig(参考訳) 人為的強制下での将来の気候シナリオの予測は、気候変動を理解し、潜在的に逆作用する技術の影響を評価するために重要である。 この予測のための機械学習とハイブリッド技術は、関連するがしばしば微妙な影響に敏感な情報的指標に依存している。 大気力学では、気候システムの重要な部分である「眼球メートル法」、すなわち専門家による視覚検査が現在も金の基準となっている。 しかし,アルゴリズム記述が必要な機械学習システムでは,メトリクスとして使用することはできない。 コンピュータビジョンなどの学習指標の基盤として,中間的ニューラルネットワークアクティベーションの成功により,大気力学に特化して設計された,新しい自己教師型表現学習アプローチを提案する。 私たちのアプローチは、AtmoDistと呼ばれ、単純な補助的なタスクでニューラルネットワークをトレーニングします。 このタスクは、ネットワークに層内のアクティベーションとしてデータの本質的な重要な側面を学習させ、それによって識別基準を得る。 我々は、AtmoDistを用いて、GANに基づく渦性と発散の超解像の計量を定義することでこれを実証する。 我々のスケールアップされたデータは、高解像度参照の真の統計値と密接に一致し、平均二乗誤差に基づいて最先端のデータを著しく上回る。 AtmoDistは教師なしで、時間的なフィールドシーケンスのみを必要とし、単純な補助的なタスクを使用するため、気候変動を理解して緩和することを目的とした幅広いアプリケーションで使用することができる。

The prediction of future climate scenarios under anthropogenic forcing is critical to understand climate change and to assess the impact of potentially counter-acting technologies. Machine learning and hybrid techniques for this prediction rely on informative metrics that are sensitive to pertinent but often subtle influences. For atmospheric dynamics, a critical part of the climate system, the "eyeball metric", i.e. a visual inspection by an expert, is currently still the gold standard. However, it cannot be used as metric in machine learning systems where an algorithmic description is required. Motivated by the success of intermediate neural network activations as basis for learned metrics, e.g. in computer vision, we present a novel, self-supervised representation learning approach specifically designed for atmospheric dynamics. Our approach, called AtmoDist, trains a neural network on a simple, auxiliary task: predicting the temporal distance between elements of a shuffled sequence of atmospheric fields (e.g. the components of the wind field from a reanalysis or simulation). The task forces the network to learn important intrinsic aspects of the data as activations in its layers and from these hence a discriminative metric can be obtained. We demonstrate this by using AtmoDist to define a metric for GAN-based super resolution of vorticity and divergence. Our upscaled data matches closely the true statistics of a high resolution reference and it significantly outperform the state-of-the-art based on mean squared error. Since AtmoDist is unsupervised, only requires a temporal sequence of fields, and uses a simple auxiliary task, it can be used in a wide range of applications that aim to understand and mitigate climate change.
翻訳日:2021-09-22 13:15:50 公開日:2021-09-19
# (参考訳) 低分解能ヒューマンポース推定 [全文訳有]

Low-resolution Human Pose Estimation ( http://arxiv.org/abs/2109.09090v1 )

ライセンス: CC BY-SA 4.0
Chen Wang, Feng Zhang, Xiatian Zhu, Shuzhi Sam Ge(参考訳) 人間のポーズ推定は高解像度画像において大きな進歩を遂げた。 しかし、解像度の低い画像データには、未熟な課題が伴う。 このギャップを埋めるため,我々は既存の手法を調査し,最も支配的なヒートマップベース手法が低解像度でのモデル性能低下を招き,オフセット学習が効果的な戦略であることを明らかにした。 本研究は,既存のオフセット学習手法の2つの基本的な制約,すなわち,一貫性のないトレーニングとテスト,分離されたヒートマップとオフセット学習に対処する新しい信頼意識学習(CAL)手法を提案する。 特にcalは、ミニバッチ学習の方法でモデル出力の統計的重要性を捉えながら、地中および最も自信のある予測に関して、ヒートマップとオフセットの学習を選択的に重み付けている。 COCOベンチマークで行った大規模な実験により,本手法は低分解能人のポーズ推定における最先端の手法よりも優れていた。

Human pose estimation has achieved significant progress on images with high imaging resolution. However, low-resolution imagery data bring nontrivial challenges which are still under-studied. To fill this gap, we start with investigating existing methods and reveal that the most dominant heatmap-based methods would suffer more severe model performance degradation from low-resolution, and offset learning is an effective strategy. Established on this observation, in this work we propose a novel Confidence-Aware Learning (CAL) method which further addresses two fundamental limitations of existing offset learning methods: inconsistent training and testing, decoupled heatmap and offset learning. Specifically, CAL selectively weighs the learning of heatmap and offset with respect to ground-truth and most confident prediction, whilst capturing the statistical importance of model output in mini-batch learning manner. Extensive experiments conducted on the COCO benchmark show that our method outperforms significantly the state-of-the-art methods for low-resolution human pose estimation.
翻訳日:2021-09-22 13:06:52 公開日:2021-09-19
# (参考訳) ナレッジグラフと自動ニュースプロファイリングを用いた機関リスク識別の枠組み [全文訳有]

A Framework for Institutional Risk Identification using Knowledge Graphs and Automated News Profiling ( http://arxiv.org/abs/2109.09103v1 )

ライセンス: CC BY 4.0
Mahmoud Mahfouz, Armineh Nourbakhsh, Sameena Shah(参考訳) 世界中の組織は、運用に影響を及ぼすさまざまなリスクに直面しています。 潜在的なリスクの影響を事前に検出し評価するための、堅牢なリスク識別プロセスを持つことが不可欠である。 タスクの性質と、深い主題に関する専門知識の現在の要件を考えると、ほとんどの組織は、非常に手動のプロセスを使用します。 私たちの研究では 自動化されたシステムを開発し (a)世界ニュースを継続的に監視する b)リスクを自律的に識別し、特徴付けることができる。 (c)到達トリガーの接近を判定し、リスクインパクトの顕現からの距離を判断することができる。 (d)リスクに最も影響される可能性のある組織の運用領域を特定する。 その他、次のような貢献がある。 (a)リスクのナレッジグラフ表現と b) 特定のリスクのテキスト記述と多言語ニュースとを一致させるために,神経埋め込みモデルを用いて組織が特定したリスクに適合する関連ニュース。

Organizations around the world face an array of risks impacting their operations globally. It is imperative to have a robust risk identification process to detect and evaluate the impact of potential risks before they materialize. Given the nature of the task and the current requirements of deep subject matter expertise, most organizations utilize a heavily manual process. In our work, we develop an automated system that (a) continuously monitors global news, (b) is able to autonomously identify and characterize risks, (c) is able to determine the proximity of reaching triggers to determine the distance from the manifestation of the risk impact and (d) identifies organization's operational areas that may be most impacted by the risk. Other contributions also include: (a) a knowledge graph representation of risks and (b) relevant news matching to risks identified by the organization utilizing a neural embedding model to match the textual description of a given risk with multi-lingual news.
翻訳日:2021-09-22 12:52:16 公開日:2021-09-19
# (参考訳) BERTをベースとした言語モデルが音声文で何を学ぶか : 実証的研究 [全文訳有]

What BERT Based Language Models Learn in Spoken Transcripts: An Empirical Study ( http://arxiv.org/abs/2109.09105v1 )

ライセンス: CC BY 4.0
Ayush Kumar, Mukuntha Narayanan Sundararaman, Jithendra Vepa(参考訳) 言語モデル(LM)は、音声言語理解(SLU)を含む様々なタスクに広く活用されている。 音声言語は,会話の有意義な表現を生成するために,話者の対話,対話状態,発話による多モーダル行動の注意深い理解を必要とする。本研究では,SLUを3つの代表的な特性である会話(分散,一時停止,オーバートーク),チャンネル(話者型,ターンタスク),ASR(挿入,削除,置換)に分解することを提案する。 本稿では,BERT に基づく言語モデル (BERT, RoBERTa) を探索し,言語手がかりがない場合に多言語特性を理解する能力について検討する。 実験結果から,LMは語彙トークンから停止予測やオーバートーク検出などの会話特性を捉えるのに驚くほど優れていることが示唆された。 マイナス面として、LMはターンタスクとASRエラー予測で低いスコアを得る。 さらに、音声文字によるLMの事前訓練は、その言語的理解を阻害する。 最後に、Switchboard Dialog Act と Disfluency dataset の2つのベンチマークデータセット上で、上記のプロパティの有効性と転送性を確立する。

Language Models (LMs) have been ubiquitously leveraged in various tasks including spoken language understanding (SLU). Spoken language requires careful understanding of speaker interactions, dialog states and speech induced multimodal behaviors to generate a meaningful representation of the conversation.In this work, we propose to dissect SLU into three representative properties:conversat ional(disfluency, pause, overtalk), channel(speaker-type , turn-tasks) andASR(insertion, deletion,substitutio n). We probe BERT based language models (BERT, RoBERTa) trained on spoken transcripts to investigate its ability to understand multifarious properties in absence of any speech cues. Empirical results indicate that LM is surprisingly good at capturing conversational properties such as pause prediction and overtalk detection from lexical tokens. On the downsides, the LM scores low on turn-tasks and ASR errors predictions. Additionally, pre-training the LM on spoken transcripts restrain its linguistic understanding. Finally,we establish the efficacy and transferability of the mentioned properties on two benchmark datasets: Switchboard Dialog Act and Disfluency datasets.
翻訳日:2021-09-22 10:48:07 公開日:2021-09-19
# (参考訳) HPTQ:ハードウェアフレンドリーなポストトレーニング量子化 [全文訳有]

HPTQ: Hardware-Friendly Post Training Quantization ( http://arxiv.org/abs/2109.09113v1 )

ライセンス: CC BY 4.0
Hai Victor Habi, Reuven Peretz, Elad Cohen, Lior Dikstein, Oranit Dror, Idit Diamant, Roy H. Jennings and Arnon Netzer(参考訳) ニューラルネットワーク量子化は、エッジデバイスへのモデルのデプロイを可能にする。 ハードウェア効率にとって必須の要件は、量子化器がハードウェアに優しく、一様で対称で、2つのしきい値を持つことである。 我々の知る限り、現在のポストトレーニング量子化法はこれらの制約をすべて同時にサポートしていない。 本稿では,いくつかの既知の量子化手法を相乗的に組み合わせることでこの問題に対処する,ハードウェアフレンドリなポストトレーニング量子化(hptq)フレームワークを提案する。 分類,オブジェクト検出,セマンティックセグメンテーション,ポーズ推定の4つのタスクについて,多種多様なネットワークアーキテクチャ上で大規模に検討した。 広範な実験により,ハードウェアフレンドリーな制約下での競争結果が得られることを示した。

Neural network quantization enables the deployment of models on edge devices. An essential requirement for their hardware efficiency is that the quantizers are hardware-friendly: uniform, symmetric, and with power-of-two thresholds. To the best of our knowledge, current post-training quantization methods do not support all of these constraints simultaneously. In this work, we introduce a hardware-friendly post training quantization (HPTQ) framework, which addresses this problem by synergistically combining several known quantization methods. We perform a large-scale study on four tasks: classification, object detection, semantic segmentation and pose estimation over a wide variety of network architectures. Our extensive experiments show that competitive results can be obtained under hardware-friendly constraints.
翻訳日:2021-09-22 10:30:09 公開日:2021-09-19
# (参考訳) ゼロショット多言語バックトランスレーションによる著者プロファイリングの防止 [全文訳有]

Preventing Author Profiling through Zero-Shot Multilingual Back-Translation ( http://arxiv.org/abs/2109.09133v1 )

ライセンス: CC BY 4.0
David Ifeoluwa Adelani, Miaoran Zhang, Xiaoyu Shen, Ali Davody, Thomas Kleinbauer, and Dietrich Klakow(参考訳) 単文ほど短い文書では、性別や民族など、著者に関する機密情報が不注意に明かされることがある。 スタイル転送は、著者のプロファイリングを可能にする情報を取り除くために、テキストを変換する効果的な方法である。 しかし、現在の多くの最先端のアプローチでは、改善されたプライバシには変換データのダウンストリームユーティリティが望ましくない低下が伴う。 本稿では,本論文の翻訳モデルを用いて,多言語逆翻訳による著者プロファイルのリスクを効果的に低減する簡易なゼロショット手法を提案する。 我々は、異なるドメインにわたる3つのデータセット上の5つの代表的なテキストスタイル転送モデルと比較する。 自動評価と人的評価の両方の結果から,本手法はトレーニングデータを必要とせず,最高の総合的な性能を達成することが示された。 私たちは、性別と人種の敵対的な予測を最大222ドルまで下げることができ、一方、下流タスクで元のユーティリティの95セントを維持できます。

Documents as short as a single sentence may inadvertently reveal sensitive information about their authors, including e.g. their gender or ethnicity. Style transfer is an effective way of transforming texts in order to remove any information that enables author profiling. However, for a number of current state-of-the-art approaches the improved privacy is accompanied by an undesirable drop in the down-stream utility of the transformed data. In this paper, we propose a simple, zero-shot way to effectively lower the risk of author profiling through multilingual back-translation using off-the-shelf translation models. We compare our models with five representative text style transfer models on three datasets across different domains. Results from both an automatic and a human evaluation show that our approach achieves the best overall performance while requiring no training data. We are able to lower the adversarial prediction of gender and race by up to $22\%$ while retaining $95\%$ of the original utility on downstream tasks.
翻訳日:2021-09-22 10:14:51 公開日:2021-09-19
# (参考訳) LODE: ローカルの深い欠陥と新しいベンチマーク [全文訳有]

LODE: Deep Local Deblurring and A New Benchmark ( http://arxiv.org/abs/2109.09149v1 )

ライセンス: CC BY 4.0
Zerun Wang, Liuyu Xiang, Fan Yang, Jinzhao Qian, Jie Hu, Haidong Huang, Jungong Han, Yuchen Guo, Guiguang Ding(参考訳) 最近のディープ・デブロワーリング・アルゴリズムは目覚ましい進歩を遂げているが、既存のほとんどの手法は、画像のぼやけが激しいカメラの揺れによって生じるグローバル・デブロワーリング問題に焦点を当てている。 比較的静的な背景を持つ移動物体から主に派生した局所的ぼかしが一般的であるが、未探索のままである。 本稿では,まず,3,700個の実世界の局所的ぼやけた画像とそれに対応する地表面からなるローカルデブラリング(lode)データセットを構築し,ローカルデブラリングのためのデータ基盤を構築した。 次に,局所ブラインド合成モジュールは局所的にぼやけたトレーニングペアを生成し,局所ブラインド知覚モジュールは局所的にぼやけた領域を自動捕捉し,Blur-guided Space Attentionモジュールは空間的に注意を払って遅延ネットワークを誘導する,3つのコンポーネントを含む,BLur-Aware Deblurring Network (BladeNet) と呼ばれる新しいフレームワークを提案する。 このフレームワークは柔軟で、既存の多くのSotAアルゴリズムと組み合わせることができる。 我々は,REDS と LODE データセットの広範な実験を行い,BladeNet がPSNR を 2.5dB で改善し,SotAs を局所的に改善し,グローバルデブロアに匹敵する性能を維持した。 データセットとコードを公開します。

While recent deep deblurring algorithms have achieved remarkable progress, most existing methods focus on the global deblurring problem, where the image blur mostly arises from severe camera shake. We argue that the local blur, which is mostly derived from moving objects with a relatively static background, is prevalent but remains under-explored. In this paper, we first lay the data foundation for local deblurring by constructing, for the first time, a LOcal-DEblur (LODE) dataset consisting of 3,700 real-world captured locally blurred images and their corresponding ground-truth. Then, we propose a novel framework, termed BLur-Aware DEblurring network (BladeNet), which contains three components: the Local Blur Synthesis module generates locally blurred training pairs, the Local Blur Perception module automatically captures the locally blurred region and the Blur-guided Spatial Attention module guides the deblurring network with spatial attention. This framework is flexible such that it can be combined with many existing SotA algorithms. We carry out extensive experiments on REDS and LODE datasets showing that BladeNet improves PSNR by 2.5dB over SotAs for local deblurring while keeping comparable performance for global deblurring. We will publish the dataset and codes.
翻訳日:2021-09-22 10:03:00 公開日:2021-09-19
# (参考訳) 自己監督表現の一般化可能性に関する研究

A Study of the Generalizability of Self-Supervised Representations ( http://arxiv.org/abs/2109.09150v1 )

ライセンス: CC BY 4.0
Atharva Tendle and Mohammad Rashedul Hasan(参考訳) 近年の自己教師付き学習(SSL)により、ラベルのないデータから一般化可能な視覚表現を学習できるようになった。 事前訓練されたSSL表現に基づいて微調整されたDeep Learningモデルの性能は、最先端の教師あり学習(SL)表現で微調整されたモデルと同等である。 SSLの進歩を無視すると、その一般化性は広く研究されていない。 本稿では、転送学習分類タスクのドメインベース研究を行い、事前学習されたsslおよびsl表現の一般化可能性についてより深い分析を行う。 表現はImageNetソースデータから学習され、ソースデータセットに似た2種類のターゲットデータセットを使用して微調整され、ソースデータセットと大きく異なる。 本稿では,SSLモデルとSLモデルの一般化可能性について,予測精度と予測信頼度を用いて検討する。 これに加えて、これらのモデルの最終畳み込み層の帰属を分析し、データの意味的同一性についてどのように考えるかを理解する。 SSL表現はSL表現と比較して一般化可能であることを示す。 本稿では,その不変性を調べることによってSSL表現の一般化可能性を説明し,SL表現よりも優れていることを示す。

Recent advancements in self-supervised learning (SSL) made it possible to learn generalizable visual representations from unlabeled data. The performance of Deep Learning models fine-tuned on pretrained SSL representations is on par with models fine-tuned on the state-of-the-art supervised learning (SL) representations. Irrespective of the progress made in SSL, its generalizability has not been studied extensively. In this article, we perform a deeper analysis of the generalizability of pretrained SSL and SL representations by conducting a domain-based study for transfer learning classification tasks. The representations are learned from the ImageNet source data, which are then fine-tuned using two types of target datasets: similar to the source dataset, and significantly different from the source dataset. We study generalizability of the SSL and SL-based models via their prediction accuracy as well as prediction confidence. In addition to this, we analyze the attribution of the final convolutional layer of these models to understand how they reason about the semantic identity of the data. We show that the SSL representations are more generalizable as compared to the SL representations. We explain the generalizability of the SSL representations by investigating its invariance property, which is shown to be better than that observed in the SL representations.
翻訳日:2021-09-22 09:42:27 公開日:2021-09-19
# (参考訳) 体積保存力学学習のための局所シンプレクティックニューラルネットワーク [全文訳有]

Locally-symplectic neural networks for learning volume-preserving dynamics ( http://arxiv.org/abs/2109.09151v1 )

ライセンス: CC BY 4.0
J\=anis Baj\=ars(参考訳) 音量保存力学を学習するための局所シンプレクティックニューラルネットワーク LocSympNets を提案する。 LocSympNets の構成は、体積保存力学系のベクトル場の局所ハミルトン記述の定理とシンプレクティック積分器に基づく分割法に由来する。 最近提案されたシンプレクティシティ保存ニューラルネットワークの修正勾配モジュールは、局所的なシンプレクティクスモジュールを構築するために使用される。 自由剛体運動の半離散化随伴方程式やオイラー方程式など、線形および非線形力学を考慮に入れて数値的に研究する。 LocSympNetsは線形および非線形のダイナミクスを高い精度で学習することができる。 剛体力学の1つの軌道を学習する場合、ランダムにサンプリングされたデータからシステム全体の学習を考慮すれば、長期予測において絶対相対誤差が1%未満のシステムの両方の不変量を学び、質的に優れた短時間予測を生成することができる。

We propose locally-symplectic neural networks LocSympNets for learning volume-preserving dynamics. The construction of LocSympNets stems from the theorem of local Hamiltonian description of the vector field of a volume-preserving dynamical system and the splitting methods based on symplectic integrators. Modified gradient modules of recently proposed symplecticity-preser ving neural networks SympNets are used to construct locally-symplectic modules, which composition results in volume-preserving neural networks. LocSympNets are studied numerically considering linear and nonlinear dynamics, i.e., semi-discretized advection equation and Euler equations of the motion of a free rigid body, respectively. LocSympNets are able to learn linear and nonlinear dynamics to high degree of accuracy. When learning a single trajectory of the rigid body dynamics LocSympNets are able to learn both invariants of the system with absolute relative errors below 1% in long-time predictions and produce qualitatively good short-time predictions, when the learning of the whole system from randomly sampled data is considered.
翻訳日:2021-09-22 09:39:01 公開日:2021-09-19
# (参考訳) 分類規則集合の理解における視覚因子の探索と検証 [全文訳有]

An Exploration And Validation of Visual Factors in Understanding Classification Rule Sets ( http://arxiv.org/abs/2109.09160v1 )

ライセンス: CC BY-SA 4.0
Jun Yuan, Oded Nov, Enrico Bertini(参考訳) ルールセットは、透明性と知性が必要な設定でモデルロジックを伝える手段として、機械学習(ML)でよく使用される。 ルールセットは通常、論理文(ルール)のテキストベースのリストとして表示される。 驚いたことに、これまでルールを提示するための視覚的な代替方法を探求する作業は限られていた。 本稿では、ルールの代替表現をデザインするアイデアを考察し、ルールの可読性と理解にポジティブな影響を与えると思われる多くの視覚的要素に焦点を当てる。 次に,その影響を考察するユーザスタディを提案する。 その結果, 設計要因のいくつかは, 精度への影響を最小限に抑えつつ, 読者がいかに効率的にルールを処理できるかに強い影響を与えていることがわかった。 この作業は、MLモデルを理解するためのコミュニケーション戦略としてルールを使用する場合、実践者がより効果的なソリューションを採用するのに役立つ。

Rule sets are often used in Machine Learning (ML) as a way to communicate the model logic in settings where transparency and intelligibility are necessary. Rule sets are typically presented as a text-based list of logical statements (rules). Surprisingly, to date there has been limited work on exploring visual alternatives for presenting rules. In this paper, we explore the idea of designing alternative representations of rules, focusing on a number of visual factors we believe have a positive impact on rule readability and understanding. We then presents a user study exploring their impact. The results show that some design factors have a strong impact on how efficiently readers can process the rules while having minimal impact on accuracy. This work can help practitioners employ more effective solutions when using rules as a communication strategy to understand ML models.
翻訳日:2021-09-22 09:22:48 公開日:2021-09-19
# (参考訳) CaTGrasp:シミュレーションによるクラッタのカテゴリーレベルタスク関連グラフ作成 [全文訳有]

CaTGrasp: Learning Category-Level Task-Relevant Grasping in Clutter from Simulation ( http://arxiv.org/abs/2109.09163v1 )

ライセンス: CC BY 4.0
Bowen Wen and Wenzhao Lian and Kostas Bekris and Stefan Schaal(参考訳) 下流操作タスクが有効な把握セットを制約する産業アセンブリでは,タスク関連把握が重要である。 しかし、タスク関係の把握ラベルの定義や注釈が難しいため、このタスクの実行方法を学ぶのは困難である。 モデリングのための適切な表現や、タスク関連の把握を行うためのオフ・ザ・棚のツールに関するコンセンサスもまだ存在しない。 本研究では,実世界のデータ収集や手動アノテーションを必要とせずに,産業オブジェクトのタスク関連把握を学習するフレームワークを提案する。 これを達成するために、フレームワーク全体は、合成ラベル生成による教師付きトレーニングや、自己教師付きハンドオブジェクトインタラクションを含む、シミュレーションのみでトレーニングされる。 本稿では,対象インスタンス間の密接な対応を確立し,タスク関係の把握を新たなインスタンスに伝達する,カテゴリレベルでのオブジェクト中心の標準表現を提案する。 密集した産業用物体のタスク関連把握に関する広範囲な実験をシミュレーションと実世界の双方で行い,提案手法の有効性を実証した。 コードとデータはhttps://sites.google .com/view/catgraspで公開される。

Task-relevant grasping is critical for industrial assembly, where downstream manipulation tasks constrain the set of valid grasps. Learning how to perform this task, however, is challenging, since task-relevant grasp labels are hard to define and annotate. There is also yet no consensus on proper representations for modeling or off-the-shelf tools for performing task-relevant grasps. This work proposes a framework to learn task-relevant grasping for industrial objects without the need of time-consuming real-world data collection or manual annotation. To achieve this, the entire framework is trained solely in simulation, including supervised training with synthetic label generation and self-supervised, hand-object interaction. In the context of this framework, this paper proposes a novel, object-centric canonical representation at the category level, which allows establishing dense correspondence across object instances and transferring task-relevant grasps to novel instances. Extensive experiments on task-relevant grasping of densely-cluttered industrial objects are conducted in both simulation and real-world setups, demonstrating the effectiveness of the proposed framework. Code and data will be released upon acceptance at https://sites.google .com/view/catgrasp.
翻訳日:2021-09-22 09:13:36 公開日:2021-09-19
# (参考訳) 形状抽出によるガウス過程を用いた確率的軸受異常診断 [全文訳有]

Probabilistic Bearing Fault Diagnosis Using Gaussian Process with Tailored Feature Extraction ( http://arxiv.org/abs/2109.09189v1 )

ライセンス: CC BY 4.0
Mingxuan Liang, Kai Zhou(参考訳) 転がり軸受は、過酷な環境下での長時間の運転により、機械システムの予期せぬ故障や重大事故を引き起こす様々な障害にさらされている。 近年,深層学習が関心を集め,データ駆動型ベアリング障害診断に広く応用されている。 しかし,現在の深層学習法では,必然的に存在する不確かさを無視する決定論的分類という形で,ベアリング障害の診断を行う。 この問題に対処するため,本研究では,予測の不確実性を考慮した確率的故障診断フレームワークを開発した。 このフレームワークはガウスプロセス分類器(GPC)の確率的特徴を完全に活用する。 高忠実度GPCの確立を容易にするため、多種多様なカーネル主成分分析(KPCA)法と積み重ねオートエンコーダからなる所定の方法プール上で、クロスバリデーションに基づくグリッドサーチにより、分割された特徴抽出を最適に行うことができる。 この戦略は、特徴と欠点の間の複雑な非線形関係を適切に特徴付けることができる。 さらに、診断性能を高めるためにセンサ融合の概念を採用する。 従来のディープラーニング手法と比較すると,このフレームワークではラベル付きデータが少なく,パラメータチューニングの労力も少ないのが一般的である。 実験用転がり軸受データセットを用いたシステムケーススタディを行い,本フレームワークの有効性を検証した。 また, 故障診断性能に及ぼす各種要因について検討した。

Rolling bearings are subject to various faults due to its long-time operation under harsh environment, which will lead to unexpected breakdown of machinery system and cause severe accidents. Deep learning methods recently have gained growing interests and extensively applied in the data-driven bearing fault diagnosis. However, current deep learning methods perform the bearing fault diagnosis in the form of deterministic classification, which overlook the uncertainties that inevitably exist in actual practice. To tackle this issue, in this research we develop a probabilistic fault diagnosis framework that can account for the uncertainty effect in prediction, which bears practical significance. This framework fully leverages the probabilistic feature of Gaussian process classifier (GPC). To facilitate the establishment of high-fidelity GPC, the tailored feature extraction with dimensionality reduction method can be optimally determined through the cross validation-based grid search upon a prespecified method pool consisting of various kernel principal component analysis (KPCA) methods and stacked autoencoder. This strategy can ensure the complex nonlinear relations between the features and faults to be adequately characterized. Furthermore, the sensor fusion concept is adopted to enhance the diagnosis performance. As compared with the traditional deep learning methods, this proposed framework usually requires less labeled data and less effort for parameter tuning. Systematic case studies using the publicly accessible experimental rolling bearing dataset are carried out to validate this new framework. Various influencing factors on fault diagnosis performance also are thoroughly investigated.
翻訳日:2021-09-22 08:55:00 公開日:2021-09-19
# (参考訳) オンラインソーシャルネットワークにおけるリンク予測のためのegoネットワークレイヤのパワー活用 [全文訳有]

Harnessing the Power of Ego Network Layers for Link Prediction in Online Social Networks ( http://arxiv.org/abs/2109.09190v1 )

ライセンス: CC BY 4.0
Mustafa Toprak, Chiara Boldrini, Andrea Passarella, Marco Conti(参考訳) オンラインソーシャルネットワークにおけるユーザー間のリンクを推薦できることは、ユーザーが同志の個人とつながり、プラットフォーム自体やサードパーティーがソーシャルメディア情報を活用してビジネスを成長させる上で重要である。 予測は一般に教師なしの学習や教師なしの学習に基づいており、しばしば普通の隣人数のような単純で効果的なグラフトポロジー情報を活用する。 しかし、個人の社会的構造に関するより豊かな情報は、より良い予測につながるかもしれないと論じる。 本稿では,確立された社会的認知理論を活用し,リンク予測の性能を向上させることを提案する。 これらの理論によれば、個人は平均して5つの同心円に沿って社会的関係を配置し、親密性を減少させる。 異なるサークルにおける関係は、新しいリンクを予測する上で異なる重要性を持つと仮定する。 この主張を検証するために、一般的な特徴抽出予測アルゴリズム(教師なしと教師なしの両方)に注目し、社会循環認識を含むように拡張する。 我々は,これらのサークル認識アルゴリズムの予測性能を,複数のベンチマーク(ベースラインバージョン,ノード埋め込みおよびGNNベースのリンク予測を含む)に対して検証し,ビデオゲーマーとジェネリックユーザからなる2つのTwitterデータセットを活用する。 また,node2vec や seal のような最先端のソリューションを上回り,計算の複雑さを増すことなく,ソーシャルアウェアネスによって予測性能が大幅に向上することを示した。 最後に,ソーシャル・アウェアネスは,特定のカテゴリを対象とする分類器(費用がかかるか実用的でないか)の代わりに利用できることを示す。

Being able to recommend links between users in online social networks is important for users to connect with like-minded individuals as well as for the platforms themselves and third parties leveraging social media information to grow their business. Predictions are typically based on unsupervised or supervised learning, often leveraging simple yet effective graph topological information, such as the number of common neighbors. However, we argue that richer information about personal social structure of individuals might lead to better predictions. In this paper, we propose to leverage well-established social cognitive theories to improve link prediction performance. According to these theories, individuals arrange their social relationships along, on average, five concentric circles of decreasing intimacy. We postulate that relationships in different circles have different importance in predicting new links. In order to validate this claim, we focus on popular feature-extraction prediction algorithms (both unsupervised and supervised) and we extend them to include social-circles awareness. We validate the prediction performance of these circle-aware algorithms against several benchmarks (including their baseline versions as well as node-embedding- and GNN-based link prediction), leveraging two Twitter datasets comprising a community of video gamers and generic users. We show that social-awareness generally provides significant improvements in the prediction performance, beating also state-of-the-art solutions like node2vec and SEAL, and without increasing the computational complexity. Finally, we show that social-awareness can be used in place of using a classifier (which may be costly or impractical) for targeting a specific category of users.
翻訳日:2021-09-22 08:38:44 公開日:2021-09-19
# (参考訳) 要約の事実整合性評価のためのクラウドソーシングプロトコルの検討 [全文訳有]

Investigating Crowdsourcing Protocols for Evaluatingthe Factual Consistency of Summaries ( http://arxiv.org/abs/2109.09195v1 )

ライセンス: CC BY 4.0
Xiangru Tang, Alexander R. Fabbri, Ziming Mao, Griffin Adams, Borui Wang, Haoran Li, Yashar Mehdad, Dragomir Radev(参考訳) 要約に適用される現在の事前学習モデルは、ソーステキストを誤って表現したり、外部情報を導入したりする事実上の矛盾を生じやすい。 したがって、改良されたモデルを開発するためには、要約の事実整合性を比較する必要がある。 しかし,現実整合性のための最適な人的評価設定は標準化されていない。 この問題に対処するため,CNN-Daily Mail と XSum の各データセットから,評価ベースの Likert スケールとランキングベースの Best-Worst Scaling プロトコルを用いて,4つの最先端モデル上で100の項目をクラウドソーシングし,最も信頼性の高い評価フレームワークを決定する。 ランキングベースのプロトコルはデータセット間の要約品質をより信頼性の高い尺度を提供するのに対し、Likertレーティングの信頼性はターゲットデータセットと評価設計に依存する。 我々のクラウドソーシングテンプレートと要約評価は、要約における事実整合性の研究を促進するために公開される。

Current pre-trained models applied to summarization are prone to factual inconsistencies which either misrepresent the source text or introduce extraneous information. Thus, comparing the factual consistency of summaries is necessary as we develop improved models. However, the optimal human evaluation setup for factual consistency has not been standardized. To address this issue, we crowdsourced evaluations for factual consistency using the rating-based Likert scale and ranking-based Best-Worst Scaling protocols, on 100 articles from each of the CNN-Daily Mail and XSum datasets over four state-of-the-art models, to determine the most reliable evaluation framework. We find that ranking-based protocols offer a more reliable measure of summary quality across datasets, while the reliability of Likert ratings depends on the target dataset and the evaluation design. Our crowdsourcing templates and summary evaluations will be publicly available to facilitate future research on factual consistency in summarization.
翻訳日:2021-09-22 08:03:36 公開日:2021-09-19
# (参考訳) 深層学習に基づく自動・説明可能なオントロジー拡張:化学領域を事例として [全文訳有]

Automated and Explainable Ontology Extension Based on Deep Learning: A Case Study in the Chemical Domain ( http://arxiv.org/abs/2109.09202v1 )

ライセンス: CC BY 4.0
Adel Memariani, Martin Glauer, Fabian Neuhaus, Till Mossakowski and Janna Hastings(参考訳) 参照オントロジーは、そのドメインに対して共有語彙と知識リソースを提供します。 手作業による構築により、高品質の維持が可能になり、コミュニティ全体で広く受け入れられるようになる。 しかし、手動開発プロセスは大規模ドメインではスケールしない。 本稿では, 生命化学のオントロジーとして注目されるChEBIオントロジーに, 自動オントロジー拡張のための新しい方法論を提案する。 我々は,ChEBIオントロジーとそれらが属するクラスから,葉ノード構造に基づくトランスフォーマーに基づくディープラーニングモデルを訓練した。 このモデルでは、これまで見えない化学構造を自動的に分類することができる。 提案モデルでは,F1スコア0.80を達成し,前回の結果よりも6ポイント向上した。 さらに,モデルの注意重みの可視化が,モデルの意思決定方法に関する洞察を提供することによって,結果を説明する上でどのように役立つかを実証する。

Reference ontologies provide a shared vocabulary and knowledge resource for their domain. Manual construction enables them to maintain a high quality, allowing them to be widely accepted across their community. However, the manual development process does not scale for large domains. We present a new methodology for automatic ontology extension and apply it to the ChEBI ontology, a prominent reference ontology for life sciences chemistry. We trained a Transformer-based deep learning model on the leaf node structures from the ChEBI ontology and the classes to which they belong. The model is then capable of automatically classifying previously unseen chemical structures. The proposed model achieved an overall F1 score of 0.80, an improvement of 6 percentage points over our previous results on the same dataset. Additionally, we demonstrate how visualizing the model's attention weights can help to explain the results by providing insight into how the model made its decisions.
翻訳日:2021-09-22 07:53:44 公開日:2021-09-19
# (参考訳) cliff: 抽象要約における忠実性と事実性を改善するための対比学習 [全文訳有]

CLIFF: Contrastive Learning for Improving Faithfulness and Factuality in Abstractive Summarization ( http://arxiv.org/abs/2109.09209v1 )

ライセンス: CC BY 4.0
Shuyang Cao and Lu Wang(参考訳) 我々は、与えられた記事に忠実で事実に整合した抽象的な要約を生成することを研究する。 参照要約を正のトレーニングデータとして活用し、誤要約を負のトレーニングデータとして自動生成し、両者を区別し易い要約システムを訓練する、新しいコントラスト学習定式化を提案する。 さらに、我々は、新しい人間の要約エラーアノテーションに見られる2つの最先端モデルであるBARTとPEGASUSのエラーとよく似た、ネガティブなサンプルを作成するための4種類の戦略を設計する。 XSumとCNN/Daily Mailの実験は、私たちの対照的な学習フレームワークがデータセットやモデル間で堅牢であることを示している。 qaベースの事実度評価によれば、一貫して、誤り訂正の強い比較、補足に基づく再ランク付け、不一致トレーニングよりも多くの事実要約を生成する。 人間の判断は観察を反響させ、我々のモデルの概要がより多くの誤りを正すことを見つける。

We study generating abstractive summaries that are faithful and factually consistent with the given articles. A novel contrastive learning formulation is presented, which leverages both reference summaries, as positive training data, and automatically generated erroneous summaries, as negative training data, to train summarization systems that are better at distinguishing between them. We further design four types of strategies for creating negative samples, to resemble errors made commonly by two state-of-the-art models, BART and PEGASUS, found in our new human annotations of summary errors. Experiments on XSum and CNN/Daily Mail show that our contrastive learning framework is robust across datasets and models. It consistently produces more factual summaries than strong comparisons with post error correction, entailment-based reranking, and unlikelihood training, according to QA-based factuality evaluation. Human judges echo the observation and find that our model summaries correct more errors.
翻訳日:2021-09-22 07:36:53 公開日:2021-09-19
# (参考訳) ARCA23K:オープンセットラベルノイズを調査するためのオーディオデータセット [全文訳有]

ARCA23K: An audio dataset for investigating open-set label noise ( http://arxiv.org/abs/2109.09227v1 )

ライセンス: CC0 1.0
Turab Iqbal, Yin Cao, Andrew Bailey, Mark D. Plumbley, Wenwu Wang(参考訳) freesoundのような音声共有プラットフォームでオーディオデータが利用できるため、ユーザーは大量の注釈付きオーディオにアクセスできる。 このようなデータをトレーニングに利用することはますます普及しているが、このようなデータセットでよく見られるラベルノイズの問題にはさらなる調査が必要である。 本稿では,23000以上のラベル付きフリーサウンドクリップからなる音声データセットであるarca23kについて述べる。 FSDKaggle2018やFSDnoisy18Kのような過去のデータセットとは異なり、ARCA23Kはより制御された方法でラベルノイズの研究を促進する。 私たちは、データセットの作成プロセス全体を、完全に再現可能なように記述します。 本稿では,ARCA23Kのラベリング誤りの大部分は語彙外音声クリップによるものであり,このタイプのラベリングノイズをオープンセットラベルノイズと呼ぶ。 分類性能と表現学習の観点からラベルノイズの影響について検討する実験を行った。

The availability of audio data on sound sharing platforms such as Freesound gives users access to large amounts of annotated audio. Utilising such data for training is becoming increasingly popular, but the problem of label noise that is often prevalent in such datasets requires further investigation. This paper introduces ARCA23K, an Automatically Retrieved and Curated Audio dataset comprised of over 23000 labelled Freesound clips. Unlike past datasets such as FSDKaggle2018 and FSDnoisy18K, ARCA23K facilitates the study of label noise in a more controlled manner. We describe the entire process of creating the dataset such that it is fully reproducible, meaning researchers can extend our work with little effort. We show that the majority of labelling errors in ARCA23K are due to out-of-vocabulary audio clips, and we refer to this type of label noise as open-set label noise. Experiments are carried out in which we study the impact of label noise in terms of classification performance and representation learning.
翻訳日:2021-09-22 07:12:35 公開日:2021-09-19
# (参考訳) チェックでupv! 2021年多言語チェック価値のある主張の文化的差異を誤認 [全文訳有]

UPV at CheckThat! 2021: Mitigating Cultural Differences for Identifying Multilingual Check-worthy Claims ( http://arxiv.org/abs/2109.09232v1 )

ライセンス: CC BY 4.0
Ipek Baris Schlicht, Angel Felipe Magnoss\~ao de Paula and Paolo Rosso(参考訳) チェックに値するクレームを特定することは、自動化されたファクトチェックシステムの最初のステップであることが多い。 このタスクを多言語で処理する方法が検討されている。 多言語テキスト表現による入力のエンコーディングは、多言語チェック値検出の1つの方法である。 そこで,本研究では,不意のバイアスを緩和するための補助タスクとして,言語識別タスクを提案する。本研究の目的は,英語,アラビア語,ブルガリア語,スペイン語,トルコ語のツイートを含むclef-2021 checkthat!のデータセットを用いて,共同トレーニングを行うことである。 その結果,言語識別とチェックアワーなクレーム検出タスクを併用することで,選択した言語の性能向上が期待できることがわかった。

Identifying check-worthy claims is often the first step of automated fact-checking systems. Tackling this task in a multilingual setting has been understudied. Encoding inputs with multilingual text representations could be one approach to solve the multilingual check-worthiness detection. However, this approach could suffer if cultural bias exists within the communities on determining what is check-worthy.In this paper, we propose a language identification task as an auxiliary task to mitigate unintended bias.With this purpose, we experiment joint training by using the datasets from CLEF-2021 CheckThat!, that contain tweets in English, Arabic, Bulgarian, Spanish and Turkish. Our results show that joint training of language identification and check-worthy claim detection tasks can provide performance gains for some of the selected languages.
翻訳日:2021-09-22 07:00:57 公開日:2021-09-19
# (参考訳) ハッカ検出のための統一多言語著者プロファイリング [全文訳有]

Unified and Multilingual Author Profiling for Detecting Haters ( http://arxiv.org/abs/2109.09233v1 )

ライセンス: CC BY 4.0
Ipek Baris Schlicht and Angel Felipe Magnoss\~ao de Paula(参考訳) 本稿では,言語に関係なくツイートを処理してヘイトスピーチスプレッダーを識別する統一ユーザプロファイリングフレームワークを提案する。 このフレームワークは、ツイートを文変換でエンコードし、ユーザープロファイルを学ぶために重要なツイートを選択するための注意メカニズムを適用する。 さらに、注意層は、トークンレベルとポストレベルの両方で注意重み付けを行うことにより、ユーザがヘイトスピーチスプレッダーである理由を説明するのに役立つ。 提案モデルは最先端の多言語トランスフォーマーモデルよりも優れていた。

This paper presents a unified user profiling framework to identify hate speech spreaders by processing their tweets regardless of the language. The framework encodes the tweets with sentence transformers and applies an attention mechanism to select important tweets for learning user profiles. Furthermore, the attention layer helps to explain why a user is a hate speech spreader by producing attention weights at both token and post level. Our proposed model outperformed the state-of-the-art multilingual transformer models.
翻訳日:2021-09-22 06:49:28 公開日:2021-09-19
# (参考訳) mirrorwic: 事前学習された言語モデルからの文脈内表現の省略について [全文訳有]

MirrorWiC: On Eliciting Word-in-Context Representations from Pretrained Language Models ( http://arxiv.org/abs/2109.09237v1 )

ライセンス: CC BY 4.0
Qianchu Liu, Fangyu Liu, Nigel Collier, Anna Korhonen, Ivan Vuli\'c(参考訳) 近年の研究では,BERT や RoBERTa などの事前学習言語モデル (PLM) が,単純な自己指導手法でも有効文や単語エンコーダに変換できることが示されている。 本稿では,PLMにおけるワード・イン・コンテクスト(WiC)表現を改善するための,シンプルで効率的なWiCターゲットファインチューニング手法であるMirrorWiCを提案する。 提案手法は,ウィキペディアから採取した原文のみを利用して,標準的なコントラスト学習装置内で,文脈対応の単語表現を学習する。 複数の言語にまたがる一連の標準および包括的なWiCベンチマークを実験した。 提案する完全教師なしミラーウィックモデルでは,全単言語,多言語,多言語間,多言語間において,既成のplmを大きく上回っている。 さらに、標準的なWiCベンチマークでは、MirrorWiCは、タスク内データとセンスラベルで微調整された教師付きモデルと同等である。

Recent work indicated that pretrained language models (PLMs) such as BERT and RoBERTa can be transformed into effective sentence and word encoders even via simple self-supervised techniques. Inspired by this line of work, in this paper we propose a fully unsupervised approach to improving word-in-context (WiC) representations in PLMs, achieved via a simple and efficient WiC-targeted fine-tuning procedure: MirrorWiC. The proposed method leverages only raw texts sampled from Wikipedia, assuming no sense-annotated data, and learns context-aware word representations within a standard contrastive learning setup. We experiment with a series of standard and comprehensive WiC benchmarks across multiple languages. Our proposed fully unsupervised MirrorWiC models obtain substantial gains over off-the-shelf PLMs across all monolingual, multilingual and cross-lingual setups. Moreover, on some standard WiC benchmarks, MirrorWiC is even on-par with supervised models fine-tuned with in-task data and sense labels.
翻訳日:2021-09-22 06:40:18 公開日:2021-09-19
# (参考訳) 胸部ctスキャンの多施設データセットによるcovid-19病診断のためのロバスト自動フレームワーク [全文訳有]

Robust Automated Framework for COVID-19 Disease Identification from a Multicenter Dataset of Chest CT Scans ( http://arxiv.org/abs/2109.09241v1 )

ライセンス: CC BY 4.0
Shahin Heidarian, Parnian Afshar, Nastaran Enshaei, Farnoosh Naderkhani, Moezedin Javad Rafiee, Anastasia Oikonomou, Akbar Shafiee, Pascal N. Tyrrell, Faranak Babaki Fard, Konstantinos N. plataniotis, Arash Mohammadi(参考訳) 本研究の目的は,様々な画像センタで取得した胸部ctスキャンと放射線線量に基づいて,covid-19,市中肺炎(cap),正常症例を識別するための強固な深層学習に基づく枠組みを開発することである。 提案手法は,特定の走査プロトコルを用いて1つの撮像センタから取得した比較的小さなデータセット上でトレーニングされるが,複数のスキャナが異なる技術パラメータを用いて取得した異種テストセット上では良好に動作することを示した。 また、列車とテストセット間のデータシフトに対応し、別のセンターから新しい外部データセットを受け取ることでモデルの堅牢性を高めるために、教師なしのアプローチでモデルを更新することが可能であることを示した。 モデルの複数のバージョンから予測を集約するために,アンサンブルアーキテクチャを採用した。 最初の訓練と開発目的のために、標準放射線線量スキャンプロトコルを用いて1つのイメージングセンターから取得したボリュームCTを含む171 COVID-19, 60 CAP, 76の正常症例の社内データセットが使用された。 モデルを評価するために,データ特性の変化がモデルの性能に与える影響を検討するために,4つの異なるテストセットを振り返って収集した。 試験例では,列車セットと類似したCTスキャン,低用量および超低用量CTスキャンが検出された。 また、心臓血管疾患や手術歴のある患者からいくつかのctスキャンが得られた。 この研究で使用されたテストデータセットは、51のcovid-19、28のcap、51の正常例であった。 実験の結果,本フレームワークは96.15% (95%CI: [91.25-98.74]), 新型コロナウイルス感受性96.08% (95%CI: [86.54-99.5]), CAP感受性92.86% (95%CI: [76.50-99.19]) を達成できることを確認した。

The objective of this study is to develop a robust deep learning-based framework to distinguish COVID-19, Community-Acquired Pneumonia (CAP), and Normal cases based on chest CT scans acquired in different imaging centers using various protocols, and radiation doses. We showed that while our proposed model is trained on a relatively small dataset acquired from only one imaging center using a specific scanning protocol, the model performs well on heterogeneous test sets obtained by multiple scanners using different technical parameters. We also showed that the model can be updated via an unsupervised approach to cope with the data shift between the train and test sets and enhance the robustness of the model upon receiving a new external dataset from a different center. We adopted an ensemble architecture to aggregate the predictions from multiple versions of the model. For initial training and development purposes, an in-house dataset of 171 COVID-19, 60 CAP, and 76 Normal cases was used, which contained volumetric CT scans acquired from one imaging center using a constant standard radiation dose scanning protocol. To evaluate the model, we collected four different test sets retrospectively to investigate the effects of the shifts in the data characteristics on the model's performance. Among the test cases, there were CT scans with similar characteristics as the train set as well as noisy low-dose and ultra-low dose CT scans. In addition, some test CT scans were obtained from patients with a history of cardiovascular diseases or surgeries. The entire test dataset used in this study contained 51 COVID-19, 28 CAP, and 51 Normal cases. Experimental results indicate that our proposed framework performs well on all test sets achieving total accuracy of 96.15% (95%CI: [91.25-98.74]), COVID-19 sensitivity of 96.08% (95%CI: [86.54-99.5]), CAP sensitivity of 92.86% (95%CI: [76.50-99.19]).
翻訳日:2021-09-22 06:21:31 公開日:2021-09-19
# 交通網:単一カメラを用いた3次元交通監視

Traffic-Net: 3D Traffic Monitoring Using a Single Camera ( http://arxiv.org/abs/2109.09165v1 )

ライセンス: Link先を確認
Mahdi Rezaei, Mohsen Azarmi, Farzam Mohammad Pour Mir(参考訳) コンピュータビジョンは、インテリジェントトランスポーテーションシステム(ITS)と交通監視において重要な役割を果たしてきた。 急速に成長する自動車両や混雑した都市とともに、ビデオ監視インフラを使用したATM(Automatic and Advanced Traffic Management System)は、Deep Neural Networksの実装によって進化してきた。 本研究では,1台のcctvトラヒックカメラを用いて,3次元車両/歩行者検知,速度検出,軌道推定,渋滞検出,車両と歩行者のインタラクションの監視など,リアルタイム交通監視のための実用的なプラットフォームを提供する。 車両・歩行者検出のためのカスタムYOLOv5ディープニューラルネットワークモデルとSORT追跡アルゴリズムの改良を行った。 カメラ自動校正のためのハイブリッド衛星地上逆視点マッピング(SG-IPM)法も開発され,正確な3次元物体検出と可視化が可能となった。 また,短期および長期の時間的ビデオデータストリームに基づく階層的トラヒックモデリングソリューションを開発し,脆弱な道路利用者のトラヒックフロー,ボトルネック,リスクスポットを理解する。 MIO-TCD, UA-DETRAC, GRAM-RTMなどの交通監視データセットを用いて, 道路, 交差点, 都市部から異なる照明・気象条件下で収集した実世界のシナリオと現状との比較実験を行った。

Computer Vision has played a major role in Intelligent Transportation Systems (ITS) and traffic surveillance. Along with the rapidly growing automated vehicles and crowded cities, the automated and advanced traffic management systems (ATMS) using video surveillance infrastructures have been evolved by the implementation of Deep Neural Networks. In this research, we provide a practical platform for real-time traffic monitoring, including 3D vehicle/pedestrian detection, speed detection, trajectory estimation, congestion detection, as well as monitoring the interaction of vehicles and pedestrians, all using a single CCTV traffic camera. We adapt a custom YOLOv5 deep neural network model for vehicle/pedestrian detection and an enhanced SORT tracking algorithm. For the first time, a hybrid satellite-ground based inverse perspective mapping (SG-IPM) method for camera auto-calibration is also developed which leads to an accurate 3D object detection and visualisation. We also develop a hierarchical traffic modelling solution based on short- and long-term temporal video data stream to understand the traffic flow, bottlenecks, and risky spots for vulnerable road users. Several experiments on real-world scenarios and comparisons with state-of-the-art are conducted using various traffic monitoring datasets, including MIO-TCD, UA-DETRAC and GRAM-RTM collected from highways, intersections, and urban areas under different lighting and weather conditions.
翻訳日:2021-09-21 16:57:32 公開日:2021-09-19
# 動的データフィルタリングによるNLPデータセットのトレーニング

Training Dynamic based data filtering may not work for NLP datasets ( http://arxiv.org/abs/2109.09191v1 )

ライセンス: Link先を確認
Arka Talukdar, Monika Dagar, Prachi Gupta, Varun Menon(参考訳) 最近のデータセットサイズの増加は、自然言語理解に大きな進歩をもたらした。 これらの大きなデータセットは通常、自動化(検索エンジンやWebクローラ)やクラウドソーシングを通じて収集される。 これらのデータセットのトレーニングは記憶と一般化の欠如につながる。 したがって、誤認されたデータの識別と隔離を支援する技術を開発することが重要となる。 本稿では,NLPデータセットにおける誤りのある例を識別・削除するためのAUM(Area Under the Margin)メトリクスの適用性について検討する。 我々は,NLPデータセットのAUM測定値を用いて誤ラベル付きサンプルをフィルタリングできることを見出した。また,かなりの数の正確なラベル付きポイントを除去し,大量の関連言語情報を失うことにつながる。 モデルが構文表現や意味表現に頼るのではなく,分布情報に依存することを示す。

The recent increase in dataset size has brought about significant advances in natural language understanding. These large datasets are usually collected through automation (search engines or web crawlers) or crowdsourcing which inherently introduces incorrectly labeled data. Training on these datasets leads to memorization and poor generalization. Thus, it is pertinent to develop techniques that help in the identification and isolation of mislabelled data. In this paper, we study the applicability of the Area Under the Margin (AUM) metric to identify and remove/rectify mislabelled examples in NLP datasets. We find that mislabelled samples can be filtered using the AUM metric in NLP datasets but it also removes a significant number of correctly labeled points and leads to the loss of a large amount of relevant language information. We show that models rely on the distributional information instead of relying on syntactic and semantic representations.
翻訳日:2021-09-21 16:56:05 公開日:2021-09-19
# 顔認識における隠蔽下での頑健性に向けて

Towards robustness under occlusion for face recognition ( http://arxiv.org/abs/2109.09083v1 )

ライセンス: Link先を確認
Tomas M. Borges and Teofilo E. de Campos and Ricardo de Queiroz(参考訳) 本稿では,ResNetのバックボーンを用いた顔認識パイプラインの性能に及ぼすオクルージョンの影響を評価する。 分類器は、307クラスの5,478の画像を含むCelebA-HQデータセットのサブセットで訓練され、トップ1エラー率は17.91%に達した。 入力画像に適用した8種類のオクルージョンマスクを設計した。 これにより分類器の性能が大幅に低下し、各マスクのエラー率は以前よりも少なくとも2倍悪化した。 咬合下でのロバスト性を高めるため,2つのアプローチを行った。 第1は、事前学習された多元的画像補完ネットワークを用いた画像インペインティングである。 2つ目はCutmixである。これはトレーニングイメージとラベルを長方形のパッチを使って混ぜた正規化戦略であり、分類器は入力の破損に対してより堅牢である。 どちらの戦略も効果的で興味深い結果が得られた。 特にcutmixアプローチは、トレーニング時間がかなり長いにもかかわらず、アプリケーション時に追加のステップを必要とせずにネットワークをより堅牢にする。 異なるオクルージョンマスクを含むデータセットとその塗装済みのデータセットは、この分野の研究を促進するために公開されています。

In this paper, we evaluate the effects of occlusions in the performance of a face recognition pipeline that uses a ResNet backbone. The classifier was trained on a subset of the CelebA-HQ dataset containing 5,478 images from 307 classes, to achieve top-1 error rate of 17.91%. We designed 8 different occlusion masks which were applied to the input images. This caused a significant drop in the classifier performance: its error rate for each mask became at least two times worse than before. In order to increase robustness under occlusions, we followed two approaches. The first is image inpainting using the pre-trained pluralistic image completion network. The second is Cutmix, a regularization strategy consisting of mixing training images and their labels using rectangular patches, making the classifier more robust against input corruptions. Both strategies revealed effective and interesting results were observed. In particular, the Cutmix approach makes the network more robust without requiring additional steps at the application time, though its training time is considerably longer. Our datasets containing the different occlusion masks as well as their inpainted counterparts are made publicly available to promote research on the field.
翻訳日:2021-09-21 16:55:33 公開日:2021-09-19
# RSI-Net:高解像度リモートセンシング画像のセマンティックセグメンテーションのためのGCNとAtrous CNNを統合した2ストリームディープニューラルネットワーク

RSI-Net: Two-Stream Deep Neural Network Integrating GCN and Atrous CNN for Semantic Segmentation of High-resolution Remote Sensing Images ( http://arxiv.org/abs/2109.09148v1 )

ライセンス: Link先を確認
Shuang He, Xia Lu, Jason Gu, Haitong Tang, Qin Yu, Kaiyue Liu, Haozhou Ding, Chunqi Chang, Nizhuan Wang(参考訳) リモートセンシング画像(rsi)の意味セグメンテーションでは,表現力と位置精度のトレードオフが極めて重要である。 どのように効果的にトレードオフを得るかはオープンな問題であり、注意体系や非常に深いモデルを利用する現在のアプローチは、大きなメモリ消費を伴う複雑なモデルをもたらす。 一般に使われている畳み込みニューラルネットワーク(CNN)と固定正方形カーネルを比較すると、グラフ畳み込みニューラルネットワーク(GCN)は隣接する土地被覆間の相関を明示的に利用し、任意に不規則な画像領域で柔軟な畳み込みを行うことができる。 しかし,マルチスケールのアトラス畳み込みネットワーク(DenseAtrousCNet)は受容場を拡大し,画像のグローバルな情報を得ることができる一方で,ターゲットスケールとぼやけた境界のばらつきの問題はGCNでは容易には解決できない。 本稿では,GCNとAtrous CNNの両方の利点に着想を得て,空間的文脈構造を効果的にモデル化・伝播することにより,RSI(RSI-Net)のセマンティックセグメンテーションのための2ストリームディープニューラルネットワークと,画像レベルとグラフレベルの組み合わせによる新しいデコード方式を提案する。 Vaihingen, Potsdam, Gaofen RSIデータセットにおいて, 総合的精度, F1スコア, カッパ係数を6つの最先端RSIセマンティックセマンティックセグメンテーション法と比較して比較した結果, RSI-Netの優れた性能を示した。

For semantic segmentation of remote sensing images (RSI), trade-off between representation power and location accuracy is quite important. How to get the trade-off effectively is an open question, where current approaches of utilizing attention schemes or very deep models result in complex models with large memory consumption. Compared with the popularly-used convolutional neural network (CNN) with fixed square kernels, graph convolutional network (GCN) can explicitly utilize correlations between adjacent land covers and conduct flexible convolution on arbitrarily irregular image regions. However, the problems of large variations of target scales and blurred boundary cannot be easily solved by GCN, while densely connected atrous convolution network (DenseAtrousCNet) with multi-scale atrous convolution can expand the receptive fields and obtain image global information. Inspired by the advantages of both GCN and Atrous CNN, a two-stream deep neural network for semantic segmentation of RSI (RSI-Net) is proposed in this paper to obtain improved performance through modeling and propagating spatial contextual structure effectively and a novel decoding scheme with image-level and graph-level combination. Extensive experiments are implemented on the Vaihingen, Potsdam and Gaofen RSI datasets, where the comparison results demonstrate the superior performance of RSI-Net in terms of overall accuracy, F1 score and kappa coefficient when compared with six state-of-the-art RSI semantic segmentation methods.
翻訳日:2021-09-21 16:55:17 公開日:2021-09-19
# 非イテレーティブクラスタルーティングを用いたカプセルネットワーク

Capsule networks with non-iterative cluster routing ( http://arxiv.org/abs/2109.09213v1 )

ライセンス: Link先を確認
Zhihao Zhao, Samuel Cheng(参考訳) カプセルネットワークは、連続する層間で情報を流すルーティングアルゴリズムを使用する。 既存のルーティング手順では、カプセルは次の層のカプセルの予測(最終投票)を生成する。 簡単に言えば、次の層カプセルの入力は、受け取った全ての票に対する重み付けの合計である。 本稿では,カプセルネットワークのための非イテレーティブクラスタルーティングを提案する。 提案されているクラスタルーティングでは、カプセルは次層カプセルの個別の投票ではなく、投票クラスタを生成し、各投票クラスタは次層カプセルにその中心を送信します。 一般に、次の層カプセルの入力は、受信した各投票クラスタのセントロイド上の重み付き和である。 より小さなばらつきを持つクラスターから来るセンチロイドは、重み付き和過程においてより重い重みを割り当てる。 現状のカプセルネットワークと比較して,提案したカプセルネットワークは,Fashion-MNISTデータセットとSVHNデータセットにおいて,パラメータが少なく,かつ,パラメータが適度な小さなNORBデータセットとCIFAR-10データセット上で最高の精度を達成する。 提案したカプセルネットワークは、不絡み合った表現を持つカプセルも生成し、新しい視点で撮影された画像によく当てはまる。 提案するカプセルネットワークは、カプセルチャネル内の入力画像の2次元空間情報を保存し、カプセルチャネルが回転すると、これらのチャネルから再構成されたオブジェクトは同じ変換によって回転する。 コードはhttps://github.com/z haozhihao/clusterrou tingで入手できる。

Capsule networks use routing algorithms to flow information between consecutive layers. In the existing routing procedures, capsules produce predictions (termed votes) for capsules of the next layer. In a nutshell, the next-layer capsule's input is a weighted sum over all the votes it receives. In this paper, we propose non-iterative cluster routing for capsule networks. In the proposed cluster routing, capsules produce vote clusters instead of individual votes for next-layer capsules, and each vote cluster sends its centroid to a next-layer capsule. Generally speaking, the next-layer capsule's input is a weighted sum over the centroid of each vote cluster it receives. The centroid that comes from a cluster with a smaller variance is assigned a larger weight in the weighted sum process. Compared with the state-of-the-art capsule networks, the proposed capsule networks achieve the best accuracy on the Fashion-MNIST and SVHN datasets with fewer parameters, and achieve the best accuracy on the smallNORB and CIFAR-10 datasets with a moderate number of parameters. The proposed capsule networks also produce capsules with disentangled representation and generalize well to images captured at novel viewpoints. The proposed capsule networks also preserve 2D spatial information of an input image in the capsule channels: if the capsule channels are rotated, the object reconstructed from these channels will be rotated by the same transformation. Codes are available at https://github.com/Z HAOZHIHAO/ClusterRou ting.
翻訳日:2021-09-21 16:54:45 公開日:2021-09-19
# ゼロラベル言語学習に向けて

Towards Zero-Label Language Learning ( http://arxiv.org/abs/2109.09193v1 )

ライセンス: Link先を確認
Zirui Wang, Adams Wei Yu, Orhan Firat, Yuan Cao(参考訳) 本稿では,自然言語処理(NLP)におけるゼロラベル学習について考察する。 私たちのフレームワークの中核は、強力な事前訓練された言語モデルを活用するための新しいアプローチです。 具体的には、最近のGPT-3における少数ショット推論の成功に触発されて、実際の人間のアノテーションを使わずに、少数のショットプロンプトを利用して高品質なトレーニングデータを合成する、Unsupervised Data Generation (UDG)と呼ばれるトレーニングデータ生成手順を提案する。 合成データのみに基づいてタスク固有モデルをトレーニングすることで,ゼロラベル学習が可能となるが,人間ラベルデータでトレーニングされた強力なベースラインモデルにより,優れた,あるいは同等の結果が得られる。 さらに,ラベル付きデータと組み合わせることで,SuperGLUEベンチマークで新たな最先端結果が得られるように,高効率なデータ拡張手法として機能する。

This paper explores zero-label learning in Natural Language Processing (NLP), whereby no human-annotated data is used anywhere during training and models are trained purely on synthetic data. At the core of our framework is a novel approach for better leveraging the powerful pretrained language models. Specifically, inspired by the recent success of few-shot inference on GPT-3, we present a training data creation procedure named Unsupervised Data Generation (UDG), which leverages few-shot prompts to synthesize high-quality training data without real human annotations. Our method enables zero-label learning as we train task-specific models solely on the synthetic data, yet we achieve better or comparable results from strong baseline models trained on human-labeled data. Furthermore, when mixed with labeled data, our approach serves as a highly effective data augmentation procedure, achieving new state-of-the-art results on the SuperGLUE benchmark.
翻訳日:2021-09-21 16:53:56 公開日:2021-09-19
# クライアント側同期を伴わない分割学習:クライアント側分割ネットワークサイズから全体的なパフォーマンス解析

Splitfed learning without client-side synchronization: Analyzing client-side split network portion size to overall performance ( http://arxiv.org/abs/2109.09246v1 )

ライセンス: Link先を確認
Praveen Joshi, Chandra Thapa, Seyit Camtepe, Mohammed Hasanuzzamana, Ted Scully and Haithem Afli(参考訳) federated learning (fl)、slit learning (sl)、splitfed learning (sfl)の3つは、分散機械学習における最近の3つの開発であり、生データのプライバシーを守る能力によって注目を集めている。 したがって、大規模医療画像分類、インターネット・オブ・メディカルシング、組織間フィッシングメール検出など、データに敏感なさまざまな領域で広く適用できる。 SFLはFLとSLの合流点上に開発された。 FLパラダイムからの並列クライアントサイド機械学習モデルのアップデートと(トレーニング中の)モデルのプライバシの向上により、SLから来るクライアントとサーバの間にモデルを分割することで、FLとSLの利点をもたらす。 しかし、SFLはクライアント側モデル同期を必要とするため、クライアント側で通信と計算のオーバーヘッドがあります。 リソース制約のあるクライアント側では、学習の効率を上げるためにそのような要件を取り除く必要がある。 本稿では,クライアント側モデル同期のないSFLについて検討する。 結果として得られるアーキテクチャは、Multi-head Split Learningとして知られている。 分散クライアント間のIDデータ分散に基づくMNISTデータに対するResNet18モデルを考慮した実証研究により,マルチヘッド分割学習が実現可能であることがわかった。 性能はSFLに匹敵する。 さらにsflは、mnistテストセットのマルチヘッド分割学習よりも精度が1%-2%向上している。 この結果をさらに強化するため,クライアント側モデル部分を用いたマルチヘッド分割学習とその性能への影響について検討した。 この結果から,モデル全体の性能への影響は最小限に抑えられた。

Federated Learning (FL), Split Learning (SL), and SplitFed Learning (SFL) are three recent developments in distributed machine learning that are gaining attention due to their ability to preserve the privacy of raw data. Thus, they are widely applicable in various domains where data is sensitive, such as large-scale medical image classification, internet-of-medical- things, and cross-organization phishing email detection. SFL is developed on the confluence point of FL and SL. It brings the best of FL and SL by providing parallel client-side machine learning model updates from the FL paradigm and a higher level of model privacy (while training) by splitting the model between the clients and server coming from SL. However, SFL has communication and computation overhead at the client-side due to the requirement of client-side model synchronization. For the resource-constrained client-side, removal of such requirements is required to gain efficiency in the learning. In this regard, this paper studies SFL without client-side model synchronization. The resulting architecture is known as Multi-head Split Learning. Our empirical studies considering the ResNet18 model on MNIST data under IID data distribution among distributed clients find that Multi-head Split Learning is feasible. Its performance is comparable to the SFL. Moreover, SFL provides only 1%-2% better accuracy than Multi-head Split Learning on the MNIST test set. To further strengthen our results, we study the Multi-head Split Learning with various client-side model portions and its impact on the overall performance. To this end, our results find a minimal impact on the overall performance of the model.
翻訳日:2021-09-21 16:53:08 公開日:2021-09-19
# 二重行動正規化強化学習

Dual Behavior Regularized Reinforcement Learning ( http://arxiv.org/abs/2109.09037v1 )

ライセンス: Link先を確認
Chapman Siu, Jason Traish, Richard Yi Da Xu(参考訳) 強化学習は、環境とのインタラクションや経験の活用を通じて、様々な複雑なタスクを実行することが示されている。 しかし、これらのアプローチの多くは、最適あるいはほぼ最適な経験や一貫した環境の存在を想定している。 本研究では,反実的後悔最小化に基づく二元的利点に基づく行動ポリシーを提案する。 このアプローチの柔軟性と、経験やその他のさまざまなコンテキストを収集するための環境が利用可能なオンラインコンテキストにどのように適用できるかを実証する。 このアルゴリズムは, 連続環境の幅に応じて, 異なる状況下で複数の強いベースラインモデルより優れていることを示す。 追加のアブレーションは、私たちの二重行動の正規化強化学習アプローチが、他の説得力のある修正と比較してどのように設計されているかに関する洞察を与え、一般化する能力を示しています。

Reinforcement learning has been shown to perform a range of complex tasks through interaction with an environment or collected leveraging experience. However, many of these approaches presume optimal or near optimal experiences or the presence of a consistent environment. In this work we propose dual, advantage-based behavior policy based on counterfactual regret minimization. We demonstrate the flexibility of this approach and how it can be adapted to online contexts where the environment is available to collect experiences and a variety of other contexts. We demonstrate this new algorithm can outperform several strong baseline models in different contexts based on a range of continuous environments. Additional ablations provide insights into how our dual behavior regularized reinforcement learning approach is designed compared with other plausible modifications and demonstrates its ability to generalize.
翻訳日:2021-09-21 16:51:53 公開日:2021-09-19
# マルチスタディ予測のための最適アンサンブル構築とCOVID-19過剰死亡推定への応用

Optimal Ensemble Construction for Multi-Study Prediction with Applications to COVID-19 Excess Mortality Estimation ( http://arxiv.org/abs/2109.09164v1 )

ライセンス: Link先を確認
Gabriel Loewinger, Rolando Acosta Nunez, Rahul Mazumder and Giovanni Parmigiani(参考訳) モデルトレーニングのために複数のデータセットが利用できるバイオメディカルサイエンスにおいて、予測タスクに遭遇することがますます多い。 データセットのプーリングや標準統計学習手法の適用といった一般的なアプローチは、データセットが異種である場合の予測性能が低下する可能性がある。 理論的および応用的な研究により、$\textit{multi-study ensembling}$は、モデル一般化性を促進する方法でデータセット間の可変性を活用する実行可能な代替物であることが示されている。 multi-study ensemblingは、2段階の$\textit{stacking}$ストラテジを使用して、研究固有のモデルに適合し、アンサンブル重みを別々に見積もる。 しかし、このアプローチはモデルフィッティング段階におけるアンサンブル特性を無視し、効率を損なう可能性がある。 そこで我々は, マルチスタディ・スタックリングに対する $\textit{optimal ensemble construction}$, a $\textit{all-in-one}$アプローチを提案する。 このアプローチの制限ケースは、モデルフィッティングの前にマルチスタディスタッキングやデータセットのプーリングといった既存のメソッドをもたらすことを証明します。 提案する損失関数を最適化する効率的なブロック座標降下アルゴリズムを提案する。 本手法を基準死亡率予測のための多国別データセットに適用し,標準手法と比較した。 パンデミックの開始前にはほとんどデータが入手できない場合、他国のデータを活用することで予測精度が大幅に向上することを示す。 重要なことに、このアプローチは、このアプリケーションにおけるマルチスタディスタックや他の標準メソッドよりも優れています。 データ駆動や他のシミュレーションにおける手法の性能をさらに特徴付ける。 提案手法は, マルチスタディ・スタックリングや他の先行手法と競合し, 性能的に優れる。

It is increasingly common to encounter prediction tasks in the biomedical sciences for which multiple datasets are available for model training. Common approaches such as pooling datasets and applying standard statistical learning methods can result in poor out-of-study prediction performance when datasets are heterogeneous. Theoretical and applied work has shown $\textit{multi-study ensembling}$ to be a viable alternative that leverages the variability across datasets in a manner that promotes model generalizability. Multi-study ensembling uses a two-stage $\textit{stacking}$ strategy which fits study-specific models and estimates ensemble weights separately. This approach ignores, however, the ensemble properties at the model-fitting stage, potentially resulting in a loss of efficiency. We therefore propose $\textit{optimal ensemble construction}$, an $\textit{all-in-one}$ approach to multi-study stacking whereby we jointly estimate ensemble weights as well as parameters associated with each study-specific model. We prove that limiting cases of our approach yield existing methods such as multi-study stacking and pooling datasets before model fitting. We propose an efficient block coordinate descent algorithm to optimize the proposed loss function. We compare our approach to standard methods by applying it to a multi-country COVID-19 dataset for baseline mortality prediction. We show that when little data is available for a country before the onset of the pandemic, leveraging data from other countries can substantially improve prediction accuracy. Importantly, our approach outperforms multi-study stacking and other standard methods in this application. We further characterize the method's performance in data-driven and other simulations. Our method remains competitive with or outperforms multi-study stacking and other earlier methods across a range of between-study heterogeneity levels.
翻訳日:2021-09-21 16:51:40 公開日:2021-09-19
# 逆多元帯域に対する一般化翻訳とスケール不変オンラインアルゴリズム

Generalized Translation and Scale Invariant Online Algorithm for Adversarial Multi-Armed Bandits ( http://arxiv.org/abs/2109.09212v1 )

ライセンス: Link先を確認
Kaan Gokcesu, Hakan Gokcesu(参考訳) 敵対的多腕バンディット問題を研究し,任意の翻訳や腕の損失の尺度の下で不変な完全オンラインアルゴリズムフレームワークを構築した。 本稿では,アルゴリズムが期待する性能を汎用競合クラスと比較し,多種多様な問題シナリオに適用できるようにする。 このアルゴリズムは普遍的な予測の観点から動作し、使用する性能尺度は任意のアーム選択シーケンスに対する期待後悔であり、これは我々の損失と競合する損失シーケンスとの差である。 コンペティションクラスは固定アームの選択、バンディットの切り替え、コンテキストのバンディット、その他の興味のある競技を含むように設計されている。 コンペティションクラスのシーケンスは一般的に特定のアプリケーションによって決定され、それに応じて設計されるべきである。 我々のアルゴリズムは損失シーケンスに関する予備情報も不要であり、完全にオンラインである。 その性能限界は二乗損失の和の2次境界であり、損失のアフィン変換は正規化された後悔に影響を与えない。

We study the adversarial multi-armed bandit problem and create a completely online algorithmic framework that is invariant under arbitrary translations and scales of the arm losses. We study the expected performance of our algorithm against a generic competition class, which makes it applicable for a wide variety of problem scenarios. Our algorithm works from a universal prediction perspective and the performance measure used is the expected regret against arbitrary arm selection sequences, which is the difference between our losses and a competing loss sequence. The competition class can be designed to include fixed arm selections, switching bandits, contextual bandits, or any other competition of interest. The sequences in the competition class are generally determined by the specific application at hand and should be designed accordingly. Our algorithm neither uses nor needs any preliminary information about the loss sequences and is completely online. Its performance bounds are the second order bounds in terms of sum of the squared losses, where any affine transform of the losses has no effect on the normalized regret.
翻訳日:2021-09-21 16:51:04 公開日:2021-09-19
# ComicGAN: テキストからコミュニティブ・ジェネレーティブ・アドバイサル・ネットワーク

ComicGAN: Text-to-Comic Generative Adversarial Network ( http://arxiv.org/abs/2109.09120v1 )

ライセンス: Link先を確認
Ben Proven-Bessel, Zilong Zhao, Lydia Chen(参考訳) 漫画の挿絵や注釈は複雑で難しい過程である。 イラストの描写やコミックの対話に基づいて漫画イラストを作成するために、既存の機械学習アルゴリズムは開発されていない。 さらに、gan(generative adversarial network)が、対話や記述に対応するオリジナルコミックを生成できるかどうかも不明である。 GANはフォトリアリスティックな画像を作るのに成功しているが、この技術は必ずしも欠陥のない漫画を生み出すわけではない。 さらに、コミックの評価は、インセプションスコアのような一般的な指標は、写真を扱うようにデザインされているため、比較がつかないため、顕著な課題である。 この論文では 1. テキスト記述に基づいて漫画を合成するテキスト・ツー・イメージGANに基づく新しいテキスト・ツー・コミック・パイプラインであるComicGANを実装した。 2) GANを用いた漫画生成の技術的困難に関する詳細な実証研究について述べる。 ComicGANには2つの新しい特徴がある。 (i)順列及び増補によるラベルからのテキスト記述の作成及び (II)畳み込みニューラルネットワークを用いたカスタム画像符号化 提案するComicGANは,記述からの画像生成と対話からの画像生成という2つのシナリオで広く評価する。 1000のDilbertのコミックパネルと6000の記述は、テキスト入力から合成されたコミックパネルがオリジナルのDilbertパネルに似ていることを示している。 テキスト記述作成とカスタム画像エンコーディングの新しい手法は、ベースラインアルゴリズムよりもfrechetインセプション距離、詳細、全体的な画像品質を改善した。 説明から挿絵を生成することは、記述に規定された文字や色を含む明確な漫画を提供した。

Drawing and annotating comic illustrations is a complex and difficult process. No existing machine learning algorithms have been developed to create comic illustrations based on descriptions of illustrations, or the dialogue in comics. Moreover, it is not known if a generative adversarial network (GAN) can generate original comics that correspond to the dialogue and/or descriptions. GANs are successful in producing photo-realistic images, but this technology does not necessarily translate to generation of flawless comics. What is more, comic evaluation is a prominent challenge as common metrics such as Inception Score will not perform comparably, as they are designed to work on photos. In this paper: 1. We implement ComicGAN, a novel text-to-comic pipeline based on a text-to-image GAN that synthesizes comics according to text descriptions. 2. We describe an in-depth empirical study of the technical difficulties of comic generation using GAN's. ComicGAN has two novel features: (i) text description creation from labels via permutation and augmentation, and (ii) custom image encoding with Convolutional Neural Networks. We extensively evaluate the proposed ComicGAN in two scenarios, namely image generation from descriptions, and image generation from dialogue. Our results on 1000 Dilbert comic panels and 6000 descriptions show synthetic comic panels from text inputs resemble original Dilbert panels. Novel methods for text description creation and custom image encoding brought improvements to Frechet Inception Distance, detail, and overall image quality over baseline algorithms. Generating illustrations from descriptions provided clear comics including characters and colours that were specified in the descriptions.
翻訳日:2021-09-21 16:49:50 公開日:2021-09-19
# 持続体験による生涯ロボット強化学習

Lifelong Robotic Reinforcement Learning by Retaining Experiences ( http://arxiv.org/abs/2109.09180v1 )

ライセンス: Link先を確認
Annie Xie, Chelsea Finn(参考訳) マルチタスク学習により、ロボットは有用なスキルの多様なレパートリーを取得できる。 しかし、多くのマルチタスク強化学習は、ロボットが常にすべてのタスクからデータを収集できると仮定している。 実際には、ユーザやロボットの現在の環境に応じて、ロボットが学習するタスクが順次到着する。 本研究では,ロボットシステムの実用的制約を動機とする実用的な逐次的マルチタスクrl問題について検討し,従来のタスクで学習したデータとポリシーを効果的に活用し,ロボットのスキルセットを累積的に拡大する手法を導出する。 シミュレーションによるロボット操作実験では,各タスクをスクラッチから学習するよりも半数以下のサンプルを必要とするが,非現実的なラウンドロビンデータ収集は避けている。 Franka Emika Pandaのロボットアームでは、ボトルキャップやブロック挿入など10の課題を徐々に学習しています。

Multi-task learning ideally allows robots to acquire a diverse repertoire of useful skills. However, many multi-task reinforcement learning efforts assume the robot can collect data from all tasks at all times. In reality, the tasks that the robot learns arrive sequentially, depending on the user and the robot's current environment. In this work, we study a practical sequential multi-task RL problem that is motivated by the practical constraints of physical robotic systems, and derive an approach that effectively leverages the data and policies learned for previous tasks to cumulatively grow the robot's skill-set. In a series of simulated robotic manipulation experiments, our approach requires less than half the samples than learning each task from scratch, while avoiding impractical round-robin data collection. On a Franka Emika Panda robot arm, our approach incrementally learns ten challenging tasks, including bottle capping and block insertion.
翻訳日:2021-09-21 16:44:27 公開日:2021-09-19
# マルチエージェント強化学習におけるq-learningの欲張り解き

Greedy UnMixing for Q-Learning in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2109.09034v1 )

ライセンス: Link先を確認
Chapman Siu, Jason Traish, Richard Yi Da Xu(参考訳) 本稿では,協調型マルチエージェント強化学習(MARL)のためのGreedy UnMix(GUM)を提案する。 Greedy UnMixは、MARLメソッドが大きなジョイントステートアクション空間の一部として値の過大評価によって失敗するシナリオを避けることを目的としている。 これは、データセットの状態マージを制限し、観測されていない共同状態のアクションスペースを避けることによって、保守的なqラーニングアプローチを通じてこれに対処することを目的としている。 MARL のシナリオに対する Q 関数の下位境界の順守を実証し、既存の Q 学習 MARL の手法とベンチマーク MARL のタスクに対するより一般的な MARL アルゴリズムに優れた性能を示す。

This paper introduces Greedy UnMix (GUM) for cooperative multi-agent reinforcement learning (MARL). Greedy UnMix aims to avoid scenarios where MARL methods fail due to overestimation of values as part of the large joint state-action space. It aims to address this through a conservative Q-learning approach through restricting the state-marginal in the dataset to avoid unobserved joint state action spaces, whilst concurrently attempting to unmix or simplify the problem space under the centralized training with decentralized execution paradigm. We demonstrate the adherence to Q-function lower bounds in the Q-learning for MARL scenarios, and demonstrate superior performance to existing Q-learning MARL approaches as well as more general MARL algorithms over a set of benchmark MARL tasks, despite its relative simplicity compared with state-of-the-art approaches.
翻訳日:2021-09-21 16:43:24 公開日:2021-09-19
# 正規化! Don't Mix: 明示的な集中構造を持たないマルチエージェント強化学習

Regularize! Don't Mix: Multi-Agent Reinforcement Learning without Explicit Centralized Structures ( http://arxiv.org/abs/2109.09038v1 )

ライセンス: Link先を確認
Chapman Siu, Jason Traish, Richard Yi Da Xu(参考訳) 本稿では,MARQ(Multi-Agent Regularized Q-learning)と呼ばれる明示的な協調構造を学習するのではなく,正規化を用いたマルチエージェント強化学習を提案する。 多くのMARLアプローチは、グローバルな状態情報を利用したり、エージェントが分散的に振る舞うときに通信制約を取り除くために集中的な構造を利用する。 エージェントの実行中に削除される冗長な構造を学習する代わりに、エージェントの共有経験を利用して個々のポリシーを規則化し、構造化された探索を促進することを提案する。 我々は、MARQがマルチエージェント設定でポリシーを明示的にあるいは暗黙的に正規化する方法について、いくつかの異なるアプローチを検討する。 MARQは、これらの制限をMARLコンテキストで解決することを目的としており、正規化制約を適用し、オフ・ポリティクス・アウト・オブ・ディストリビューション・エージェントの経験のバイアスを補正し、多様な探索を促進する。 提案手法は複数のベンチマークマルチエージェント環境において評価され,複数のベースラインと最先端アルゴリズムを一貫して上回っており,より少ないステップで学習し,高いリターンに収束する。

We propose using regularization for Multi-Agent Reinforcement Learning rather than learning explicit cooperative structures called {\em Multi-Agent Regularized Q-learning} (MARQ). Many MARL approaches leverage centralized structures in order to exploit global state information or removing communication constraints when the agents act in a decentralized manner. Instead of learning redundant structures which is removed during agent execution, we propose instead to leverage shared experiences of the agents to regularize the individual policies in order to promote structured exploration. We examine several different approaches to how MARQ can either explicitly or implicitly regularize our policies in a multi-agent setting. MARQ aims to address these limitations in the MARL context through applying regularization constraints which can correct bias in off-policy out-of-distribution agent experiences and promote diverse exploration. Our algorithm is evaluated on several benchmark multi-agent environments and we show that MARQ consistently outperforms several baselines and state-of-the-art algorithms; learning in fewer steps and converging to higher returns.
翻訳日:2021-09-21 16:43:08 公開日:2021-09-19
# ASRの公正度測定のためのモデルベースアプローチ

Model-Based Approach for Measuring the Fairness in ASR ( http://arxiv.org/abs/2109.09061v1 )

ライセンス: Link先を確認
Zhe Liu, Irina-Elena Veliche, Fuchun Peng(参考訳) 公平性の問題は、自動音声認識システム(ASR)が人口のすべてのサブグループに対して等しく機能しない場合に生じる。 asrの公平性測定研究において、ニュアサンス因子の制御方法、話者間の観測されていない不均一性に対処する方法、異なるサブグループ間の単語誤り率(wer)ギャップの出所を追跡する方法に関するオープンな質問は、特に重要である。 本稿では,関心サブグループ間のWER差をよりよく測定し,解釈するために,混合効果ポアソン回帰を導入する。 特に,提案手法は上述した3つの問題に効果的に対処でき,実用的格差分析に非常に柔軟である。 合成および実世界の音声データに対するモデルベースアプローチの有効性を示す。

The issue of fairness arises when the automatic speech recognition (ASR) systems do not perform equally well for all subgroups of the population. In any fairness measurement studies for ASR, the open questions of how to control the nuisance factors, how to handle unobserved heterogeneity across speakers, and how to trace the source of any word error rate (WER) gap among different subgroups are especially important - if not appropriately accounted for, incorrect conclusions will be drawn. In this paper, we introduce mixed-effects Poisson regression to better measure and interpret any WER difference among subgroups of interest. Particularly, the presented method can effectively address the three problems raised above and is very flexible to use in practical disparity analyses. We demonstrate the validity of proposed model-based approach on both synthetic and real-world speech data.
翻訳日:2021-09-21 16:42:48 公開日:2021-09-19
# decoras: 深層学習による電波放射源の検出と特性評価

DECORAS: detection and characterization of radio-astronomical sources using deep learning ( http://arxiv.org/abs/2109.09077v1 )

ライセンス: Link先を確認
S.Rezaei, J.P.McKean, M.Biehl, A.Javadpour(参考訳) 我々は,VLBI(Very Long Baseline Interferometry)観測から遠点と遠点の両方を検出する深層学習に基づくDECRASを提案する。 当社のアプローチは,低数の畳み込みレイヤを使用してソース検出にスケーラブルなソリューションを提供する,エンコーダ・デコーダニューラルネットワークアーキテクチャに基づいている。 さらに、DECRASは、検出されたソースの位置、有効半径、ピーク輝度の観点から、ソース特性を実行する。 実時間20cmのVLBA(Very Long Baseline Array)観測に基づく画像を用いて,ネットワークを訓練し,実験を行った。 また、これらの画像は事前の非畳み込みステップを通さず、フーリエ変換を介して可視データに直接関連している。 DeCORASが生成するソースカタログは,従来のソース検出アルゴリズムと比較して,全体的な完全性や純粋性に優れていた。 DECORASは7.5$\sigma$レベルで完備であり、信頼性は5.5$\sigma$でほぼ2倍改善されている。 DECORASは検出されたソースの位置を0.61$\pm$ 0.69 masに復元でき、有効半径とピーク表面の明るさはそれぞれ98および94パーセントで20%以内に回収される。 全体として、DECORASは将来の広視野VLBIサーベイに信頼性の高いソース検出および特徴付けソリューションを提供する。

We present DECORAS, a deep learning based approach to detect both point and extended sources from Very Long Baseline Interferometry (VLBI) observations. Our approach is based on an encoder-decoder neural network architecture that uses a low number of convolutional layers to provide a scalable solution for source detection. In addition, DECORAS performs source characterization in terms of the position, effective radius and peak brightness of the detected sources. We have trained and tested the network with images that are based on realistic Very Long Baseline Array (VLBA) observations at 20 cm. Also, these images have not gone through any prior de-convolution step and are directly related to the visibility data via a Fourier transform. We find that the source catalog generated by DECORAS has a better overall completeness and purity, when compared to a traditional source detection algorithm. DECORAS is complete at the 7.5$\sigma$ level, and has an almost factor of two improvement in reliability at 5.5$\sigma$. We find that DECORAS can recover the position of the detected sources to within 0.61 $\pm$ 0.69 mas, and the effective radius and peak surface brightness are recovered to within 20 per cent for 98 and 94 per cent of the sources, respectively. Overall, we find that DECORAS provides a reliable source detection and characterization solution for future wide-field VLBI surveys.
翻訳日:2021-09-21 16:41:24 公開日:2021-09-19
# 遠隔監視によるロングテール関係抽出のための階層的関係誘導型sentenceアライメント

Hierarchical Relation-Guided Type-Sentence Alignment for Long-Tail Relation Extraction with Distant Supervision ( http://arxiv.org/abs/2109.09036v1 )

ライセンス: Link先を確認
Yang Li, Guodong Long, Tao Shen, Jing Jiang(参考訳) 距離監督は知識グラフの3つの事実を使って関係抽出のためのコーパスをラベル付けし、誤ったラベル付けと長い尾の問題を引き起こす。 長い尾関係への知識伝達に関係の階層を用いる研究もある。 しかし、粗い粒度の関係は、しばしば遠い事実の属性(例えば、ドメインやトピック)のみを意味するため、文の意味論のみに基づく関係の識別が困難である。 ひとつの解決策はエンティティタイプに頼ることだが、エンティティタイプの情報を完全に活用する方法や、多面的なエンティティタイプを文にアライメントする方法について、オープンな疑問が残る。 本研究では,遠隔教師付き文をエンティティタイプで強化する新しいモデルを提案する。 本手法は,(1)文脈自由と関連背景の両方を注入して文レベルの誤りラベルを緩和するペアワイズ型エンリッチ化文符号化モジュールと,(2)三重事実の基本属性で文を豊かにする階層型センテンスアライメントモジュールとから構成される。 本モデルでは,ベンチマークの総合的および長期的パフォーマンスにおいて,最先端の新たな結果が得られる。

Distant supervision uses triple facts in knowledge graphs to label a corpus for relation extraction, leading to wrong labeling and long-tail problems. Some works use the hierarchy of relations for knowledge transfer to long-tail relations. However, a coarse-grained relation often implies only an attribute (e.g., domain or topic) of the distant fact, making it hard to discriminate relations based solely on sentence semantics. One solution is resorting to entity types, but open questions remain about how to fully leverage the information of entity types and how to align multi-granular entity types with sentences. In this work, we propose a novel model to enrich distantly-supervised sentences with entity types. It consists of (1) a pairwise type-enriched sentence encoding module injecting both context-free and -related backgrounds to alleviate sentence-level wrong labeling, and (2) a hierarchical type-sentence alignment module enriching a sentence with the triple fact's basic attributes to support long-tail relations. Our model achieves new state-of-the-art results in overall and long-tail performance on benchmarks.
翻訳日:2021-09-21 16:38:22 公開日:2021-09-19
# 反論生成のための知識強化エビデンス検索

Knowledge-Enhanced Evidence Retrieval for Counterargument Generation ( http://arxiv.org/abs/2109.09057v1 )

ライセンス: Link先を確認
Yohan Jo, Haneul Yoo, JinYeong Bak, Alice Oh, Chris Reed, Eduard Hovy(参考訳) 文に対する正当性を見つけることは、逆論生成を含む多くのタスクの鍵となる。 我々は,Web上の多様な情報源から,その証拠を回収するシステムを構築した。 このシステムの中核は自然言語推論(nli)モデルであり、候補文が正当な反証であるか否かを判断する。 しかし、これまでのほとんどのNLIモデルは、複雑な推論を含む反証拠を見つけるのに必要な適切な推論能力がない。 そこで我々は,知識グラフを組み込んで因果関係と例に基づく推論を取り扱う知識強化NLIモデルを提案する。 我々のNLIモデルは、特にターゲット推論を必要とするインスタンスにおいて、NLIタスクのベースラインよりも優れています。 さらに, このnliモデルにより, 複雑な対位関係の検索がより良くなり, 対位関係検索がさらに改善される。

Finding counterevidence to statements is key to many tasks, including counterargument generation. We build a system that, given a statement, retrieves counterevidence from diverse sources on the Web. At the core of this system is a natural language inference (NLI) model that determines whether a candidate sentence is valid counterevidence or not. Most NLI models to date, however, lack proper reasoning abilities necessary to find counterevidence that involves complex inference. Thus, we present a knowledge-enhanced NLI model that aims to handle causality- and example-based inference by incorporating knowledge graphs. Our NLI model outperforms baselines for NLI tasks, especially for instances that require the targeted inference. In addition, this NLI model further improves the counterevidence retrieval system, notably finding complex counterevidence better.
翻訳日:2021-09-21 16:38:01 公開日:2021-09-19
# ロングランジ言語モデルは実際にロングランジコンテキストを使用するか?

Do Long-Range Language Models Actually Use Long-Range Context? ( http://arxiv.org/abs/2109.09115v1 )

ライセンス: Link先を確認
Simeng Sun, Kalpesh Krishna, Andrew Mattarella-Micke, Mohit Iyyer(参考訳) 言語モデルは一般的に、短命で断続的な入力シーケンスで訓練され、長距離文脈に存在する談話レベルの情報を使用して予測を改善する能力が制限される。 近年の自己注意の効率向上に向けた取り組みは、過去のモデルよりもはるかに長いシーケンスを処理できる長距離トランスフォーマー言語モデルの普及につながっている。 しかし、そのようなモデルが長距離の文脈を利用する方法はまだ不明である。 本稿では,最大8Kトークンの入力シーケンスを受信する2つの長距離トランスフォーマー言語モデル(PG-19長周期LMベンチマークデータセットにおける最先端のパープレキシティを実現する \emph{Routing Transformer} を含む)のきめ細かい解析を行う。 我々の結果は、これらのモデルに長距離コンテキスト(例えば、以前の2Kトークンを超えて)を提供することで、小さなトークンのセット(例えば、遠くのコンテキストからコピーできるもの)での予測を改善するだけで、文レベルの予測タスクには役立ちません。 最後に,PG-19 には様々な文書タイプや領域があり,長期的文脈は(教科書や雑誌とは対照的に)文学小説に最も役立ちます。

Language models are generally trained on short, truncated input sequences, which limits their ability to use discourse-level information present in long-range context to improve their predictions. Recent efforts to improve the efficiency of self-attention have led to a proliferation of long-range Transformer language models, which can process much longer sequences than models of the past. However, the ways in which such models take advantage of the long-range context remain unclear. In this paper, we perform a fine-grained analysis of two long-range Transformer language models (including the \emph{Routing Transformer}, which achieves state-of-the-art perplexity on the PG-19 long-sequence LM benchmark dataset) that accept input sequences of up to 8K tokens. Our results reveal that providing long-range context (i.e., beyond the previous 2K tokens) to these models only improves their predictions on a small set of tokens (e.g., those that can be copied from the distant context) and does not help at all for sentence-level prediction tasks. Finally, we discover that PG-19 contains a variety of different document types and domains, and that long-range context helps most for literary novels (as opposed to textbooks or magazines).
翻訳日:2021-09-21 16:37:48 公開日:2021-09-19
# Mapud\"ungunのFST形態解析と発電機

FST Morphological Analyser and Generator for Mapud\"ungun ( http://arxiv.org/abs/2109.09176v1 )

ライセンス: Link先を確認
Andr\'es Chand\'ia(参考訳) Smeets の Mapuche 文法に従い、この記事では Mapud\"ungun の主要な形態音韻学的側面を説明し、それらが何を引き起こすのか、どのようにそれらが起こるのかを説明する。 本稿では, 有限状態形態素解析器(および生成器)を用いて, Mapuche 語形式で相互作用するすべての成分(根と接尾辞)を分類し, 適切にタグ付けできる計算手法を提案する。 この記事の大部分は、Mapud\"ungun動詞の形態とFOMAを用いた形式化の詳細を提示することに焦点を当てている。 本論文では,システム評価プロセスとその結果について述べる。

Following the Mapuche grammar by Smeets, this article describes the main morphophonological aspects of Mapud\"ungun, explaining what triggers them and the contexts where they arise. We present a computational approach producing a finite state morphological analyser (and generator) capable of classifying and appropriately tagging all the components (roots and suffixes) that interact in a Mapuche word form. The bulk of the article focuses on presenting details about the morphology of Mapud\"ungun verb and its formalisation using FOMA. A system evaluation process and its results are also present in this article.
翻訳日:2021-09-21 16:37:25 公開日:2021-09-19
# 条件探索:ベースラインを超えて有用な情報を測定する

Conditional probing: measuring usable information beyond a baseline ( http://arxiv.org/abs/2109.09234v1 )

ライセンス: Link先を確認
John Hewitt, Kawin Ethayarajh, Percy Liang, Christopher D. Manning(参考訳) 探索実験は、ニューラル表現が(音声の一部のような)特性を予測できる範囲を調査する。 表現がプロパティを符号化すると、その表現が非テクスチュアルな単語埋め込みのようなベースライン表現を探索するよりも精度が高いことを示唆する。 比較ポイントとしてベースラインを使用する代わりに、私たちは、ベースラインではなく、表現に含まれる情報を測定することに興味を持っています。 例えば、現在の方法では、表現が音声の一部を予測するために単語識別(ベースライン)よりも有用である場合を検出することができるが、表現が単語識別で説明できない部分の側面だけを予測している場合には検出できない。 本研究では,$\mathcal{v}$-information と呼ばれる利用可能な情報の理論を拡張し,条件付き探索を提案する。 ケーススタディでは,非テクスチュアルな単語埋め込みを条件付けした後,従来考えられていたよりも深いネットワーク層において,部分音声のような特性がアクセス可能であることがわかった。

Probing experiments investigate the extent to which neural representations make properties -- like part-of-speech -- predictable. One suggests that a representation encodes a property if probing that representation produces higher accuracy than probing a baseline representation like non-contextual word embeddings. Instead of using baselines as a point of comparison, we're interested in measuring information that is contained in the representation but not in the baseline. For example, current methods can detect when a representation is more useful than the word identity (a baseline) for predicting part-of-speech; however, they cannot detect when the representation is predictive of just the aspects of part-of-speech not explainable by the word identity. In this work, we extend a theory of usable information called $\mathcal{V}$-information and propose conditional probing, which explicitly conditions on the information in the baseline. In a case study, we find that after conditioning on non-contextual word embeddings, properties like part-of-speech are accessible at deeper layers of a network than previously thought.
翻訳日:2021-09-21 16:37:13 公開日:2021-09-19
# 自然言語処理におけるマルチタスク学習:概要

Multi-Task Learning in Natural Language Processing: An Overview ( http://arxiv.org/abs/2109.09138v1 )

ライセンス: Link先を確認
Shijie Chen, Yu Zhang, and Qiang Yang(参考訳) ディープラーニングアプローチは自然言語処理(NLP)の分野で大きな成功を収めています。 しかしながら、ディープニューラルモデルは、NLPタスクで広まる過度な適合とデータ不足の問題に悩まされることが多い。 近年、関連するタスクの有用な情報を活用して、関連する複数のタスクの同時パフォーマンス向上を実現するマルチタスク学習(mtl)が、これらの課題の処理に利用されている。 本稿では,NLPタスクにおけるMTLの利用について概説する。 まず, nlpタスクで使用されるmtlアーキテクチャをレビューし, 並列アーキテクチャ, 階層アーキテクチャ, モジュールアーキテクチャ, ジェネレーティブ逆アーキテクチャの4つのクラスに分類した。 次に,損失構成,データサンプリング,タスクスケジューリングに関する最適化手法を提示し,マルチタスクモデルを適切に学習する。 様々な NLP タスクで MTL の応用を提示した後、ベンチマークデータセットをいくつか導入する。 最後に,本分野におけるいくつかの研究の方向性について考察する。

Deep learning approaches have achieved great success in the field of Natural Language Processing (NLP). However, deep neural models often suffer from overfitting and data scarcity problems that are pervasive in NLP tasks. In recent years, Multi-Task Learning (MTL), which can leverage useful information of related tasks to achieve simultaneous performance improvement on multiple related tasks, has been used to handle these problems. In this paper, we give an overview of the use of MTL in NLP tasks. We first review MTL architectures used in NLP tasks and categorize them into four classes, including the parallel architecture, hierarchical architecture, modular architecture, and generative adversarial architecture. Then we present optimization techniques on loss construction, data sampling, and task scheduling to properly train a multi-task model. After presenting applications of MTL in a variety of NLP tasks, we introduce some benchmark datasets. Finally, we make a conclusion and discuss several possible research directions in this field.
翻訳日:2021-09-21 16:34:20 公開日:2021-09-19
# ドメイン適応物体検出のための逆学習による共同分布アライメント

Joint Distribution Alignment via Adversarial Learning for Domain Adaptive Object Detection ( http://arxiv.org/abs/2109.09033v1 )

ライセンス: Link先を確認
Bo Zhang, Tao Chen, Bin Wang, Ruoyao Li(参考訳) 教師なしのドメイン適応オブジェクト検出は、リッチラベル付きデータを持つ訓練済みの検出器を、ラベルなしデータを持つ新しいターゲットドメインに適応させることを目的としている。 近年、主流のアプローチは、敵対的学習を通じてこのタスクを実行するが、2つの制限に悩まされている。 第一に、それらは主に教師なしのクロスドメイン特徴マッチングによって境界分布を調整し、条件付きアライメントのために活用できる各特徴のカテゴリー的および位置的情報を無視する;第二に、すべてのクラスをドメイン間の知識の伝達に等しく重要として扱い、異なるクラスが通常異なる転送可能性を持つことを無視する。 本稿では,これらの課題に対処するためのJADF(Joint Adaptive Detection framework)を提案する。 まず、オブジェクト検出のためのエンドツーエンドの連接適応フレームワークを提案し、余分なハイパーパラメータを導入することなく、領域間の境界分布と条件分布を一致させる。 次に、各オブジェクトクラスの転送可能性を考慮するために、クラスワイド転送可能性評価のためのメトリクスを提案し、ドメイン適応のためのJADFの目的に組み込む。 さらに、unsupervised domain adaptation(UDA)からunsupervised few-shot domain adaptation(UFDA)への拡張研究を行い、未ラベルのターゲットドメインで利用可能なトレーニングイメージはわずかである。 大規模な実験により、JADFはUDAとUFDAの両方の設定で有効であることが確認され、既存の最先端のクロスドメイン検出方法よりも大幅にパフォーマンスが向上した。

Unsupervised domain adaptive object detection aims to adapt a well-trained detector from its original source domain with rich labeled data to a new target domain with unlabeled data. Recently, mainstream approaches perform this task through adversarial learning, yet still suffer from two limitations. First, they mainly align marginal distribution by unsupervised cross-domain feature matching, and ignore each feature's categorical and positional information that can be exploited for conditional alignment; Second, they treat all classes as equally important for transferring cross-domain knowledge and ignore that different classes usually have different transferability. In this paper, we propose a joint adaptive detection framework (JADF) to address the above challenges. First, an end-to-end joint adversarial adaptation framework for object detection is proposed, which aligns both marginal and conditional distributions between domains without introducing any extra hyperparameter. Next, to consider the transferability of each object class, a metric for class-wise transferability assessment is proposed, which is incorporated into the JADF objective for domain adaptation. Further, an extended study from unsupervised domain adaptation (UDA) to unsupervised few-shot domain adaptation (UFDA) is conducted, where only a few unlabeled training images are available in unlabeled target domain. Extensive experiments validate that JADF is effective in both the UDA and UFDA settings, achieving significant performance gains over existing state-of-the-art cross-domain detection methods.
翻訳日:2021-09-21 16:29:02 公開日:2021-09-19
# フレームとイベントドメインを併用した物体追跡

Object Tracking by Jointly Exploiting Frame and Event Domain ( http://arxiv.org/abs/2109.09052v1 )

ライセンス: Link先を確認
Jiqing Zhang and Xin Yang and Yingkai Fu and Xiaopeng Wei and Baocai Yin and Bo Dong(参考訳) 従来のフレームベースとバイオインスパイアされたイベントベースのカメラの相補性に着想を得て、フレームとイベントドメインから視覚的な手がかりを融合し、特に劣化した状況(例えば、ダイナミックレンジ、低光度、高速モーションオブジェクト)において単一のオブジェクト追跡性能を向上させるマルチモーダルアプローチを提案する。 提案手法は,両領域の有意義な情報を効果的かつ適応的に組み合わせることができる。 提案手法の有効性は, 自己および横断的な注意方式に基づく特徴を効果的に向上する, 新規なクロスドメインアテンション方式によって実現され, 適応性は2つのドメインの寄与を適応的にバランスさせる, 特別に設計された重み付け方式によって保護される。 単一オブジェクト追跡におけるイベントベースの視覚的ヒントを活用するために,我々は,大規模フレームイベントベースのデータセットを構築した。 広範な実験により、提案手法は、代表的な成功率と精度率で、最先端のフレームベーストラッキング手法を少なくとも10.4%、11.9%上回ることがわかった。 また,我々のアプローチにおける各キーコンポーネントの有効性は,徹底的なアブレーション研究によって証明された。

Inspired by the complementarity between conventional frame-based and bio-inspired event-based cameras, we propose a multi-modal based approach to fuse visual cues from the frame- and event-domain to enhance the single object tracking performance, especially in degraded conditions (e.g., scenes with high dynamic range, low light, and fast-motion objects). The proposed approach can effectively and adaptively combine meaningful information from both domains. Our approach's effectiveness is enforced by a novel designed cross-domain attention schemes, which can effectively enhance features based on self- and cross-domain attention schemes; The adaptiveness is guarded by a specially designed weighting scheme, which can adaptively balance the contribution of the two domains. To exploit event-based visual cues in single-object tracking, we construct a large-scale frame-event-based dataset, which we subsequently employ to train a novel frame-event fusion based model. Extensive experiments show that the proposed approach outperforms state-of-the-art frame-based tracking methods by at least 10.4% and 11.9% in terms of representative success rate and precision rate, respectively. Besides, the effectiveness of each key component of our approach is evidenced by our thorough ablation study.
翻訳日:2021-09-21 16:28:36 公開日:2021-09-19
# BEV投影による高効率都市規模雲分割

Efficient Urban-scale Point Clouds Segmentation with BEV Projection ( http://arxiv.org/abs/2109.09074v1 )

ライセンス: Link先を確認
Zhenhong Zou and Yizhe Li(参考訳) ポイント雲の分析は近年研究者の目をつかんだが、3Dセマンティックセグメンテーションは依然として問題となっている。 ほとんどのディープポイントクラウドモデルは、3dポイントクラウド上で直接学習を行う。 この課題に対処するため、3次元点雲を高密度の鳥眼視投影に転送することを提案する。 この場合、クラス不均衡の低減と様々な2次元セグメンテーション手法を活用できるため、セグメンテーションタスクが簡略化される。 さらに,投影画像上でマルチモーダル学習が可能な注意型融合ネットワークの設計を行った。 最後に、2Dアウトをリマップして、3Dセマンティックセグメンテーション結果を生成する。 提案手法の利点を実証するため,我々はセンサットアーバンデータセットについて様々な実験を行い,本モデルが競合評価結果(61.17%miou,91.37%)を示す。 私たちの研究が、ポイントクラウド分析のさらなる探求を刺激できることを願っています。

Point clouds analysis has grasped researchers' eyes in recent years, while 3D semantic segmentation remains a problem. Most deep point clouds models directly conduct learning on 3D point clouds, which will suffer from the severe sparsity and extreme data processing load in urban-scale data. To tackle the challenge, we propose to transfer the 3D point clouds to dense bird's-eye-view projection. In this case, the segmentation task is simplified because of class unbalance reduction and the feasibility of leveraging various 2D segmentation methods. We further design an attention-based fusion network that can conduct multi-modal learning on the projected images. Finally, the 2D out are remapped to generate 3D semantic segmentation results. To demonstrate the benefits of our method, we conduct various experiments on the SensatUrban dataset, in which our model presents competitive evaluation results (61.17% mIoU and 91.37% OverallAccuracy). We hope our work can inspire further exploration in point cloud analysis.
翻訳日:2021-09-21 16:28:17 公開日:2021-09-19
# 階層的ダンスビデオ認識のための教師なし3次元ポーズ推定

Unsupervised 3D Pose Estimation for Hierarchical Dance Video Recognition ( http://arxiv.org/abs/2109.09166v1 )

ライセンス: Link先を確認
Xiaodan Hu, Narendra Ahuja(参考訳) ダンスの専門家は、しばしばダンスを情報階層とみなし、低レベル(生画像、画像シーケンス)、中レベル(人間のポーズと体の一部の動き)、高レベル(ダンスジャンル)にまたがる。 本稿では,HDVR(Hierarchical Dance Video Recognition framework)を提案する。 HDVRは2Dポーズシーケンスを推定し、ダンサーを追跡し、同時に対応する3Dポーズと3Dから2Dイメージングパラメータを推定する。 一人の人間で動くほとんどの方法とは異なり、追跡は複数のダンサーで行われており、排他的だ。 推定3dポーズシーケンスから、hdvrは体部の動きを抽出し、ダンスジャンルから抽出する。 結果として生じる階層的なダンス表現は専門家に説明できる。 雑音とフレーム間対応の曖昧さを克服するために,空間的および時間的動きの平滑さと測光連続性を時間とともに強制する。 我々は,lstmネットワークを用いて,ダンスジャンルを認識できる3次元運動列を抽出する。 実験では16の身体部分からなる154種類の運動タイプを特定し,30時間を含む9つのジャンルの1143の動画クリップを含む,イリノイ大学ダンス(UID)データセットを作成した。 実験の結果,我々のアルゴリズムは最先端の3Dポーズ推定法よりも優れており,ダンス認識性能も向上していることがわかった。

Dance experts often view dance as a hierarchy of information, spanning low-level (raw images, image sequences), mid-levels (human poses and bodypart movements), and high-level (dance genre). We propose a Hierarchical Dance Video Recognition framework (HDVR). HDVR estimates 2D pose sequences, tracks dancers, and then simultaneously estimates corresponding 3D poses and 3D-to-2D imaging parameters, without requiring ground truth for 3D poses. Unlike most methods that work on a single person, our tracking works on multiple dancers, under occlusions. From the estimated 3D pose sequence, HDVR extracts body part movements, and therefrom dance genre. The resulting hierarchical dance representation is explainable to experts. To overcome noise and interframe correspondence ambiguities, we enforce spatial and temporal motion smoothness and photometric continuity over time. We use an LSTM network to extract 3D movement subsequences from which we recognize the dance genre. For experiments, we have identified 154 movement types, of 16 body parts, and assembled a new University of Illinois Dance (UID) Dataset, containing 1143 video clips of 9 genres covering 30 hours, annotated with movement and genre labels. Our experimental results demonstrate that our algorithms outperform the state-of-the-art 3D pose estimation methods, which also enhances our dance recognition performance.
翻訳日:2021-09-21 16:27:58 公開日:2021-09-19
# wav-bert:低リソース音声認識のための協調音響・言語表現学習

Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning for Low-Resource Speech Recognition ( http://arxiv.org/abs/2109.09161v1 )

ライセンス: Link先を確認
Guolin Zheng, Yubei Xiao, Ke Gong, Pan Zhou, Xiaodan Liang, Liang Lin(参考訳) 音声および言語表現学習の統合は,低音源音声認識のための高音源言語データの豊富な知識を伝達するためにますます重要になっている。 既存のアプローチは、音声からテキストへの転送を学ぶために、事前学習された音響モデルと言語モデルを単にカスケードする。 しかし、音声とテキストの表現の相違をどう解決するかは未解明であり、音響情報や言語情報の活用を妨げる。 さらに、事前学習された言語モデルの埋め込み層を音響的特徴に置き換えることで、破滅的な忘れ問題を引き起こす可能性がある。 本研究では,音声とテキストの文脈情報を融合・活用するための協調音響・言語表現学習手法であるWav-BERTを紹介する。 具体的には、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。 表現集約モジュールは音響表現と言語表現を集約するために設計され、bertに音響情報を組み込むために埋め込み注意モジュールが導入され、2つの事前学習モデルの協調を効果的に促進し、表現学習を促進することができる。 広汎な実験により,我々のWav-BERTは既存の手法よりも優れ,低音源音声認識における最先端性能を実現していることがわかった。

Unifying acoustic and linguistic representation learning has become increasingly crucial to transfer the knowledge learned on the abundance of high-resource language data for low-resource speech recognition. Existing approaches simply cascade pre-trained acoustic and language models to learn the transfer from speech to text. However, how to solve the representation discrepancy of speech and text is unexplored, which hinders the utilization of acoustic and linguistic information. Moreover, previous works simply replace the embedding layer of the pre-trained language model with the acoustic features, which may cause the catastrophic forgetting problem. In this work, we introduce Wav-BERT, a cooperative acoustic and linguistic representation learning method to fuse and utilize the contextual information of speech and text. Specifically, we unify a pre-trained acoustic model (wav2vec 2.0) and a language model (BERT) into an end-to-end trainable framework. A Representation Aggregation Module is designed to aggregate acoustic and linguistic representation, and an Embedding Attention Module is introduced to incorporate acoustic information into BERT, which can effectively facilitate the cooperation of two pre-trained models and thus boost the representation learning. Extensive experiments show that our Wav-BERT significantly outperforms the existing approaches and achieves state-of-the-art performance on low-resource speech recognition.
翻訳日:2021-09-21 16:23:09 公開日:2021-09-19
# フェデレーション学習におけるデータ評価の公平性向上

Improving Fairness for Data Valuation in Federated Learning ( http://arxiv.org/abs/2109.09046v1 )

ライセンス: Link先を確認
Zhenan Fan, Huang Fang, Zirui Zhou, Jian Pei, Michael P. Friedlander, Changxin Liu, Yong Zhang(参考訳) フェデレーション学習(federated learning)は、データのプライバシを確保しながら、複数のデータ所有者が協力して作業できる、新たな分散機械学習スキームである。 連合学習の成功は、データ所有者の参加に大きく依存する。 データ所有者の参加を維持、奨励するには、データ所有者が提供したデータの品質を公平に評価し、それに応じて報酬を与えることが不可欠である。 Federated Shapley Value – Wangらによって最近提案された。 [federated learning, 2020]は,データバリュエーションに多くの望ましい特性を満たす,フェデレーション学習の枠組みの下でのデータ価値を測る尺度です。 しかし、同じローカルデータを持つ2人のデータ所有者が同じ評価を受けられないため、フェデレーション・シャプレー値の設計に不公平な可能性がある。 フェデレーションシャプリー値の公平性を改善するために, フェデレーションシャプリー値と呼ばれる新しい尺度を提案する。 設計は、データ所有者の異なるサブセットによるすべての可能な貢献からなるマトリックスを完成させることに依存する。 軽度な条件下では、最適化から概念やツールを活用することで、この行列は概して低ランクであることが示される。 理論解析と経験的評価の両方が、提案手法が多くの状況において公平性を改善することを検証している。

Federated learning is an emerging decentralized machine learning scheme that allows multiple data owners to work collaboratively while ensuring data privacy. The success of federated learning depends largely on the participation of data owners. To sustain and encourage data owners' participation, it is crucial to fairly evaluate the quality of the data provided by the data owners and reward them correspondingly. Federated Shapley value, recently proposed by Wang et al. [Federated Learning, 2020], is a measure for data value under the framework of federated learning that satisfies many desired properties for data valuation. However, there are still factors of potential unfairness in the design of federated Shapley value because two data owners with the same local data may not receive the same evaluation. We propose a new measure called completed federated Shapley value to improve the fairness of federated Shapley value. The design depends on completing a matrix consisting of all the possible contributions by different subsets of the data owners. It is shown under mild conditions that this matrix is approximately low-rank by leveraging concepts and tools from optimization. Both theoretical analysis and empirical evaluation verify that the proposed measure does improve fairness in many circumstances.
翻訳日:2021-09-21 16:21:18 公開日:2021-09-19
# NVMクロスバー上の逆学習ネットワークの雑音安定性とロバスト性について

On the Noise Stability and Robustness of Adversarially Trained Networks on NVM Crossbars ( http://arxiv.org/abs/2109.09060v1 )

ライセンス: Link先を確認
Deboleena Roy, Chun Tao, Indranil Chakraborty, Kaushik Roy(参考訳) ディープニューラルネットワーク(DNN)に基づくアプリケーションは、過去10年間で指数関数的に増加している。 計算要求の増大に合わせて、いくつかの非揮発性メモリ(NVM)クロスバーベースのアクセラレータが提案されている。 エネルギー効率と性能の改善とは別に、これらの近似ハードウェアは、DNNにとって重要なセキュリティ上の懸念である敵攻撃に対する防御の本質的な堅牢性も持っている。 以前の研究は、不安定な入力でトレーニングされたdnnであるバニラネットワークのこの本質的なロバスト性の定量化に重点を置いてきた。 しかし、DNNの逆行訓練はロバスト性のベンチマーク手法であり、ハードウェア固有のロバスト性のみに依存するだけでは不十分である。 本研究では,NVMクロスバー型アナログハードウェアで提供される対角的トレーニングと本質的ロバスト性を用いて,ロバストDNNの設計について検討する。 まず,そのようなネットワークの非摂動入力におけるノイズ安定性について検討し,逆訓練ネットワークの内部活性化がsnr(signal-to-noise ratio)を低くし,バニラネットワークよりもノイズに敏感であることを観察する。 その結果,非理想計算による性能劣化が著しく増大し,平均2倍の精度低下が生じた。 一方、PGD(Projected-Gradie nt-Descent)White-Box 攻撃を用いて生成された敵画像に対して、CIFAR-10/100で逆トレーニングされたResNet-10/20は、攻撃エプシロン(\epsilon_{ attack}$、入力摂動の度合い)が敵トレーニングのエプシロン(\epsilon_{train}$)よりも大きい場合、基盤となるNVMクロスバーによる堅牢な5-10%の精度を示す。 その結果,アナログハードウェア上では,ハードウェアの非理想性と$\epsilon_{train}$の厳密なキャリブレーションが必要となり,ロバスト性と性能が向上した。

Applications based on Deep Neural Networks (DNNs) have grown exponentially in the past decade. To match their increasing computational needs, several Non-Volatile Memory (NVM) crossbar-based accelerators have been proposed. Apart from improved energy efficiency and performance, these approximate hardware also possess intrinsic robustness for defense against Adversarial Attacks, which is an important security concern for DNNs. Prior works have focused on quantifying this intrinsic robustness for vanilla networks, that is DNNs trained on unperturbed inputs. However, adversarial training of DNNs is the benchmark technique for robustness, and sole reliance on intrinsic robustness of the hardware may not be sufficient. In this work, we explore the design of robust DNNs through the amalgamation of adversarial training and the intrinsic robustness offered by NVM crossbar-based analog hardware. First, we study the noise stability of such networks on unperturbed inputs and observe that internal activations of adversarially trained networks have lower Signal-to-Noise Ratio (SNR), and are sensitive to noise than vanilla networks. As a result, they suffer significantly higher performance degradation due to the non-ideal computations; on an average 2x accuracy drop. On the other hand, for adversarial images generated using Projected-Gradient-D escent (PGD) White-Box attacks, ResNet-10/20 adversarially trained on CIFAR-10/100 display a 5-10% gain in robust accuracy due to the underlying NVM crossbar when the attack epsilon ($\epsilon_{attack}$, the degree of input perturbations) is greater than the epsilon of the adversarial training ($\epsilon_{train}$). Our results indicate that implementing adversarially trained networks on analog hardware requires careful calibration between hardware non-idealities and $\epsilon_{train}$ to achieve optimum robustness and performance.
翻訳日:2021-09-21 16:20:57 公開日:2021-09-19
# 医療条件の共起:SNOMED符号の確率論的トピックモデリングによるパターンの抽出

Co-occurrence of medical conditions: Exposing patterns through probabilistic topic modeling of SNOMED codes ( http://arxiv.org/abs/2109.09199v1 )

ライセンス: Link先を確認
Moumita Bhattacharya, Claudine Jurkovitz, Hagit Shatkay(参考訳) 多発性共発性健康状態の患者は、しばしば悪化した合併症とあまり好ましくない結果に直面する。 腎疾患に罹患している人では特に共起状態が一般的であり、米国の一般人口の13%に影響を及ぼしている。 本研究の目的は,確率的枠組みを用いた患者の共起医療状況のパターンを特定し,特徴付けることである。 具体的には, 腎臓病と診断された13,000例のehrsに割り当てられ記録されたsnomedctコード間の関連を, 非伝統的な方法で発見するために, トピックモデリングを適用する。 トピックモデリングに関するほとんどの先行研究とは異なり、自然言語ではなくコードに適用する。 さらに,トピックを定量的に評価し,タイトネスと特徴性を評価し,医療的妥当性も評価した。 実験の結果,各トピックは簡潔に,極めて可能性が高くユニークな疾患コードによって特徴付けられることが明らかとなった。 さらに、各トピック間のトピック間距離は、典型的には高く、特異性を示す。 最後に、多くの符号化された条件がトピック内でグループ化され、実際に医学文献に共生していると報告されている。 特に, 医学文献では報告されていない疾患と間接的な関連が指摘されている。

Patients associated with multiple co-occurring health conditions often face aggravated complications and less favorable outcomes. Co-occurring conditions are especially prevalent among individuals suffering from kidney disease, an increasingly widespread condition affecting 13% of the general population in the US. This study aims to identify and characterize patterns of co-occurring medical conditions in patients employing a probabilistic framework. Specifically, we apply topic modeling in a non-traditional way to find associations across SNOMEDCT codes assigned and recorded in the EHRs of>13,000 patients diagnosed with kidney disease. Unlike most prior work on topic modeling, we apply the method to codes rather than to natural language. Moreover, we quantitatively evaluate the topics, assessing their tightness and distinctiveness, and also assess the medical validity of our results. Our experiments show that each topic is succinctly characterized by a few highly probable and unique disease codes, indicating that the topics are tight. Furthermore, inter-topic distance between each pair of topics is typically high, illustrating distinctiveness. Last, most coded conditions grouped together within a topic, are indeed reported to co-occur in the medical literature. Notably, our results uncover a few indirect associations among conditions that have hitherto not been reported as correlated in the medical literature.
翻訳日:2021-09-21 16:20:11 公開日:2021-09-19
# HCM-AF-Riskモデルによる肥大型心筋症患者の心房細動と予測因子の同定

Machine Learning Methods for Identifying Atrial Fibrillation Cases and Their Predictors in Patients With Hypertrophic Cardiomyopathy: The HCM-AF-Risk Model ( http://arxiv.org/abs/2109.09207v1 )

ライセンス: Link先を確認
Moumita Bhattacharya, Dai-Yin Lu, Ioannis Ventoulis, Gabriela V. Greenland, Hulya Yalcin, Yufan Guan, Joseph E. Marine, Jeffrey E. Olgin, Stefan L. Zimmerman, Theodore P. Abraham, M. Roselle Abraham, Hagit Shatkay(参考訳) 肥大型心筋症 (hcm) 患者は心房細動 (af) の頻度が高く、心不全、高血圧、加齢、糖尿病、前回の脳卒中/移行性虚血発作スコアのリスクが低いにもかかわらず、脳卒中リスクが高くなる。 したがって、HCMにおけるAFと脳卒中の病態を理解する必要がある。 本研究では,AF患者を識別するためのデータ駆動型機械学習手法を開発し,その臨床像と臨床像の特徴を電子健康記録データを用いて検討した。 発作性持続性AF (n = 191) のHCM患者をAFとみなし, 副鼻腔リズム (n = 640) の残りの患者をAFとしてタグ付けした。 NAF患者とAF患者を区別するのに有用な93の臨床的変数と最も有用な変数を2サンプルtと情報取得基準に基づいて選択した。 正に (n = 11) , 負に (n = 7) が AF と相関する18個の高情報変数を同定した。 次に患者記録を18変数で表現した。 比較的少ないAF症例から得られたデータ不均衡は、オーバーサンプリングとアンダーサンプリング戦略の組み合わせによって対処された。 このサンプリング手法で複数の分類器を訓練しテストし,効果的な分類を示した。 具体的には、18の変数に基づいて訓練され、データ不均衡のために修正されたロジスティック回帰とナイーブベイズ分類器のアンサンブルは、No-AFのケース(感度 = 0.74, 特異性 = 0.70, C-index = 0.80)からAFを分離するのに最も有効であることが証明された。 我々のモデルは,HCM における AF 症例の同定のための最初の機械学習に基づく手法である。 このモデルは優れた性能を示し、データ不均衡に対処し、AFがより重症なHCM表現型と関連していることを示唆している。

Hypertrophic cardiomyopathy (HCM) patients have a high incidence of atrial fibrillation (AF) and increased stroke risk, even with low risk of congestive heart failure, hypertension, age, diabetes, previous stroke/transient ischemic attack scores. Hence, there is a need to understand the pathophysiology of AF and stroke in HCM. In this retrospective study, we develop and apply a data-driven, machine learning based method to identify AF cases, and clinical and imaging features associated with AF, using electronic health record data. HCM patients with documented paroxysmal/persisten t/permanent AF (n = 191) were considered AF cases, and the remaining patients in sinus rhythm (n = 640) were tagged as No-AF. We evaluated 93 clinical variables and the most informative variables useful for distinguishing AF from No-AF cases were selected based on the 2-sample t test and the information gain criterion. We identified 18 highly informative variables that are positively (n = 11) and negatively (n = 7) correlated with AF in HCM. Next, patient records were represented via these 18 variables. Data imbalance resulting from the relatively low number of AF cases was addressed via a combination of oversampling and under-sampling strategies. We trained and tested multiple classifiers under this sampling approach, showing effective classification. Specifically, an ensemble of logistic regression and naive Bayes classifiers, trained based on the 18 variables and corrected for data imbalance, proved most effective for separating AF from No-AF cases (sensitivity = 0.74, specificity = 0.70, C-index = 0.80). Our model is the first machine learning based method for identification of AF cases in HCM. This model demonstrates good performance, addresses data imbalance, and suggests that AF is associated with a more severe cardiac HCM phenotype.
翻訳日:2021-09-21 16:19:50 公開日:2021-09-19
# 肥大型心筋症(HCM-VAr-Risk Model)における心室不整脈とその予測因子の検討

Identifying Ventricular Arrhythmias and Their Predictors by Applying Machine Learning Methods to Electronic Health Records in Patients With Hypertrophic Cardiomyopathy(HCM-V Ar-Risk Model) ( http://arxiv.org/abs/2109.09210v1 )

ライセンス: Link先を確認
Moumita Bhattacharya, Dai-Yin Lu, Shibani M Kudchadkar, Gabriela Villarreal Greenland, Prasanth Lingamaneni, Celia P Corona-Villalobos, Yufan Guan, Joseph E Marine, Jeffrey E Olgin, Stefan Zimmerman, Theodore P Abraham, Hagit Shatkay, Maria Roselle Abraham(参考訳) 肥大型心筋症(HC)における突然死(SCD)の臨床的リスク階層化には、American College of Cardiology Foundation/American Heart Association (ACCF/AHA)のガイドラインやHCM Risk-SCDモデル(C-index of 0.69)のルールが採用されている。 SCDに繋がる心室性不整脈(VAr)患者を,より幅広い変数を考慮したデータ駆動機械学習が効果的に同定できるかどうかを検討した。 持続性心室頻拍および心室細動に対する711 HC患者の電子健康記録をスキャンした。 心室頻拍または心室細動(n = 61)の患者をvar例、残りの(n = 650)を非varと分類した。 2-sample t 試験と情報ゲイン基準を用いて,VAr と非VAr を区別する最も有意義な臨床変数を同定した。 オーバーサンプリング法とアンダーサンプリング法の併用により,VAr症例の少ないデータ不均衡に対処し,本手法を用いて複数の分類器を訓練,試験し,効果的な分類方法を示した。 臨床的変数は93例, VArは22例であった。 この22変数に基づいて訓練され、データ不均衡のために修正されたロジスティック回帰とナイーブベイズ分類器のアンサンブルは、VArと非VArのケース(感度 = 0.73, 特異性 = 0.76, C-index = 0.83)を分離するのに最も効果的であった。 我々の手法 (HCM-VAr-Risk Model) は, 確立した10個のSCD予測器に加えて, VArの新しい予測器を12個同定した。 結論として, 臨床属性を用いて, hc患者を同定するための機械学習の応用は, 初めてである。

Clinical risk stratification for sudden cardiac death (SCD) in hypertrophic cardiomyopathy (HC) employs rules derived from American College of Cardiology Foundation/American Heart Association (ACCF/AHA) guidelines or the HCM Risk-SCD model (C-index of 0.69), which utilize a few clinical variables. We assessed whether data-driven machine learning methods that consider a wider range of variables can effectively identify HC patients with ventricular arrhythmias (VAr) that lead to SCD. We scanned the electronic health records of 711 HC patients for sustained ventricular tachycardia or ventricular fibrillation. Patients with ventricular tachycardia or ventricular fibrillation (n = 61) were tagged as VAr cases and the remaining (n = 650) as non-VAr. The 2-sample t test and information gain criterion were used to identify the most informative clinical variables that distinguish VAr from non-VAr; patient records were reduced to include only these variables. Data imbalance stemming from low number of VAr cases was addressed by applying a combination of over- and under-sampling strategies.We trained and tested multiple classifiers under this sampling approach, showing effective classification. We evaluated 93 clinical variables, of which 22 proved predictive of VAr. The ensemble of logistic regression and naive Bayes classifiers, trained based on these 22 variables and corrected for data imbalance, was most effective in separating VAr from non-VAr cases (sensitivity = 0.73, specificity = 0.76, C-index = 0.83). Our method (HCM-VAr-Risk Model) identified 12 new predictors of VAr, in addition to 10 established SCD predictors. In conclusion, this is the first application of machine learning for identifying HC patients with VAr, using clinical attributes.
翻訳日:2021-09-21 16:19:12 公開日:2021-09-19
# 多スケール多様体ワーピング

Multiscale Manifold Warping ( http://arxiv.org/abs/2109.09222v1 )

ライセンス: Link先を確認
Sridhar Mahadevan, Anup Rao, Georgios Theocharous and Jennifer Healey(参考訳) 多くの現実世界のアプリケーションは、バイオインフォマティクス、手書き認識、アクティビティ認識、人間とロボットの協調を含む2つの時間的シーケンスを整列する必要がある。 動的時間ウォーピング(DTW)は一般的なアライメント手法であるが、アライメントシーケンスの次元が不等な高次元実世界のデータでは失敗することがある。 本稿では,実世界のデータの多スケール多様体的潜在構造を活用すれば,アライメントの改善が期待できることを示す。 我々は、DTWとDiffusion Waveletsと呼ばれるマルチスケールの多様体学習フレームワークを統合する、WOW(Warping on Wavelets)と呼ばれる新しいフレームワークを紹介します。 本稿では,WOW系アルゴリズムの理論的解析を行い,いくつかの実世界のデータセットにおいて,標準時ワープ(CTW)や多様体ワープといった従来の手法よりも優れていることを示す。

Many real-world applications require aligning two temporal sequences, including bioinformatics, handwriting recognition, activity recognition, and human-robot coordination. Dynamic Time Warping (DTW) is a popular alignment method, but can fail on high-dimensional real-world data where the dimensions of aligned sequences are often unequal. In this paper, we show that exploiting the multiscale manifold latent structure of real-world data can yield improved alignment. We introduce a novel framework called Warping on Wavelets (WOW) that integrates DTW with a a multi-scale manifold learning framework called Diffusion Wavelets. We present a theoretical analysis of the WOW family of algorithms and show that it outperforms previous state of the art methods, such as canonical time warping (CTW) and manifold warping, on several real-world datasets.
翻訳日:2021-09-21 16:18:33 公開日:2021-09-19
# rethnicity: 名前から民族を予測する

Rethnicity: Predicting Ethnicity from Names ( http://arxiv.org/abs/2109.09228v1 )

ライセンス: Link先を確認
Fangzhou Xie(参考訳) 名前から民族を予測するための r パッケージ \texttt{rethnicity} を提供する。 Bidirectional LSTMをモデルとして、フロリダ投票登録をトレーニングデータとして使用します。 データセットの不均衡を調整することにより、マイノリティグループの精度に特に注意が払われる。 私はまた、その可用性、正確性、パフォーマンスを、名前から民族を予測する他のソリューションと比較します。 DIMEデータセットのサンプルコードスニペットと分析もパッケージの応用例として示されている。

I provide an R package, \texttt{rethnicity}, for predicting ethnicity from names. I use the Bidirectional LSTM as the model and Florida Voter Registration as training data. Special care is given for the accuracy of minority groups, by adjusting the imbalance in the dataset. I also compare the availability, accuracy, and performance with other solutions for predicting ethnicity from names. Sample code snippet and analysis of the DIME dataset are also shown as applications of the package.
翻訳日:2021-09-21 16:18:16 公開日:2021-09-19
# 画像統計を用いた簡便で効率的な実世界の超解像

Simple and Efficient Unpaired Real-world Super-Resolution using Image Statistics ( http://arxiv.org/abs/2109.09071v1 )

ライセンス: Link先を確認
Kwangjin Yoon(参考訳) 対の低分解能(LR)と高分解能(HR)画像のないSRネットワークの学習は、対応するHRによる直接監督ができないため困難である。 近年,多くの実世界のSR研究が画像間翻訳技術を活用している。 すなわち、2つ以上の生成的敵ネットワーク(GAN)を使い、それぞれがあるドメインから別のドメインへ画像を変換し、 \egはHRドメインからLRドメインへ画像を変換する。 しかし、未ペアデータを用いてGANでそのような翻訳を安定して学習することは容易ではない。 本研究では,実世界のSRネットワークの簡易かつ効率的なトレーニング手法を提案する。 ネットワークを安定的にトレーニングするには、手段やばらつきなどの画像パッチの統計を利用する。 我々の現実世界のSRフレームワークは、2つのGANで構成されており、1つはHR画像をLR画像に翻訳する(分解タスク)、もう1つはLRをHRに翻訳する(SRタスク)。 提案するデータサンプリング戦略、すなわち分散マッチングを用いて、ganを用いた非ペア画像翻訳を効率的に学習できると主張する。 NTIRE 2020実世界のSRデータセット上で本手法を検証した。 本手法はssimメトリックの点で現在の最先端手法よりも優れており、lpipsメトリックで比較結果が得られる。

Learning super-resolution (SR) network without the paired low resolution (LR) and high resolution (HR) image is difficult because direct supervision through the corresponding HR counterpart is unavailable. Recently, many real-world SR researches take advantage of the unpaired image-to-image translation technique. That is, they used two or more generative adversarial networks (GANs), each of which translates images from one domain to another domain, \eg, translates images from the HR domain to the LR domain. However, it is not easy to stably learn such a translation with GANs using unpaired data. In this study, we present a simple and efficient method of training of real-world SR network. To stably train the network, we use statistics of an image patch, such as means and variances. Our real-world SR framework consists of two GANs, one for translating HR images to LR images (degradation task) and the other for translating LR to HR (SR task). We argue that the unpaired image translation using GANs can be learned efficiently with our proposed data sampling strategy, namely, variance matching. We test our method on the NTIRE 2020 real-world SR dataset. Our method outperforms the current state-of-the-art method in terms of the SSIM metric as well as produces comparable results on the LPIPS metric.
翻訳日:2021-09-21 16:11:36 公開日:2021-09-19
# 個人認識型ダウンサンプリングとマルチモーダル学習に基づく自閉症スペクトラム障害の同定

Identifying Autism Spectrum Disorder Based on Individual-Aware Down-Sampling and Multi-Modal Learning ( http://arxiv.org/abs/2109.09129v1 )

ライセンス: Link先を確認
Li Pan, Jundong Liu, Mingqin Shi, Chi Wah Wong, Kei Hang Katie Chan(参考訳) 自閉症スペクトラム障害(Autism Spectrum disorder、ASD)は、患者の社会的能力に影響を与える神経発達状態のセットである。 近年,機能的MRI(fMRI)を用いた深層学習法が採用されている。 しかし、既存のアプローチは異常な脳機能結合のみに集中しているが、地域活動の重要性を無視している。 このような事前知識の偏りから、従来の診断モデルは、部位間不均一性と個人間表現型差に悩まされていた。 そこで本研究では,機能的接続と局所活動の両方に関して,脳ネットワーク全体のパーソナライズされた低解像度表現を学習できるfMRIの特徴抽出手法を提案する。 まず、我々は脳画像をグラフ構造として抽象化し、ノードは脳の領域を表し、エッジは機能的な接続を表し、階層的なグラフプーリングによってスパースネットワークに分解する。 次に、各対象に抽出された特徴とビルディングエッジを割り当てることにより、個体群グラフを構築する。 非同一分散ノード機能は、グラフ畳み込みネットワークによって学習されたノード埋め込みにさらに再分類される。 これらの方法により,本フレームワークはfMRI全体から直接的かつ効率的に特徴を抽出し,暗黙の個人間差を認識できる。 ABIDE-Iデータセットのフレームワークを10倍のクロスバリデーションで評価した。 本モデルでは,平均分類精度85.95\%,平均AUC0.92を達成している。

Autism Spectrum Disorder(ASD) is a set of neurodevelopmental conditions that affect patients' social abilities. In recent years, deep learning methods have been employed to detect ASD through functional MRI (fMRI). However, existing approaches solely concentrated on the abnormal brain functional connections but ignored the importance of regional activities. Due to this biased prior knowledge, previous diagnosis models suffered from inter-site heterogeneity and inter-individual phenotypical differences. To address this issue, we propose a novel feature extraction method for fMRI that can learn a personalized lowe-resolution representation of the entire brain networking regarding both the functional connections and regional activities. First, we abstract the brain imaging as a graph structure, where nodes represent brain areas and edges denote functional connections, and downsample it to a sparse network by hierarchical graph pooling. Subsequently, by assigning each subject with the extracted features and building edges through inter-individual non-imaging characteristics, we build a population graph. The non-identically distributed node features are further recalibrated to node embeddings learned by graph convolutional networks. By these means, our framework can extract features directly and efficiently from the entire fMRI and be aware of implicit inter-individual differences. We have evaluated our framework on the ABIDE-I dataset with 10-fold cross-validation. The present model has achieved a mean classification accuracy of 85.95\% and a mean AUC of 0.92, which is better than the state-of-the-art methods.
翻訳日:2021-09-21 16:11:13 公開日:2021-09-19
# DeepPoint:mmWaveレーダによる点雲の3次元再構成のためのディープラーニングモデル

DeepPoint: A Deep Learning Model for 3D Reconstruction in Point Clouds via mmWave Radar ( http://arxiv.org/abs/2109.09188v1 )

ライセンス: Link先を確認
Yue Sun, Honggang Zhang, Zhuoming Huang, and Benyuan Liu(参考訳) 近年の研究では、低視界環境下でのオブジェクト検出にmmWaveレーダセンシングが有効であることが示されており、自動運転車のような自律ナビゲーションシステムにおいて理想的な技術となっている。 しかし,sparsity,low resolution,speculari ty,high noiseなどのレーダー信号の特性から,mmwaveレーダセンシングによる3次元物体形状の再構成は依然として困難である。 近年提案した3DRIMR (3D Restruction and Imaging via mmWave Radar)に基づいて構築されたDeepPointは,従来の3DRIMR設計を大幅に上回るポイントクラウド形式で3Dオブジェクトを生成するディープラーニングモデルである。 このモデルは、条件付き生成適応ネットワーク(GAN)ベースのディープニューラルネットワークアーキテクチャを採用する。 3DRIMRのStage 1で生成されたオブジェクトの2D深度画像を入力として、オブジェクトの滑らかで密度の高い3D点雲を出力する。 このモデルは、3drimrのステージ1の不完全な生成プロセスのために、これらの入力ポイント雲が多くの不正確な点を含む可能性があることを考慮し、様々な視点から観察すると、オブジェクトの複数の粗さとスパースな入力ポイント雲の結合の本質的な特徴を抽出するために、ディープポイントブロックまたはレイヤのシーケンスを利用する新しいジェネレータネットワークからなる。 DeepPointの設計は、入力ポイントクラウドのグローバルな特徴を捉えるために深い構造を採用しており、最適化された多数のDeepPointブロックと接続をスキップして、元の3DRIMR設計よりもパフォーマンスの向上を実現している。 実験により,本モデルが元の3DRIMRや他の標準技術よりも優れていることが示された。

Recent research has shown that mmWave radar sensing is effective for object detection in low visibility environments, which makes it an ideal technique in autonomous navigation systems such as autonomous vehicles. However, due to the characteristics of radar signals such as sparsity, low resolution, specularity, and high noise, it is still quite challenging to reconstruct 3D object shapes via mmWave radar sensing. Built on our recent proposed 3DRIMR (3D Reconstruction and Imaging via mmWave Radar), we introduce in this paper DeepPoint, a deep learning model that generates 3D objects in point cloud format that significantly outperforms the original 3DRIMR design. The model adopts a conditional Generative Adversarial Network (GAN) based deep neural network architecture. It takes as input the 2D depth images of an object generated by 3DRIMR's Stage 1, and outputs smooth and dense 3D point clouds of the object. The model consists of a novel generator network that utilizes a sequence of DeepPoint blocks or layers to extract essential features of the union of multiple rough and sparse input point clouds of an object when observed from various viewpoints, given that those input point clouds may contain many incorrect points due to the imperfect generation process of 3DRIMR's Stage 1. The design of DeepPoint adopts a deep structure to capture the global features of input point clouds, and it relies on an optimally chosen number of DeepPoint blocks and skip connections to achieve performance improvement over the original 3DRIMR design. Our experiments have demonstrated that this model significantly outperforms the original 3DRIMR and other standard techniques in reconstructing 3D objects.
翻訳日:2021-09-21 16:10:49 公開日:2021-09-19
# 赤ちゃんロボット:幼児の運動能力を向上させる

Baby Robot: Improving the Motor Skills of Toddlers ( http://arxiv.org/abs/2109.09223v1 )

ライセンス: Link先を確認
Eric Ca\~nas, Alba M. G. Garcia, Ana\'is Garrell and Cecilio Angulo(参考訳) 本稿では,乳幼児の運動能力向上を目的としたロボット「Baby Robot」を紹介する。 著者らは強化学習とコンピュータビジョン技術を使って自律的に動く車のようなおもちゃを開発した。 ロボットの動作は、障害を避けながら、以前に認識された、あるいは少なくとも検出された対象の赤ちゃんから逃れることであり、赤ちゃんの安全が損なわれない。 同様の機動性向上目的の数多くの商用玩具が市場に投入されているが、最善のケースでは単純かつ反復的な動作を行うため、インテリジェントな自律的な動きに賭ける人はいない。 赤ちゃんロボット」を表現した2つのクロール玩具は、幼児の移動性をいかに改善したかを確認するために、通常のおもちゃに関して実環境でテストされた。 これらの実生活実験は、子どものグループがおもちゃと対話する幼稚園で提案したロボットを用いて行われた。 被験者の運動能力に有意な改善が認められた。

This article introduces "Baby Robot", a robot aiming to improve motor skills of babies and toddlers. Authors developed a car-like toy that moves autonomously using reinforcement learning and computer vision techniques. The robot behaviour is to escape from a target baby that has been previously recognized, or at least detected, while avoiding obstacles, so that the security of the baby is not compromised. A myriad of commercial toys with a similar mobility improvement purpose are into the market; however, there is no one that bets for an intelligent autonomous movement, as they perform simple yet repetitive trajectories in the best of the cases. Two crawling toys -- one in representation of "Baby Robot" -- were tested in a real environment with respect to regular toys in order to check how they improved the toddlers mobility. These real-life experiments were conducted with our proposed robot in a kindergarten, where a group of children interacted with the toys. Significant improvement in the motion skills of participants were detected.
翻訳日:2021-09-21 16:01:16 公開日:2021-09-19
# 市場参加者の業績のリバースエンジニアリングに基づくデータ駆動型収束入札戦略:カリフォルニアISOを事例として

A Data-Driven Convergence Bidding Strategy Based on Reverse Engineering of Market Participants' Performance: A Case of California ISO ( http://arxiv.org/abs/2109.09238v1 )

ライセンス: Link先を確認
Ehsan Samani, Mahdi Kohansal, Hamed Mohsenian-Rad(参考訳) コンバージェンス入札、すなわち仮想入札は近年、電力市場全体において広く採用されている。 市場参加者は、日頭市場におけるマージン価格とリアルタイム市場におけるマージン価格の違いを仲裁する機会を提供する。 コンバージェンス入札(CB)が電力市場の運営に重大な影響を与えているという事実を踏まえると、市場参加者が実際にCBを戦略的に選択する方法を理解することが重要である。 我々は、カリフォルニアISOが運営する電力市場に焦点を当てて、この問題に対処する。 この点において、現在市場参加者が使用している様々なコンバージェンス入札戦略の学習、特徴付け、評価に、利用可能な電気市場データを使用します。 実世界の3年間のデータに適用可能な,データ駆動のリバースエンジニアリング手法の開発を含む。 分析には特徴選択と密度に基づくデータクラスタリングが関与する。 その結果、カリフォルニアISO市場におけるCB戦略の3つの主要なクラスタが特定された。 戦略の各クラスタの異なる特性と性能を解析する。 興味深いことに、文献における既存の戦略的収束入札手法と一致しない共通の現実世界戦略を解きます。 次に、既存の実世界の戦略から学んだ教訓に基づいて、それらを著しく上回る新しいCB戦略を提案する。 我々の分析は、収束入札のための新しい戦略の開発を含む。 新たな戦略には3つのステップがある: 価格スパイクを捕捉するネット利益の最大化、動的ノードラベリング、戦略選択アルゴリズム。 本研究は, 市場参加者の年間純利益が, 提案したコンバージェンス入札戦略を用いていれば40%以上増加できることを示す。

Convergence bidding, a.k.a., virtual bidding, has been widely adopted in wholesale electricity markets in recent years. It provides opportunities for market participants to arbitrage on the difference between the day-ahead market locational marginal prices and the real-time market locational marginal prices. Given the fact that convergence bids (CBs) have a significant impact on the operation of electricity markets, it is important to understand how market participants strategically select their CBs in real-world. We address this open problem with focus on the electricity market that is operated by the California ISO. In this regard, we use the publicly available electricity market data to learn, characterize, and evaluate different types of convergence bidding strategies that are currently used by market participants. Our analysis includes developing a data-driven reverse engineering method that we apply to three years of real-world data. Our analysis involves feature selection and density-based data clustering. It results in identifying three main clusters of CB strategies in the California ISO market. Different characteristics and the performance of each cluster of strategies are analyzed. Interestingly, we unmask a common real-world strategy that does not match any of the existing strategic convergence bidding methods in the literature. Next, we build upon the lessons learned from the existing real-world strategies to propose a new CB strategy that can significantly outperform them. Our analysis includes developing a new strategy for convergence bidding. The new strategy has three steps: net profit maximization by capturing price spikes, dynamic node labeling, and strategy selection algorithm. We show through case studies that the annual net profit for the most lucrative market participants can increase by over 40% if the proposed convergence bidding strategy is used.
翻訳日:2021-09-21 15:58:13 公開日:2021-09-19
# 予測状態のトポロジー・収束・再構築

Topology, Convergence, and Reconstruction of Predictive States ( http://arxiv.org/abs/2109.09203v1 )

ライセンス: Link先を確認
Samuel P. Loomis and James P. Crutchfield(参考訳) 離散確率過程における予測等価性は、統計物理学やカオス力学系におけるランダム性と構造を同定し、隠れマルコフモデルの推定に大いに成功している。 時系列データから確実に再構成できる条件について検討し, 測度の弱いトポロジーにおいて, 経験的サンプルから予測状態の収束が達成できることを示した。 さらに、予測状態は弱位相を再現するヒルベルト空間に表すことができる。 本稿では,これらの表現が高メモリプロセスの再構成において特に有用であることを示す。

Predictive equivalence in discrete stochastic processes have been applied with great success to identify randomness and structure in statistical physics and chaotic dynamical systems and to inferring hidden Markov models. We examine the conditions under which they can be reliably reconstructed from time-series data, showing that convergence of predictive states can be achieved from empirical samples in the weak topology of measures. Moreover, predictive states may be represented in Hilbert spaces that replicate the weak topology. We mathematically explain how these representations are particularly beneficial when reconstructing high-memory processes and connect them to reproducing kernel Hilbert spaces.
翻訳日:2021-09-21 15:57:17 公開日:2021-09-19
# ペルシア語レビューにおけるアスペクトベース感性分析のための共同モデリングと極性

Jointly Modeling Aspect and Polarity for Aspect-based Sentiment Analysis in Persian Reviews ( http://arxiv.org/abs/2109.07680v2 )

ライセンス: Link先を確認
Milad Vazan and Jafar Razmara(参考訳) 自然言語テキストからのユーザの意見の同定は,現実世界の応用が拡大する中で,エキサイティングな研究分野となっている。 研究分野は感情分析と分類と呼ばれ、アスペクトカテゴリー検出(ACD)とアスペクトカテゴリー極性(ACP)はアスペクトベースの感情分析の2つの重要なサブタスクである。 ACDの目標は、ACPがACDタスクから各アスペクトカテゴリの極性を指定するのに対して、エンティティのどのアスペクトが意見として現れるかを指定することである。 以前の研究は主にこれらの2つのサブタスクに対する別の解を提案する。 本稿では,ACD と ACP のサブタスクに着目し,両問題を同時に解決する。 提案手法では,4種類の深層モデルを用いたマルチラベル分類を行い,その性能を比較検討した。 ペルシアのレビューのデータセットはCinemaTicketのウェブサイトから収集され、14のカテゴリから2200のサンプルが集められた。 サンプルベースおよびラベルベースメトリクスを用いて,収集したデータセットを用いてモデルの評価を行った。 その結果,LSTMおよびBi-LSTMと比較して,CNNおよびGRUモデルの高い適用性と嗜好性を示した。

Identification of user's opinions from natural language text has become an exciting field of research due to its growing applications in the real world. The research field is known as sentiment analysis and classification, where aspect category detection (ACD) and aspect category polarity (ACP) are two important sub-tasks of aspect-based sentiment analysis. The goal in ACD is to specify which aspect of the entity comes up in opinion while ACP aims to specify the polarity of each aspect category from the ACD task. The previous works mostly propose separate solutions for these two sub-tasks. This paper focuses on the ACD and ACP sub-tasks to solve both problems simultaneously. The proposed method carries out multi-label classification where four different deep models were employed and comparatively evaluated to examine their performance. A dataset of Persian reviews was collected from CinemaTicket website including 2200 samples from 14 categories. The developed models were evaluated using the collected dataset in terms of example-based and label-based metrics. The results indicate the high applicability and preference of the CNN and GRU models in comparison to LSTM and Bi-LSTM.
翻訳日:2021-09-21 11:20:37 公開日:2021-09-19