このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201013となっている論文です。

PDF登録状況(公開日: 20201013)

TitleAuthorsAbstract論文公表日・翻訳日
# object as hotspots: hotspotsの発射によるアンカーフリー3dオブジェクト検出アプローチ

Object as Hotspots: An Anchor-Free 3D Object Detection Approach via Firing of Hotspots ( http://arxiv.org/abs/1912.12791v3 )

ライセンス: Link先を確認
Qi Chen, Lin Sun, Zhixin Wang, Kui Jia, Alan Yuille(参考訳) LiDARベースの点雲における正確な3Dオブジェクト検出は、データのスパーシリティと不規則性の課題に悩まされる。 既存の手法では、voxelizeのようなポイントを定期的に整理し、設計した2d/3dニューラルネットワークに渡して、3dバウンディングボックスのオフセットを予測するオブジェクトレベルのアンカーを定義している。 現状のアンカーベースの手法とは対照的に、データ空間の性質に基づいて、個々のオブジェクト部分のポイントでさえ、オブジェクトのセマンティック情報について情報を提供する。 そこで本稿では,オブジェクトレベルのアンカーを用いた既存手法と逆のアプローチを論じる。 対象を部分とその空間的関係として表現する合成モデルに着想を得て,対象を内部非空ボクセル,いわゆるホットスポット,ホットスポットの空間的関係の合成として表現することを提案する。 これはオブジェクトをhotspots(ohs)として表現する原因となります。 さらに,OHSに基づいて,物体間疎度不均衡に対処し,ネットワークがより多くの点を持つ物体に対して偏りを生じないようにする,新たな地平真理割当戦略を持つアンカーフリー検出ヘッドを提案する。 実験の結果,提案手法は点数が少ない物体に対して非常に有効であることがわかった。 提案手法は,自転車および歩行者検出におけるKITTI 3D Detection Benchmarkで1位にランクされ,NuScenes 3D Detection Benchmarkで最先端のパフォーマンスを達成した。

Accurate 3D object detection in LiDAR based point clouds suffers from the challenges of data sparsity and irregularities. Existing methods strive to organize the points regularly, e.g. voxelize, pass them through a designed 2D/3D neural network, and then define object-level anchors that predict offsets of 3D bounding boxes using collective evidences from all the points on the objects of interest. Contrary to the state-of-the-art anchor-based methods, based on the very nature of data sparsity, we observe that even points on an individual object part are informative about semantic information of the object. We thus argue in this paper for an approach opposite to existing methods using object-level anchors. Inspired by compositional models, which represent an object as parts and their spatial relations, we propose to represent an object as composition of its interior non-empty voxels, termed hotspots, and the spatial relations of hotspots. This gives rise to the representation of Object as Hotspots (OHS). Based on OHS, we further propose an anchor-free detection head with a novel ground truth assignment strategy that deals with inter-object point-sparsity imbalance to prevent the network from biasing towards objects with more points. Experimental results show that our proposed method works remarkably well on objects with a small number of points. Notably, our approach ranked 1st on KITTI 3D Detection Benchmark for cyclist and pedestrian detection, and achieved state-of-the-art performance on NuScenes 3D Detection Benchmark.
翻訳日:2023-01-17 02:32:51 公開日:2020-10-13
# 点雲生成へのハイパーネットワークアプローチ

Hypernetwork approach to generating point clouds ( http://arxiv.org/abs/2003.00802v2 )

ライセンス: Link先を確認
Przemys{\l}aw Spurek, Sebastian Winczowski, Jacek Tabor, Maciej Zamorski, Maciej Zi\k{e}ba, Tomasz Trzci\'nski(参考訳) 本研究では,ハイパーネットワークの特性を利用する3次元点雲を生成する新しい手法を提案する。 3Dオブジェクトの表現のみを学習する既存の手法とは対照的に,本手法ではオブジェクトとその3D表面の表現を同時に見つける。 当社のHyperCloudメソッドの主なアイデアは、均一な単位球分布から3D形状にポイントをマッピングするように訓練された特定のニューラルネットワーク(ターゲットネットワーク)の重みを返すハイパーネットワークを構築することです。 その結果、所定の3次元形状を、想定された事前分布からポイントバイポイントサンプリングして、対象ネットワークでサンプル点を変換することで生成することができる。 ハイパーネットワークは、リアルな3d形状を再構築するために訓練されたオートエンコーダアーキテクチャに基づいているため、ターゲットのネットワーク重みは、3d形状の表面のパラメトリゼーションと見なすことができ、通常は競合アプローチによって返されるポイントクラウドの標準的な表現ではない。 提案アーキテクチャにより、3Dオブジェクトのメッシュベースの表現を生成的に見つけることができ、高品質で最先端の手法と組み合わせてポイントクラウドを提供できる。

In this work, we propose a novel method for generating 3D point clouds that leverage properties of hyper networks. Contrary to the existing methods that learn only the representation of a 3D object, our approach simultaneously finds a representation of the object and its 3D surface. The main idea of our HyperCloud method is to build a hyper network that returns weights of a particular neural network (target network) trained to map points from a uniform unit ball distribution into a 3D shape. As a consequence, a particular 3D shape can be generated using point-by-point sampling from the assumed prior distribution and transforming sampled points with the target network. Since the hyper network is based on an auto-encoder architecture trained to reconstruct realistic 3D shapes, the target network weights can be considered a parametrization of the surface of a 3D shape, and not a standard representation of point cloud usually returned by competitive approaches. The proposed architecture allows finding mesh-based representation of 3D objects in a generative manner while providing point clouds en pair in quality with the state-of-the-art methods.
翻訳日:2023-01-02 09:19:40 公開日:2020-10-13
# 個人フェアネス再考: 対人ロバスト性からの移譲技術

Individual Fairness Revisited: Transferring Techniques from Adversarial Robustness ( http://arxiv.org/abs/2002.07738v4 )

ライセンス: Link先を確認
Samuel Yeom, Matt Fredrikson(参考訳) 我々は、所定の計量が与えられたモデルの公正さを確かめるよりもむしろ、個々の公正さを満足する与えられたモデルの計量を求める。 これにより、モデルの公平性に関する議論が促進され、優先順位を適切な計量として特定することが難しい問題に対処することができる。 まず、最小限のメトリックの定義を導入し、最小限のメトリックの観点からモデルの振る舞いを特徴づけます。 第二に、より複雑なモデルに対して、対向ロバスト性からランダムに滑らか化する機構を適用して、与えられた重み付き$L^p$計量の下で個別に公平にする。 我々の実験では、線形モデルの最小指標をより複雑なニューラルネットワークに適応させることで、有用性に対する最小限のコストで有意義で解釈可能な公平性を保証することができることを示した。

We turn the definition of individual fairness on its head---rather than ascertaining the fairness of a model given a predetermined metric, we find a metric for a given model that satisfies individual fairness. This can facilitate the discussion on the fairness of a model, addressing the issue that it may be difficult to specify a priori a suitable metric. Our contributions are twofold: First, we introduce the definition of a minimal metric and characterize the behavior of models in terms of minimal metrics. Second, for more complicated models, we apply the mechanism of randomized smoothing from adversarial robustness to make them individually fair under a given weighted $L^p$ metric. Our experiments show that adapting the minimal metrics of linear models to more complicated neural networks can lead to meaningful and interpretable fairness guarantees at little cost to utility.
翻訳日:2022-12-30 19:33:58 公開日:2020-10-13
# 臨床展開のためのゲノム分類器の最適化:急性感染症および院内死亡の予測モデル選択のためのベイズ最適化の評価

Optimization of Genomic Classifiers for Clinical Deployment: Evaluation of Bayesian Optimization to Select Predictive Models of Acute Infection and In-Hospital Mortality ( http://arxiv.org/abs/2003.12310v3 )

ライセンス: Link先を確認
Michael B. Mayhew, Elizabeth Tran, Kirindi Choi, Uros Midic, Roland Luethy, Nandita Damaraju and Ljubomir Buturovic(参考訳) 急性感染症は、迅速かつ正確に検出されていないが、敗血症、臓器不全、さらには死に至る。 現在の急性感染症の検出と患者の重症度の評価は不完全である。 血液から特定の遺伝子の発現レベルを定量化することで患者の免疫応答の特徴付けは、両方のタスクを遂行するよりタイムリーで正確な手段である可能性がある。 機械学習手法は、デプロイ対応の分類モデルの開発にこの‘ホスト応答’を活用するプラットフォームを提供する。 有望な分類器の優先順位付けは、グリッド探索、ランダムサンプリング、ベイズ最適化を含む多くのアプローチが有効であることが示されているハイパーパラメータ最適化に依存する。 29種類の診断マーカーの遺伝子発現から急性感染症と病院内死亡の診断分類器の開発にho法を応用した。 我々は、データセット分割とハイパーパラメータ最適化の目標を選択するとともに、外部(および内部)の検証で選択した分類器を評価することで、マルチスタディ患者コホートの不均一性を考慮し、包括的分析に展開中心のアプローチを取ります。 ベイズ最適化によって選択された病院内死亡率の分類器は,グリッド探索やランダムサンプリングにより選択された分類器よりも優れていることがわかった。 しかし これまでの研究とは対照的に 1)ベイズ最適化は,グリッド探索やランダムサンプリングに基づく手法と比較して,全インスタンスの分類器選択において効率的ではない。 2) ベイズ最適化の一般的な変種(すなわち自動適合性判定)を使用する場合, 特定の状況のみにおいて, 分類器性能の限界値に留意する。 私たちの分析は、ヘルスケアのコンテキストにおけるHOアプローチのより実践的でデプロイ中心のベンチマークの必要性を強調します。

Acute infection, if not rapidly and accurately detected, can lead to sepsis, organ failure and even death. Current detection of acute infection as well as assessment of a patient's severity of illness are imperfect. Characterization of a patient's immune response by quantifying expression levels of specific genes from blood represents a potentially more timely and precise means of accomplishing both tasks. Machine learning methods provide a platform to leverage this 'host response' for development of deployment-ready classification models. Prioritization of promising classifiers is dependent, in part, on hyperparameter optimization for which a number of approaches including grid search, random sampling and Bayesian optimization have been shown to be effective. We compare HO approaches for the development of diagnostic classifiers of acute infection and in-hospital mortality from gene expression of 29 diagnostic markers. We take a deployment-centered approach to our comprehensive analysis, accounting for heterogeneity in our multi-study patient cohort with our choices of dataset partitioning and hyperparameter optimization objective as well as assessing selected classifiers in external (as well as internal) validation. We find that classifiers selected by Bayesian optimization for in-hospital mortality can outperform those selected by grid search or random sampling. However, in contrast to previous research: 1) Bayesian optimization is not more efficient in selecting classifiers in all instances compared to grid search or random sampling-based methods and 2) we note marginal gains in classifier performance in only specific circumstances when using a common variant of Bayesian optimization (i.e. automatic relevance determination). Our analysis highlights the need for further practical, deployment-centered benchmarking of HO approaches in the healthcare context.
翻訳日:2022-12-19 04:43:50 公開日:2020-10-13
# 医用画像を用いた3次元ディープラーニング

3D Deep Learning on Medical Images: A Review ( http://arxiv.org/abs/2004.00218v4 )

ライセンス: Link先を確認
Satya P. Singh, Lipo Wang, Sukrit Gupta, Haveesh Goli, Parasuraman Padmanabhan and Bal\'azs Guly\'as(参考訳) 機械学習、グラフィックス処理技術、医用画像データの可用性の急速な向上により、医療領域におけるディープラーニングモデルの利用が急速に増加した。 これは畳み込みニューラルネットワーク(cnn)ベースのアーキテクチャの急速な進歩によって悪化し、医療画像コミュニティが臨床医の病気診断を支援するために採用した。 2012年のalexnetの大成功以来、cnnは人間の臨床医の効率を改善するために医用画像分析にますます使われてきた。 近年,医用画像の解析に三次元(3次元)cnnが用いられている。 本稿では、3D CNNが機械学習のルーツからどのように開発されたかの歴史を辿り、3D CNNを数学的に記述し、3D CNNに供給する前に医療画像に必要な前処理ステップを提供する。 分類,セグメンテーション,検出,局所化などの異なる医療領域における3次元CNN(およびその変異体)を用いた3次元医用画像解析の分野における重要な研究について概説する。 医用画像領域における3d cnnの使用(およびディープラーニングモデル全般の利用)に関する課題と、この分野の今後の動向について考察した。

The rapid advancements in machine learning, graphics processing technologies and the availability of medical imaging data have led to a rapid increase in the use of deep learning models in the medical domain. This was exacerbated by the rapid advancements in convolutional neural network (CNN) based architectures, which were adopted by the medical imaging community to assist clinicians in disease diagnosis. Since the grand success of AlexNet in 2012, CNNs have been increasingly used in medical image analysis to improve the efficiency of human clinicians. In recent years, three-dimensional (3D) CNNs have been employed for the analysis of medical images. In this paper, we trace the history of how the 3D CNN was developed from its machine learning roots, we provide a brief mathematical description of 3D CNN and provide the preprocessing steps required for medical images before feeding them to 3D CNNs. We review the significant research in the field of 3D medical imaging analysis using 3D CNNs (and its variants) in different medical areas such as classification, segmentation, detection and localization. We conclude by discussing the challenges associated with the use of 3D CNNs in the medical imaging domain (and the use of deep learning models in general) and possible future trends in the field.
翻訳日:2022-12-17 18:37:09 公開日:2020-10-13
# 世界はバイナリではない:対話応答選択のためのグレースケールデータによるランク付け学習

The World is Not Binary: Learning to Rank with Grayscale Data for Dialogue Response Selection ( http://arxiv.org/abs/2004.02421v4 )

ライセンス: Link先を確認
Zibo Lin, Deng Cai, Yan Wang, Xiaojiang Liu, Hai-Tao Zheng, Shuming Shi(参考訳) 応答選択は,検索に基づく会話システム構築において重要な役割を果たす。 応答選択は自然に学習からランクへの問題であるにもかかわらず、ほとんどの先行研究はポイントワイズでこのタスクのバイナリ分類器を訓練する:それぞれの応答候補は、関連(1)または非関連(0)のいずれかでラベル付けされる。 一方、この形式化は、応答品質の多様性を知らないため、副最適である。 一方、グレースケールデータを学習してランク付けするための注釈付けは、極めて高価で困難である。 本研究では,人間の努力なしにグレイスケールのデータを自動的に構築できることを示す。 本手法では,自動グレースケールデータ生成装置として,市販の応答検索モデルと応答生成モデルを用いる。 構築したグレースケールデータを用いて,(1)よりきめ細かな文脈-応答関係の差を捉えるためのマッチングモデルを指導し,(2)気晴らし強度の観点から列車-テストの相違を低減できる,訓練用多段階ランク付け目標を提案する。 私たちの方法は単純で効果的で普遍的です。 3つのベンチマークデータセットと4つの最先端マッチングモデルに関する実験は、提案手法が大幅に一貫したパフォーマンス改善をもたらすことを示している。

Response selection plays a vital role in building retrieval-based conversation systems. Despite that response selection is naturally a learning-to-rank problem, most prior works take a point-wise view and train binary classifiers for this task: each response candidate is labeled either relevant (one) or irrelevant (zero). On the one hand, this formalization can be sub-optimal due to its ignorance of the diversity of response quality. On the other hand, annotating grayscale data for learning-to-rank can be prohibitively expensive and challenging. In this work, we show that grayscale data can be automatically constructed without human effort. Our method employs off-the-shelf response retrieval models and response generation models as automatic grayscale data generators. With the constructed grayscale data, we propose multi-level ranking objectives for training, which can (1) teach a matching model to capture more fine-grained context-response relevance difference and (2) reduce the train-test discrepancy in terms of distractor strength. Our method is simple, effective, and universal. Experiments on three benchmark datasets and four state-of-the-art matching models show that the proposed approach brings significant and consistent performance improvements.
翻訳日:2022-12-16 06:37:38 公開日:2020-10-13
# 質問応答データセットからモデルは何を学ぶか?

What do Models Learn from Question Answering Datasets? ( http://arxiv.org/abs/2004.03490v2 )

ライセンス: Link先を確認
Priyanka Sen and Amir Saffari(参考訳) SQuADのような一般的な質問応答(QA)データセットでは、モデルは超人的なパフォーマンスに達しているが、質問応答自体のタスクでは、人間よりも優れている。 本稿では,5つのデータセットにまたがるBERTモデルを評価することにより,QAデータセットからの読解理解を学習しているモデルについて検討する。 我々は、ドメイン外の例に対する一般化可能性、不適切なデータに対する応答、質問のバリエーションを扱う能力に関するモデルを評価する。 実験のすべてにロバストなデータセットはひとつもなく、データセットと評価方法の両方の欠点を特定しています。 分析の結果,読解による質問応答の課題をよりよく評価する,将来的なQAデータセットの構築を推奨する。 また、QAデータセットを共有フォーマットに変換し、https://github.com/amazon-research/qa-dataset-converterで簡単に実験できるようにしています。

While models have reached superhuman performance on popular question answering (QA) datasets such as SQuAD, they have yet to outperform humans on the task of question answering itself. In this paper, we investigate if models are learning reading comprehension from QA datasets by evaluating BERT-based models across five datasets. We evaluate models on their generalizability to out-of-domain examples, responses to missing or incorrect data, and ability to handle question variations. We find that no single dataset is robust to all of our experiments and identify shortcomings in both datasets and evaluation methods. Following our analysis, we make recommendations for building future QA datasets that better evaluate the task of question answering through reading comprehension. We also release code to convert QA datasets to a shared format for easier experimentation at https://github.com/amazon-research/qa-dataset-converter.
翻訳日:2022-12-15 23:57:47 公開日:2020-10-13
# 言語出現における内外的圧力--最小努力、対象構成、頻度

Internal and external pressures on language emergence: least effort, object constancy and frequency ( http://arxiv.org/abs/2004.03868v3 )

ライセンス: Link先を確認
Diana Rodr\'iguez Luna, Edoardo Maria Ponti, Dieuwke Hupkes, Elia Bruni(参考訳) 前回の研究では、イメージを識別するためにコミュニケーションが必要な参照ゲームにおいて、人工エージェントがほぼ完全な精度を達成することが示されている。 それでも、結果として生じる通信プロトコルは、構成性のような自然言語の健全な特徴をほとんど示さない。 本稿では,この結果に逆らうコミュニケーションへの現実的な圧力源を提案する。 より具体的には、補助的な目的を通して最小の努力の原則を定式化する。 さらに,画像中の物体の周波数,位置,光度を変化させるという,物体の安定性の原理に着想を得たいくつかのゲーム変種を探索する。 我々は,構成性指標,診断分類器,ゼロショット評価を通じて,その効果を広範囲に分析する。 以上の結果から,提案するプレッシャー源は冗長性が低く,概念情報の高レベル化,一般化能力の向上に寄与することが明らかとなった。 全体として、私たちの貢献は創発語と自然言語のギャップを減らします。

In previous work, artificial agents were shown to achieve almost perfect accuracy in referential games where they have to communicate to identify images. Nevertheless, the resulting communication protocols rarely display salient features of natural languages, such as compositionality. In this paper, we propose some realistic sources of pressure on communication that avert this outcome. More specifically, we formalise the principle of least effort through an auxiliary objective. Moreover, we explore several game variants, inspired by the principle of object constancy, in which we alter the frequency, position, and luminosity of the objects in the images. We perform an extensive analysis on their effect through compositionality metrics, diagnostic classifiers, and zero-shot evaluation. Our findings reveal that the proposed sources of pressure result in emerging languages with less redundancy, more focus on high-level conceptual information, and better abilities of generalisation. Overall, our contributions reduce the gap between emergent and natural languages.
翻訳日:2022-12-15 07:59:43 公開日:2020-10-13
# 肝癌診断のための中国語自由テキストx線画像の自然言語処理パイプライン

A Natural Language Processing Pipeline of Chinese Free-text Radiology Reports for Liver Cancer Diagnosis ( http://arxiv.org/abs/2004.13848v2 )

ライセンス: Link先を確認
Honglei Liu, Yan Xu, Zhiqiang Zhang, Ni Wang, Yanqun Huang, Yanjun Hu, Zhenghan Yang, Rui Jiang, Hui Chen(参考訳) 電子カルテ(EMR)における自然言語処理(NLP)の急速な実装にもかかわらず、特に放射線学報告において、コーパスや特定の文法的特徴のため、中国のEMRs処理は依然として困難である。 本研究は, コンピュータ支援放射線診断における第1のステップである, 中国の放射線医学報告から臨床関連特徴を直接抽出するためのNLPパイプラインを設計した。 このパイプラインは名前付きエンティティ認識、同義語正規化、および1つ以上の用語からなる放射線学的特徴を導出するための関係抽出から構成されていた。 名前付きエンティティ認識では,双方向長短期記憶条件ランダムフィールド(BiLSTM-CRF)にレキシコンを組み込み,最終的に93.00%のF1スコアを得た。 抽出された放射線学的特徴により,肝癌予測のための分類器の構築には,最小の絶対収縮と選択操作,機械学習手法(サポートベクターマシン,ランダムフォレスト,決定木,ロジスティック回帰)を用いた。 肝癌の診断において、ランダム森林は肝癌の診断において最も高い予測性能を示した(F1スコア86.97%、精度87.71%、リコール86.25%)。 この研究は、中国の放射線医学レポートとNLPのがんリスク予測への応用に焦点を当てた総合的なNLP研究であった。 放射線学的特徴抽出のためのNLPパイプラインは、他の種類の中国臨床テキストや他の疾患予測タスクに容易に実装できる。

Despite the rapid development of natural language processing (NLP) implementation in electronic medical records (EMRs), Chinese EMRs processing remains challenging due to the limited corpus and specific grammatical characteristics, especially for radiology reports. In this study, we designed an NLP pipeline for the direct extraction of clinically relevant features from Chinese radiology reports, which is the first key step in computer-aided radiologic diagnosis. The pipeline was comprised of named entity recognition, synonyms normalization, and relationship extraction to finally derive the radiological features composed of one or more terms. In named entity recognition, we incorporated lexicon into deep learning model bidirectional long short-term memory-conditional random field (BiLSTM-CRF), and the model finally achieved an F1 score of 93.00%. With the extracted radiological features, least absolute shrinkage and selection operator and machine learning methods (support vector machine, random forest, decision tree, and logistic regression) were used to build the classifiers for liver cancer prediction. For liver cancer diagnosis, random forest had the highest predictive performance in liver cancer diagnosis (F1 score 86.97%, precision 87.71%, and recall 86.25%). This work was a comprehensive NLP study focusing on Chinese radiology reports and the application of NLP in cancer risk prediction. The proposed NLP pipeline for the radiological feature extraction could be easily implemented in other kinds of Chinese clinical texts and other disease predictive tasks.
翻訳日:2022-12-14 21:04:02 公開日:2020-10-13
# 対向重み摂動はロバストな一般化に役立つ

Adversarial Weight Perturbation Helps Robust Generalization ( http://arxiv.org/abs/2004.05884v2 )

ライセンス: Link先を確認
Dongxian Wu, Shu-tao Xia, Yisen Wang(参考訳) 近年, 敵対例に対するディープニューラルネットワークの堅牢性向上に関する研究が急速に進んでいる。 中でも最も有望なのが敵意トレーニングであり、敵意に乱れた例のトレーニングを通じて入力損失の状況(入力に対する変化が失われる)をフラットにする。 しかし、相手のトレーニングにおいて広く使われている減量風景(重量に対する損失変化)がどのように機能するかは、めったに研究されていない。 本稿では,新しい視点から減量景観を考察し,減量景観の平坦性と強固な一般化ギャップとの明確な相関関係を明らかにする。 早期停止、新しい目的関数の設計、ラベルなしデータの活用など、よく認識された敵の訓練の改善は、いずれも減量景観を暗黙的にフラットにする。 そこで,本研究では,重みの平らさを明示的に定式化するための簡易かつ効果的な逆重み摂動 (awp) を提案し,入力と重みの両方を逆に摂動させる逆訓練枠組みにおいて二重摂動機構を形成する。 大規模な実験により、AWPは確かにより平坦な減量景観をもたらし、既存の様々な対向訓練手法に容易に組み込むことができ、対向的堅牢性をさらに向上させることができることが示されている。

The study on improving the robustness of deep neural networks against adversarial examples grows rapidly in recent years. Among them, adversarial training is the most promising one, which flattens the input loss landscape (loss change with respect to input) via training on adversarially perturbed examples. However, how the widely used weight loss landscape (loss change with respect to weight) performs in adversarial training is rarely explored. In this paper, we investigate the weight loss landscape from a new perspective, and identify a clear correlation between the flatness of weight loss landscape and robust generalization gap. Several well-recognized adversarial training improvements, such as early stopping, designing new objective functions, or leveraging unlabeled data, all implicitly flatten the weight loss landscape. Based on these observations, we propose a simple yet effective Adversarial Weight Perturbation (AWP) to explicitly regularize the flatness of weight loss landscape, forming a double-perturbation mechanism in the adversarial training framework that adversarially perturbs both inputs and weights. Extensive experiments demonstrate that AWP indeed brings flatter weight loss landscape and can be easily incorporated into various existing adversarial training methods to further boost their adversarial robustness.
翻訳日:2022-12-13 23:08:21 公開日:2020-10-13
# 512以上のトークン: 長文文書マッチングのためのシームズ多層トランスフォーマーに基づく階層エンコーダ

Beyond 512 Tokens: Siamese Multi-depth Transformer-based Hierarchical Encoder for Long-Form Document Matching ( http://arxiv.org/abs/2004.12297v2 )

ライセンス: Link先を確認
Liu Yang, Mingyang Zhang, Cheng Li, Michael Bendersky, Marc Najork(参考訳) 多くの自然言語処理や情報検索問題は意味マッチングのタスクとして形式化することができる。 この分野における既存の仕事は、短いテキスト(例えば、質問への回答)と短いテキストと長いテキスト(例えば、アドホックな検索)のマッチングに重点を置いている。 ニュースレコメンデーション、関連記事レコメンデーション、文書クラスタリングなど多くの重要な応用がある長文文書間のセマンティックマッチングは、調査が比較的少なく、研究の努力が必要である。 近年,Transformers や BERT のような自己注意型モデルはテキストマッチングのタスクにおいて最先端のパフォーマンスを実現している。 しかしながら、これらのモデルは入力テキスト長に関する自己注意の2次計算の複雑さのため、いくつかの文や1段落のような短いテキストに制限されている。 本稿では,ロングフォーム文書マッチングのためのsiamese multi-depth transformer-based hierarchical (smith) エンコーダを提案する。 我々のモデルは、より長いテキスト入力に自己注意モデルを適用するためのいくつかの革新を含んでいる。 文書内での文レベルの意味関係をよりよく把握するために,BERT が使用するマスキング言語モデリングタスクに加えて,新しいマスキング文ブロック言語モデリングタスクを用いて事前学習を行う。 提案したSMITHモデルは,階層的アテンション,多層的アテンションに基づく階層的リカレントニューラルネットワーク,BERTなど,従来の最先端モデルよりも優れていることを示す。 BERTベースのベースラインと比較して,最大入力テキスト長を512から2048に向上させることができる。 われわれはウィキペディアベースのベンチマークデータセット、コード、トレーニング済みのチェックポイントをオープンソース化し、長文文書マッチングの今後の研究を加速する。

Many natural language processing and information retrieval problems can be formalized as the task of semantic matching. Existing work in this area has been largely focused on matching between short texts (e.g., question answering), or between a short and a long text (e.g., ad-hoc retrieval). Semantic matching between long-form documents, which has many important applications like news recommendation, related article recommendation and document clustering, is relatively less explored and needs more research effort. In recent years, self-attention based models like Transformers and BERT have achieved state-of-the-art performance in the task of text matching. These models, however, are still limited to short text like a few sentences or one paragraph due to the quadratic computational complexity of self-attention with respect to input text length. In this paper, we address the issue by proposing the Siamese Multi-depth Transformer-based Hierarchical (SMITH) Encoder for long-form document matching. Our model contains several innovations to adapt self-attention models for longer text input. In order to better capture sentence level semantic relations within a document, we pre-train the model with a novel masked sentence block language modeling task in addition to the masked word language modeling task used by BERT. Our experimental results on several benchmark datasets for long-form document matching show that our proposed SMITH model outperforms the previous state-of-the-art models including hierarchical attention, multi-depth attention-based hierarchical recurrent neural network, and BERT. Comparing to BERT based baselines, our model is able to increase maximum input text length from 512 to 2048. We will open source a Wikipedia based benchmark dataset, code and a pre-trained checkpoint to accelerate future research on long-form document matching.
翻訳日:2022-12-09 13:45:32 公開日:2020-10-13
# マルチリファレンス学習による低リソース機械翻訳の改善

Simulated Multiple Reference Training Improves Low-Resource Machine Translation ( http://arxiv.org/abs/2004.14524v2 )

ライセンス: Link先を確認
Huda Khayrallah, Brian Thompson, Matt Post, Philipp Koehn(参考訳) 与えられた文に対して有効な翻訳は数多く存在するが、機械翻訳(MT)は単一の参照翻訳で訓練され、低リソース設定でデータ空間が悪化する。 パラメータから参照文のパラフレーズをサンプリングし,MTモデルをトレーニングし,可能なトークン上でのパラフレーズの分布を予測することで,可能翻訳の全空間を近似する新しいMTトレーニング手法であるSimulated Multiple Reference Training (SMRT)を導入する。 SMRTの低リソース環境での英語翻訳における有効性を示し,1.2から7.0BLEUに改善した。 また、SMRTは後方翻訳と相補的であることもわかりました。

Many valid translations exist for a given sentence, yet machine translation (MT) is trained with a single reference translation, exacerbating data sparsity in low-resource settings. We introduce Simulated Multiple Reference Training (SMRT), a novel MT training method that approximates the full space of possible translations by sampling a paraphrase of the reference sentence from a paraphraser and training the MT model to predict the paraphraser's distribution over possible tokens. We demonstrate the effectiveness of SMRT in low-resource settings when translating to English, with improvements of 1.2 to 7.0 BLEU. We also find SMRT is complementary to back-translation.
翻訳日:2022-12-08 03:58:23 公開日:2020-10-13
# 大規模タイピングによる解釈可能なエンティティ表現

Interpretable Entity Representations through Large-Scale Typing ( http://arxiv.org/abs/2005.00147v2 )

ライセンス: Link先を確認
Yasumasa Onoe and Greg Durrett(参考訳) 自然言語処理の標準的な方法論では、テキストの実体は通常、事前学習されたモデルを持つ密閉ベクトル空間に埋め込まれる。 このような埋め込みは下流モデルに入力すると効果的であるが、エンドタスクの微調整が必要であり、基本的に解釈が難しい。 本稿では,人間の読みやすいエンティティ表現を作成し,エンティティ関連タスクを最初から実行し,高いパフォーマンスを実現するためのアプローチを提案する。 我々の表現は、細粒度エンティティタイプに対する後続確率に対応するベクトルであり、そのエンティティが対応するタイプに属するというタイピングモデルの決定の信頼性を示す。 これらの表現は細粒度エンティティタイピングモデルを用いて得られ、教師ありエンティティタイピングデータ(choi et al. 2018)またはwikipediaからの遠方の教師付き例に基づいて訓練される。 エンティティの同一性を認識することを含むエンティティ探索タスクにおいて,パラメータフリーな下流モデルで使用される埋め込みは,訓練されたモデルにおけるELMoおよびBERTベースの埋め込みと競合する性能を達成する。 また、特定のドメインに対する学習ベースの方法で、型セットのサイズを削減できることも示しています。 最後に、これらの埋め込みは、ドメイン知識を取り入れ、パフォーマンスを向上させるために、少数のルールによってポストホックな修正が可能であることを示す。

In standard methodology for natural language processing, entities in text are typically embedded in dense vector spaces with pre-trained models. The embeddings produced this way are effective when fed into downstream models, but they require end-task fine-tuning and are fundamentally difficult to interpret. In this paper, we present an approach to creating entity representations that are human readable and achieve high performance on entity-related tasks out of the box. Our representations are vectors whose values correspond to posterior probabilities over fine-grained entity types, indicating the confidence of a typing model's decision that the entity belongs to the corresponding type. We obtain these representations using a fine-grained entity typing model, trained either on supervised ultra-fine entity typing data (Choi et al. 2018) or distantly-supervised examples from Wikipedia. On entity probing tasks involving recognizing entity identity, our embeddings used in parameter-free downstream models achieve competitive performance with ELMo- and BERT-based embeddings in trained models. We also show that it is possible to reduce the size of our type set in a learning-based way for particular domains. Finally, we show that these embeddings can be post-hoc modified through a small number of rules to incorporate domain knowledge and improve performance.
翻訳日:2022-12-08 03:11:43 公開日:2020-10-13
# 構成記述を用いた機械理解教育

Teaching Machine Comprehension with Compositional Explanations ( http://arxiv.org/abs/2005.00806v3 )

ライセンス: Link先を確認
Qinyuan Ye, Xiao Huang, Elizabeth Boschee, Xiang Ren(参考訳) 機械読解の進歩(mrc)は、(質問、段落、回答)三重項という形で、大規模な人間注釈例の収集に大きく依存している。 対照的に、人間は通常、より深い世界知識、言語的洗練、あるいは単により優れた推論力に依存する少数の例で一般化することができる。 本稿では, 機械に解答スパンが正しい理由を明らかにするために, 少数の半構造化説明を用いて, 理解を読み取る「ティーチング」マシンに焦点をあてる。 説明から構造化変数とルールを抽出し,下流mrcモデルをトレーニングするためのインスタンスをアノテートするニューラルモジュール教師を構成する。 学習可能なニューラルモジュールとソフトロジックを使用して、言語的変動を処理し、スパースカバレッジを克服します。 提案手法は,1,100個のラベル付きインスタンスを用いた教師付き学習に匹敵する26種類の説明から,70.14%のf1スコアを達成し,12倍の高速化を実現している。

Advances in machine reading comprehension (MRC) rely heavily on the collection of large scale human-annotated examples in the form of (question, paragraph, answer) triples. In contrast, humans are typically able to generalize with only a few examples, relying on deeper underlying world knowledge, linguistic sophistication, and/or simply superior deductive powers. In this paper, we focus on "teaching" machines reading comprehension, using a small number of semi-structured explanations that explicitly inform machines why answer spans are correct. We extract structured variables and rules from explanations and compose neural module teachers that annotate instances for training downstream MRC models. We use learnable neural modules and soft logic to handle linguistic variation and overcome sparse coverage; the modules are jointly optimized with the MRC model to improve final performance. On the SQuAD dataset, our proposed method achieves 70.14% F1 score with supervision from 26 explanations, comparable to plain supervised learning using 1,100 labeled instances, yielding a 12x speed up.
翻訳日:2022-12-07 11:49:19 公開日:2020-10-13
# 人の感情の転換--話者非依存的感情音声変換へ

Converting Anyone's Emotion: Towards Speaker-Independent Emotional Voice Conversion ( http://arxiv.org/abs/2005.07025v3 )

ライセンス: Link先を確認
Kun Zhou, Berrak Sisman, Mingyang Zhang and Haizhou Li(参考訳) 感情音声変換は、言語内容と話者のアイデンティティを維持しながら、音声の感情をある状態から別の状態へ変換することを目的としている。 感情音声変換に関する先行研究は、主に感情が話者依存であると仮定して行われている。 音声言語における感情表現のための話者間の共通コードが存在することを考慮し,感情状態間の話者非依存マッピングが可能となる。 本稿では,パラレルデータを必要とせずに誰の感情も変換できる話者非依存の感情音声変換フレームワークを提案する。 スペクトルと韻律マッピングを学ぶために,vaw-ganを用いたエンコーダ・デコーダ構造を提案する。 我々は,連続ウェーブレット変換(cwt)を用いて時間依存をモデル化し,韻律変換を行う。 また,感情変換性能を向上させるために,デコーダへの追加入力としてのf0の使用も検討した。 実験により,提案する話者非依存フレームワークは,視聴覚話者と未知覚話者の両方において競争的な結果が得られることが示された。

Emotional voice conversion aims to convert the emotion of speech from one state to another while preserving the linguistic content and speaker identity. The prior studies on emotional voice conversion are mostly carried out under the assumption that emotion is speaker-dependent. We consider that there is a common code between speakers for emotional expression in a spoken language, therefore, a speaker-independent mapping between emotional states is possible. In this paper, we propose a speaker-independent emotional voice conversion framework, that can convert anyone's emotion without the need for parallel data. We propose a VAW-GAN based encoder-decoder structure to learn the spectrum and prosody mapping. We perform prosody conversion by using continuous wavelet transform (CWT) to model the temporal dependencies. We also investigate the use of F0 as an additional input to the decoder to improve emotion conversion performance. Experiments show that the proposed speaker-independent framework achieves competitive results for both seen and unseen speakers.
翻訳日:2022-12-03 10:05:29 公開日:2020-10-13
# 部分仮説選択による低レイテンシ連続音声認識と翻訳

Low-Latency Sequence-to-Sequence Speech Recognition and Translation by Partial Hypothesis Selection ( http://arxiv.org/abs/2005.11185v2 )

ライセンス: Link先を確認
Danni Liu, Gerasimos Spanakis, Jan Niehues(参考訳) エンコーダ-デコーダモデルは、音声認識や翻訳といったシーケンスからシーケンスへのタスクのための汎用アーキテクチャを提供する。 オフラインシステムはワードエラー率(WER)やBLEUといった品質指標で評価されることが多いが、多くの実用的なユースケースにおいてレイテンシも重要な要素である。 本稿では,チャンクベースインクリメンタル推論のための3つの遅延低減手法を提案し,その効率を精度-レイテンシトレードオフの観点から評価する。 300時間のHow2データセットでは、オフラインの書き込みに比べて1% WER (6% rel.) を犠牲にすることで、レイテンシを83%から0.8秒に削減します。 実験ではTransformerを用いたが、仮説選択戦略は他のエンコーダ・デコーダモデルに適用できる。 高価な再計算を避けるため、一方向対応エンコーダを用いる。 部分列への適応手順の後、一方向モデルは元のモデルと対等に実行される。 さらに,本手法は低レイテンシ音声翻訳にも応用できることを示す。 How2英語とポルトガル語の音声翻訳では、レイテンシを0.7秒 (84% rel.) に削減し、オフラインシステムと比較して2.4 BLEUポイント (5% rel.) を失う。

Encoder-decoder models provide a generic architecture for sequence-to-sequence tasks such as speech recognition and translation. While offline systems are often evaluated on quality metrics like word error rates (WER) and BLEU, latency is also a crucial factor in many practical use-cases. We propose three latency reduction techniques for chunk-based incremental inference and evaluate their efficiency in terms of accuracy-latency trade-off. On the 300-hour How2 dataset, we reduce latency by 83% to 0.8 second by sacrificing 1% WER (6% rel.) compared to offline transcription. Although our experiments use the Transformer, the hypothesis selection strategies are applicable to other encoder-decoder models. To avoid expensive re-computation, we use a unidirectionally-attending encoder. After an adaptation procedure to partial sequences, the unidirectional model performs on-par with the original model. We further show that our approach is also applicable to low-latency speech translation. On How2 English-Portuguese speech translation, we reduce latency to 0.7 second (-84% rel.) while incurring a loss of 2.4 BLEU points (5% rel.) compared to the offline system.
翻訳日:2022-11-30 09:33:43 公開日:2020-10-13
# shapelet-based multi-instance learningの理論とアルゴリズム

Theory and Algorithms for Shapelet-based Multiple-Instance Learning ( http://arxiv.org/abs/2006.01130v3 )

ライセンス: Link先を確認
Daiki Suehiro, Kohei Hatano, Eiji Takimoto, Shuji Yamamoto, Kenichi Bannai, Akiko Takeda(参考訳) 本稿では,データ単位がバッグと呼ばれる一連のインスタンスから構成されるMultiple-Instance Learning(MIL)の新たな定式化を提案する。 その目的は、形をしたバッグの類似度がバッグ内のインスタンスの最大類似度である"shapelet"(あるいはパターン)との類似度に基づいて、バッグの適切な分類方法を見つけることである。 以前の研究では、いくつかのトレーニングインスタンスは理論的正当性のないシェープレットとして選択されている。 私たちの定式化では、すべての可能なので、したがって無限に多くのシェイプレットを使い、よりリッチな分類器のクラスを生み出す。 定式化は、Linear Programming Boosting (LPBoost) によって有限(実際に多項式)サイズのConvex (DC) プログラムの差分に還元可能であることを示す。 我々の理論的な結果はまた、以前の作品のヒューリスティックスを正当化する。 提案アルゴリズムの時間的複雑さは、トレーニングサンプルのすべてのインスタンスの集合の大きさに大きく依存する。 多数のインスタンスを含むデータに適用するために、理論的な保証を失うことなくアルゴリズムのヒューリスティックな選択肢を提案する。 実験により,本アルゴリズムは時系列分類におけるシェープレット学習タスクと,既存の手法に匹敵する精度で様々なMILタスクに一様に作用することを示した。 さらに,提案するヒューリスティクスにより,合理的な計算時間で結果が得られることを示す。

We propose a new formulation of Multiple-Instance Learning (MIL), in which a unit of data consists of a set of instances called a bag. The goal is to find a good classifier of bags based on the similarity with a "shapelet" (or pattern), where the similarity of a bag with a shapelet is the maximum similarity of instances in the bag. In previous work, some of the training instances are chosen as shapelets with no theoretical justification. In our formulation, we use all possible, and thus infinitely many shapelets, resulting in a richer class of classifiers. We show that the formulation is tractable, that is, it can be reduced through Linear Programming Boosting (LPBoost) to Difference of Convex (DC) programs of finite (actually polynomial) size. Our theoretical result also gives justification to the heuristics of some of the previous work. The time complexity of the proposed algorithm highly depends on the size of the set of all instances in the training sample. To apply to the data containing a large number of instances, we also propose a heuristic option of the algorithm without the loss of the theoretical guarantee. Our empirical study demonstrates that our algorithm uniformly works for Shapelet Learning tasks on time-series classification and various MIL tasks with comparable accuracy to the existing methods. Moreover, we show that the proposed heuristics allow us to achieve the result with reasonable computational time.
翻訳日:2022-11-26 12:33:23 公開日:2020-10-13
# エンドツーエンド音声翻訳のための自己学習

Self-Training for End-to-End Speech Translation ( http://arxiv.org/abs/2006.02490v2 )

ライセンス: Link先を確認
Juan Pino and Qiantong Xu and Xutai Ma and Mohammad Javad Dousti and Yun Tang(参考訳) エンドツーエンド音声翻訳の主な課題の1つは、データ不足である。 ラベルなし音声から生成された擬似ラベルをカスケードとエンドツーエンド音声翻訳モデルで活用する。 これにより、8.3と5.7BLEUは、 MuST-C の英語とドイツ語のデータセットの強い半教師付きベースラインを越え、最先端のアートパフォーマンスを達成できる。 擬似ラベルの品質が与える影響について検討した。 本手法は、音声認識タスクでエンコーダを事前学習するよりも効果的であることを示す。 最後に,カスケードモデルの代わりにエンド・ツー・エンドモデルで擬似ラベルを直接生成することで,自己学習の有効性を示す。

One of the main challenges for end-to-end speech translation is data scarcity. We leverage pseudo-labels generated from unlabeled audio by a cascade and an end-to-end speech translation model. This provides 8.3 and 5.7 BLEU gains over a strong semi-supervised baseline on the MuST-C English-French and English-German datasets, reaching state-of-the art performance. The effect of the quality of the pseudo-labels is investigated. Our approach is shown to be more effective than simply pre-training the encoder on the speech recognition task. Finally, we demonstrate the effectiveness of self-training by directly generating pseudo-labels with an end-to-end model instead of a cascade model.
翻訳日:2022-11-25 18:31:22 公開日:2020-10-13
# ドメイン適応型オブジェクトRe-IDのためのハイブリッドメモリによる自己ペーストコントラスト学習

Self-paced Contrastive Learning with Hybrid Memory for Domain Adaptive Object Re-ID ( http://arxiv.org/abs/2006.02713v2 )

ライセンス: Link先を確認
Yixiao Ge, Feng Zhu, Dapeng Chen, Rui Zhao, Hongsheng Li(参考訳) ドメイン適応オブジェクトre-IDは、学習した知識をラベル付きソースドメインからラベルなしターゲットドメインに転送し、オープンクラスの再識別問題に取り組むことを目的としている。 最先端の擬似ラベルベース手法は大きな成功を収めているが、ドメインのギャップとクラスタリング性能の不満から、貴重な情報をすべて活用することはできなかった。 そこで本研究では,ハイブリッドメモリを用いた自己ペーシング型コントラスト学習フレームワークを提案する。 ハイブリッドメモリは、学習特徴表現のためのソースドメインクラスレベル、ターゲットドメインクラスタレベル、非クラスタインスタンスレベルの監視信号を動的に生成する。 従来のコントラスト学習戦略とは異なり、提案フレームワークはソースドメインクラスとターゲットドメインクラスタと非クラスタインスタンスを共同で区別する。 最も重要なのは、提案手法が徐々に信頼性の高いクラスタを生成して、ハイブリッドメモリと学習ターゲットを洗練し、優れたパフォーマンスの鍵となることを示しています。 提案手法は,オブジェクトre-idの複数のドメイン適応タスクの最先端を上回り,追加のアノテーションを使わずにソースドメインのパフォーマンスも向上させる。 教師なしオブジェクト re-id の一般化バージョンは market-1501 と msmt17 のベンチマークにおいて,最先端のアルゴリズムを16.7% と 7.9% で上回っている。

Domain adaptive object re-ID aims to transfer the learned knowledge from the labeled source domain to the unlabeled target domain to tackle the open-class re-identification problems. Although state-of-the-art pseudo-label-based methods have achieved great success, they did not make full use of all valuable information because of the domain gap and unsatisfying clustering performance. To solve these problems, we propose a novel self-paced contrastive learning framework with hybrid memory. The hybrid memory dynamically generates source-domain class-level, target-domain cluster-level and un-clustered instance-level supervisory signals for learning feature representations. Different from the conventional contrastive learning strategy, the proposed framework jointly distinguishes source-domain classes, and target-domain clusters and un-clustered instances. Most importantly, the proposed self-paced method gradually creates more reliable clusters to refine the hybrid memory and learning targets, and is shown to be the key to our outstanding performance. Our method outperforms state-of-the-arts on multiple domain adaptation tasks of object re-ID and even boosts the performance on the source domain without any extra annotations. Our generalized version on unsupervised object re-ID surpasses state-of-the-art algorithms by considerable 16.7% and 7.9% on Market-1501 and MSMT17 benchmarks.
翻訳日:2022-11-25 10:09:36 公開日:2020-10-13
# トリプル降下と2種類のオーバーフィッティング:どこで、なぜ現れるのか?

Triple descent and the two kinds of overfitting: Where & why do they appear? ( http://arxiv.org/abs/2006.03509v2 )

ライセンス: Link先を確認
St\'ephane d'Ascoli, Levent Sagun, Giulio Biroli(参考訳) 最近の研究のラインでは、ディープラーニングにおける"二重降下"現象の存在を強調しており、トレーニング例の数を増やすことで、N$がパラメータの数と同じ順序である場合、N$はニューラルネットワークの一般化エラーをピークに導く。 初期の研究では、同様の現象が線形回帰のようなより単純なモデルに存在し、代わりにピークが$N$が入力次元$D$と等しいときに発生する。 両方のピークは補間しきい値と一致するため、しばしばリターチュアで膨らませられる。 本稿では,その類似性にもかかわらず,これらの2つのシナリオは本質的に異なることを示す。 実際、両方のピークは、ニューラルネットワークがノイズレグレッションタスクに適用されたときに共存する。 ピークの相対的な大きさは、アクティベーション関数の非線形度によって制御される。 ランダム特徴モデルの解析における最近の発展に基づき、このサンプルワイズ三重降の理論的根拠を提供する。 前述したように、非線形ピークは$N\! =\! P$は、ラベルを破損させるノイズとランダムな特徴(またはニューラルネットワークの重み)の初期化の両方に対して出力関数の極端な感度によって引き起こされる真のばらつきである。 このピークはノイズのない状態で存続するが、正規化によって抑制できる。 対照的に、線形ピークは$N\! =\! D$はラベルのノイズが過度に収まるためだけであり、トレーニング中に形成される。 このピークは非線形性によって暗黙的に正則化されるため、高雑音下でのみ正則化され、明示的な正則化によって弱く影響を受ける。 本稿では,ランダム特徴モデルを用いて得られた解析結果と,ディープニューラルネットワークを用いた数値実験の結果を比較した。

A recent line of research has highlighted the existence of a "double descent" phenomenon in deep learning, whereby increasing the number of training examples $N$ causes the generalization error of neural networks to peak when $N$ is of the same order as the number of parameters $P$. In earlier works, a similar phenomenon was shown to exist in simpler models such as linear regression, where the peak instead occurs when $N$ is equal to the input dimension $D$. Since both peaks coincide with the interpolation threshold, they are often conflated in the litterature. In this paper, we show that despite their apparent similarity, these two scenarios are inherently different. In fact, both peaks can co-exist when neural networks are applied to noisy regression tasks. The relative size of the peaks is then governed by the degree of nonlinearity of the activation function. Building on recent developments in the analysis of random feature models, we provide a theoretical ground for this sample-wise triple descent. As shown previously, the nonlinear peak at $N\!=\!P$ is a true divergence caused by the extreme sensitivity of the output function to both the noise corrupting the labels and the initialization of the random features (or the weights in neural networks). This peak survives in the absence of noise, but can be suppressed by regularization. In contrast, the linear peak at $N\!=\!D$ is solely due to overfitting the noise in the labels, and forms earlier during training. We show that this peak is implicitly regularized by the nonlinearity, which is why it only becomes salient at high noise and is weakly affected by explicit regularization. Throughout the paper, we compare analytical results obtained in the random feature model with the outcomes of numerical experiments involving deep neural networks.
翻訳日:2022-11-25 03:37:02 公開日:2020-10-13
# 自然重みによるニューラルネットワーク学習の難しさ

Hardness of Learning Neural Networks with Natural Weights ( http://arxiv.org/abs/2006.03177v2 )

ライセンス: Link先を確認
Amit Daniely and Gal Vardi(参考訳) ニューラルネットワークは、強硬度にもかかわらず、現在非常に成功している。 既存のハードネスの結果はネットワークアーキテクチャに焦点を合わせ、ネットワークの重みが任意であると仮定する。 差を解消するための自然なアプローチは、ネットワークの重み付けが「十分に整備されている」と仮定し、効率的な学習を可能にするいくつかのジェネリックな特性を導入することである。 このアプローチは、現実世界のネットワークの重みは任意のものではなく、いくつかの「自然な」分布に関して「ランダムな」性質を示すという直感によって支持される。 この点において負の結果を証明し、深さ2$のネットワークと、正規分布や均一分布のような多くの「自然」重み分布では、ほとんどのネットワークは学習が困難であることを示す。 すなわち、ほとんどの重みと全ての入力分布に対して確実に成功する効率的な学習アルゴリズムは存在しない。 これは、そのようなランダムネットワークに高い確率を持ち、効率的な学習を可能にする汎用的性質は存在しないことを意味する。

Neural networks are nowadays highly successful despite strong hardness results. The existing hardness results focus on the network architecture, and assume that the network's weights are arbitrary. A natural approach to settle the discrepancy is to assume that the network's weights are "well-behaved" and posses some generic properties that may allow efficient learning. This approach is supported by the intuition that the weights in real-world networks are not arbitrary, but exhibit some "random-like" properties with respect to some "natural" distributions. We prove negative results in this regard, and show that for depth-$2$ networks, and many "natural" weights distributions such as the normal and the uniform distribution, most networks are hard to learn. Namely, there is no efficient learning algorithm that is provably successful for most weights, and every input distribution. It implies that there is no generic property that holds with high probability in such random networks and allows efficient learning.
翻訳日:2022-11-25 03:27:20 公開日:2020-10-13
# エキスパートアドバイスによる組合せブラックボックス最適化

Combinatorial Black-Box Optimization with Expert Advice ( http://arxiv.org/abs/2006.03963v2 )

ライセンス: Link先を確認
Hamid Dadkhahi, Karthikeyan Shanmugam, Jesus Rios, Payel Das, Samuel Hoffman, Troy David Loeffler, Subramanian Sankaranarayanan(参考訳) ブール超キューブ上のブラックボックス関数最適化の問題を考える。 連続ドメインに対するブラックボックス関数の最適化に関する膨大な文献にもかかわらず、組合せドメインに対する最適化の学習モデルにはあまり注目されていない。 しかし、最近考案されたアルゴリズムの計算複雑性は、適度な数の変数でも禁止されており、既存のアルゴリズムを使って1つのサンプルを描画することは、多くのブラックボックス関数に対する関数評価よりも高価である。 この問題に対処するために,多線形多項式と指数重み更新に基づく計算効率の良いモデル学習アルゴリズムを提案する。 提案アルゴリズムでは,現在の多項式表現に対する擬似アニーリングと,単項専門家のアドバイスによる重みの更新を交互に行う。 unconstrained および sum-constrained boolean optimization における様々なデータセットに関する数値実験は、提案されたアルゴリズムの競合性能を示し、文献の最先端アルゴリズムと比較して計算時間を最大数桁改善した。

We consider the problem of black-box function optimization over the boolean hypercube. Despite the vast literature on black-box function optimization over continuous domains, not much attention has been paid to learning models for optimization over combinatorial domains until recently. However, the computational complexity of the recently devised algorithms are prohibitive even for moderate numbers of variables; drawing one sample using the existing algorithms is more expensive than a function evaluation for many black-box functions of interest. To address this problem, we propose a computationally efficient model learning algorithm based on multilinear polynomials and exponential weight updates. In the proposed algorithm, we alternate between simulated annealing with respect to the current polynomial representation and updating the weights using monomial experts' advice. Numerical experiments on various datasets in both unconstrained and sum-constrained boolean optimization indicate the competitive performance of the proposed algorithm, while improving the computational time up to several orders of magnitude compared to state-of-the-art algorithms in the literature.
翻訳日:2022-11-24 21:15:49 公開日:2020-10-13
# 物語の片面だけから真実を学ぶこと

Learning the Truth From Only One Side of the Story ( http://arxiv.org/abs/2006.04858v2 )

ライセンス: Link先を確認
Heinrich Jiang, Qijia Jiang, Aldo Pacchiano(参考訳) 一方的なフィードバック(すなわち、前向きに予測した例のラベルのみを観察する)の下での学習は、機械学習の基本的な問題である。 それにもかかわらず、サンプリングバイアスの影響を緩和する方法が驚くほど進歩していない。 一般化線形モデルに焦点をあて、このサンプリングバイアスを調整しなければ、モデルが最適に収束するか、あるいは最適解に収束しないかを示す。 理論的な保証を伴う適応的アプローチを提案し,既存の手法を経験的に上回っていることを示す。 提案手法は分散推定手法を利用して不確実性の下で効率よく学習し,既存手法と比較してより原理的な代替手段を提供する。

Learning under one-sided feedback (i.e., where we only observe the labels for examples we predicted positively on) is a fundamental problem in machine learning -- applications include lending and recommendation systems. Despite this, there has been surprisingly little progress made in ways to mitigate the effects of the sampling bias that arises. We focus on generalized linear models and show that without adjusting for this sampling bias, the model may converge suboptimally or even fail to converge to the optimal solution. We propose an adaptive approach that comes with theoretical guarantees and show that it outperforms several existing methods empirically. Our method leverages variance estimation techniques to efficiently learn under uncertainty, offering a more principled alternative compared to existing approaches.
翻訳日:2022-11-24 00:59:03 公開日:2020-10-13
# ブラインド知識労働者のための会話型ユーザインタフェース : 事例研究

Conversational User Interfaces for Blind Knowledge Workers: A Case Study ( http://arxiv.org/abs/2006.07519v2 )

ライセンス: Link先を確認
Kyle Dent and Kalai Ramea(参考訳) タッチ操作によるオフィス機器のインタフェース設計の最近のトレンドは、視覚障害者にとってより大きな障害を生み出し、作業環境における依存環境に寄与する。 私たちは、\textit{conversational user interface} (cuis) はタッチスクリーン操作の合理的な代替手段であり、視覚障害者にとってよりアクセスしやすく、最も重要な独立性を高めると信じています。 本稿では,多機能プリンタ用アクセシビリティのための対話型ユーザインタフェースの開発に関する事例研究を行う。 また,人間と知的エージェント間のタスクベースの協調インタラクションを重視した対話型インタフェースに対する我々のアプローチを概説し,マルチファンクショナルプリンタのためのソリューションの具体例を詳述した。 デザインをガイドするために、私たちは盲目の視覚障害者のグループと協力して、フォーカスグループセッションから、ターゲットユーザーがプロフェッショナルな生活で直面する課題を確かめました。 我々は,その解決策を評価し,今後の取り組みを指示するためのユーザ調査を行い,技術開発に追従した。 本研究の結果と結論を報告する。

Modern trends in interface design for office equipment using controls on touch surfaces create greater obstacles for blind and visually impaired users and contribute to an environment of dependency in work settings. We believe that \textit{conversational user interfaces} (CUIs) offer a reasonable alternative to touchscreen interactions enabling more access and most importantly greater independence for blind knowledge workers. We present a case study of our work to develop a conversational user interface for accessibility for multifunction printers. We also describe our approach to conversational interfaces in general, which emphasizes task-based collaborative interactions between people and intelligent agents, and we detail the specifics of the solution we created for multifunction printers. To guide our design, we worked with a group of blind and visually impaired individuals starting with focus group sessions to ascertain the challenges our target users face in their professional lives. We followed our technology development with a user study to assess the solution and direct our future efforts. We present our findings and conclusions from the study.
翻訳日:2022-11-21 21:17:07 公開日:2020-10-13
# SD-RSIC:要約駆動深部リモートセンシング画像キャプチャ

SD-RSIC: Summarization Driven Deep Remote Sensing Image Captioning ( http://arxiv.org/abs/2006.08432v2 )

ライセンス: Link先を確認
Gencer Sumbul, Sonali Nayak, Beg\"um Demir(参考訳) 深層ニューラルネットワーク(DNN)は、リモートセンシング(RS)における画像キャプション問題に人気がある。 既存のDNNベースのアプローチは、多数のRSイメージとキャプションで構成されるトレーニングセットの可用性に依存している。 しかし、訓練画像のキャプションには冗長な情報(反復的あるいは意味的に互いに類似する)が含まれており、画像領域から言語領域へのマッピングを学習しながら情報が不足することがある。 本稿では,この制限を克服するために,SD-RSIC(Summarization Driven Remote Sensing Image Captioning)アプローチを提案する。 提案手法は3つの主要なステップからなる。 最初のステップでは、畳み込みニューラルネットワーク(CNN)と長い短期記憶(LSTM)ネットワークを併用して、標準的な画像キャプションを取得する。 第2のステップは、既存のrs画像キャプション手法とは異なり、各トレーニング画像の基底キャプションを1つのキャプションに要約し、シーケンスを利用してニューラルネットワークをシーケンス化し、トレーニングセットに存在する冗長性を排除する。 第3ステップは、各RS画像に関連する適応重みを自動的に定義し、画像の意味内容に基づいて標準キャプションと要約キャプションを結合する。 これはLSTMネットワークの文脈で定義された新しい適応重み付け戦略によって達成される。 RSCID, UCM-Captions, Sydney-Captionsデータセットで得られた実験結果は, 最新のRS画像キャプション手法と比較して提案手法の有効性を示した。 提案されたアプローチのコードはhttps://gitlab.tubit.tu-berlin.de/rsim/SD-RSICで公開されている。

Deep neural networks (DNNs) have been recently found popular for image captioning problems in remote sensing (RS). Existing DNN based approaches rely on the availability of a training set made up of a high number of RS images with their captions. However, captions of training images may contain redundant information (they can be repetitive or semantically similar to each other), resulting in information deficiency while learning a mapping from the image domain to the language domain. To overcome this limitation, in this paper, we present a novel Summarization Driven Remote Sensing Image Captioning (SD-RSIC) approach. The proposed approach consists of three main steps. The first step obtains the standard image captions by jointly exploiting convolutional neural networks (CNNs) with long short-term memory (LSTM) networks. The second step, unlike the existing RS image captioning methods, summarizes the ground-truth captions of each training image into a single caption by exploiting sequence to sequence neural networks and eliminates the redundancy present in the training set. The third step automatically defines the adaptive weights associated to each RS image to combine the standard captions with the summarized captions based on the semantic content of the image. This is achieved by a novel adaptive weighting strategy defined in the context of LSTM networks. Experimental results obtained on the RSCID, UCM-Captions and Sydney-Captions datasets show the effectiveness of the proposed approach compared to the state-of-the-art RS image captioning approaches. The code of the proposed approach is publicly available at https://gitlab.tubit.tu-berlin.de/rsim/SD-RSIC.
翻訳日:2022-11-21 02:21:59 公開日:2020-10-13
# 深部ニューラルネットワークの方向決定

Directional Pruning of Deep Neural Networks ( http://arxiv.org/abs/2006.09358v2 )

ライセンス: Link先を確認
Shih-Kang Chao, Zhanyu Wang, Yue Xing and Guang Cheng(参考訳) 確率的勾配降下 (sgd) が訓練損失において平坦な最小の谷をしばしば発見するという事実を踏まえ, 平坦な領域内あるいはその近傍のスパース最小値を求める新しい方向プルーニング法を提案する。 提案手法では,再訓練やスパルサリティレベルに関する専門家の知識は必要としない。 平坦方向推定の計算可能性を克服するために,十分なトレーニングの後に,少ない学習率で方向プラニングを実現するための,注意深く調整された$\ell_1$ 近位勾配アルゴリズムを提案する。 実験結果から,resnet50では,sgdよりも壁時間とメモリフットプリントがわずかに高いのに対して,resnet50のプルーニング手法の多くにおいて,高いスパースレジーム(92%スパース性)でソリューションの有望な結果が得られた。 CIFAR-10 と CIFAR-100 上の VGG16 と ワイド ResNet 28x10 を用いて、我々の解は SGD と同じミニマバレーに到達し、我々の解と SGD が発見したミニマはトレーニング損失に影響を与える方向に逸脱しないことを示した。 この論文の結果を再現するコードは、https://github.com/donlan2710/grda-optimizer/tree/master/directional_pruningで入手できる。

In the light of the fact that the stochastic gradient descent (SGD) often finds a flat minimum valley in the training loss, we propose a novel directional pruning method which searches for a sparse minimizer in or close to that flat region. The proposed pruning method does not require retraining or the expert knowledge on the sparsity level. To overcome the computational formidability of estimating the flat directions, we propose to use a carefully tuned $\ell_1$ proximal gradient algorithm which can provably achieve the directional pruning with a small learning rate after sufficient training. The empirical results demonstrate the promising results of our solution in highly sparse regime (92% sparsity) among many existing pruning methods on the ResNet50 with the ImageNet, while using only a slightly higher wall time and memory footprint than the SGD. Using the VGG16 and the wide ResNet 28x10 on the CIFAR-10 and CIFAR-100, we demonstrate that our solution reaches the same minima valley as the SGD, and the minima found by our solution and the SGD do not deviate in directions that impact the training loss. The code that reproduces the results of this paper is available at https://github.com/donlan2710/gRDA-Optimizer/tree/master/directional_pruning.
翻訳日:2022-11-20 19:36:44 公開日:2020-10-13
# データ効率的な転送のための一様優先度

Uniform Priors for Data-Efficient Transfer ( http://arxiv.org/abs/2006.16524v2 )

ライセンス: Link先を確認
Samarth Sinha, Karsten Roth, Anirudh Goyal, Marzyeh Ghassemi, Hugo Larochelle, Animesh Garg(参考訳) ディープニューラルネットワークは、下流のさまざまなアプリケーションに対して大きな期待を持っていますが、新しいデータやタスクに適応し、一般化する能力は依然として課題です。 しかし、機械学習モデルのスケーラビリティと展開には、新規タスクへのほとんどあるいはゼロショット適応を実行する能力が重要である。 したがって、ディープネットワークの優れた転送可能な機能に何をもたらすのかを理解することが不可欠である。 本稿では,最も転送性が高い特徴が埋め込み空間において高い均一性を持つことを示すとともに,より優れた移動と機能再利用を促進する一様性正規化スキームを提案する。 課題やデータへの適応を促進するためのレギュラー化能力について評価し、いくつかのメタラーニング、Deep Metric Learning、Zero-Shot Domain Adaptation、Out-of-Distribution Classificationの4つの領域を網羅した詳細な実験を行った。 すべての実験を通じて、統一性正規化はベースラインメソッドよりも常にメリットを提供し、ディープラーニングとメタラーニングにおいて最先端のパフォーマンスを達成できることを示しました。

Deep Neural Networks have shown great promise on a variety of downstream applications; but their ability to adapt and generalize to new data and tasks remains a challenge. However, the ability to perform few or zero-shot adaptation to novel tasks is important for the scalability and deployment of machine learning models. It is therefore crucial to understand what makes for good, transfer-able features in deep networks that best allow for such adaptation. In this paper, we shed light on this by showing that features that are most transferable have high uniformity in the embedding space and propose a uniformity regularization scheme that encourages better transfer and feature reuse. We evaluate the regularization on its ability to facilitate adaptation to unseen tasks and data, for which we conduct a thorough experimental study covering four relevant, and distinct domains: few-shot Meta-Learning, Deep Metric Learning, Zero-Shot Domain Adaptation, as well as Out-of-Distribution classification. Across all experiments, we show that uniformity regularization consistently offers benefits over baseline methods and is able to achieve state-of-the-art performance in Deep Metric Learning and Meta-Learning.
翻訳日:2022-11-15 04:27:26 公開日:2020-10-13
# クラス選択性,次元性,ロバスト性の関係について

On the relationship between class selectivity, dimensionality, and robustness ( http://arxiv.org/abs/2007.04440v2 )

ライセンス: Link先を確認
Matthew L. Leavitt, Ari S. Morcos(参考訳) ディープニューラルネットワーク(DNN)におけるスパースと分散表現の相対的なトレードオフはよく研究されているが、これらのトレードオフが意味論的に意味のある情報の表現にどのように適用されるかについてはあまり知られていない。 クラス選択性(Class selectivity)とは、データクラスや次元にまたがるユニットの応答の変動性であり、意味表現の空間性を定量化する一つの方法である。 クラス選択性が一般化を阻害することを示す最近の証拠を踏まえて,入力データの摂動に対してロバスト性(あるいは脆弱性)を付与するかどうかの検討を行った。 平均的クラス選択性は自然主義的腐敗の脆弱性を予測しており、より低いクラス選択性を持つネットワークは腐敗に対してより堅牢であり、より高いクラス選択性を持つネットワークは汚職に対してより脆弱であることがわかった。 対照的に、クラス選択性は、複数の種類の勾配に基づく敵攻撃に対して堅牢性を高める。 この違いを検討するために,摂動による表象の変化の次元について検討し,クラス選択率の低下は,腐敗型の両方に対して,この変化の次元性を高めるが,対向攻撃では著しく増加することを見出した。 これらの結果は選択性とロバスト性の間の因果関係を示し、この関係のメカニズムに関する新たな洞察を与える。

While the relative trade-offs between sparse and distributed representations in deep neural networks (DNNs) are well-studied, less is known about how these trade-offs apply to representations of semantically-meaningful information. Class selectivity, the variability of a unit's responses across data classes or dimensions, is one way of quantifying the sparsity of semantic representations. Given recent evidence showing that class selectivity can impair generalization, we sought to investigate whether it also confers robustness (or vulnerability) to perturbations of input data. We found that mean class selectivity predicts vulnerability to naturalistic corruptions; networks regularized to have lower levels of class selectivity are more robust to corruption, while networks with higher class selectivity are more vulnerable to corruption, as measured using Tiny ImageNetC and CIFAR10C. In contrast, we found that class selectivity increases robustness to multiple types of gradient-based adversarial attacks. To examine this difference, we studied the dimensionality of the change in the representation due to perturbation, finding that decreasing class selectivity increases the dimensionality of this change for both corruption types, but with a notably larger increase for adversarial attacks. These results demonstrate the causal relationship between selectivity and robustness and provide new insights into the mechanisms of this relationship.
翻訳日:2022-11-12 12:41:38 公開日:2020-10-13
# ベイジアン更新定理を用いた三重項ネットワーク学習のためのバッチインクリメンタル三重項サンプリング

Batch-Incremental Triplet Sampling for Training Triplet Networks Using Bayesian Updating Theorem ( http://arxiv.org/abs/2007.05610v2 )

ライセンス: Link先を確認
Milad Sikaroudi, Benyamin Ghojogh, Fakhri Karray, Mark Crowley, H.R. Tizhoosh(参考訳) トリプルトネットワークの変数は、差別的な埋め込み部分空間を学ぶための堅牢な実体である。 最も適切なトレーニングトリプルトを選択するための、異なるトリプルトマイニングアプローチが存在する。 これらの採掘方法のいくつかはインスタンス間の極端な距離に依存しており、他のいくつかはサンプリングを利用する。 しかし、既存の埋め込みインスタンスからのみサンプリングするのではなく、データの確率分布からのサンプリングは、より識別的な情報を提供できる。 この研究では、既存のインスタンスではなく、データの分布からトリプレットをサンプリングします。 各クラスの埋め込みに対する多変量正規分布を考える。 ベイジアン更新と共役プリミティブを用いて,トレーニングデータのミニバッチを受信することで,クラス分布を動的に更新する。 ベイジアン更新による三重項採掘は、例えば三重項損失や近隣成分分析(NCA)損失など、任意の三重項損失関数で使用できる。 従って、我々のトリプルトマイニングアプローチは、どの損失関数が使われているかによって、ベイズ更新トリプルト(ただし)とベイズ更新nca(bunca)と呼ばれる。 mnist と histopathology colon cancer (crc) の2つの公共データセットにおける実験結果は,提案するトリプルトマイニング法の有効性を実証している。

Variants of Triplet networks are robust entities for learning a discriminative embedding subspace. There exist different triplet mining approaches for selecting the most suitable training triplets. Some of these mining methods rely on the extreme distances between instances, and some others make use of sampling. However, sampling from stochastic distributions of data rather than sampling merely from the existing embedding instances can provide more discriminative information. In this work, we sample triplets from distributions of data rather than from existing instances. We consider a multivariate normal distribution for the embedding of each class. Using Bayesian updating and conjugate priors, we update the distributions of classes dynamically by receiving the new mini-batches of training data. The proposed triplet mining with Bayesian updating can be used with any triplet-based loss function, e.g., triplet-loss or Neighborhood Component Analysis (NCA) loss. Accordingly, Our triplet mining approaches are called Bayesian Updating Triplet (BUT) and Bayesian Updating NCA (BUNCA), depending on which loss function is being used. Experimental results on two public datasets, namely MNIST and histopathology colorectal cancer (CRC), substantiate the effectiveness of the proposed triplet mining method.
翻訳日:2022-11-11 20:56:57 公開日:2020-10-13
# 無限幅限界における2層ReLUニューラルネットワークの位相図

Phase diagram for two-layer ReLU neural networks at infinite-width limit ( http://arxiv.org/abs/2007.07497v2 )

ライセンス: Link先を確認
Tao Luo, Zhi-Qin John Xu, Zheng Ma, Yaoyu Zhang(参考訳) ハイパーパラメータの異なる選択に対するトレーニング中にニューラルネットワークがどのように振る舞うかは、ニューラルネットワークの研究において重要な問題である。 この研究は、統計力学の位相図に着想を得て、2層ReLUニューラルネットワークの位相図を無限幅の極限で描き、その動的状態とその初期化に関するハイパーパラメータへの依存性の完全な評価を行う。 実験と理論の両方のアプローチを通じて、入力重みの相対的変化に基づいて位相図中の3つのレジーム、すなわち線形レジーム、臨界レジーム、凝縮レジームを識別し、それぞれ$0$,$o(1)$,$+\infty$となる。 線形状態においては、NNトレーニングダイナミクスは指数的損失減衰を持つランダム特徴モデルとほぼ同様の線形である。 凝縮系では、活性ニューロンが複数の離散的な方向で凝縮されることを実験を通して実証する。 臨界レジームは上述の2つのレジームの境界として機能し、平均場モデルが典型的な例として中間非線形挙動を示す。 概して、2層式ReLU NNの位相図は将来の研究の地図として機能し、異なる構造のトレーニング行動と暗黙の規則化に関するより体系的な研究への第一歩である。

How neural network behaves during the training over different choices of hyperparameters is an important question in the study of neural networks. In this work, inspired by the phase diagram in statistical mechanics, we draw the phase diagram for the two-layer ReLU neural network at the infinite-width limit for a complete characterization of its dynamical regimes and their dependence on hyperparameters related to initialization. Through both experimental and theoretical approaches, we identify three regimes in the phase diagram, i.e., linear regime, critical regime and condensed regime, based on the relative change of input weights as the width approaches infinity, which tends to $0$, $O(1)$ and $+\infty$, respectively. In the linear regime, NN training dynamics is approximately linear similar to a random feature model with an exponential loss decay. In the condensed regime, we demonstrate through experiments that active neurons are condensed at several discrete orientations. The critical regime serves as the boundary between above two regimes, which exhibits an intermediate nonlinear behavior with the mean-field model as a typical example. Overall, our phase diagram for the two-layer ReLU NN serves as a map for the future studies and is a first step towards a more systematical investigation of the training behavior and the implicit regularization of NNs of different structures.
翻訳日:2022-11-10 04:53:36 公開日:2020-10-13
# 自律制御のための生存可能信号の変調

Modulation of viability signals for self-regulatory control ( http://arxiv.org/abs/2007.09297v2 )

ライセンス: Link先を確認
Alvaro Ovalle and Simon M. Lucas(参考訳) 適応行動のドライバとしてのインストゥルメンタルバリューの役割を再考する。 積極的推論では、これらの観測が以前の信念や嗜好に適合する範囲を測定する一連の観測の情報理論的前提によって、器物的または外在的な値が定量化される。 すなわち、エージェントは、自身の世界のモデルと整合した証拠のタイプを求めることが期待されている。 強化学習タスクでは、好みの分布が報酬の概念に取って代わる。 エージェントがこの分布を自己監督的な方法で学習するシナリオを考察する。 特に,環境によって引き起こされる観察と,より直接的に時間内のエージェントの連続性に関連する観察との区別を強調する。 我々は時間と行動の異なる動的環境で方法論を評価する。 まず、(RLの意味で)モデルフリーエージェントを最小化し、次に予測される自由エネルギーを最小化するためにモデルベースケースに拡張する。

We revisit the role of instrumental value as a driver of adaptive behavior. In active inference, instrumental or extrinsic value is quantified by the information-theoretic surprisal of a set of observations measuring the extent to which those observations conform to prior beliefs or preferences. That is, an agent is expected to seek the type of evidence that is consistent with its own model of the world. For reinforcement learning tasks, the distribution of preferences replaces the notion of reward. We explore a scenario in which the agent learns this distribution in a self-supervised manner. In particular, we highlight the distinction between observations induced by the environment and those pertaining more directly to the continuity of an agent in time. We evaluate our methodology in a dynamic environment with discrete time and actions. First with a surprisal minimizing model-free agent (in the RL sense) and then expanding to the model-based case to minimize the expected free energy.
翻訳日:2022-11-09 05:14:38 公開日:2020-10-13
# リスニング・出席・スペルモデルを用いたオンライン自動音声認識

Online Automatic Speech Recognition with Listen, Attend and Spell Model ( http://arxiv.org/abs/2008.05514v2 )

ライセンス: Link先を確認
Roger Hsiao, Dogan Can, Tim Ng, Ruchir Travadi and Arnab Ghoshal(参考訳) Listen, Attend and Spell (LAS)モデルとその他の注意に基づく自動音声認識(ASR)モデルは、完全にオンラインモードで動作する場合に、既知の制限がある。 本稿では、LASモデルのオンライン操作を分析し、これらの制限が入力バッファのエッジにおけるサイレント領域のハンドリングとオンラインアテンション機構の信頼性に起因することを示す。 本稿では,精度とレイテンシの目標を満たしながら,完全オンライン認識を実現する新手法を提案する。 mandarin dictationタスクでは,提案手法はオフラインlasモデルと比較して4%以内のオンライン操作において文字誤り率を達成することができる。 提案するオンラインlasモデルは、従来のニューラルネットワーク隠れマルコフモデルと同等精度のハイブリッドに比べて12%低いレイテンシで動作する。 当社では,本番規模のデプロイメントを通じて提案手法を検証することで,当社の知る限りでは,完全なオンラインlasモデルを初めて導入した方法です。

The Listen, Attend and Spell (LAS) model and other attention-based automatic speech recognition (ASR) models have known limitations when operated in a fully online mode. In this paper, we analyze the online operation of LAS models to demonstrate that these limitations stem from the handling of silence regions and the reliability of online attention mechanism at the edge of input buffers. We propose a novel and simple technique that can achieve fully online recognition while meeting accuracy and latency targets. For the Mandarin dictation task, our proposed approach can achieve a character error rate in online operation that is within 4% relative to an offline LAS model. The proposed online LAS model operates at 12% lower latency relative to a conventional neural network hidden Markov model hybrid of comparable accuracy. We have validated the proposed method through a production scale deployment, which, to the best of our knowledge, is the first such deployment of a fully online LAS model.
翻訳日:2022-10-31 05:50:27 公開日:2020-10-13
# 類似性モデルの説明に向けて

Towards Visually Explaining Similarity Models ( http://arxiv.org/abs/2008.06035v2 )

ライセンス: Link先を確認
Meng Zheng and Srikrishna Karanam and Terrence Chen and Richard J. Radke and Ziyan Wu(参考訳) 類似度モデルを視覚的に説明すること、すなわち、スカラースコアを生成することに加えて、モデルが2つの画像が類似であると予測する理由を説明する。 視覚モデル解釈可能性に関する最近の研究は勾配に基づく注意に焦点を当てているが、これらの手法は視覚的説明を生成するために分類モジュールに依存している。 したがって、分類のような損失関数を使用しない、あるいは必要としない他の種類のモデル(例えば、メトリック学習損失で訓練された類似性モデル)を容易に説明できない。 本研究では,画像類似性予測のための勾配に基づく視覚注意を生成する手法を提案することで,このギャップを橋渡しする。 学習した機能の埋め込みにのみ依存することにより、我々のアプローチがCNNベースの類似性アーキテクチャに応用可能であることを示す。 得られた注目マップは、単に解釈可能性だけでなく、新たなトレーニング可能な制約でモデル学習プロセス自体に注入可能であることを示す。 これらの制約を伴わずにトレーニングされたベースラインモデルよりも優れた類似性モデルが実現し、視覚的に説明できることを示す。 汎用画像検索,人物再識別,低ショットセマンティックセマンティックセグメンテーションという,3種類のタスクについて広範な実験を行った。

We consider the problem of visually explaining similarity models, i.e., explaining why a model predicts two images to be similar in addition to producing a scalar score. While much recent work in visual model interpretability has focused on gradient-based attention, these methods rely on a classification module to generate visual explanations. Consequently, they cannot readily explain other kinds of models that do not use or need classification-like loss functions (e.g., similarity models trained with a metric learning loss). In this work, we bridge this crucial gap, presenting a method to generate gradient-based visual attention for image similarity predictors. By relying solely on the learned feature embedding, we show that our approach can be applied to any kind of CNN-based similarity architecture, an important step towards generic visual explainability. We show that our resulting attention maps serve more than just interpretability; they can be infused into the model learning process itself with new trainable constraints. We show that the resulting similarity models perform, and can be visually explained, better than the corresponding baseline models trained without these constraints. We demonstrate our approach using extensive experiments on three different kinds of tasks: generic image retrieval, person re-identification, and low-shot semantic segmentation.
翻訳日:2022-10-30 22:22:11 公開日:2020-10-13
# ニューラルネットワークによる自動ファクタ構築

Neural Network-based Automatic Factor Construction ( http://arxiv.org/abs/2008.06225v3 )

ライセンス: Link先を確認
Jie Fang, Jianwu Lin, Shutao Xia, Yong Jiang, Zhikang Xia, Xiang Liu(参考訳) 従来の金融分析に基づく手動ファクタ構築を行う代わりに、学術研究者と量的投資管理者は、近年、遺伝的プログラミング(GP)を自動特徴構築ツールとして活用し、トレーディングデータから新しい要素に逆解析式を構築している。 しかし、ディープラーニングの開発により、より強力な機能抽出ツールが利用可能になった。 本稿では,金融分野の知識とさまざまなニューラルネットワーク構造に基づいて,多様な金融要因を自動的に構築するニューラルネットワークフレームワークである,ニューラルネットワークに基づく自動因子構築(NNAFC)を提案する。 実験の結果,NNAFCはGPよりも情報的・多様化的な因子を構築でき,現行の因子プールを効果的に強化できることがわかった。 現在の市場では、完全接続されたニューラルネットワーク構造と再帰的なニューラルネットワーク構造の両方が、畳み込みニューラルネットワーク構造よりも金融時系列から情報を抽出するのに優れている。 さらに,NNAFCによって構築された新たな要因は,既存因子プールへの情報の導入や多様化により,リターン,シャープ比,多要素量投資戦略の最大縮小を常に改善することができる。

Instead of conducting manual factor construction based on traditional and behavioural finance analysis, academic researchers and quantitative investment managers have leveraged Genetic Programming (GP) as an automatic feature construction tool in recent years, which builds reverse polish mathematical expressions from trading data into new factors. However, with the development of deep learning, more powerful feature extraction tools are available. This paper proposes Neural Network-based Automatic Factor Construction (NNAFC), a tailored neural network framework that can automatically construct diversified financial factors based on financial domain knowledge and a variety of neural network structures. The experiment results show that NNAFC can construct more informative and diversified factors than GP, to effectively enrich the current factor pool. For the current market, both fully connected and recurrent neural network structures are better at extracting information from financial time series than convolution neural network structures. Moreover, new factors constructed by NNAFC can always improve the return, Sharpe ratio, and the max draw-down of a multi-factor quantitative investment strategy due to their introducing more information and diversification to the existing factor pool.
翻訳日:2022-10-30 17:56:11 公開日:2020-10-13
# マッチガイド蒸留

Matching Guided Distillation ( http://arxiv.org/abs/2008.09958v2 )

ライセンス: Link先を確認
Kaiyu Yue, Jiangfan Deng, Feng Zhou(参考訳) 機能蒸留は、より大きな教師モデルに比べてパラメータが少なく、計算コストも低い、より小さな生徒モデルのパフォーマンスを改善する効果的な方法である。 残念なことに、教師と学生の中間的特徴の間の意味的特徴構造のギャップという共通の障害がある。 古典的なスキームは、適応モジュール(naive convolutional, attention-based, more complex)を追加することで中間的な特徴を変換することを好む。 しかし、これは2つの問題を引き起こす。 a) 適応モジュールはトレーニングにより多くのパラメータをもたらす。 b) ランダム初期化や特殊変換を伴う適応モジュールは,事前学習した学生の蒸留には適さない。 本稿では,これらの問題を解決するために,MGD(Matching Guided Distillation)を効率的かつパラメータフリーな方法として提示する。 mgdの鍵となる考え方は、教師のチャンネルと生徒のチャンネルを対応させることである。 部分蒸留損失を伴う教師の特徴からチャネルを減らすために,課題の3つの解を比較した。 全体的なトレーニングでは、2つの最適化オブジェクト - 代入更新とパラメータ更新 - の座標-descentアプローチを採用している。 MGDは計算コストが無視できる正規化やプール操作しか含まないため、他の蒸留法でネットワークに接続することは柔軟である。

Feature distillation is an effective way to improve the performance for a smaller student model, which has fewer parameters and lower computation cost compared to the larger teacher model. Unfortunately, there is a common obstacle - the gap in semantic feature structure between the intermediate features of teacher and student. The classic scheme prefers to transform intermediate features by adding the adaptation module, such as naive convolutional, attention-based or more complicated one. However, this introduces two problems: a) The adaptation module brings more parameters into training. b) The adaptation module with random initialization or special transformation isn't friendly for distilling a pre-trained student. In this paper, we present Matching Guided Distillation (MGD) as an efficient and parameter-free manner to solve these problems. The key idea of MGD is to pose matching the teacher channels with students' as an assignment problem. We compare three solutions of the assignment problem to reduce channels from teacher features with partial distillation loss. The overall training takes a coordinate-descent approach between two optimization objects - assignments update and parameters update. Since MGD only contains normalization or pooling operations with negligible computation cost, it is flexible to plug into network with other distillation methods.
翻訳日:2022-10-26 02:36:15 公開日:2020-10-13
# Vapur: 新型コロナウイルスの文献で関連タンパク関連ペアを見つける検索エンジン

Vapur: A Search Engine to Find Related Protein-Compound Pairs in COVID-19 Literature ( http://arxiv.org/abs/2009.02526v3 )

ライセンス: Link先を確認
Abdullatif K\"oksal, Hilal D\"onmez, R{\i}za \"Oz\c{c}elik, Elif Ozkirimli, Arzucan \"Ozg\"ur(参考訳) 2019年のコロナウイルス病(COVID-19)は世界中で恐ろしい結果をもたらし、さまざまな領域から激しい科学的取り組みを引き起こした。 得られた出版物は、出版物がドメイン固有の用語に富んでいるため、一般の検索エンジンにとって、生物分子に関する研究を見つけることは困難である。 ここでは、関連するタンパク質(化学ペア)を見つけるために特別に設計されたオンラインのcovid-19検索エンジンであるvapurを紹介する。 Vapurには、関係性指向の逆インデックスがあり、関連するエンティティに関するクエリバイオ分子の検索とグループ化が可能である。 Vapurの逆インデックスはBioNLPパイプラインで自動生成され、オンラインユーザインターフェースに統合される。 オンラインインターフェースは、ドメイン研究者による現在の文献のスムーズな横断のために設計されており、https://tabilab.cmpe.boun.edu.tr/vapur/で公開されている。

Coronavirus Disease of 2019 (COVID-19) created dire consequences globally and triggered an intense scientific effort from different domains. The resulting publications created a huge text collection in which finding the studies related to a biomolecule of interest is challenging for general purpose search engines because the publications are rich in domain specific terminology. Here, we present Vapur: an online COVID-19 search engine specifically designed to find related protein - chemical pairs. Vapur is empowered with a relation-oriented inverted index that is able to retrieve and group studies for a query biomolecule with respect to its related entities. The inverted index of Vapur is automatically created with a BioNLP pipeline and integrated with an online user interface. The online interface is designed for the smooth traversal of the current literature by domain researchers and is publicly available at https://tabilab.cmpe.boun.edu.tr/vapur/ .
翻訳日:2022-10-21 21:08:46 公開日:2020-10-13
# 複合イベント処理のためのハイブリッドニューロシンボリックアプローチ

A Hybrid Neuro-Symbolic Approach for Complex Event Processing ( http://arxiv.org/abs/2009.03420v3 )

ライセンス: Link先を確認
Marc Roig Vilamala, Harrison Taylor, Tianwei Xing, Luis Garcia, Mani Srivastava, Lance Kaplan, Alun Preece, Angelika Kimmig, Federico Cerutti(参考訳) 関心のある状況を形成する相互関連事象のパターンを検出するためのモデルをトレーニングすることは、複雑な問題になりがちである。 本稿では,複合イベント処理(cep)を実行できるイベント計算に基づくハイブリッドニューロシンボリックアーキテクチャを提案する。 ニューラルネットワークを利用して、複雑なイベントのパターンを表現する入力と論理ルールを解釈する。 私たちのアプローチは、純粋なニューラルネットワークアプローチよりもはるかに少ないラベル付きデータでトレーニングでき、エンドツーエンドのトレーニングでも個々のイベントを分類することを学びます。 本研究では,Urban Sounds 8Kに基づくデータセットに対する純粋ニューラルネットワークアプローチとの比較を行った。

Training a model to detect patterns of interrelated events that form situations of interest can be a complex problem: such situations tend to be uncommon, and only sparse data is available. We propose a hybrid neuro-symbolic architecture based on Event Calculus that can perform Complex Event Processing (CEP). It leverages both a neural network to interpret inputs and logical rules that express the pattern of the complex event. Our approach is capable of training with much fewer labelled data than a pure neural network approach, and to learn to classify individual events even when training in an end-to-end manner. We demonstrate this comparing our approach against a pure neural network approach on a dataset based on Urban Sounds 8K.
翻訳日:2022-10-21 02:56:14 公開日:2020-10-13
# 視覚コンテキストを用いた同時機械翻訳

Simultaneous Machine Translation with Visual Context ( http://arxiv.org/abs/2009.07310v3 )

ライセンス: Link先を確認
Ozan Caglayan, Julia Ive, Veneta Haralampieva, Pranava Madhyastha, Lo\"ic Barrault and Lucia Specia(参考訳) 同時機械翻訳(SiMT)は、連続的な入力テキストストリームを低レイテンシで最高の品質で別の言語に変換することを目的としている。 したがって、翻訳は不完全なソーステキストから始まり、徐々に読み上げられ、予測の必要性が生じる。 本稿では,視覚情報の追加が情報源コンテキストの欠落を補償できるかどうかを理解することを目的とする。 この目的のために、我々は様々なマルチモーダルアプローチと視覚的特徴が最先端のSiMTフレームワークに与える影響を分析する。 その結果、視覚的コンテキストは有用であり、明示的なオブジェクト領域情報に基づく視覚的グラウンドモデルの方がグローバルな特徴よりもはるかに優れており、低レイテンシシナリオ下では最大3 BLEUポイントの改善が達成できることがわかった。 質的分析では,複数形態のシステムのみが,英語から性記号付き言語に正しく翻訳できるだけでなく,形容詞名詞による英語とフランス語の配置など,単語順の差異にも対処できることを示す。

Simultaneous machine translation (SiMT) aims to translate a continuous input text stream into another language with the lowest latency and highest quality possible. The translation thus has to start with an incomplete source text, which is read progressively, creating the need for anticipation. In this paper, we seek to understand whether the addition of visual information can compensate for the missing source context. To this end, we analyse the impact of different multimodal approaches and visual features on state-of-the-art SiMT frameworks. Our results show that visual context is helpful and that visually-grounded models based on explicit object region information are much better than commonly used global features, reaching up to 3 BLEU points improvement under low latency scenarios. Our qualitative analysis illustrates cases where only the multimodal systems are able to translate correctly from English into gender-marked languages, as well as deal with differences in word order, such as adjective-noun placement between English and French.
翻訳日:2022-10-18 06:05:07 公開日:2020-10-13
# 6Dオブジェクトローカライゼーションに関するBOP Challenge 2020

BOP Challenge 2020 on 6D Object Localization ( http://arxiv.org/abs/2009.07378v2 )

ライセンス: Link先を確認
Tomas Hodan, Martin Sundermeyer, Bertram Drost, Yann Labbe, Eric Brachmann, Frank Michel, Carsten Rother, Jiri Matas(参考訳) 本稿では,RGB-D画像からの6次元オブジェクトのポーズ推定の分野における現状の把握を目的とした,一連の公開コンペティションの3番目であるBOP Challenge 2020の評価方法論,データセット,結果について述べる。 2020年、合成トレーニングと実際のRGB画像の間の領域ギャップを減らすために、参加者はBlenderProc4BOPが生成した350Kのフォトリアリスティックなトレーニング画像、新しいオープンソースで軽量な物理ベースレンダラー(PBR)と手続きデータジェネレータを提供した。 ディープニューラルネットワークに基づく手法がついにポイントペアの特徴に基づく手法に到達した。 トップパフォーマンスの手法はRGB-D画像チャンネルに依存しているが、トレーニング時間とテスト時間の両方でRGBチャンネルのみを使用すると強い結果が得られ、26の評価手法のうち、第3の手法はPBRのRGBチャンネルと実画像でトレーニングされ、第5の手法はPBR画像のRGBチャンネルでのみトレーニングされた。 トップパフォーミングcosypose法では,強いデータ拡張が重要成分として同定され,pbr画像のフォトリアリズムが有効であった。 オンライン評価システムは引き続き公開されており、プロジェクトのwebサイト(bop.felk.cvut.cz)で入手できる。

This paper presents the evaluation methodology, datasets, and results of the BOP Challenge 2020, the third in a series of public competitions organized with the goal to capture the status quo in the field of 6D object pose estimation from an RGB-D image. In 2020, to reduce the domain gap between synthetic training and real test RGB images, the participants were provided 350K photorealistic training images generated by BlenderProc4BOP, a new open-source and light-weight physically-based renderer (PBR) and procedural data generator. Methods based on deep neural networks have finally caught up with methods based on point pair features, which were dominating previous editions of the challenge. Although the top-performing methods rely on RGB-D image channels, strong results were achieved when only RGB channels were used at both training and test time - out of the 26 evaluated methods, the third method was trained on RGB channels of PBR and real images, while the fifth on RGB channels of PBR images only. Strong data augmentation was identified as a key component of the top-performing CosyPose method, and the photorealism of PBR images was demonstrated effective despite the augmentation. The online evaluation system stays open and is available on the project website: bop.felk.cvut.cz.
翻訳日:2022-10-18 05:58:40 公開日:2020-10-13
# グループワイドコントラスト学習によるニューラルダイアログ生成

Group-wise Contrastive Learning for Neural Dialogue Generation ( http://arxiv.org/abs/2009.07543v2 )

ライセンス: Link先を確認
Hengyi Cai, Hongshen Chen, Yonghao Song, Zhuoye Ding, Yongjun Bao, Weipeng Yan, Xiaofang Zhao(参考訳) 近年,ニューラルダイアログ応答生成が盛んに行われている。 既存の対話モデル学習では,最大度推定(mle)目標が広く採用されている。 しかし、MLEの目的関数で訓練されたモデルは、オープンドメインの会話設定に関して、低多様性の問題に悩まされている。 本研究は、人間が肯定的な信号から学習するだけでなく、好ましくない行動の行動の修正の恩恵を受けるという観察から着想を得たものであり、本研究では、モデルが正の発話と負の発話の相違を明示的に知覚する対話生成に対照的な学習を導入する。 具体的には、事前訓練されたベースラインモデルを参照として採用する。 比較学習において,対象対話モデルは,正のサンプルに対して高い条件確率を与え,負のサンプルに対して低い条件確率を与えるよう訓練される。 ヒトの会話におけるマルチマッピング関係を管理するために,グループワイド二重サンプリングによる対話学習を強化する。 広範な実験結果から,提案するグループ間コントラスト学習フレームワークは,ベースライントレーニングアプローチよりも高いパフォーマンスを持つ幅広いニューラルネットワーク対話生成モデルの訓練に適していることが示された。

Neural dialogue response generation has gained much popularity in recent years. Maximum Likelihood Estimation (MLE) objective is widely adopted in existing dialogue model learning. However, models trained with MLE objective function are plagued by the low-diversity issue when it comes to the open-domain conversational setting. Inspired by the observation that humans not only learn from the positive signals but also benefit from correcting behaviors of undesirable actions, in this work, we introduce contrastive learning into dialogue generation, where the model explicitly perceives the difference between the well-chosen positive and negative utterances. Specifically, we employ a pretrained baseline model as a reference. During contrastive learning, the target dialogue model is trained to give higher conditional probabilities for the positive samples, and lower conditional probabilities for those negative samples, compared to the reference model. To manage the multi-mapping relations prevailed in human conversation, we augment contrastive dialogue learning with group-wise dual sampling. Extensive experimental results show that the proposed group-wise contrastive learning framework is suited for training a wide range of neural dialogue generation models with very favorable performance over the baseline training approaches.
翻訳日:2022-10-17 23:02:44 公開日:2020-10-13
# オンデバイスニューラルマシン翻訳のための極低ビット変圧器量子化

Extremely Low Bit Transformer Quantization for On-Device Neural Machine Translation ( http://arxiv.org/abs/2009.07453v2 )

ライセンス: Link先を確認
Insoo Chung, Byeongwook Kim, Yoonjung Choi, Se Jung Kwon, Yongkweon Jeon, Baeseong Park, Sangha Kim and Dongsoo Lee(参考訳) 広く使われているTransformerアーキテクチャの展開は、特にモバイルやエッジデバイスなどの計算リソースに制限がある場合、推論中に大量の計算負荷とメモリオーバーヘッドのために困難である。 量子化はそのような課題に対処する効果的な手法である。 解析により、与えられた量子化ビット数に対して、Transformerの各ブロックは、異なる方法で翻訳品質と推論計算に寄与することが示された。 さらに、埋め込みブロック内でも、各単語は大きく異なるコントリビュートを示します。 これに対応して,トランスフォーマー重みを極めて少ないビット数(例えば3ビット以下)で表現するための混合精度量子化手法を提案する。 例えば、埋め込みブロックの各単語に対して、統計特性に基づいて異なる量子化ビットを割り当てる。 我々の量子化トランスフォーマーモデルは,-0.5BLEU未満のベースラインモデルよりも11.8$\times$小さいモデルサイズを達成する。 我々は,実機NMTの効率的な実装を実現するため,実行時のメモリフットプリントの8.3$\times$削減と3.5$\times$スピードアップ(Galaxy N10+)を実現している。

The deployment of widely used Transformer architecture is challenging because of heavy computation load and memory overhead during inference, especially when the target device is limited in computational resources such as mobile or edge devices. Quantization is an effective technique to address such challenges. Our analysis shows that for a given number of quantization bits, each block of Transformer contributes to translation quality and inference computations in different manners. Moreover, even inside an embedding block, each word presents vastly different contributions. Correspondingly, we propose a mixed precision quantization strategy to represent Transformer weights by an extremely low number of bits (e.g., under 3 bits). For example, for each word in an embedding block, we assign different quantization bits based on statistical property. Our quantized Transformer model achieves 11.8$\times$ smaller model size than the baseline model, with less than -0.5 BLEU. We achieve 8.3$\times$ reduction in run-time memory footprints and 3.5$\times$ speed up (Galaxy N10+) such that our proposed compression strategy enables efficient implementation for on-device NMT.
翻訳日:2022-10-17 22:42:27 公開日:2020-10-13
# 半教師付き学習に向けた潜在状態をもつ確率的エンドツーエンドタスク指向対話モデル

A Probabilistic End-To-End Task-Oriented Dialog Model with Latent Belief States towards Semi-Supervised Learning ( http://arxiv.org/abs/2009.08115v3 )

ライセンス: Link先を確認
Yichi Zhang, Zhijian Ou, Huixin Wang, Junlan Feng(参考訳) 構造化信念状態は,タスク指向対話システムにおけるユーザ目標追跡とデータベースクエリに不可欠である。 しかしながら、信念トラッカのトレーニングには、ユーザの発話毎に高価なターンレベルアノテーションが必要になることが多い。 本稿では,半教師付き学習に向けてラベルなしダイアログデータを活用することで,エンド・ツー・エンドの対話システム構築における信念状態ラベルの信頼度を緩和することを目的とする。 我々は,信頼状態が離散的潜在変数として表現され,ユーザの入力に応じてシステム応答と協調的にモデル化される,潜在信念状態(labes)モデルと呼ばれる確率的対話モデルを提案する。 このような潜在変数モデリングにより,原則付き変分学習フレームワークを用いて半教師付き学習を開発することができる。 さらに、LABESのSeq2Seqモデルインスタンス化をコピーしたLABES-S2Sを紹介する。 教師あり実験では、labes-s2sは3つの異なるスケールのベンチマークデータセットで強い結果を得る。 ラベルなしのダイアログデータを利用する場合、半教師付きLABS-S2Sは、教師のみのベースラインと半教師付きベースラインの両方で著しく優れる。 注目すべきは、MultiWOZのパフォーマンスを損なうことなく、アノテーション要求を50%に削減できることです。

Structured belief states are crucial for user goal tracking and database query in task-oriented dialog systems. However, training belief trackers often requires expensive turn-level annotations of every user utterance. In this paper we aim at alleviating the reliance on belief state labels in building end-to-end dialog systems, by leveraging unlabeled dialog data towards semi-supervised learning. We propose a probabilistic dialog model, called the LAtent BElief State (LABES) model, where belief states are represented as discrete latent variables and jointly modeled with system responses given user inputs. Such latent variable modeling enables us to develop semi-supervised learning under the principled variational learning framework. Furthermore, we introduce LABES-S2S, which is a copy-augmented Seq2Seq model instantiation of LABES. In supervised experiments, LABES-S2S obtains strong results on three benchmark datasets of different scales. In utilizing unlabeled dialog data, semi-supervised LABES-S2S significantly outperforms both supervised-only and semi-supervised baselines. Remarkably, we can reduce the annotation demands to 50% without performance loss on MultiWOZ.
翻訳日:2022-10-17 08:16:42 公開日:2020-10-13
# データ中毒攻撃に対するランダム選択型認証防御の枠組み

A Framework of Randomized Selection Based Certified Defenses Against Data Poisoning Attacks ( http://arxiv.org/abs/2009.08739v2 )

ライセンス: Link先を確認
Ruoxin Chen, Jie Li, Chentao Wu, Bin Sheng, Ping Li(参考訳) ニューラルネットワーク分類器は、攻撃者がいくつかのトレーニングサンプルだけを徹底的に毒殺することで、データ中毒攻撃に対して脆弱である。 しかし、ヒューリスティック防御の堅牢性を測定するのは難しい。 ランダム選択に基づく防御は、トレーニングセットからサンプリングされたサブデータセット上の分類器の予測平均化によって、認証された堅牢性を達成することができる。 本稿では,データ中毒攻撃に対するランダム選択に基づく認証防御の枠組みを提案する。 具体的には、特定の条件を満たすランダム選択スキームがデータ中毒攻撃に対して堅牢であることを証明する。 また、資格付きランダム選択スキームの認定半径の分析形式も導出する。 我々の枠組みによって導かれるバッグの認定半径は、以前の作業よりもきつい。 当社のフレームワークは,トレーニングセットと中毒モデルに関する事前知識を活用することで,堅牢性の向上を可能にする。 事前知識のレベルが高ければ、理論上も実用上も高い認証精度を達成できる。 MNIST 1/7, MNIST, CIFAR-10という3つのベンチマークデータセットの実験結果によると, この手法は最先端の手法よりも優れている。

Neural network classifiers are vulnerable to data poisoning attacks, as attackers can degrade or even manipulate their predictions thorough poisoning only a few training samples. However, the robustness of heuristic defenses is hard to measure. Random selection based defenses can achieve certified robustness by averaging the classifiers' predictions on the sub-datasets sampled from the training set. This paper proposes a framework of random selection based certified defenses against data poisoning attacks. Specifically, we prove that the random selection schemes that satisfy certain conditions are robust against data poisoning attacks. We also derive the analytical form of the certified radius for the qualified random selection schemes. The certified radius of bagging derived by our framework is tighter than the previous work. Our framework allows users to improve robustness by leveraging prior knowledge about the training set and the poisoning model. Given higher level of prior knowledge, we can achieve higher certified accuracy both theoretically and practically. According to the experiments on three benchmark datasets: MNIST 1/7, MNIST, and CIFAR-10, our method outperforms the state-of-the-art.
翻訳日:2022-10-17 02:40:55 公開日:2020-10-13
# 未知の生物からNLUモデルへ向けて

Towards Debiasing NLU Models from Unknown Biases ( http://arxiv.org/abs/2009.12303v4 )

ライセンス: Link先を確認
Prasetya Ajie Utama, Nafise Sadat Moosavi, Iryna Gurevych(参考訳) NLUモデルは、意図したタスクを適切に学習することなく、しばしばバイアスを利用してデータセット固有のパフォーマンスを達成する。 近年, この傾向の緩和に有効なデバイアス法が提案されている。 しかし、これらの手法はバイアスの種類をa-prioriと呼ぶべきという大きな仮定に依存しており、それらは多くのNLUタスクやデータセットに制限される。 本研究では,このギャップを埋める最初のステップとして,モデルがバイアスを主に活用するのを事前に知ることなく防止する自己バイアスフレームワークを導入する。 提案するフレームワークは,既存のデバイアス法を補完するものである。 既存の手法が、特定のバイアスを特にターゲットにすることなく、チャレンジデータセット(例えば、モデルがバイアスに依存するように設計された例群)の改善を維持できることを示します。 さらに,フレームワークの適用により全体的な堅牢性が向上することが示唆された。

NLU models often exploit biases to achieve high dataset-specific performance without properly learning the intended task. Recently proposed debiasing methods are shown to be effective in mitigating this tendency. However, these methods rely on a major assumption that the types of bias should be known a-priori, which limits their application to many NLU tasks and datasets. In this work, we present the first step to bridge this gap by introducing a self-debiasing framework that prevents models from mainly utilizing biases without knowing them in advance. The proposed framework is general and complementary to the existing debiasing methods. We show that it allows these existing methods to retain the improvement on the challenge datasets (i.e., sets of examples designed to expose models' reliance on biases) without specifically targeting certain biases. Furthermore, the evaluation suggests that applying the framework results in improved overall robustness.
翻訳日:2022-10-14 22:14:25 公開日:2020-10-13
# ヘルプ回避: インタフェース設計変更を用いたインテリジェントチュータの非分離型ヒント使用促進

Avoiding Help Avoidance: Using Interface Design Changes to Promote Unsolicited Hint Usage in an Intelligent Tutor ( http://arxiv.org/abs/2009.13371v2 )

ライセンス: Link先を確認
Mehak Maniktala, Christa Cody, Tiffany Barnes, and Min Chi(参考訳) インテリジェントなチュータシステムでは、データ駆動ヒントの生成方法、提示すべきヒントコンテンツ、最適な学習結果へのヒントの提供方法など、多くの研究がなされている。 しかし、ヒントの提示方法にはあまり注意が払われていない。 本稿では,データ駆動型知的チュータに無意味なヒントを提供するための,"Assertions"と呼ばれる新たなヒント配信機構を提案する。 アサーション(アサーション)は、学生のワークスペース内に現れるように設計され、生徒が引き出すステップと同じフォーマットで、学生に解決策につながる可能性のあるサブゴールを示すために部分的に機能するサンプルステップである。 Assertionsはよく知られたヒント回避問題に対処できると仮定した。 要求に対してのみヒントを提供するシステムでは、ヒント回避の結果、生徒は必要なときにヒントを受け取らない。 学生の助けを求めているのではなく、学生が必要とする援助を確実に受けられるようにしたいのです。 AssertionsとMessagesは、学生の不活発な後に現れるテキストベースで無意味なヒントだ。 その結果,AssertionsはMessagesに比べて無意味なヒント使用率を著しく向上させることがわかった。 さらに,アサーションと先行能力との間に有意な適性・待遇の相互作用を示し,より短い(より効率的な)ポストテストソリューションを早く生成する先行能力の低い学生を指導するアサーションを提示した。 また,教師がアサーションの形で不十分な支援を提供する場合,事前知識の少ない学生の間で生産的パーシステンスパターンを示すクラスタリング分析を行う。 全体として、この研究は、ヒント提示が学生のそれの使用方法に大きな影響を及ぼし、Assertionsを使うことがヘルプ回避に効果的であることを示す証拠を提供する。

Within intelligent tutoring systems, considerable research has investigated hints, including how to generate data-driven hints, what hint content to present, and when to provide hints for optimal learning outcomes. However, less attention has been paid to how hints are presented. In this paper, we propose a new hint delivery mechanism called "Assertions" for providing unsolicited hints in a data-driven intelligent tutor. Assertions are partially-worked example steps designed to appear within a student workspace, and in the same format as student-derived steps, to show students a possible subgoal leading to the solution. We hypothesized that Assertions can help address the well-known hint avoidance problem. In systems that only provide hints upon request, hint avoidance results in students not receiving hints when they are needed. Our unsolicited Assertions do not seek to improve student help-seeking, but rather seek to ensure students receive the help they need. We contrast Assertions with Messages, text-based, unsolicited hints that appear after student inactivity. Our results show that Assertions significantly increase unsolicited hint usage compared to Messages. Further, they show a significant aptitude-treatment interaction between Assertions and prior proficiency, with Assertions leading students with low prior proficiency to generate shorter (more efficient) posttest solutions faster. We also present a clustering analysis that shows patterns of productive persistence among students with low prior knowledge when the tutor provides unsolicited help in the form of Assertions. Overall, this work provides encouraging evidence that hint presentation can significantly impact how students use them and using Assertions can be an effective way to address help avoidance.
翻訳日:2022-10-13 21:59:12 公開日:2020-10-13
# 表情認識のための深層進化

Deep Evolution for Facial Emotion Recognition ( http://arxiv.org/abs/2009.14194v2 )

ライセンス: Link先を確認
Emmanuel Dufourq, Bruce A. Bassett(参考訳) 深層表情認識は、長いトレーニング時間と解釈可能性の欠如という、トレーニング可能なパラメータの多さから生じる2つの課題に直面している。 学習可能なパラメータの数を大幅に削減し,同時に分類性能を保ちながら,場合によっては優れた性能を実現する,進化アルゴリズムに基づく新しい手法を提案する。 分類精度を損なうことなく、平均で95%(例えば、2M から 100k のパラメータ)のパラメータ数を確実に減らすことができる。 アルゴリズムは、感情に関する最も重要な情報を持ち、重要な特徴の典型的な人間の選択と一致する鼻に対して、画像から小さなパッチを選択することを学ぶ。 我々の研究は、新しいフォームアテンションを実装し、進化的アルゴリズムは、顔認識のためのパラメータの数を減らし、バイアスを減らすのに役立つ解釈可能な機能を提供するために、ディープラーニング時代の機械学習に価値ある追加であることを示す。

Deep facial expression recognition faces two challenges that both stem from the large number of trainable parameters: long training times and a lack of interpretability. We propose a novel method based on evolutionary algorithms, that deals with both challenges by massively reducing the number of trainable parameters, whilst simultaneously retaining classification performance, and in some cases achieving superior performance. We are robustly able to reduce the number of parameters on average by 95% (e.g. from 2M to 100k parameters) with no loss in classification accuracy. The algorithm learns to choose small patches from the image, relative to the nose, which carry the most important information about emotion, and which coincide with typical human choices of important features. Our work implements a novel form attention and shows that evolutionary algorithms are a valuable addition to machine learning in the deep learning era, both for reducing the number of parameters for facial expression recognition and for providing interpretable features that can help reduce bias.
翻訳日:2022-10-13 05:00:26 公開日:2020-10-13
# S3K:マルチビュー一貫性によるロボットマニピュレーションのための自己監督型セマンティックキーポイント

S3K: Self-Supervised Semantic Keypoints for Robotic Manipulation via Multi-View Consistency ( http://arxiv.org/abs/2009.14711v2 )

ライセンス: Link先を確認
Mel Vecerik, Jean-Baptiste Regli, Oleg Sushkov, David Barker, Rugile Pevceviciute, Thomas Roth\"orl, Christopher Schuster, Raia Hadsell, Lourdes Agapito, Jonathan Scholz(参考訳) ロボットの行動能力は、知覚できるものによって根本的に制約される。 視覚的表現学習への既存の多くのアプローチは、画像再構成、潜時空間の滑らかさ、制御の有用性など、汎用的なトレーニング基準を利用し、あるいは特定の特徴(境界ボックス、セグメンテーションなど)を付加した大きなデータセットを使用する。 しかし、どちらのアプローチも、プラグやソケットの把持や結合など、特定のオブジェクトの精密なタスクに必要な細かな詳細を捉えるのに苦労することが多い。 これらの困難は、これらのモデルに幾何学的構造が欠如していることから生じる。 本研究では,意味的3dキーポイントを視覚的表現として提唱し,インスタンスやカテゴリレベルのキーポイントを最小限の監視で1~5ミリ精度にトレーニング可能な,半教師付きトレーニング目標を提示した。 さらに, 局所的なテクスチャに基づくアプローチとは異なり, 広い範囲からの文脈情報の統合により, 咬合, 騒音, 識別可能なテクスチャの欠如に対して頑健である。 意味的キーポイントを特定することで、人間の理解可能な行動の高レベルスクリプティングが可能になることを実証する。 最後に、これらのキーポイントは強化学習のための報酬関数を定義する良い方法であり、訓練エージェントにとって良い表現であることを示す。

A robot's ability to act is fundamentally constrained by what it can perceive. Many existing approaches to visual representation learning utilize general-purpose training criteria, e.g. image reconstruction, smoothness in latent space, or usefulness for control, or else make use of large datasets annotated with specific features (bounding boxes, segmentations, etc.). However, both approaches often struggle to capture the fine-detail required for precision tasks on specific objects, e.g. grasping and mating a plug and socket. We argue that these difficulties arise from a lack of geometric structure in these models. In this work we advocate semantic 3D keypoints as a visual representation, and present a semi-supervised training objective that can allow instance or category-level keypoints to be trained to 1-5 millimeter-accuracy with minimal supervision. Furthermore, unlike local texture-based approaches, our model integrates contextual information from a large area and is therefore robust to occlusion, noise, and lack of discernible texture. We demonstrate that this ability to locate semantic keypoints enables high level scripting of human understandable behaviours. Finally we show that these keypoints provide a good way to define reward functions for reinforcement learning and are a good representation for training agents.
翻訳日:2022-10-12 23:18:10 公開日:2020-10-13
# ゲーミングゲームにおけるポリシー最適化のための生成機械学習アプローチ

A Generative Machine Learning Approach to Policy Optimization in Pursuit-Evasion Games ( http://arxiv.org/abs/2010.01711v2 )

ライセンス: Link先を確認
Shiva Navabi, Osonde A. Osoba(参考訳) 我々は,2つのエージェント,ブルー(追っ手)とレッド(脱走者)の間で,t$の時間ステップでプレイする追跡回避ゲーム[11]について考察する。 赤はブルーの領土を攻撃しようとする。 blueの目的は、t$でredをインターセプトすることであり、redの攻撃の成功を制限することである。 ブルーは、時間差でレッドをインターセプトする動き(我々の設定の速度と角度)を決定するパラメータを選択することで、追跡軌道を計画しなければならない。 赤を追求するブルーのパスプランニング問題は,不確実性下での逐次意思決定問題として考えられる。 ブルーがレッドのアクションポリシーに気づいていないことは、ブルーの最適なアクションポリシーを見つけるための解析的動的プログラミングアプローチを惹きつけることができる。 本稿では、Blueが直面するポリシー最適化問題に対するデータ駆動アプローチの探求に興味がある。 生成機械学習(ML)アプローチを適用し、Blueの最適なアクションポリシーを学習する。 このことは、シミュレーションされた追従回避ゲームのダイナミクスについて、関連する暗黙の表現を学習する生成MLモデルの能力を強調している。 我々は,広範囲な統計的評価によるモデリング手法の有効性を示す。 この研究は、多エージェント学習と計画の文脈で生じる政策最適化問題に対処するための生成的モデリングアプローチのさらなる導入に向けた予備的なステップであると見なすことができる。

We consider a pursuit-evasion game [11] played between two agents, 'Blue' (the pursuer) and 'Red' (the evader), over $T$ time steps. Red aims to attack Blue's territory. Blue's objective is to intercept Red by time $T$ and thereby limit the success of Red's attack. Blue must plan its pursuit trajectory by choosing parameters that determine its course of movement (speed and angle in our setup) such that it intercepts Red by time $T$. We show that Blue's path-planning problem in pursuing Red, can be posed as a sequential decision making problem under uncertainty. Blue's unawareness of Red's action policy renders the analytic dynamic programming approach intractable for finding the optimal action policy for Blue. In this work, we are interested in exploring data-driven approaches to the policy optimization problem that Blue faces. We apply generative machine learning (ML) approaches to learn optimal action policies for Blue. This highlights the ability of generative ML model to learn the relevant implicit representations for the dynamics of simulated pursuit-evasion games. We demonstrate the effectiveness of our modeling approach via extensive statistical assessments. This work can be viewed as a preliminary step towards further adoption of generative modeling approaches for addressing policy optimization problems that arise in the context of multi-agent learning and planning [1].
翻訳日:2022-10-11 03:32:50 公開日:2020-10-13
# 高速イベントカメラのトラック化

High Speed Event Camera TRacking ( http://arxiv.org/abs/2010.02771v2 )

ライセンス: Link先を確認
William Chamorro, Juan Andrade-Cetto, Joan Sol\`a(参考訳) イベントカメラはバイオインスパイアされたセンサーで、反応時間はマイクロ秒単位である。 この特性は、高ダイナミックなコンピュータビジョンアプリケーションでの使用をアピールする。 本研究では,このセンシング技術の限界を探究し,25.8g以上のダイナミックスを持つ6自由度動作を10khzのスループットで推定し,毎秒100万イベントを処理可能な超高速トラッキングアルゴリズムを提案する。 本手法は,Lie理論で定式化された誤差状態カルマンフィルタを用いて,前方の物体のカメラの動きや動きを追跡することができる。 この手法は、非常に高速な外れ値拒絶を伴う投影線セグメントとイベントのマッチングのための堅牢なメカニズムを含む。 スパース行列の微妙な処理をリアルタイムに行う。 比較と性能解析のために、異なる複雑さの異なる運動モデルを考える

Event cameras are bioinspired sensors with reaction times in the order of microseconds. This property makes them appealing for use in highly-dynamic computer vision applications. In this work,we explore the limits of this sensing technology and present an ultra-fast tracking algorithm able to estimate six-degree-of-freedom motion with dynamics over 25.8 g, at a throughput of 10 kHz,processing over a million events per second. Our method is capable of tracking either camera motion or the motion of an object in front of it, using an error-state Kalman filter formulated in a Lie-theoretic sense. The method includes a robust mechanism for the matching of events with projected line segments with very fast outlier rejection. Meticulous treatment of sparse matrices is applied to achieve real-time performance. Different motion models of varying complexity are considered for the sake of comparison and performance analysis
翻訳日:2022-10-10 08:00:25 公開日:2020-10-13
# Theedhum Nandrum@Dravidian-CodeMix-FIRE2020: The Sentiment Polarity Classificationifier for YouTube Comments with Code-switching between Tamil, Malayalam and English

Theedhum Nandrum@Dravidian-CodeMix-FIRE2020: A Sentiment Polarity Classifier for YouTube Comments with Code-switching between Tamil, Malayalam and English ( http://arxiv.org/abs/2010.03189v2 )

ライセンス: Link先を確認
BalaSundaraRaman Lakshmanan and Sanjeeth Kumar Ravindranath(参考訳) Theedhum Nandrumは、SGD(Stochastic Gradient Descent)ベースの分類器とLSTM(Long Short-term Memory)ベースの分類器の2つのアプローチを用いた感情極性検出システムである。 私たちのアプローチでは、絵文字の使用、スクリプトの選択、そしてdravidian codemix - fire 2020タスクで指定されたデータセットに非常にマークされたコード混合といった言語機能を利用します。 SGDのハイパーパラメータはGridSearchCVで調整された。 我々のシステムはタミル英語では4位、マラヤラム英語では平均F1得点は0.62と9位、スコアは0.65であった。 課題期限後,ロジスティック回帰モデルを用いて,タミル英語の重み付き平均F1スコア0.77を達成した。 このパフォーマンスは、このデータセットの上位ランクの分類器を広いマージンで改善する。 コード混合データにおける綴りの変形を調和させるための言語固有のsoundexの利用は、soundexの新しい応用であると思われる。 完全なコードはgithubのhttps://github.com/oligoglot/theedhum-nandrumで公開されている。

Theedhum Nandrum is a sentiment polarity detection system using two approaches--a Stochastic Gradient Descent (SGD) based classifier and a Long Short-term Memory (LSTM) based Classifier. Our approach utilises language features like use of emoji, choice of scripts and code mixing which appeared quite marked in the datasets specified for the Dravidian Codemix - FIRE 2020 task. The hyperparameters for the SGD were tuned using GridSearchCV. Our system was ranked 4th in Tamil-English with a weighted average F1 score of 0.62 and 9th in Malayalam-English with a score of 0.65. We achieved a weighted average F1 score of 0.77 for Tamil-English using a Logistic Regression based model after the task deadline. This performance betters the top ranked classifier on this dataset by a wide margin. Our use of language-specific Soundex to harmonise the spelling variants in code-mixed data appears to be a novel application of Soundex. Our complete code is published in github at https://github.com/oligoglot/theedhum-nandrum.
翻訳日:2022-10-09 22:08:55 公開日:2020-10-13
# 光学顕微鏡におけるブラインドデコンボリューションと深さ推定のための空間変化型cnnに基づく点拡散関数推定

Spatially-Variant CNN-based Point Spread Function Estimation for Blind Deconvolution and Depth Estimation in Optical Microscopy ( http://arxiv.org/abs/2010.04011v2 )

ライセンス: Link先を確認
Adrian Shajkofci, Michael Liebling(参考訳) 光学顕微鏡は生物学や医学において必須の道具である。 高分解能顕微鏡によるフィールドの浅い深さは、画像領域を非シャープにし、深度の局在化と定量的な画像解釈を困難にするので、(より洗練された分断設定に頼ることなく)1ショットで撮影することは依然として困難である。 本稿では,焦点面への物体距離を共同で推定しながら,局所的な歪みを推定することにより,物体の光顕微鏡像の解像度を向上させる手法を提案する。 具体的には、楽器やオブジェクト固有の校正を必要としない畳み込みニューラルネットワーク(CNN)を用いて、空間変動点スプレッド関数(PSF)モデルのパラメータを推定する。 本手法は,物体回転,照明変動,光子雑音に頑健でありながら,理想条件下では最大0.99の正方形ピアソン相関係数を持つ画像からPSFパラメータを復元する。 得られたPSFを空間不変かつ正規化されたRichardson-Lucy復調アルゴリズムで使用すると、他のブラインド復調法と比較して最大2.1dBの信号-雑音比が向上する。 顕微鏡特異的キャリブレーションにより,psfモデルパラメータの復元により,2マイクロメートル以上の精度で表面深度を推定できることを示した。 提案手法は,光学的設定に関する事前知識を最小限に抑えつつ,非平坦物体の画像の強調を行う複数の可能性を開く。

Optical microscopy is an essential tool in biology and medicine. Imaging thin, yet non-flat objects in a single shot (without relying on more sophisticated sectioning setups) remains challenging as the shallow depth of field that comes with high-resolution microscopes leads to unsharp image regions and makes depth localization and quantitative image interpretation difficult. Here, we present a method that improves the resolution of light microscopy images of such objects by locally estimating image distortion while jointly estimating object distance to the focal plane. Specifically, we estimate the parameters of a spatially-variant Point-Spread function (PSF) model using a Convolutional Neural Network (CNN), which does not require instrument- or object-specific calibration. Our method recovers PSF parameters from the image itself with up to a squared Pearson correlation coefficient of 0.99 in ideal conditions, while remaining robust to object rotation, illumination variations, or photon noise. When the recovered PSFs are used with a spatially-variant and regularized Richardson-Lucy deconvolution algorithm, we observed up to 2.1 dB better signal-to-noise ratio compared to other blind deconvolution techniques. Following microscope-specific calibration, we further demonstrate that the recovered PSF model parameters permit estimating surface depth with a precision of 2 micrometers and over an extended range when using engineered PSFs. Our method opens up multiple possibilities for enhancing images of non-flat objects with minimal need for a priori knowledge about the optical setup.
翻訳日:2022-10-09 12:50:40 公開日:2020-10-13
# CurbScan:マルチセンサフュージョンによるカーブ検出と追跡

CurbScan: Curb Detection and Tracking Using Multi-Sensor Fusion ( http://arxiv.org/abs/2010.04837v2 )

ライセンス: Link先を確認
Iljoo Baek, Tzu-Chieh Tai, Manoj Bhat, Karun Ellango, Tarang Shah, Kamal Fuseini, Ragunathan (Raj) Rajkumar(参考訳) 都市環境での安全な自動運転には信頼性の高い縁石検出が不可欠である。 カーブ検出と追跡は、車両のローカライゼーションや経路計画にも有用である。 過去の研究では、3D LiDARセンサーを用いて正確な距離情報と縁石の幾何学的特性を判定した。 しかし、このようなアプローチでは、密集したポイントクラウドデータが必要であり、道路とオフロードの両方に存在する障害物による偽陽性にも弱い。 本稿では,LiDARデータ,モノカメラ,低コスト超音波センサなど,複数のセンサからデータを融合して縁石を検出・追跡する手法を提案する。 検出アルゴリズムは、単一の3D LiDARとモノカメラセンサをベースとして、候補ストレッチの特徴を検知し、周囲の静的障害物や動き障害物から生じる偽陽性を効果的に除去する。 カルマンフィルタに基づく予測と、低コスト超音波センサからの横距離情報との融合を用いて、追跡アルゴリズムの検出精度を高める。 次に, 境界位置に対するロバストな結果が得られるラインフィッティングアルゴリズムを提案する。 最後に、異なる道路環境でテストし、実際の車両での実装を評価することで、ソリューションの実用的な実現可能性を示す。 v=w5MwsdWhcy4, https://www.youtube.com/watch? v=Gd506RklfG8。 提案アルゴリズムは,KITTIデータセットとデータセットでそれぞれ4.5~22m,0~14mの精度を維持し,Intel i7 x86,NVIDIA Xavier基板上では100msの平均処理時間は約10msである。

Reliable curb detection is critical for safe autonomous driving in urban contexts. Curb detection and tracking are also useful in vehicle localization and path planning. Past work utilized a 3D LiDAR sensor to determine accurate distance information and the geometric attributes of curbs. However, such an approach requires dense point cloud data and is also vulnerable to false positives from obstacles present on both road and off-road areas. In this paper, we propose an approach to detect and track curbs by fusing together data from multiple sensors: sparse LiDAR data, a mono camera and low-cost ultrasonic sensors. The detection algorithm is based on a single 3D LiDAR and a mono camera sensor used to detect candidate curb features and it effectively removes false positives arising from surrounding static and moving obstacles. The detection accuracy of the tracking algorithm is boosted by using Kalman filter-based prediction and fusion with lateral distance information from low-cost ultrasonic sensors. We next propose a line-fitting algorithm that yields robust results for curb locations. Finally, we demonstrate the practical feasibility of our solution by testing in different road environments and evaluating our implementation in a real vehicle\footnote{Demo video clips demonstrating our algorithm have been uploaded to Youtube: https://www.youtube.com/watch?v=w5MwsdWhcy4, https://www.youtube.com/watch?v=Gd506RklfG8.}. Our algorithm maintains over 90\% accuracy within 4.5-22 meters and 0-14 meters for the KITTI dataset and our dataset respectively, and its average processing time per frame is approximately 10 ms on Intel i7 x86 and 100ms on NVIDIA Xavier board.
翻訳日:2022-10-09 04:56:19 公開日:2020-10-13
# ニューラルネットワーク翻訳のための自己ペース学習

Self-Paced Learning for Neural Machine Translation ( http://arxiv.org/abs/2010.04505v2 )

ライセンス: Link先を確認
Yu Wan, Baosong Yang, Derek F. Wong, Yikai Zhou, Lidia S. Chao, Haibo Zhang, Boxing Chen(参考訳) 近年の研究では、人間の学習過程を模倣することにより、ニューラルマシン翻訳(NMT)の訓練が促進できることが証明されている。 しかし、このようなカリキュラム学習の成果は、例えば文の長さや単語の希薄さといった手作りの特徴を生かした人工スケジュールの品質に依存している。 我々は、NMTモデルが許されるセルフペース学習を提案することにより、この手順をより柔軟な方法で改善する。 1)訓練例よりも学習信頼度を自動的に定量化する。 2)各イテレーションステップの損失を規制することにより,その学習を柔軟に制御する。 複数の翻訳タスクにおける実験結果から,提案モデルが強いベースラインよりも優れた性能を得られ,翻訳品質と収束速度の両立を人間設計のカリキュラムで訓練したモデルが得られた。

Recent studies have proven that the training of neural machine translation (NMT) can be facilitated by mimicking the learning process of humans. Nevertheless, achievements of such kind of curriculum learning rely on the quality of artificial schedule drawn up with the handcrafted features, e.g. sentence length or word rarity. We ameliorate this procedure with a more flexible manner by proposing self-paced learning, where NMT model is allowed to 1) automatically quantify the learning confidence over training examples; and 2) flexibly govern its learning via regulating the loss in each iteration step. Experimental results over multiple translation tasks demonstrate that the proposed model yields better performance than strong baselines and those models trained with human-designed curricula on both translation quality and convergence speed.
翻訳日:2022-10-09 04:20:06 公開日:2020-10-13
# EB-DEVS:動的複雑系における創発的挙動のモデリングとシミュレーションのための形式的フレームワーク

EB-DEVS: A Formal Framework for Modeling and Simulation of Emergent Behavior in Dynamic Complex Systems ( http://arxiv.org/abs/2010.05042v2 )

ライセンス: Link先を確認
Daniel J. Foguelman, Philipp Henning, Adelinde Uhrmacher, and Rodrigo Castro(参考訳) 創発的振る舞いは、研究中のシステムを複雑なシステムとして定義する重要な機能である。 シミュレーションは、(微視的なレベルで)システムコンポーネント群間の性質の緊急性の研究を扱う唯一の方法として認識されており、創発的構造の出現は、孤立したコンポーネントの分析から推論できない。 システム指向の一般化は、フィードバックループ(マクロ特性に反応するマイクロコンポーネント)、異なるクラスのコンポーネント間の相互作用(モジュラー構成)、異なる時空間スケール(階層的組織)で動作するサブシステムの階層的相互作用を考慮する必要がある。 本稿では,解析活動の最前線に創発的行動が配置される複雑なシステムについての推論を可能にする,モデリングとシミュレーション(M&S)形式を創発的行動-DEVS(EB-DEVS)に導入する。 EB-DEVS は DEVS 形式に基づいて構築されており、多種多形式システムのモジュラーおよび階層的M&S 機能に上向きの通信チャネルを追加している。 EB-DEVSは表現性に対する最小限のスタンスを持ち、古典的なDEVSに小さな拡張セットを導入し、創発的な振る舞いに対処し、両方の形式主義を相互運用可能にする(モデラーはマイクロマクロ力学を介してどのサブシステムが表現されるべきかを決定する)。 eb-devsがm&sプロセスの中心に創発的特性を置き,学習した鳥の群れ,ワクチン接種による集団流行,ホメオスタシスによる細胞内動態の3つの事例を提示する。

Emergent behavior is a key feature defining a system under study as a complex system. Simulation has been recognized as the only way to deal with the study of the emergency of properties (at a macroscopic level) among groups of system components (at a microscopic level), for the manifestations of emergent structures cannot be deduced from analysing components in isolation. A systems-oriented generalisation must consider the presence of feedback loops (micro components react to macro properties), interaction among components of different classes (modular composition) and layered interaction of subsystems operating at different spatio-temporal scales (hierarchical organisation). In this work we introduce Emergent Behavior-DEVS (EB-DEVS) a Modeling and Simulation (M&S) formalism that permits reasoning about complex systems where emergent behavior is placed at the forefront of the analysis activity. EB-DEVS builds on the DEVS formalism, adding upward/downward communication channels to well-established capabilities for modular and hierarchical M&S of heterogeneous multi-formalism systems. EB-DEVS takes a minimalist stance on expressiveness, introducing a small set of extensions on Classic DEVS that can cope with emergent behavior, and making both formalisms interoperable (the modeler decides which subsystems deserve to be expressed via micro-macro dynamics). We present three case studies: flocks of birds with learning, population epidemics with vaccination and sub-cellular dynamics with homeostasis, through which we showcase how EB-DEVS performs by placing emergent properties at the center of the M&S process.
翻訳日:2022-10-08 23:29:15 公開日:2020-10-13
# 音色特性を利用した軽量話者認識システム

A Lightweight Speaker Recognition System Using Timbre Properties ( http://arxiv.org/abs/2010.05502v2 )

ライセンス: Link先を確認
Abu Quwsar Ohi, M. F. Mridha, Md. Abdul Hamid, Muhammad Mostafa Monowar, Dongsu Lee, Jinsul Kim(参考訳) 話者認識は、生体認証と認証システムにおいて顕著な用途を含む活発な研究領域である。 現在、話者認識領域には高性能なモデルが多数存在する。 しかし、ほとんどの高度なモデルは、リアルタイム音声認識にgpuサポートを必要とするディープラーニングを実装しており、ローエンドデバイスには適していない。 本稿では,ランダム森林分類器に基づく軽量テキスト非依存話者認識モデルを提案する。 また、話者確認と識別タスクの両方に使用される新機能も導入している。 提案モデルは,ランダムフォレストによって分類される特徴として,人間の発話に基づく音節特性を用いる。 ティンブレ(Timbre)は、聴取者同士の区別を可能にする、音の非常に基本的な特性を指す。 このプロトタイプは7つの音色特性、発色、明るさ、深さ、硬度、粗さ、鋭さ、温かさを話者認識モデルの特徴として活用しています。 この実験は話者検証と話者識別タスクに基づいて行われ、提案モデルの有効性と欠点を示す。 話者識別フェーズでは、最大精度が78%に達する。 反対に、話者検証フェーズでは、同値エラー率(ERR)が0.24である80%の精度を維持する。

Speaker recognition is an active research area that contains notable usage in biometric security and authentication system. Currently, there exist many well-performing models in the speaker recognition domain. However, most of the advanced models implement deep learning that requires GPU support for real-time speech recognition, and it is not suitable for low-end devices. In this paper, we propose a lightweight text-independent speaker recognition model based on random forest classifier. It also introduces new features that are used for both speaker verification and identification tasks. The proposed model uses human speech based timbral properties as features that are classified using random forest. Timbre refers to the very basic properties of sound that allow listeners to discriminate among them. The prototype uses seven most actively searched timbre properties, boominess, brightness, depth, hardness, roughness, sharpness, and warmth as features of our speaker recognition model. The experiment is carried out on speaker verification and speaker identification tasks and shows the achievements and drawbacks of the proposed model. In the speaker identification phase, it achieves a maximum accuracy of 78%. On the contrary, in the speaker verification phase, the model maintains an accuracy of 80% having an equal error rate (ERR) of 0.24.
翻訳日:2022-10-08 06:23:36 公開日:2020-10-13
# FILM: 文マッチングのための高速,解釈可能,低ランクなメトリクス学習手法

FILM: A Fast, Interpretable, and Low-rank Metric Learning Approach for Sentence Matching ( http://arxiv.org/abs/2010.05523v2 )

ライセンス: Link先を確認
Xiangru Tang, Alan Aw(参考訳) 意味的類似性の検出は文マッチングにおいて重要な役割を果たす。 自然言語の識別表現を学ぶ必要がある。 近年、より洗練されたモデルアーキテクチャにより、時間を要するトレーニングプロセスと解釈不能な推論とともに、目覚ましい進歩を遂げています。 この問題を軽減するため, FILM (Fast, Interpretable, Low-rank Metric Learning) と呼ばれる計量学習手法を探索し, 高次元データの高判別的投影を効率的に行う。 我々は,この計量学習問題を多様体最適化問題として構築し,バルジライ=ボルワインステップサイズでケイリー変換法を用いて解く。 実験では,三重項損失最小化目的のフィルムをquora challenge and semantic textual similarity (sts)タスクに適用する。 その結果、FILM法は時間複雑性の理論解析と一致し、高速な計算速度と優れた性能を達成できることを示した。

Detection of semantic similarity plays a vital role in sentence matching. It requires to learn discriminative representations of natural language. Recently, owing to more and more sophisticated model architecture, impressive progress has been made, along with a time-consuming training process and not-interpretable inference. To alleviate this problem, we explore a metric learning approach, named FILM (Fast, Interpretable, and Low-rank Metric learning) to efficiently find a high discriminative projection of the high-dimensional data. We construct this metric learning problem as a manifold optimization problem and solve it with the Cayley transformation method with the Barzilai-Borwein step size. In experiments, we apply FILM with triplet loss minimization objective to the Quora Challenge and Semantic Textual Similarity (STS) Task. The results demonstrate that the FILM method achieves superior performance as well as the fastest computation speed, which is consistent with our theoretical analysis of time complexity.
翻訳日:2022-10-08 05:22:23 公開日:2020-10-13
# 最適なのは、最も適している時だけです:動的局所性に敏感なハッシュに基づいてサービスするための関連モデルを見つけることです。

It's the Best Only When It Fits You Most: Finding Related Models for Serving Based on Dynamic Locality Sensitive Hashing ( http://arxiv.org/abs/2010.09474v1 )

ライセンス: Link先を確認
Lixi Zhou, Zijie Wang, Amitabh Das, Jia Zou(参考訳) 近年、ディープラーニングは機械学習と人工知能の最も一般的な方向となっている。 しかしながら、トレーニングデータの準備は、プロダクションや研究のためにディープラーニングモデルをデプロイするライフサイクルのボトルネックになることが多い。 データセットを参照するための再利用モデルは、データ生成のトレーニングに必要な人的コストを大幅に削減することができる。 tensorflow hub、pytorch hub、dlhubといったモデル共有プラットフォームは数多く存在するが、これらのシステムのほとんどは、モデルを選択するために各モデルの詳細を手動で指定し、モデルダウンロード者がキーワード検索結果を表示するためにモデルアップロードを必要とする。 自動モデル検索ツールが不足している。 本稿では,対象データセットと利用可能なモデルのトレーニングデータセットの類似性に基づいて,関連するモデルを検索してサービスするエンドツーエンドプロセスを提案する。 類似度の測定は多数存在するが、ペアで比較せずに効率的にメトリクスを適用する方法について検討し、その効果を比較する。 本研究では,Jensen-Shannon (JS) の発散に基づく適応度測定が有効であり,局所性に敏感なハッシュ技術を用いることで,その計算を著しく高速化できることを見出した。

In recent, deep learning has become the most popular direction in machine learning and artificial intelligence. However, preparation of training data is often a bottleneck in the lifecycle of deploying a deep learning model for production or research. Reusing models for inferencing a dataset can greatly save the human costs required for training data creation. Although there exist a number of model sharing platform such as TensorFlow Hub, PyTorch Hub, DLHub, most of these systems require model uploaders to manually specify the details of each model and model downloaders to screen keyword search results for selecting a model. They are in lack of an automatic model searching tool. This paper proposes an end-to-end process of searching related models for serving based on the similarity of the target dataset and the training datasets of the available models. While there exist many similarity measurements, we study how to efficiently apply these metrics without pair-wise comparison and compare the effectiveness of these metrics. We find that our proposed adaptivity measurement which is based on Jensen-Shannon (JS) divergence, is an effective measurement, and its computation can be significantly accelerated by using the technique of locality sensitive hashing.
翻訳日:2022-10-08 01:01:23 公開日:2020-10-13
# Modurec: 機能と時間変調を備えたレコメンダシステム

Modurec: Recommender Systems with Feature and Time Modulation ( http://arxiv.org/abs/2010.07050v1 )

ライセンス: Link先を確認
Javier Maroto, Cl\'ement Vignac and Pascal Frossard(参考訳) 推薦システムのための技術アルゴリズムの現状は、主に協調フィルタリングに基づいており、これはデータの潜伏要因を発見するためにユーザーのレーティングを利用する。 これらのアルゴリズムは残念ながら他の機能を有効に利用しないため、コールドスタート(新しいユーザーや製品に十分なデータが提供されていない)とコンセプトシフト(時間の経過とともに評価の分布が変化する)という、2つのよく知られた協調フィルタリングの問題を解決するのに役立つ。 これらの問題に対処するために,機能的変調機構を用いて利用可能な情報を全て組み合わせたオートエンコーダに基づくModurecを提案する。 時間情報は概念シフトの効果を緩和するのに役立つが、ユーザとアイテムの機能の組み合わせは、データが少ない場合の予測性能を改善する。 従来のオートエンコーダベースの手法や協調フィルタリング手法と比較して,これらの修正によって最も評価の高い設定が得られた。

Current state of the art algorithms for recommender systems are mainly based on collaborative filtering, which exploits user ratings to discover latent factors in the data. These algorithms unfortunately do not make effective use of other features, which can help solve two well identified problems of collaborative filtering: cold start (not enough data is available for new users or products) and concept shift (the distribution of ratings changes over time). To address these problems, we propose Modurec: an autoencoder-based method that combines all available information using the feature-wise modulation mechanism, which has demonstrated its effectiveness in several fields. While time information helps mitigate the effects of concept shift, the combination of user and item features improve prediction performance when little data is available. We show on Movielens datasets that these modifications produce state-of-the-art results in most evaluated settings compared with standard autoencoder-based methods and other collaborative filtering approaches.
翻訳日:2022-10-08 01:00:30 公開日:2020-10-13
# 法文書分類:公訴庁への申立ての法律区域予測への応用

Legal Document Classification: An Application to Law Area Prediction of Petitions to Public Prosecution Service ( http://arxiv.org/abs/2010.12533v1 )

ライセンス: Link先を確認
Mariana Y. Noguti, Eduardo Vellasques, Luiz S. Oliveira(参考訳) 近年,法律文書への自然言語処理(NLP)の適用に対する関心が高まっている。 畳み込みニューラルネットワークと単語埋め込み技術の使用は、感情分析や文書のトピックセグメンテーションといったテキスト分類問題に適用した場合に有望な結果をもたらす。 本稿は,NLPの手法をテキスト分類に用いて,同機関が対象とする法律の分野の1つにおいて,行政官庁が提供したサービスの記述を人口に分類することを目的としたものである。 私たちの主な目標は、各分野の法律に請願を割り当てるプロセスを自動化し、そのプロセスに関連するコストと時間を削減すると同時に、より複雑なタスクに人材を割り当てることを可能にします。 本稿では、上記の課題における単語表現に対する異なるアプローチを比較し、文書の項行列といくつかの異なる単語埋め込みを含む。 分類モデルに関して、線形モデル、強化木、ニューラルネットワークの3つの異なるファミリーを評価した。 その結果、ドメイン固有のコーパスとリカレントニューラルネットワーク(RNN)アーキテクチャ(具体的にはLSTM)をトレーニングしたWord2Vecの組み合わせで、精度は90\%、F1スコアは18のカテゴリ(法定領域)の分類で85\%となった。

In recent years, there has been an increased interest in the application of Natural Language Processing (NLP) to legal documents. The use of convolutional and recurrent neural networks along with word embedding techniques have presented promising results when applied to textual classification problems, such as sentiment analysis and topic segmentation of documents. This paper proposes the use of NLP techniques for textual classification, with the purpose of categorizing the descriptions of the services provided by the Public Prosecutor's Office of the State of Paran\'a to the population in one of the areas of law covered by the institution. Our main goal is to automate the process of assigning petitions to their respective areas of law, with a consequent reduction in costs and time associated with such process while allowing the allocation of human resources to more complex tasks. In this paper, we compare different approaches to word representations in the aforementioned task: including document-term matrices and a few different word embeddings. With regards to the classification models, we evaluated three different families: linear models, boosted trees and neural networks. The best results were obtained with a combination of Word2Vec trained on a domain-specific corpus and a Recurrent Neural Network (RNN) architecture (more specifically, LSTM), leading to an accuracy of 90\% and F1-Score of 85\% in the classification of eighteen categories (law areas).
翻訳日:2022-10-08 01:00:12 公開日:2020-10-13
# 強化学習を用いた確率システムの平均コスト最適制御

Average Cost Optimal Control of Stochastic Systems Using Reinforcement Learning ( http://arxiv.org/abs/2010.06236v1 )

ライセンス: Link先を確認
Jing Lai and Junlin Xiong(参考訳) 本稿では,増補学習による乗算および加算雑音を伴う離散時間系における平均コスト最小化問題に対処する。 そこで本稿では,Q-関数を用いてQ-関数のカーネル行列を推定し,システムトラジェクトリに沿ったデータを用いて制御ゲインを更新するオンライン学習手法を提案する。 得られた制御ゲインとカーネルマトリックスは最適に収束することが証明された。 提案手法を実装するために,Q関数のカーネル行列を推定するために最小二乗再帰法を用いるオンラインモデルフリー強化学習アルゴリズムを提案する。 提案手法を説明するために数値的な例を示す。

This paper addresses the average cost minimization problem for discrete-time systems with multiplicative and additive noises via reinforcement learning. By using Q-function, we propose an online learning scheme to estimate the kernel matrix of Q-function and to update the control gain using the data along the system trajectories. The obtained control gain and kernel matrix are proved to converge to the optimal ones. To implement the proposed learning scheme, an online model-free reinforcement learning algorithm is given, where recursive least squares method is used to estimate the kernel matrix of Q-function. A numerical example is presented to illustrate the proposed approach.
翻訳日:2022-10-08 00:58:37 公開日:2020-10-13
# 近位勾配アプローチによる確率的非凸学習における後悔の最小化

Regret minimization in stochastic non-convex learning via a proximal-gradient approach ( http://arxiv.org/abs/2010.06250v1 )

ライセンス: Link先を確認
Nadav Hallak and Panayotis Mertikopoulos and Volkan Cevher(参考訳) 機械学習と運用研究の応用に動機づけられ、オンライン制約付き、おそらくは非スムースな非凸問題におけるオラクルの確率的第一次フィードバックによる後悔の最小化について研究した。 この設定では、外部後悔の最小化は一階法には届かないので、近位勾配写像によって定義される局所後悔測度に焦点をあてる。 この設定で(局所的な)後悔を起こさないために、確率的一階フィードバックに基づくプロキシグレード法と、完全一階オラクルへのアクセスが可能な場合の簡易な方法を開発する。 どちらの手法も min-max オーダー最適であり、これらの手法が要求するprox-grad クエリの数にも制約を設けます。 また, オンラインとオフラインの非凸確率最適化を, 分散低減手法によって得られるものに適合する複雑さを保証する新しいprox-gradスキームとして表現した。

Motivated by applications in machine learning and operations research, we study regret minimization with stochastic first-order oracle feedback in online constrained, and possibly non-smooth, non-convex problems. In this setting, the minimization of external regret is beyond reach for first-order methods, so we focus on a local regret measure defined via a proximal-gradient mapping. To achieve no (local) regret in this setting, we develop a prox-grad method based on stochastic first-order feedback, and a simpler method for when access to a perfect first-order oracle is possible. Both methods are min-max order-optimal, and we also establish a bound on the number of prox-grad queries these methods require. As an important application of our results, we also obtain a link between online and offline non-convex stochastic optimization manifested as a new prox-grad scheme with complexity guarantees matching those obtained via variance reduction techniques.
翻訳日:2022-10-08 00:58:27 公開日:2020-10-13
# ウェイクワードスポッティングのためのデータ効率モデリングに向けて

Towards Data-efficient Modeling for Wake Word Spotting ( http://arxiv.org/abs/2010.06659v1 )

ライセンス: Link先を確認
Yixin Gao, Yuriy Mishchenko, Anish Shah, Spyros Matsoukas, Shiv Vitaladevuni(参考訳) ウェイクワードスポッティング(WW)は、信号伝達の干渉だけでなく、音響環境の複雑さのため、遠方界では困難である。 従来のWWモデルは大量のドメイン内WW固有のデータを必要とするため、そのようなデータなしでWWモデルを構築するのは難しい。 本稿では、ドメインミスマッチ、ノイズ条件、限定アノテーションなど、WWモデリングにおける課題を解決するためのデータ効率のソリューションを提案する。 本システムでは,事前定義された様々な音響条件に対するモデルのロバスト性を向上させる階層化データ拡張を含む多条件訓練パイプラインと,半教師あり学習パイプラインにより,未書き音声コーパスからwwおよびconsumusable例を高精度に抽出する。 ドメインミスマッチのwwオーディオはわずか10時間から始まり、トレーニングデータセットを20~100倍拡張し、音響複雑性を捉えることができます。 実ユーザデータを用いた実験により,提案手法は,ww固有のデータ収集量の97\%と,アノテーションの帯域幅の86\%を節約し,製品グレードモデルと同等の性能が得られることを示した。

Wake word (WW) spotting is challenging in far-field not only because of the interference in signal transmission but also the complexity in acoustic environments. Traditional WW model training requires large amount of in-domain WW-specific data with substantial human annotations therefore it is hard to build WW models without such data. In this paper we present data-efficient solutions to address the challenges in WW modeling, such as domain-mismatch, noisy conditions, limited annotation, etc. Our proposed system is composed of a multi-condition training pipeline with a stratified data augmentation, which improves the model robustness to a variety of predefined acoustic conditions, together with a semi-supervised learning pipeline to accurately extract the WW and confusable examples from untranscribed speech corpus. Starting from only 10 hours of domain-mismatched WW audio, we are able to enlarge and enrich the training dataset by 20-100 times to capture the acoustic complexity. Our experiments on real user data show that the proposed solutions can achieve comparable performance of a production-grade model by saving 97\% of the amount of WW-specific data collection and 86\% of the bandwidth for annotation.
翻訳日:2022-10-08 00:58:10 公開日:2020-10-13
# ウェイクワードスポッティングのフロントエンドゲイン不変モデリングについて

On Front-end Gain Invariant Modeling for Wake Word Spotting ( http://arxiv.org/abs/2010.06676v1 )

ライセンス: Link先を確認
Yixin Gao, Noah D. Stein, Chieh-Chi Kao, Yunliang Cai, Ming Sun, Tao Zhang, Shiv Vitaladevuni(参考訳) ウェークワードスポッティング(WW)は、音響条件の複雑さと変動、および信号伝達における環境干渉により遠方界において困難である。 慎重に設計され最適化されたオーディオフロントエンド(AFE)アルゴリズムがこれらの課題を緩和し、WWスポッターのような下流モジュールにより良い品質のオーディオ信号を提供する。 WWモデルはAFE処理されたオーディオデータで訓練されているため、その性能はゲイン変更などのAFE変動に敏感である。 さらに、新しいデバイスにデプロイする場合、AFEがWWモデルに未知であるため、WW性能は保証されない。 これらの問題に対処するため、WWモデルからAFEゲインを分離するために$\Delta$LFBEと呼ばれる新しい手法を提案する。 特徴抽出モジュールを変更せずに、デルタ計算に適合するようにニューラルネットワークアーキテクチャを変更した。 実家設定から収集したデータを用いてWWモデルを評価し,$\Delta$LFBEのモデルがAFFゲインの変化に対して堅牢であることを示した。 具体的には、AFEのゲインが$\pm$12dBに変化した場合、ベースラインのCNNモデルは偽のアラームレートで19.0%、偽の拒絶レートで34.3%まで低下する一方、$\Delta$LFBEのモデルはパフォーマンス損失を示さない。

Wake word (WW) spotting is challenging in far-field due to the complexities and variations in acoustic conditions and the environmental interference in signal transmission. A suite of carefully designed and optimized audio front-end (AFE) algorithms help mitigate these challenges and provide better quality audio signals to the downstream modules such as WW spotter. Since the WW model is trained with the AFE-processed audio data, its performance is sensitive to AFE variations, such as gain changes. In addition, when deploying to new devices, the WW performance is not guaranteed because the AFE is unknown to the WW model. To address these issues, we propose a novel approach to use a new feature called $\Delta$LFBE to decouple the AFE gain variations from the WW model. We modified the neural network architectures to accommodate the delta computation, with the feature extraction module unchanged. We evaluate our WW models using data collected from real household settings and showed the models with the $\Delta$LFBE is robust to AFE gain changes. Specifically, when AFE gain changes up to $\pm$12dB, the baseline CNN model lost up to relative 19.0% in false alarm rate or 34.3% in false reject rate, while the model with $\Delta$LFBE demonstrates no performance loss.
翻訳日:2022-10-08 00:57:47 公開日:2020-10-13
# proportionnet:ディープラーニングによるオークションデザインの公平性と収益のバランス

ProportionNet: Balancing Fairness and Revenue for Auction Design with Deep Learning ( http://arxiv.org/abs/2010.06398v1 )

ライセンス: Link先を確認
Kevin Kuo, Anthony Ostuni, Elizabeth Horishny, Michael J. Curry, Samuel Dooley, Ping-yeh Chiang, Tom Goldstein, John P. Dickerson(参考訳) 収益を最大化するオークションの設計は経済理論の重要な関心事である。 計算オークションはオンライン広告、ソーシング、スペクトル割り当て、および無数の金融市場を可能にする。 1981年、マイアーソンの1項目の最適オークションを特徴付ける研究から、制限された設定以外での進展は限られている。 D\"uttingらによる最近の論文は、最適なオークションにディープラーニング技術を適用することで分析上の困難を回避している。 並行して、Ilventoらによる新たな研究は、オークションデザインの文脈において公正性の概念を発展させた。 本稿では,これらの進歩に触発されて,ディープラーニングを用いたオークションを近似する手法を拡張し,高い収益と強いインセンティブ保証を維持しつつ公平性への懸念に対処する。

The design of revenue-maximizing auctions with strong incentive guarantees is a core concern of economic theory. Computational auctions enable online advertising, sourcing, spectrum allocation, and myriad financial markets. Analytic progress in this space is notoriously difficult; since Myerson's 1981 work characterizing single-item optimal auctions, there has been limited progress outside of restricted settings. A recent paper by D\"utting et al. circumvents analytic difficulties by applying deep learning techniques to, instead, approximate optimal auctions. In parallel, new research from Ilvento et al. and other groups has developed notions of fairness in the context of auction design. Inspired by these advances, in this paper, we extend techniques for approximating auctions using deep learning to address concerns of fairness while maintaining high revenue and strong incentive guarantees.
翻訳日:2022-10-08 00:51:12 公開日:2020-10-13
# 生成逆ネットワークを用いた手続き型3次元地形生成

Procedural 3D Terrain Generation using Generative Adversarial Networks ( http://arxiv.org/abs/2010.06411v1 )

ライセンス: Link先を確認
Emmanouil Panagiotou and Eleni Charou(参考訳) プロシージャ3DTerrain生成は、プレイヤーが探索する機能的に無限の領域を通じて無制限のコンテンツを提供できるため、オープンワールドゲームにおいて必要となっている。 提案手法では,衛星やドローンが捉えたリモートセンシング画像の分布に基づいて,GAN(Generative Adversarial Networks)を用いてリアルな3D環境を生成する。 我々の課題は、ランダムだがプラウチブルなRGB衛星画像の合成と、ランドスケープの適切なメッシュとして機能する3Dポイント雲の形で対応するハイトマップの生成である。 最初のステップでは、衛星画像で訓練されたGANを使用して、データセットの分布を学習し、新しい衛星画像を作成する。 第2の部分は、RGBイメージからDEM(Digital Elevation Models)への1対1のマッピングが必要です。 画像から画像への変換における最先端のアプローチである条件付き生成逆ネットワーク(cgan)を展開し、第1モデルのランダムに生成された画像毎に妥当な高さマップを生成する。 生成したDEM画像とRGB画像を組み合わせることで、トレーニング中に提供されるリモートセンシングされた景観と関連して、可視な高さ分布と彩色からなる3次元景観を構築することができる。

Procedural 3D Terrain generation has become a necessity in open world games, as it can provide unlimited content, through a functionally infinite number of different areas, for players to explore. In our approach, we use Generative Adversarial Networks (GAN) to yield realistic 3D environments based on the distribution of remotely sensed images of landscapes, captured by satellites or drones. Our task consists of synthesizing a random but plausible RGB satellite image and generating a corresponding Height Map in the form of a 3D point cloud that will serve as an appropriate mesh of the landscape. For the first step, we utilize a GAN trained with satellite images that manages to learn the distribution of the dataset, creating novel satellite images. For the second part, we need a one-to-one mapping from RGB images to Digital Elevation Models (DEM). We deploy a Conditional Generative Adversarial network (CGAN), which is the state-of-the-art approach to image-to-image translation, to generate a plausible height map for every randomly generated image of the first model. Combining the generated DEM and RGB image, we are able to construct 3D scenery consisting of a plausible height distribution and colorization, in relation to the remotely sensed landscapes provided during training.
翻訳日:2022-10-08 00:50:57 公開日:2020-10-13
# CrypTFlow2: 実用的な2要素セキュア推論

CrypTFlow2: Practical 2-Party Secure Inference ( http://arxiv.org/abs/2010.06457v1 )

ライセンス: Link先を確認
Deevashwer Rathee, Mayank Rathee, Nishant Kumar, Nishanth Chandran, Divya Gupta, Aseem Rastogi, Rahul Sharma(参考訳) 本稿では,dnn(realial deep neural network)上のセキュアな推論のための暗号フレームワークであるcryptflow2を提案する。 CrypTFlow2プロトコルはどちらも正しい、すなわち出力はクリアテキストの実行とビット単位で等価であり、効率は、レイテンシとスケールの両方で最先端のプロトコルより優れている。 CrypTFlow2のコアには、セキュアな比較と分割のための新しい2PCプロトコルがあり、セキュアな推論タスクのためのラウンドと通信の複雑さのバランスをとるために慎重に設計されています。 cryptflow2 を用いて,resnet50 や densenet121 のような imagenet スケール dnn に対する最初のセキュアな推論を行う。 これらのDNNは、2-party DNN推論の以前の研究で考慮されたものよりも少なくとも1桁大きい。 以前の作業で考慮されたベンチマークでも、CrypTFlow2は通信量が桁違い少なく、最先端の20x-30倍の時間を必要とする。

We present CrypTFlow2, a cryptographic framework for secure inference over realistic Deep Neural Networks (DNNs) using secure 2-party computation. CrypTFlow2 protocols are both correct -- i.e., their outputs are bitwise equivalent to the cleartext execution -- and efficient -- they outperform the state-of-the-art protocols in both latency and scale. At the core of CrypTFlow2, we have new 2PC protocols for secure comparison and division, designed carefully to balance round and communication complexity for secure inference tasks. Using CrypTFlow2, we present the first secure inference over ImageNet-scale DNNs like ResNet50 and DenseNet121. These DNNs are at least an order of magnitude larger than those considered in the prior work of 2-party DNN inference. Even on the benchmarks considered by prior work, CrypTFlow2 requires an order of magnitude less communication and 20x-30x less time than the state-of-the-art.
翻訳日:2022-10-08 00:50:33 公開日:2020-10-13
# 長期タスクプランニングのための広域探索型地域木

Broadly-Exploring, Local-Policy Trees for Long-Horizon Task Planning ( http://arxiv.org/abs/2010.06491v1 )

ライセンス: Link先を確認
Brian Ichter, Pierre Sermanet, Corey Lynch(参考訳) 現実環境での長期ホリゾン計画には、複雑なダイナミクスを持つ高次元状態空間における逐次的なタスクを推論する能力が必要である。 高速探索ランダムツリーのような古典的な動き計画アルゴリズムは、大きな状態空間を効率的に探索し、長い水平な逐次計画を計算することができる。 しかしながら、これらのアルゴリズムは一般に、複雑で確率的で高次元の状態空間と、環境と相互作用するタスクにおいて自然に現れる狭い通路の存在に挑戦される。 機械学習は、複雑な相互作用や高次元の観察を処理できる一般的なポリシーを学習できる、有望なソリューションを提供する。 しかし、これらの方針は一般に地平線長に制限されている。 我々のアプローチであるBroadly-Exploring, Local-policy Trees (BELT)は、これらの2つのアプローチをマージし、タスク条件付きモデルベースツリーサーチによって両方の長所を活用できる。 BELTはRRTにインスパイアされたツリーサーチを用いて、状態空間を効率的に探索する。 局所的には、この探索は、一般的な短期的タスクを実行することができるタスク条件付き学習政策によって導かれる。 このタスク空間は、非常に一般的で抽象的であり、その唯一の要件は、サンプル化可能であり、有用なタスクの空間を精査することである。 この探索は、時間的に動的伝搬を拡張したタスク条件付きモデルによって支援され、長い水平探索とタスクのシーケンシャル推論を可能にする。 BELTは、目標条件付きポリシーで長い水平なシーケンシャルな軌道を計画でき、堅牢な計画を生成することができる。

Long-horizon planning in realistic environments requires the ability to reason over sequential tasks in high-dimensional state spaces with complex dynamics. Classical motion planning algorithms, such as rapidly-exploring random trees, are capable of efficiently exploring large state spaces and computing long-horizon, sequential plans. However, these algorithms are generally challenged with complex, stochastic, and high-dimensional state spaces as well as in the presence of narrow passages, which naturally emerge in tasks that interact with the environment. Machine learning offers a promising solution for its ability to learn general policies that can handle complex interactions and high-dimensional observations. However, these policies are generally limited in horizon length. Our approach, Broadly-Exploring, Local-policy Trees (BELT), merges these two approaches to leverage the strengths of both through a task-conditioned, model-based tree search. BELT uses an RRT-inspired tree search to efficiently explore the state space. Locally, the exploration is guided by a task-conditioned, learned policy capable of performing general short-horizon tasks. This task space can be quite general and abstract; its only requirements are to be sampleable and to well-cover the space of useful tasks. This search is aided by a task-conditioned model that temporally extends dynamics propagation to allow long-horizon search and sequential reasoning over tasks. BELT is demonstrated experimentally to be able to plan long-horizon, sequential trajectories with a goal conditioned policy and generate plans that are robust.
翻訳日:2022-10-08 00:50:15 公開日:2020-10-13
# ベイズ最適化のための局所微分プライバシー

Local Differential Privacy for Bayesian Optimization ( http://arxiv.org/abs/2010.06709v1 )

ライセンス: Link先を確認
Xingyu Zhou and Jian Tan(参考訳) 近年,データ集約型オンライン学習システムにおけるプライバシに関する懸念が高まっていることから,ローカルディファレンシャルプライバシ(LDP)を保証する非パラメトリックガウスプロセス設定におけるブラックボックス最適化を検討する。 具体的には、各ユーザの報酬は、プライバシーを保護するためにさらに悪化し、学習者は、後悔を最小限に抑えるために、破損した報酬にのみアクセスすることができる。 まず, LDP 機構や学習アルゴリズムに対して, 後悔の少ない境界を導出する。 次に,GP-UCBフレームワークとLaplace DP機構に基づく3つのほぼ最適なアルゴリズムを提案する。 そこで本研究では,従来のboアルゴリズムを補完する中央値法とカーネル近似に基づく新しいベイズ最適化法(moma-gp-ucb)を提案する。 さらに、合成データセットと実世界のデータセットの両方における異なるアルゴリズムの実証的な比較は、プライベートシナリオと非プライベートシナリオの両方において、MoMA-GP-UCBの優れたパフォーマンスを強調している。

Motivated by the increasing concern about privacy in nowadays data-intensive online learning systems, we consider a black-box optimization in the nonparametric Gaussian process setting with local differential privacy (LDP) guarantee. Specifically, the rewards from each user are further corrupted to protect privacy and the learner only has access to the corrupted rewards to minimize the regret. We first derive the regret lower bounds for any LDP mechanism and any learning algorithm. Then, we present three almost optimal algorithms based on the GP-UCB framework and Laplace DP mechanism. In this process, we also propose a new Bayesian optimization (BO) method (called MoMA-GP-UCB) based on median-of-means techniques and kernel approximations, which complements previous BO algorithms for heavy-tailed payoffs with a reduced complexity. Further, empirical comparisons of different algorithms on both synthetic and real-world datasets highlight the superior performance of MoMA-GP-UCB in both private and non-private scenarios.
翻訳日:2022-10-08 00:48:26 公開日:2020-10-13
# 仮想アシスタント相互作用の本質的動機と自発的相互作用の育成

Intrinsic motivation in virtual assistant interaction for fostering spontaneous interactions ( http://arxiv.org/abs/2010.06416v1 )

ライセンス: Link先を確認
Chang Li and Hideyoshi Yanagisawa(参考訳) 今日の会話型バーチャルアシスタントの有用性の高まりにより、人間とAIのインタラクションにおけるユーザのモチベーションの重要性はより明確になっています。 しかし、人間とコンピュータの相互作用や人間とロボットの相互作用といった、それに関連する分野における以前の研究は、本質的な動機とその影響要因をほとんど議論しなかった。 これらの研究はモチベーションを分離不可能な概念として扱うか、意図しないモチベーションに焦点を合わせるかのどちらかであった。 本研究は,感情工学的アプローチを用いて本質的モチベーションを明らかにすることを目的としている。 仮想アシスタントとのユーザインタラクションから生じる2つの要因 – 能力の期待と不確実性 – によって,本質的なモチベーションが影響を受ける,新たなモチベーションモデルが提案されている。 実験では、参加者がスマートスピーカー「Amazon Echo」と対話していると信じさせることで、これらの2つの要因が操作される。 被験者が仮想アシスタントと対話するかどうかを判断できる実験者不在時の質問紙と5分間の自由選択期間を極秘に監視することにより本質的な動機を測定する。 最初の実験の結果、期待の高いエンエンエンダーは期待よりも本質的に動機づけられた相互作用を示すことが判明した。 その結果,本態性動機づけに対する不確実性による抑制効果が示唆された。 そこで我々は,行動選択の仮説モデルを改訂し,不確実性の検証実験を行った。 検証実験の結果、不確実性を減らすことでより多くの相互作用が促進され、これらの相互作用の背後にある動機付けが非利己的から本質的へとシフトすることが示された。

With the growing utility of today's conversational virtual assistants, the importance of user motivation in human-AI interaction is becoming more obvious. However, previous studies in this and related fields, such as human-computer interaction and human-robot interaction, scarcely discussed intrinsic motivation and its affecting factors. Those studies either treated motivation as an inseparable concept or focused on non-intrinsic motivation. The current study aims to cover intrinsic motivation by taking an affective-engineering approach. A novel motivation model is proposed, in which intrinsic motivation is affected by two factors that derive from user interactions with virtual assistants: expectation of capability and uncertainty. Experiments are conducted where these two factors are manipulated by making participants believe they are interacting with the smart speaker "Amazon Echo". Intrinsic motivation is measured both by using questionnaires and by covertly monitoring a five-minute free-choice period in the experimenter's absence, during which the participants could decide for themselves whether to interact with the virtual assistants. Results of the first experiment showed that high expectation engenders more intrinsically motivated interaction compared with low expectation. The results also suggested suppressive effects by uncertainty on intrinsic motivation, though we had not hypothesized before experiments. We then revised our hypothetical model of action selection accordingly and conducted a verification experiment of uncertainty's effects. Results of the verification experiment showed that reducing uncertainty encourages more interactions and causes the motivation behind these interactions to shift from non-intrinsic to intrinsic.
翻訳日:2022-10-08 00:42:06 公開日:2020-10-13
# コストとシールド値の多目的最適化によるネットワーク上のエピデミクス防止のための複数ノード免疫

Multiple Node Immunisation for Preventing Epidemics on Networks by Exact Multiobjective Optimisation of Cost and Shield-Value ( http://arxiv.org/abs/2010.06488v1 )

ライセンス: Link先を確認
Michael Emmerich, Joost Nibbeling, Marios Kefalas, Aske Plaat(参考訳) 本論文の一般的な問題は,ネットワーク上に広がる感染を抑えるために,頂点(ノード)サブセットを選択することである。 本稿では,1つの重要なノードを選択する代わりに,複数のノードを選択して削除する問題を扱う。 複数ノード選択に関する以前の作業と比較すると、コストと利益のトレードオフが考慮される。 この効果は、感染がネットワークに広がるのがどれほど難しいかの尺度である、流行の閾値を増加させることによって測定される。 コストは、削除または制御されるノードの数とサイズによって測定される。 固定数の$k$ノードを持つ単一目的のインスタンスでは、複数の頂点免疫問題はNPハードであることが既に証明されている。 この問題を近似するためにいくつかのヒューリスティックが開発された。 本研究ではメタヒューリスティック手法を,最大固有値のサブモジュラープロキシであるShield-valueの正確な手法と比較し,現在最先端のノード除去戦略で使用されている。 我々はこれを多目的の場合に一般化し, greedyアルゴリズムを二次プログラム (qp) で置き換える。 この論文の主な貢献は、時間が許せば、厳密で問題特異的な近似が使われるべきであるという洞察であり、一般的なメタヒューリスティックスによって得られるパレートフロント近似よりもはるかに良いものであることが多い。 これらのことから、感染予防や感染拡大防止を目標に、現実世界のネットワークを制御するための戦略の開発がより効果的になる。 本稿では,pythonによる最適化手法とデータセットの実装について述べる。

The general problem in this paper is vertex (node) subset selection with the goal to contain an infection that spreads in a network. Instead of selecting the single most important node, this paper deals with the problem of selecting multiple nodes for removal. As compared to previous work on multiple-node selection, the trade-off between cost and benefit is considered. The benefit is measured in terms of increasing the epidemic threshold which is a measure of how difficult it is for an infection to spread in a network. The cost is measured in terms of the number and size of nodes to be removed or controlled. Already in its single-objective instance with a fixed number of $k$ nodes to be removed, the multiple vertex immunisation problems have been proven to be NP-hard. Several heuristics have been developed to approximate the problem. In this work, we compare meta-heuristic techniques with exact methods on the Shield-value, which is a sub-modular proxy for the maximal eigenvalue and used in the current state-of-the-art greedy node-removal strategies. We generalise it to the multi-objective case and replace the greedy algorithm by a quadratic program (QP), which then can be solved with exact QP solvers. The main contribution of this paper is the insight that, if time permits, exact and problem-specific methods approximation should be used, which are often far better than Pareto front approximations obtained by general meta-heuristics. Based on these, it will be more effective to develop strategies for controlling real-world networks when the goal is to prevent or contain epidemic outbreaks. This paper is supported by ready to use Python implementation of the optimization methods and datasets.
翻訳日:2022-10-08 00:41:40 公開日:2020-10-13
# 進化する行列の絡み合ったSVDを更新する射影技術

Projection techniques to update the truncated SVD of evolving matrices ( http://arxiv.org/abs/2010.06392v1 )

ライセンス: Link先を確認
Vassilis Kalantzis, Georgios Kollias, Shashanka Ubaru, Athanasios N. Nikolakopoulos, Lior Horesh, Kenneth L. Clarkson(参考訳) 本稿では,新しい行や列の追加に伴う行列のランク-k truncated Singular Value Decomposition (SVD) の更新の問題について考察する。 このような行列問題は、Latent Semantic IndexingやRecommender Systemsのようなアプリケーションにおいて重要な計算カーネルである。 それでも、提案するフレームワークは純粋に代数的であり、一般的な更新問題をターゲットにしている。 本論文で提示されたアルゴリズムは、射影的視点を持ち、更新行列の求める特異ベクトルの線形スパンを近似する一対の部分空間の構築に焦点をあてる。 我々は,射影部分空間を構成する2つの異なる選択について議論し,解析する。 実応用による行列の結果から,提案手法は,特に最大モジュラー特異値に付随する特異三重項に対して,高い精度をもたらすことが示唆された。 他のアプローチとのいくつかの実践的詳細と重要な違いについても論じる。

This paper considers the problem of updating the rank-k truncated Singular Value Decomposition (SVD) of matrices subject to the addition of new rows and/or columns over time. Such matrix problems represent an important computational kernel in applications such as Latent Semantic Indexing and Recommender Systems. Nonetheless, the proposed framework is purely algebraic and targets general updating problems. The algorithm presented in this paper undertakes a projection view-point and focuses on building a pair of subspaces which approximate the linear span of the sought singular vectors of the updated matrix. We discuss and analyze two different choices to form the projection subspaces. Results on matrices from real applications suggest that the proposed algorithm can lead to higher accuracy, especially for the singular triplets associated with the largest modulus singular values. Several practical details and key differences with other approaches are also discussed.
翻訳日:2022-10-08 00:41:13 公開日:2020-10-13
# 深部生成脱混合:ノイズサブガウシアン混合物からのリプシッツ信号の回復

Deep generative demixing: Recovering Lipschitz signals from noisy subgaussian mixtures ( http://arxiv.org/abs/2010.06652v1 )

ライセンス: Link先を確認
Aaron Berk(参考訳) 自然画像における本質的低次元構造を効果的に捉えるために、ジェネレーティブニューラルネットワーク(gnn)が認知されている。 本稿では,2つのリプシッツ信号に対する部分ガウシアンデミキシング問題について,gnnデミキシングを特別な場合として検討する。 デミックスでは、2つの信号の和と以前の構造情報を識別する。 ここでは、各信号がリプシッツ関数の範囲内にあると仮定する。 ガウス行列を用いた圧縮センシングから亜ガウス行列によるデミックスまで,Bora, et al. (2017) の最近の結果を拡張した,ほぼ最適回復誤差のサンプル複雑性を証明した。 信号が凸集合にある線形信号モデルの下で、mccoy & tropp (2014) はサブガウス混合下での同定のためのサンプルの複雑さを特徴付ける。 現在の設定では、信号構造は凸である必要はない。 例えば、この結果は凸錐の非凸結合である領域に適用できる。 我々は,この混合モデルの有効性を,gnnを用いた数値シミュレーションで支持し,今後の理論研究の興味深い対象となるアルゴリズムを提案する。

Generative neural networks (GNNs) have gained renown for efficaciously capturing intrinsic low-dimensional structure in natural images. Here, we investigate the subgaussian demixing problem for two Lipschitz signals, with GNN demixing as a special case. In demixing, one seeks identification of two signals given their sum and prior structural information. Here, we assume each signal lies in the range of a Lipschitz function, which includes many popular GNNs as a special case. We prove a sample complexity bound for nearly optimal recovery error that extends a recent result of Bora, et al. (2017) from the compressed sensing setting with gaussian matrices to demixing with subgaussian ones. Under a linear signal model in which the signals lie in convex sets, McCoy & Tropp (2014) have characterized the sample complexity for identification under subgaussian mixing. In the present setting, the signal structure need not be convex. For example, our result applies to a domain that is a non-convex union of convex cones. We support the efficacy of this demixing model with numerical simulations using trained GNNs, suggesting an algorithm that would be an interesting object of further theoretical study.
翻訳日:2022-10-08 00:40:15 公開日:2020-10-13
# S3ML: 機械学習推論のためのセキュアサービングシステム

S3ML: A Secure Serving System for Machine Learning Inference ( http://arxiv.org/abs/2010.06212v1 )

ライセンス: Link先を確認
Junming Ma, Chaofan Yu, Aihui Zhou, Bingzhe Wu, Xibin Wu, Xingyu Chen, Xiangqun Chen, Lei Wang, Donggang Cao(参考訳) 本稿では,機械学習推論のためのセキュアサービスシステムであるS3MLを提案する。 S3MLは、ユーザのプライバシを保護するためにIntel SGX Enclavesで機械学習モデルを実行する。 S3MLは、フレキシブルなプライバシ保護サーバクラスタを構築するためのセキュアなキー管理サービスを設計し、ユーザのサービスレベルオブジェクトを満たすための新しいSGX対応ロードバランシングとスケーリング方法を提案する。 当社では、KubernetesをベースとしたS3MLを、低オーバーヘッド、高可用性、スケーラブルなシステムとして実装しています。 本研究では,S3MLのシステム性能と実効性を示す。

We present S3ML, a secure serving system for machine learning inference in this paper. S3ML runs machine learning models in Intel SGX enclaves to protect users' privacy. S3ML designs a secure key management service to construct flexible privacy-preserving server clusters and proposes novel SGX-aware load balancing and scaling methods to satisfy users' Service-Level Objectives. We have implemented S3ML based on Kubernetes as a low-overhead, high-available, and scalable system. We demonstrate the system performance and effectiveness of S3ML through extensive experiments on a series of widely-used models.
翻訳日:2022-10-08 00:39:54 公開日:2020-10-13
# プレイリスト継続シナリオにおけるアーティスト駆動階層化とユーザの行動がレコメンデーションに及ぼす影響

Artist-driven layering and user's behaviour impact on recommendations in a playlist continuation scenario ( http://arxiv.org/abs/2010.06233v1 )

ライセンス: Link先を確認
Sebastiano Antenucci, Simone Boglio, Emanuele Chioso, Ervin Dervishaj, Shuwen Kang, Tommaso Scarlatti, Maurizio Ferrari Dacrema(参考訳) 本稿では、ACM RecSys Challenge 2018でチームCreamy Firefliesとして使用したアプローチの概要を紹介する。 Spotifyが主催するこのコンペティションは、ユーザーが既存のプレイリストに追加するトラックを示唆するプレイリスト継続の問題に焦点を当てている。 この課題は、プレイリストのコールドスタートから100曲までのプレイリストまで、多くのユースケースでこの問題に対処している。 私たちのチームは、コンテンツベースとコラボレーティブの両方でよく知られたモデルに基づいたソリューションを提案しています。 さらに,データの基盤構造を解析することにより,最終的な予測の上に適用すべき一連の強化を提案し,推奨品質を向上する。 提案手法はよく知られたアルゴリズムを活用し、限られた計算資源を必要とせずに高い推奨品質を提供できる。

In this paper we provide an overview of the approach we used as team Creamy Fireflies for the ACM RecSys Challenge 2018. The competition, organized by Spotify, focuses on the problem of playlist continuation, that is suggesting which tracks the user may add to an existing playlist. The challenge addresses this issue in many use cases, from playlist cold start to playlists already composed by up to a hundred tracks. Our team proposes a solution based on a few well known models both content based and collaborative, whose predictions are aggregated via an ensembling step. Moreover by analyzing the underlying structure of the data, we propose a series of boosts to be applied on top of the final predictions and improve the recommendation quality. The proposed approach leverages well-known algorithms and is able to offer a high recommendation quality while requiring a limited amount of computational resources.
翻訳日:2022-10-08 00:39:45 公開日:2020-10-13
# 変分オートエンコーダによる動的現象の確率的埋め込み

Stochastic embeddings of dynamical phenomena through variational autoencoders ( http://arxiv.org/abs/2010.06265v1 )

ライセンス: Link先を確認
Constantino A. Garcia, Paulo Felix, Jesus M. Presedo, Abraham Otero(参考訳) 観測された変数の数がダイナミクスの自由度よりも少ないシナリオにおけるシステム識別は、重要な課題である。 本研究では,位相空間の再構成において,観測空間の次元性を高めるために認識ネットワークを用いてこの問題に取り組む。 位相空間は、SDE(Stochastic Differential Equation)によって記述される約マルコフ力学を持つように強制される。 確率的データから堅牢な学習を可能にするためにベイズパラダイムを使用し、ドリフトと拡散の項に先行する。 後部学習の複雑さに対処するため、実後部への平均場変動近似のセットを導入し、効率的な統計的推測を可能にする。 最後に、デコーダネットワークを用いて、実験データの妥当な再構成を行う。 このアプローチの主な利点は、結果モデルが統計物理学のパラダイム内で解釈可能であることである。 我々の検証によれば、このアプローチは、元のものと似た状態空間を回復するだけでなく、実験データの主特性を捉えた新しい時系列を合成することができる。

System identification in scenarios where the observed number of variables is less than the degrees of freedom in the dynamics is an important challenge. In this work we tackle this problem by using a recognition network to increase the observed space dimensionality during the reconstruction of the phase space. The phase space is forced to have approximately Markovian dynamics described by a Stochastic Differential Equation (SDE), which is also to be discovered. To enable robust learning from stochastic data we use the Bayesian paradigm and place priors on the drift and diffusion terms. To handle the complexity of learning the posteriors, a set of mean field variational approximations to the true posteriors are introduced, enabling efficient statistical inference. Finally, a decoder network is used to obtain plausible reconstructions of the experimental data. The main advantage of this approach is that the resulting model is interpretable within the paradigm of statistical physics. Our validation shows that this approach not only recovers a state space that resembles the original one, but it is also able to synthetize new time series capturing the main properties of the experimental data.
翻訳日:2022-10-08 00:39:32 公開日:2020-10-13
# 地理自由テキストからの都市屋外知覚の自動抽出

Automatic Extraction of Urban Outdoor Perception from Geolocated Free-Texts ( http://arxiv.org/abs/2010.06444v1 )

ライセンス: Link先を確認
Frances Santos, Thiago H Silva, Antonio A F Loureiro, Leandro Villas(参考訳) 位置情報に基づくソーシャルネットワーク(LBSN)上で人々が共有する都市感の自動抽出は、重要な多分野研究目標である。 理由の1つは、都市部の本質的な特徴をスケーラブルな方法で理解し、新しいサービスを活用するのに役立つためである。 しかし、LBSNで共有されるコンテンツは多様であり、政治、スポーツ、文化、宗教、都市認識などいくつかのトピックを包含しているため、特定のトピックに関するコンテンツ抽出のタスクは非常に難しい。 LBSNで共有される自由テキストメッセージを考えると、人々の知覚を抽出するための自動的で汎用的なアプローチを提案する。 そこで本研究では,空間的・時間的・意味的に類似した意見を探る。 我々は、シカゴ、ニューヨーク、ロンドンにおける都市屋外の文脈における我々のアプローチを例示する。 これらの地域を調べたところ,LBSNデータによって都市部について貴重な情報が得られるという証拠が得られた。 結果を分析し検証するために, 経時的ロバスト性を測定するための時間的分析を行った。 このアプローチは,異なる視点から都市部の理解を深める上で有用であることを示す。 また,コントロール実験で表現された都市部に対するボランティアの認識を含む,公共データセットに基づく比較分析を行った。 どちらの結果も、非常に類似したレベルの合意をもたらすことが観察される。

The automatic extraction of urban perception shared by people on location-based social networks (LBSNs) is an important multidisciplinary research goal. One of the reasons is because it facilitates the understanding of the intrinsic characteristics of urban areas in a scalable way, helping to leverage new services. However, content shared on LBSNs is diverse, encompassing several topics, such as politics, sports, culture, religion, and urban perceptions, making the task of content extraction regarding a particular topic very challenging. Considering free-text messages shared on LBSNs, we propose an automatic and generic approach to extract people's perceptions. For that, our approach explores opinions that are spatial-temporal and semantically similar. We exemplify our approach in the context of urban outdoor areas in Chicago, New York City and London. Studying those areas, we found evidence that LBSN data brings valuable information about urban regions. To analyze and validate our outcomes, we conducted a temporal analysis to measure the results' robustness over time. We show that our approach can be helpful to better understand urban areas considering different perspectives. We also conducted a comparative analysis based on a public dataset, which contains volunteers' perceptions regarding urban areas expressed in a controlled experiment. We observe that both results yield a very similar level of agreement.
翻訳日:2022-10-08 00:33:34 公開日:2020-10-13
# この考えは学界を超えて広まるだろうか。 テキストコーパスにおける科学概念の知識伝達の理解

Will This Idea Spread Beyond Academia? Understanding Knowledge Transfer of Scientific Concepts across Text Corpora ( http://arxiv.org/abs/2010.06657v1 )

ライセンス: Link先を確認
Hancheng Cao, Mengjie Cheng, Zhepeng Cen, Daniel A. McFarland, Xiang Ren(参考訳) 実践に応用される基本的な研究アイデアはどのようなものか? 知識伝達のパターンを調査する研究は長いが、一般的には分析単位としての文書に焦点をあて、特定の科学領域の実践への移行に追随する。 ここでは、すべての科学分野の科学概念のレベルで翻訳研究を研究する。 私たちは3つのコーパスを使ってテキストマイニングと予測モデリングを行い、3860万の論文要約、400万の特許文書、0.28万の臨床試験を行います。 我々は、コーポラから「研究アイデア」のインスタンス化として科学概念(句)を抽出し、文学によって動機づけられた概念レベルの特徴を創出し、さらに45万以上の新しい概念(1995年から2014年までの)の軌跡を辿り、これらの概念のごく一部しか発明や薬物試験に使われない要因を特定する。 分析の結果, 科学的概念が実際に採用されるか, そうでないかを区別するいくつかのメカニズムが示唆された。 また,本手法を用いて知識伝達を高精度に説明・予測できることを示す。 本研究は,翻訳研究の奨励に関心のある研究者,実践者,政府機関に対して,知識伝達に関する理解を深めるものである。

What kind of basic research ideas are more likely to get applied in practice? There is a long line of research investigating patterns of knowledge transfer, but it generally focuses on documents as the unit of analysis and follow their transfer into practice for a specific scientific domain. Here we study translational research at the level of scientific concepts for all scientific fields. We do this through text mining and predictive modeling using three corpora: 38.6 million paper abstracts, 4 million patent documents, and 0.28 million clinical trials. We extract scientific concepts (i.e., phrases) from corpora as instantiations of "research ideas", create concept-level features as motivated by literature, and then follow the trajectories of over 450,000 new concepts (emerged from 1995-2014) to identify factors that lead only a small proportion of these ideas to be used in inventions and drug trials. Results from our analysis suggest several mechanisms that distinguish which scientific concept will be adopted in practice, and which will not. We also demonstrate that our derived features can be used to explain and predict knowledge transfer with high accuracy. Our work provides greater understanding of knowledge transfer for researchers, practitioners, and government agencies interested in encouraging translational research.
翻訳日:2022-10-08 00:33:14 公開日:2020-10-13
# 運動軌跡の学習による地図に基づく時間的地理的局所化

Map-Based Temporally Consistent Geolocalization through Learning Motion Trajectories ( http://arxiv.org/abs/2010.06117v1 )

ライセンス: Link先を確認
Bing Zha, Alper Yilmaz(参考訳) 本稿では,物体の時間的一貫した局所化のために,リカレントニューラルネットワークを用いたトポロジカルマップ上の運動軌跡を利用した新しい軌道学習手法を提案する。 ナビゲーションにおける自己運動の方向と距離の両方を認識する人間の能力に触発されて、軌道学習法は、距離の列と回転角として符号化された軌道のパターン表現を学習し、自己局所化を支援する。 学習過程を条件付きシーケンス予測問題として、各出力が地図内のトラバース可能な経路上のオブジェクトを位置決めする。 予測列はグラフ構造マップにトポロジカルに連結されるべきであると考え,二つの異なる仮説の生成と除去戦略を採用し,切り離されたシーケンス予測を除去した。 我々は,都市規模の環境であり,メートル法情報を用いた軌道生成が可能なkittiステレオオドメトリデータセットのアプローチを実証する。 地理的ローカライゼーションに対する我々のアプローチの重要な利点は、 1)リカレントニューラルネットワークの強力なシーケンスモデリング能力とノイズ入力に対する堅牢性を利用する。 2) 図形の地図のみを必要とし、手頃な価格で動きの軌跡を生成するセンサを使用する。 3)初期位置は不要。 実験により,再帰的なニューラルネットワークを訓練することで運動軌跡を学習できることを示すとともに,提案された2つの戦略を用いて時間的に一貫した位置情報を予測できることを示した。

In this paper, we propose a novel trajectory learning method that exploits motion trajectories on topological map using recurrent neural network for temporally consistent geolocalization of object. Inspired by human's ability to both be aware of distance and direction of self-motion in navigation, our trajectory learning method learns a pattern representation of trajectories encoded as a sequence of distances and turning angles to assist self-localization. We pose the learning process as a conditional sequence prediction problem in which each output locates the object on a traversable path in a map. Considering the prediction sequence ought to be topologically connected in the graph-structured map, we adopt two different hypotheses generation and elimination strategies to eliminate disconnected sequence prediction. We demonstrate our approach on the KITTI stereo visual odometry dataset which is a city-scale environment and can generate trajectory with metric information. The key benefits of our approach to geolocalization are that 1) we take advantage of powerful sequence modeling ability of recurrent neural network and its robustness to noisy input, 2) only require a map in the form of a graph and simply use an affordable sensor that generates motion trajectory and 3) do not need initial position. The experiments show that the motion trajectories can be learned by training an recurrent neural network, and temporally consistent geolocation can be predicted with both of the proposed strategies.
翻訳日:2022-10-08 00:32:51 公開日:2020-10-13
# 無線通信がコンピュータビジョンに5gを超えると

When Wireless Communications Meet Computer Vision in Beyond 5G ( http://arxiv.org/abs/2010.06188v1 )

ライセンス: Link先を確認
Takayuki Nishio, Yusuke Koda, Jihong Park, Mehdi Bennis, Klaus Doppler(参考訳) 本稿では,5G/6G以上のミッションクリティカルなアプリケーション(自律/遠隔制御車,ビジュオハプティックVR,その他のサイバー物理アプリケーション)を実現するために,コンピュータビジョンと無線通信の合流点に着目する新たなパラダイムを述べる。 まず、近年の機械学習の進歩と非RFデータの利用性を踏まえ、スペクトル効率を犠牲にすることなく、無線通信の信頼性を大幅に向上させることが示されている。 特に、コンピュータビジョンが、ブロックが発生する前にミリ波のチャネルブロッキングシナリオにおいて、どのように {look-ahead} 予測を可能にするかを実証する。 コンピュータビジョンの観点からは、無線周波数(RF)によるセンシングとイメージングが、コンピュータビジョンの強固化にどのように役立っているかを強調した。 これは、RFベースの画像再構成ユースケースを介して相関し、レシーバ側の画像故障補正を行い、再送信と遅延を低減させる。 まとめると、本論文は、超信頼性通信と真にインテリジェントな6Gネットワークを実現するために、RFと非RFモダリティの強い収束に光を当てる。

This article articulates the emerging paradigm, sitting at the confluence of computer vision and wireless communication, to enable beyond-5G/6G mission-critical applications (autonomous/remote-controlled vehicles, visuo-haptic VR, and other cyber-physical applications). First, drawing on recent advances in machine learning and the availability of non-RF data, vision-aided wireless networks are shown to significantly enhance the reliability of wireless communication without sacrificing spectral efficiency. In particular, we demonstrate how computer vision enables {look-ahead} prediction in a millimeter-wave channel blockage scenario, before the blockage actually happens. From a computer vision perspective, we highlight how radio frequency (RF) based sensing and imaging are instrumental in robustifying computer vision applications against occlusion and failure. This is corroborated via an RF-based image reconstruction use case, showcasing a receiver-side image failure correction resulting in reduced retransmission and latency. Taken together, this article sheds light on the much-needed convergence of RF and non-RF modalities to enable ultra-reliable communication and truly intelligent 6G networks.
翻訳日:2022-10-08 00:32:03 公開日:2020-10-13
# 垂直圧縮破壊診断のための2ストリーム比較とコントラストネットワーク

Two-Stream Compare and Contrast Network for Vertebral Compression Fracture Diagnosis ( http://arxiv.org/abs/2010.06224v1 )

ライセンス: Link先を確認
Shixiang Feng, Beibei Liu, Ya Zhang, Xiaoyun Zhang, Yuehua Li(参考訳) 外傷・骨粗しょう症(良性VCF)や転移性癌(悪性VCF)にともなう椎骨圧迫骨折(VCF)の鑑別は治療決定に極めて重要である。 これまでのところ、VCFsの自動診断は、まずVCFを識別し、良性または悪性に分類する2段階の方法で解決されている。 本稿では,正常椎骨,良性VCF,悪性VCFの3種類の分類問題として,VCFの診断をモデル化する。 しかしながら、VCFの認識と分類は非常に異なる特徴を必要とし、両方のタスクは高いクラス内変異と高いクラス間類似性によって特徴づけられる。 さらに、データセットは極めてクラス不均衡である。 以上の課題に対処するため、VCFの診断のための新しい2ストリーム比較コントラストネットワーク(TSCCN)を提案する。 このネットワークは、2つのストリームから構成されており、隣接する椎体の比較とコントラストによってVCFを識別する認識ストリームと、クラス内とクラス間のコントラストを比較して、きめ細かい分類のための特徴を学習する分類ストリームである。 2つのストリームは、その貢献を適応的に設定する学習可能な重み制御モジュールを介して統合される。 TSCCNは239人のVCF患者からなるデータセットで評価され、それぞれ92.56\%と96.29\%の平均感度と特異性を達成する。

Differentiating Vertebral Compression Fractures (VCFs) associated with trauma and osteoporosis (benign VCFs) or those caused by metastatic cancer (malignant VCFs) are critically important for treatment decisions. So far, automatic VCFs diagnosis is solved in a two-step manner, i.e. first identify VCFs and then classify it into benign or malignant. In this paper, we explore to model VCFs diagnosis as a three-class classification problem, i.e. normal vertebrae, benign VCFs, and malignant VCFs. However, VCFs recognition and classification require very different features, and both tasks are characterized by high intra-class variation and high inter-class similarity. Moreover, the dataset is extremely class-imbalanced. To address the above challenges, we propose a novel Two-Stream Compare and Contrast Network (TSCCN) for VCFs diagnosis. This network consists of two streams, a recognition stream which learns to identify VCFs through comparing and contrasting between adjacent vertebra, and a classification stream which compares and contrasts between intra-class and inter-class to learn features for fine-grained classification. The two streams are integrated via a learnable weight control module which adaptively sets their contribution. The TSCCN is evaluated on a dataset consisting of 239 VCFs patients and achieves the average sensitivity and specificity of 92.56\% and 96.29\%, respectively.
翻訳日:2022-10-08 00:31:43 公開日:2020-10-13
# 画像分割とランダムフォレストを用いたヘモコンパチビリティ解析の自動化

Automation of Hemocompatibility Analysis Using Image Segmentation and a Random Forest ( http://arxiv.org/abs/2010.06245v1 )

ライセンス: Link先を確認
Johanna C. Clauser, Judith Maas, Jutta Arens, Thomas Schmitz-Rode, Ulrich Steinseifer, Benjamin Berkels(参考訳) 血液接触医療機器の血液適合性は、バイオメディカルエンジニアリングにおける大きな課題の1つであり、新しい材料や改善材料の研究は避けられない。 しかし、現在のインビトロ試験と分析法はまだ標準化と互換性に欠けており、材料設計の進歩を妨げる。 例えば、生体内血液適合性試験の光学的血小板分析は、各研究グループによって手動または半手動で行われる。 標準化に向けたステップとして,光学的血小板数と解析のための自動化手法を提案する。 この目的のために、多相周期定数ムンフォード-シャーモデルのザック凸化を用いて蛍光像を分割する。 結果として生じる非基底セグメントの連結成分は、血小板または血小板に分類する必要がある。 したがって, 面積, 周囲, 円度などの特徴を用いて, 成分から得られた特徴ベクトルに対して教師付きランダムフォレストを適用する。 全体として高い精度と低いエラー率で、ランダム森林は信頼できる結果を得る。 これは、それぞれレシーバ演算子と予測リコール曲線の下で高い領域で支持される。 そこで本研究では, 生体材料研究の進歩に有効な, 迅速かつ非独立かつ再現可能な材料適合性試験法を開発した。

The hemocompatibility of blood-contacting medical devices remains one of the major challenges in biomedical engineering and makes research in the field of new and improved materials inevitable. However, current in-vitro test and analysis methods are still lacking standardization and comparability, which impedes advances in material design. For example, the optical platelet analysis of material in-vitro hemocompatibility tests is carried out manually or semi-manually by each research group individually. As a step towards standardization, this paper proposes an automation approach for the optical platelet count and analysis. To this end, fluorescence images are segmented using Zach's convexification of the multiphase-phase piecewise constant Mumford--Shah model. The resulting connected components of the non-background segments then need to be classified as platelet or no platelet. Therefore, a supervised random forest is applied to feature vectors derived from the components using features like area, perimeter and circularity. With an overall high accuracy and low error rates, the random forest achieves reliable results. This is supported by high areas under the receiver-operator and the prediction-recall curve, respectively. We developed a new method for a fast, user-independent and reproducible analysis of material hemocompatibility tests, which is therefore a unique and powerful tool for advances in biomaterial research.
翻訳日:2022-10-08 00:31:16 公開日:2020-10-13
# ハフ変換とテクスチャを併用した道路標識検出性能の向上

Improving Road Signs Detection performance by Combining the Features of Hough Transform and Texture ( http://arxiv.org/abs/2010.06453v1 )

ライセンス: Link先を確認
Tarik Ayaou, Mourad Boussaid, Karim Afdel, Abdellah Amghar(参考訳) 異なるドメインにおけるインテリジェントなシステムの利用が多く、運転者や歩行者の安全を高めるため、道路や交通標識の認識システムは長年にわたり困難な問題であり、重要な課題であった。 しかし、この領域で行われた研究は、アラブの文脈に関心のある画像における交通標識の検出と認識にはまだ不十分である。 現場に存在する道路標識の検出は、交通標識の検出と認識の主要な段階の1つである。 本稿では,アラビア語の文脈,色セグメンテーションに基づく性能,ランダム化ハフ変換,ゼルニケモーメントとハラリック特徴の組合せによる道路標識検出の効率的な解法を提案する。 セグメンテーション段階は、画像中の関心領域(ROI)を決定するのに有用である。 ランダム化ハフ変換(RHT)は、円形と八角形の形状を検出するために用いられる。 この段階はハラリック特徴とゼルニケモーメントの抽出によって改善される。 さらに,SVMに基づく分類器の入力として利用する。 実験の結果,提案手法によって測定精度が向上できることが示唆された。

With the large uses of the intelligent systems in different domains, and in order to increase the drivers and pedestrians safety, the road and traffic sign recognition system has been a challenging issue and an important task for many years. But studies, done in this field of detection and recognition of traffic signs in an image, which are interested in the Arab context, are still insufficient. Detection of the road signs present in the scene is the one of the main stages of the traffic sign detection and recognition. In this paper, an efficient solution to enhance road signs detection, including Arabic context, performance based on color segmentation, Randomized Hough Transform and the combination of Zernike moments and Haralick features has been made. Segmentation stage is useful to determine the Region of Interest (ROI) in the image. The Randomized Hough Transform (RHT) is used to detect the circular and octagonal shapes. This stage is improved by the extraction of the Haralick features and Zernike moments. Furthermore, we use it as input of a classifier based on SVM. Experimental results show that the proposed approach allows us to perform the measurements precision.
翻訳日:2022-10-08 00:30:55 公開日:2020-10-13
# 局所的特徴とグローバル的特徴を考慮したチェッカーボードフリーイメージエンハンスメントネットワーク

Checkerboard-Artifact-Free Image-Enhancement Network Considering Local and Global Features ( http://arxiv.org/abs/2010.12347v1 )

ライセンス: Link先を確認
Yuma Kinoshita and Hitoshi Kiya(参考訳) 本稿では,画像強調のためのチェッカーボードアーティファクトを発生させない畳み込みニューラルネットワーク(cnn)を提案する。 画像から画像への翻訳問題の研究分野では、通常cnnが生成する画像がチェッカーボードのアーティファクトによって歪められていることがよく知られている。 しかし、画像強調におけるチェッカーボードアーティファクトは議論されていない。 本稿では,U-NetベースのCNNを画像強調に適用することで,チェッカーボードのアーティファクトが生じることを指摘する。 対照的に、固定畳み込み層を含む提案ネットワークは、アーティファクトを完全に防止することができる。 さらに、提案するネットワークアーキテクチャは、ローカル機能とグローバル機能の両方を扱うことができ、画像エンハンスメントのパフォーマンスを向上させることができる。 実験の結果,固定畳み込み層を用いることでチェッカーボードのアーティファクトを防止でき,提案するネットワークは,psnr,ssim,niqeなどの客観的品質指標を用いて,最先端のcnnベースの画像エンハンスメント手法よりも優れていることがわかった。

In this paper, we propose a novel convolutional neural network (CNN) that never causes checkerboard artifacts, for image enhancement. In research fields of image-to-image translation problems, it is well-known that images generated by usual CNNs are distorted by checkerboard artifacts which mainly caused in forward-propagation of upsampling layers. However, checkerboard artifacts in image enhancement have never been discussed. In this paper, we point out that applying U-Net based CNNs to image enhancement causes checkerboard artifacts. In contrast, the proposed network that contains fixed convolutional layers can perfectly prevent the artifacts. In addition, the proposed network architecture, which can handle both local and global features, enables us to improve the performance of image enhancement. Experimental results show that the use of fixed convolutional layers can prevent checkerboard artifacts and the proposed network outperforms state-of-the-art CNN-based image-enhancement methods in terms of various objective quality metrics: PSNR, SSIM, and NIQE.
翻訳日:2022-10-08 00:30:40 公開日:2020-10-13
# 日頭位置重心値に対する外因性変数を用いた深層学習予測

A Deep Learning Forecaster with Exogenous Variables for Day-Ahead Locational Marginal Price ( http://arxiv.org/abs/2010.06525v1 )

ライセンス: Link先を確認
Dipanwita Saha and Felipe Lopez(参考訳) 減量エネルギー市場における日頭位置限界価格(daLMP)を予測するためのいくつかのアプローチが提案されている。 ディープラーニングの台頭は、エネルギー価格予測にその利用を動機付けてきたが、ほとんどのディープラーニングアプローチは、daLMPのピークやバレーに大きな影響を及ぼす外因性変数に対応できない。 ダランプ・バレーの正確な予測は、停電やスタートアップコストの増大を防ぐために電力を損失で売却するか、生産コストの入札と閉鎖のリスクに直面するかという最も重要な決定の1つであるため、発電者にとって重要なものである。 本稿では,daLMPの歴史と外因性変数(例えば,予測負荷,気象データ)の影響を組み込んだディープラーニングモデルを提案する。 PJM独立系演算子(ISO)における数値的な研究は、提案モデルがシャットダウン決定のリスクベースの分析をサポートしながら、従来の時系列技術よりも優れていることを示す。

Several approaches have been proposed to forecast day-ahead locational marginal price (daLMP) in deregulated energy markets. The rise of deep learning has motivated its use in energy price forecasts but most deep learning approaches fail to accommodate for exogenous variables, which have significant influence in the peaks and valleys of the daLMP. Accurate forecasts of the daLMP valleys are of crucial importance for power generators since one of the most important decisions they face is whether to sell power at a loss to prevent incurring in shutdown and start-up costs, or to bid at production cost and face the risk of shutting down. In this article we propose a deep learning model that incorporates both the history of daLMP and the effect of exogenous variables (e.g., forecasted load, weather data). A numerical study at the PJM independent system operator (ISO) illustrates how the proposed model outperforms traditional time series techniques while supporting risk-based analysis of shutdown decisions.
翻訳日:2022-10-08 00:23:59 公開日:2020-10-13
# ニューラルネットワークサーロゲートを用いたエージェントベース疫学モデルの正確な校正

Accurate Calibration of Agent-based Epidemiological Models with Neural Network Surrogates ( http://arxiv.org/abs/2010.06558v1 )

ライセンス: Link先を確認
Rushil Anirudh, Jayaraman J. Thiagarajan, Peer-Timo Bremer, Timothy C. Germann, Sara Y. Del Valle, Frederick H. Streitz(参考訳) 複雑な疫学モデルを観測データに校正することは、現在の病気のダイナミクス、すなわち生殖数の推定と信頼性の高い予測とシナリオ探索の両方を提供するための重要なステップである。 本稿では,米国の主要都市圏の大規模シミュレーションアンサンブルを用いて,エージェントベースモデルであるエピキャストを校正する新しい手法を提案する。 特に、全ての異なる位置を同時にエミュレートできる新しいニューラルネットワークベースのサロゲートモデルと、全てのパラメータのより正確な後続推定を提供するだけでなく、領域間のグローバルパラメータの結合フィッティングを可能にする新しい後続推定を提案する。

Calibrating complex epidemiological models to observed data is a crucial step to provide both insights into the current disease dynamics, i.e.\ by estimating a reproductive number, as well as to provide reliable forecasts and scenario explorations. Here we present a new approach to calibrate an agent-based model -- EpiCast -- using a large set of simulation ensembles for different major metropolitan areas of the United States. In particular, we propose: a new neural network based surrogate model able to simultaneously emulate all different locations; and a novel posterior estimation that provides not only more accurate posterior estimates of all parameters but enables the joint fitting of global parameters across regions.
翻訳日:2022-10-08 00:23:00 公開日:2020-10-13
# 条件レベルの生成とゲームブレンディング

Conditional Level Generation and Game Blending ( http://arxiv.org/abs/2010.07735v1 )

ライセンス: Link先を確認
Anurag Sarkar, Zhihan Yang, Seth Cooper(参考訳) 従来の研究では、変動オートエンコーダ(VAE)は、既存のレベルのデータの潜在表現を学習することで、ゲームレベルの生成とブレンドに有用であることが示されている。 我々は,条件付きVAE(CVAE)によって実現される設計の水準と応用を探索し,そのようなモデルを構築した。 CVAEはラベル付きデータを使ってVAEを訓練することで、出力をいくつかの入力で条件付きで生成できるようにする。 本研究は,pcgml手法を用いて,レベル生成プロセスの制御性の向上と,ラベル付きゲームレベルデータのトレーニングによる所望のアウトプット生成能力について検討した。 スーパーマリオブラザーズ、キッド・イカルス、メガマンのレベルでCVAEをトレーニングした結果、所望のレベル要素とパターンのレベルを生成し、ゲームの組み合わせでブレンドしたレベルを生成することで、レベル設計を支援することができることを示した。

Prior research has shown variational autoencoders (VAEs) to be useful for generating and blending game levels by learning latent representations of existing level data. We build on such models by exploring the level design affordances and applications enabled by conditional VAEs (CVAEs). CVAEs augment VAEs by allowing them to be trained using labeled data, thus enabling outputs to be generated conditioned on some input. We studied how increased control in the level generation process and the ability to produce desired outputs via training on labeled game level data could build on prior PCGML methods. Through our results of training CVAEs on levels from Super Mario Bros., Kid Icarus and Mega Man, we show that such models can assist in level design by generating levels with desired level elements and patterns as well as producing blended levels with desired combinations of games.
翻訳日:2022-10-08 00:22:48 公開日:2020-10-13
# 異常推論のための木説明法の評価 : shap treeexplainer と treeinterpreter を事例として

Evaluating Tree Explanation Methods for Anomaly Reasoning: A Case Study of SHAP TreeExplainer and TreeInterpreter ( http://arxiv.org/abs/2010.06734v1 )

ライセンス: Link先を確認
Pulkit Sharma, Shezan Rohinton Mirzan, Apurva Bhandari, Anish Pimpley, Abhiram Eswaran, Soundar Srinivasan and Liqun Shao(参考訳) 機械学習モデルによる予測を理解することは、多くのアプリケーションにおいて重要である。 本研究では,木に基づくモデルを記述するための2つの手法であるTree Interpreter (TI)とSHapley Additive ExPlanations TreeExplainer (SHAP-TE)について検討する。 クラウドコンピューティングプラットフォームを利用するアプリケーションのジョブランタイムにおける異常検出に関するケーススタディを用いて、計算時間、帰属価値の意義、説明精度など、さまざまなメトリクスを用いてこれらのアプローチを比較した。 SHAP-TEはTI上での整合性を保証するが,計算量の増加を犠牲にすることで,このケーススタディでは必ずしも整合性は向上しないことがわかった。

Understanding predictions made by Machine Learning models is critical in many applications. In this work, we investigate the performance of two methods for explaining tree-based models- Tree Interpreter (TI) and SHapley Additive exPlanations TreeExplainer (SHAP-TE). Using a case study on detecting anomalies in job runtimes of applications that utilize cloud-computing platforms, we compare these approaches using a variety of metrics, including computation time, significance of attribution value, and explanation accuracy. We find that, although the SHAP-TE offers consistency guarantees over TI, at the cost of increased computation, consistency does not necessarily improve the explanation performance in our case study.
翻訳日:2022-10-08 00:22:31 公開日:2020-10-13
# 衛星画像における移動目標認識のための深層学習

Deep Learning for Recognizing Mobile Targets in Satellite Imagery ( http://arxiv.org/abs/2010.06520v1 )

ライセンス: Link先を確認
Mark Pritt(参考訳) 衛星画像中の航空機、車、船舶などの移動目標を自動的に検知し分類するソフトウェアに対する需要が高まっている。 このような自動目標認識(atr)ソフトウェアの応用には、経済予測、交通計画、海上法執行、災害対応などがある。 本稿では,畳み込み型ニューラルネットワーク(CNN)を用いて,スライディングウインドウアルゴリズムに分類する手法について述べる。 xViewデータセットのモバイルターゲット上で評価され、95%以上の検出と分類の精度を達成する。

There is an increasing demand for software that automatically detects and classifies mobile targets such as airplanes, cars, and ships in satellite imagery. Applications of such automated target recognition (ATR) software include economic forecasting, traffic planning, maritime law enforcement, and disaster response. This paper describes the extension of a convolutional neural network (CNN) for classification to a sliding window algorithm for detection. It is evaluated on mobile targets of the xView dataset, on which it achieves detection and classification accuracies higher than 95%.
翻訳日:2022-10-08 00:15:35 公開日:2020-10-13
# アスペクトに基づく研究論文の類似性

Aspect-based Document Similarity for Research Papers ( http://arxiv.org/abs/2010.06395v1 )

ライセンス: Link先を確認
Malte Ostendorff, Terry Ruas, Till Blume, Bela Gipp, Georg Rehm(参考訳) 従来の文書類似度尺度は、類似文書と異種文書とを大まかに区別する。 典型的には、2つの文書がどの面に類似しているかは考慮していない。 これにより、文書の類似性に依存するレコメンダシステムのようなアプリケーションの粒度が制限される。 本稿では,ペアワイズ文書分類タスクを実行し,アスペクト情報との類似性を拡張する。 研究論文のアスペクトベースの文書類似性を評価する。 論文引用は、アスペクトベースの類似性、すなわち引用が起こるセクションタイトルが引用と引用の2つの紙のラベルとして機能することを示す。 本稿では,RoBERTa,ELECTRA,XLNet,BERTなど一連のトランスフォーマーモデルを適用し,LSTMベースラインと比較する。 ACLアンソロジーとCORD-19コーパスから新たに構築した172,073枚の研究論文のデータセットについて実験を行った。 この結果から,SciBERTは最高の演奏システムであることがわかった。 定性試験は我々の定量的結果を検証する。 本研究は,アスペクトベース文書の類似性に関する今後の研究と,評価手法に基づく推薦システムの開発を動機付けるものである。 データセット、コード、トレーニング済みのモデルを公開しています。

Traditional document similarity measures provide a coarse-grained distinction between similar and dissimilar documents. Typically, they do not consider in what aspects two documents are similar. This limits the granularity of applications like recommender systems that rely on document similarity. In this paper, we extend similarity with aspect information by performing a pairwise document classification task. We evaluate our aspect-based document similarity for research papers. Paper citations indicate the aspect-based similarity, i.e., the section title in which a citation occurs acts as a label for the pair of citing and cited paper. We apply a series of Transformer models such as RoBERTa, ELECTRA, XLNet, and BERT variations and compare them to an LSTM baseline. We perform our experiments on two newly constructed datasets of 172,073 research paper pairs from the ACL Anthology and CORD-19 corpus. Our results show SciBERT as the best performing system. A qualitative examination validates our quantitative results. Our findings motivate future research of aspect-based document similarity and the development of a recommender system based on the evaluated techniques. We make our datasets, code, and trained models publicly available.
翻訳日:2022-10-08 00:14:55 公開日:2020-10-13
# ループ変換のための自動探索空間

Autotuning Search Space for Loop Transformations ( http://arxiv.org/abs/2010.06521v1 )

ライセンス: Link先を確認
Michael Kruse, Hal Finkel, Xingfu Wu(参考訳) コンパイラを最適化する上での課題のひとつは、最適化を適用することで実行速度が向上するかどうかを予測することだ。 プログラマはソースコードのプラグマのような最適化ディレクティブを使ってコンパイラの収益性ヒューリスティックをオーバーライドすることができる。 自動チューニングという形での機械学習は、各プラットフォームに最適な最適化を見つけるのに役立つ。 本稿では,通常ベクトル空間を用いてループ最適化の構成を表現する従来の手法とは対照的に,木の形をとるループ変換探索空間を提案する。 探索空間を探索する単純なオートチューナーを実装し,選択したポリベンチカーネルに適用した。 オートチューナーは全ての可能なループ変換とその関係を表現できるが、その結果はモンテカルロ木探索のようなより優れた探索戦略を用いて、マルチレベルタイリングのような洗練されたループ変換を見つける動機付けとなる。

One of the challenges for optimizing compilers is to predict whether applying an optimization will improve its execution speed. Programmers may override the compiler's profitability heuristic using optimization directives such as pragmas in the source code. Machine learning in the form of autotuning can assist users in finding the best optimizations for each platform. In this paper we propose a loop transformation search space that takes the form of a tree, in contrast to previous approaches that usually use vector spaces to represent loop optimization configurations. We implemented a simple autotuner exploring the search space and applied it to a selected set of PolyBench kernels. While the autotuner is capable of representing every possible sequence of loop transformations and their relations, the results motivate the use of better search strategies such as Monte Carlo tree search to find sophisticated loop transformations such as multilevel tiling.
翻訳日:2022-10-08 00:14:13 公開日:2020-10-13
# 言語ネットワーク: 実践的なアプローチ

Language Networks: a Practical Approach ( http://arxiv.org/abs/2010.06710v1 )

ライセンス: Link先を確認
Jorge A. V. Tohalino and Diego R. Amancio(参考訳) この原稿は言語ネットワークのトピックを簡潔かつ実践的に紹介している。 このテキストは、テキストやネットワーク分析の実践経験のない研究者を支援することを目的としている。 ネットワーク機能を用いたテキストのモデル化とキャラクタリゼーションの実践的なチュートリアルを提供する。 このチュートリアルでは、前処理とネットワーク表現の例も紹介します。 ネットワーク科学とテキスト分析を連携させる主なタスクの簡単な説明も提供する。 本文のさらなる発展には,機械学習手法によるネットワーク分類の実践的記述を含める。

This manuscript provides a short and practical introduction to the topic of language networks. This text aims at assisting researchers with no practical experience in text and/or network analysis. We provide a practical tutorial on how to model and characterize texts using network-based features. In this tutorial, we also include examples of pre-processing and network representations. A brief description of the main tasks allying network science and text analysis is also provided. A further development of this text shall include a practical description of network classification via machine learning methods.
翻訳日:2022-10-08 00:14:00 公開日:2020-10-13
# CoRel:概念学習と関係伝達による種誘導トポラル分類構築

CoRel: Seed-Guided Topical Taxonomy Construction by Concept Learning and Relation Transferring ( http://arxiv.org/abs/2010.06714v1 )

ライセンス: Link先を確認
Jiaxin Huang, Yiqing Xie, Yu Meng, Yunyi Zhang, Jiawei Han(参考訳) 分類学は知識表現の基本的な形式であるだけでなく、質問応答やweb検索のような膨大な知識に富むアプリケーションにも不可欠である。 ほとんどの既存の分類法は「普遍的」分類法を組織するためにハイパーニム・ハイポニムのエンティティ対を抽出する。 しかし、これらの一般的な分類群は、特定の領域や関係に対するユーザーの特定の関心を満たすことができない。 さらに、インスタンス分類の性質は、各ノードを単一の単語として扱い、セマンティックカバレッジが低い。 本稿では、概念名によって記述されたコーパスと種分類を入力とし、各ノードが一貫性のある項のクラスタで表される、ユーザの関心に基づいてより完全な分類を構築する、種誘導型局所分類構築法を提案する。 私たちのフレームワークであるCoRelには、この目標を達成するための2つのモジュールがあります。 関係伝達モジュールは、複数の経路に沿ってユーザの関心関係を学習して転送し、種分類構造を幅及び深さに拡張する。 概念学習モジュールは、分類学とテキストを共同で埋め込むことで、概念ノードのセマンティクスを高める。 実世界のデータセットで実施された包括的な実験は、corelが高品質なトピック分類を生成し、すべてのベースラインを大きく上回っていることを示している。

Taxonomy is not only a fundamental form of knowledge representation, but also crucial to vast knowledge-rich applications, such as question answering and web search. Most existing taxonomy construction methods extract hypernym-hyponym entity pairs to organize a "universal" taxonomy. However, these generic taxonomies cannot satisfy user's specific interest in certain areas and relations. Moreover, the nature of instance taxonomy treats each node as a single word, which has low semantic coverage. In this paper, we propose a method for seed-guided topical taxonomy construction, which takes a corpus and a seed taxonomy described by concept names as input, and constructs a more complete taxonomy based on user's interest, wherein each node is represented by a cluster of coherent terms. Our framework, CoRel, has two modules to fulfill this goal. A relation transferring module learns and transfers the user's interested relation along multiple paths to expand the seed taxonomy structure in width and depth. A concept learning module enriches the semantics of each concept node by jointly embedding the taxonomy and text. Comprehensive experiments conducted on real-world datasets show that Corel generates high-quality topical taxonomies and outperforms all the baselines significantly.
翻訳日:2022-10-08 00:13:53 公開日:2020-10-13
# シーケンスモデリングのための微分ラジアル基底関数ネットワーク

Differential radial basis function network for sequence modelling ( http://arxiv.org/abs/2010.06178v1 )

ライセンス: Link先を確認
Kojo Sarfo Gyamfi, James Brusey, Elena Gaura(参考訳) 本稿では,RBF-DiffNet と呼ばれる,RBF-DiffNet と呼ばれる差動放射基底関数(RBF) を,RBF の項で線形に隠蔽するネットワークを提案し,そのベースライン RBF ネットワークを逐次データ中のノイズに頑健にする。 逐次データが解の離散化から基礎となるPDEに導かれると仮定すると、微分RBFネットワークはPDEの定数線形係数を学習し、修正された後方・オイラー更新に従ってRBFネットワークを正規化する。 我々は,M5予測競争において,ロジスティックマップのカオス時空とウォルマートが提供する30の実世界の時空上で,差分RBFネットワークを実験的に検証した。 提案手法は,複数層パーセプトロン (MLP) と長期メモリ (LSTM) ブロックのアンサンブルの正規化および非正規化されたRBFネットワーク,ARIMA,およびアンサンブルと比較する。 実験結果から、RBF-DiffNetは予測誤差(例えば、M5データセットにおけるルート平均26%のスケール誤差の削減)の観点から、ベースラインのRBFネットワークを常に顕著に減少させ、また、RBF-DiffNetはLSTMの計算時間の6分の1未満でLSTMアンサンブルと同等の性能を示した。 提案するネットワークは,RBFネットワークのモデル解釈性,高速トレーニング,関数近似特性を利用した時系列予測などのシーケンスモデリングタスクにおいて,観測ノイズの存在下でより正確な予測を可能にする。

We propose a differential radial basis function (RBF) network termed RBF-DiffNet -- whose hidden layer blocks are partial differential equations (PDEs) linear in terms of the RBF -- to make the baseline RBF network robust to noise in sequential data. Assuming that the sequential data derives from the discretisation of the solution to an underlying PDE, the differential RBF network learns constant linear coefficients of the PDE, consequently regularising the RBF network by following modified backward-Euler updates. We experimentally validate the differential RBF network on the logistic map chaotic timeseries as well as on 30 real-world timeseries provided by Walmart in the M5 forecasting competition. The proposed model is compared with the normalised and unnormalised RBF networks, ARIMA, and ensembles of multilayer perceptrons (MLPs) and recurrent networks with long short-term memory (LSTM) blocks. From the experimental results, RBF-DiffNet consistently shows a marked reduction over the baseline RBF network in terms of the prediction error (e.g., 26% reduction in the root mean squared scaled error on the M5 dataset); RBF-DiffNet also shows a comparable performance to the LSTM ensemble at less than one-sixteenth the LSTM computational time. Our proposed network consequently enables more accurate predictions -- in the presence of observational noise -- in sequence modelling tasks such as timeseries forecasting that leverage the model interpretability, fast training, and function approximation properties of the RBF network.
翻訳日:2022-10-08 00:13:34 公開日:2020-10-13
# 1D型血糖コントロールのためのモデルベース強化学習

Model-Based Reinforcement Learning for Type 1Diabetes Blood Glucose Control ( http://arxiv.org/abs/2010.06266v1 )

ライセンス: Link先を確認
Taku Yamagata (1), Aisling O'Kane (1), Amid Ayobi (1), Dmitri Katz (2), Katarzyna Stawarz (3), Paul Marshall (1), Peter Flach (1) and Ra\'ul Santos-Rodr\'iguez (1) ((1) University of Bristol, (2) The Open University, (3) Cardiff University)(参考訳) 本稿では,インスリン投与量決定を伴う1型糖尿病患者を支援するモデルベース強化学習について検討する。 提案されたアーキテクチャは、血糖値を予測する複数のエコー状態ネットワークと、計画のためのモデル予測コントローラから構成される。 Echo State Networkはリカレントニューラルネットワークのバージョンであり、時系列データの入力における長期的依存関係をオンラインで学習することができる。 さらに,よりロバストな制御のための不確実性の定量化にも対処する。 ここでは,エコー状態ネットワークのアンサンブルを用いてモデルの不確かさを捉えた。 FDAが承認したUVa/Padova Type 1 Diabetesシミュレータを用いてアプローチを評価し,Basal-BolusコントローラやDeep Q-learningなどのベースラインアルゴリズムと比較した。 その結果、モデルに基づく強化学習アルゴリズムは、テストされた仮想型1型糖尿病者プロファイルの大部分のベースラインアルゴリズムと同等またはそれ以上の性能を発揮することが示唆された。

In this paper we investigate the use of model-based reinforcement learning to assist people with Type 1 Diabetes with insulin dose decisions. The proposed architecture consists of multiple Echo State Networks to predict blood glucose levels combined with Model Predictive Controller for planning. Echo State Network is a version of recurrent neural networks which allows us to learn long term dependencies in the input of time series data in an online manner. Additionally, we address the quantification of uncertainty for a more robust control. Here, we used ensembles of Echo State Networks to capture model (epistemic) uncertainty. We evaluated the approach with the FDA-approved UVa/Padova Type 1 Diabetes simulator and compared the results against baseline algorithms such as Basal-Bolus controller and Deep Q-learning. The results suggest that the model-based reinforcement learning algorithm can perform equally or better than the baseline algorithms for the majority of virtual Type 1 Diabetes person profiles tested.
翻訳日:2022-10-08 00:13:05 公開日:2020-10-13
# 機械学習を用いたクレジットカード不正検出:調査

Credit card fraud detection using machine learning: A survey ( http://arxiv.org/abs/2010.06479v1 )

ライセンス: Link先を確認
Yvan Lucas, Johannes Jurgovsky(参考訳) クレジットカード詐欺は電子決済業界で大きな問題となっている。 本研究では,カード所有者に代わって不正に発行された不正取引を識別することを目的として,データ駆動型クレジットカード不正検出機能と,その複雑な課題に対処する機械学習手法について検討した。 特に、まず一般的なクレジットカード検出タスクを特徴付けます。データセットとその属性、メトリックの選択と、そのような不均衡なデータセットを扱ういくつかの方法です。 これらの質問は、クレジットカード詐欺検出問題のエントリポイントである。 次に、データセットシフト(コンセプトドリフトと呼ばれることもある)に注目します。これは、データセットを生成する基盤となるディストリビューションが時間とともに進化するという事実を指します。 この現象は、クレジットカードトランザクションデータセットのような現実世界のデータセットに機械学習メソッドの使用を妨げる可能性がある。 その後、クレジットカードトランザクションのシーケンシャルな特性をキャプチャするために使われるさまざまなアプローチを強調します。 これらのアプローチは、機能エンジニアリング技術(トランザクショナルアグリゲーションなど)から、リカレントニューラルネットワーク(LSTM)やグラフィカルモデル(隠れマルコフモデル)といった適切なシーケンスモデリング手法まで様々である。

Credit card fraud has emerged as major problem in the electronic payment sector. In this survey, we study data-driven credit card fraud detection particularities and several machine learning methods to address each of its intricate challenges with the goal to identify fraudulent transactions that have been issued illegitimately on behalf of the rightful card owner. In particular, we first characterize a typical credit card detection task: the dataset and its attributes, the metric choice along with some methods to handle such unbalanced datasets. These questions are the entry point of every credit card fraud detection problem. Then we focus on dataset shift (sometimes called concept drift), which refers to the fact that the underlying distribution generating the dataset evolves over times: For example, card holders may change their buying habits over seasons and fraudsters may adapt their strategies. This phenomenon may hinder the usage of machine learning methods for real world datasets such as credit card transactions datasets. Afterwards we highlights different approaches used in order to capture the sequential properties of credit card transactions. These approaches range from feature engineering techniques (transactions aggregations for example) to proper sequence modeling methods such as recurrent neural networks (LSTM) or graphical models (hidden markov models).
翻訳日:2022-10-08 00:12:50 公開日:2020-10-13
# 移動プラットフォームのための視聴覚自己教師付き地形型発見

Audio-Visual Self-Supervised Terrain Type Discovery for Mobile Platforms ( http://arxiv.org/abs/2010.06318v1 )

ライセンス: Link先を確認
Akiyoshi Kurobe, Yoshikatsu Nakajima, Hideo Saito, Kris Kitani(参考訳) 地形の特徴を認識して発見する能力は、社会ロボット、補助ロボット、自動運転車、地上探査ロボットといった多くの自律地上ロボットにとって重要な機能である。 地形の特徴の認識と発見は、類似の地形が非常に異なる外観(例えば、カーペットが多くの色で現れる)を持つのに対して、非常に類似した地形は、非常に異なる物理的性質(例えば、マーチ対ダート)を持つため、困難である。 視覚に基づく地形認識・発見における固有の曖昧さに対処するため,移動プラットフォームの下面に取り付けられたマイクから抽出した音声特徴と,プラットフォーム上のカメラで抽出した画像特徴とを切り替えて地形をクラスタリングする多モード自己教師型学習手法を提案する。 次に、地形クラスタラベルを使用して、画像ベースの畳み込みニューラルネットワークを訓練し、地形タイプの変化を予測する。 実験により,提案手法は80%以上の精度を達成し,いくつかのベースラインをはるかに上回り,補助的応用の可能性を示している。

The ability to both recognize and discover terrain characteristics is an important function required for many autonomous ground robots such as social robots, assistive robots, autonomous vehicles, and ground exploration robots. Recognizing and discovering terrain characteristics is challenging because similar terrains may have very different appearances (e.g., carpet comes in many colors), while terrains with very similar appearance may have very different physical properties (e.g. mulch versus dirt). In order to address the inherent ambiguity in vision-based terrain recognition and discovery, we propose a multi-modal self-supervised learning technique that switches between audio features extracted from a mic attached to the underside of a mobile platform and image features extracted by a camera on the platform to cluster terrain types. The terrain cluster labels are then used to train an image-based convolutional neural network to predict changes in terrain types. Through experiments, we demonstrate that the proposed self-supervised terrain type discovery method achieves over 80% accuracy, which greatly outperforms several baselines and suggests strong potential for assistive applications.
翻訳日:2022-10-08 00:06:37 公開日:2020-10-13
# LM-Reloc: Levenberg-Marquardt による直接視覚的再局在

LM-Reloc: Levenberg-Marquardt Based Direct Visual Relocalization ( http://arxiv.org/abs/2010.06323v1 )

ライセンス: Link先を確認
Lukas von Stumberg, Patrick Wenzel, Nan Yang, Daniel Cremers(参考訳) 直接画像アライメントに基づく視覚的再ローカライズのための新しいアプローチであるLM-Relocを提案する。 特徴に基づく定式化の問題に対処する先行研究とは対照的に,提案手法は特徴マッチングやRANSACに依存しない。 したがって、この手法はコーナーだけでなく、勾配のある画像の任意の領域を利用することができる。 特に,従来のLevenberg-Marquardtアルゴリズムにインスパイアされた損失定式化を提案する。 学習した特徴は直接画像アライメントの堅牢性を大幅に改善し、特に異なる条件で再局在する。 LM-Netの大規模画像ベースラインに対するロバスト性をさらに向上するため,直接画像アライメントをブートストラップする相対ポーズを回帰するポーズ推定ネットワークCorrPoseNetを提案する。 CARLAとOxford RobotCarの再ローカライゼーション追跡ベンチマークによる評価は、我々の手法が従来の最先端手法よりも精度が高く、ロバスト性は同等であることを示している。

We present LM-Reloc -- a novel approach for visual relocalization based on direct image alignment. In contrast to prior works that tackle the problem with a feature-based formulation, the proposed method does not rely on feature matching and RANSAC. Hence, the method can utilize not only corners but any region of the image with gradients. In particular, we propose a loss formulation inspired by the classical Levenberg-Marquardt algorithm to train LM-Net. The learned features significantly improve the robustness of direct image alignment, especially for relocalization across different conditions. To further improve the robustness of LM-Net against large image baselines, we propose a pose estimation network, CorrPoseNet, which regresses the relative pose to bootstrap the direct image alignment. Evaluations on the CARLA and Oxford RobotCar relocalization tracking benchmark show that our approach delivers more accurate results than previous state-of-the-art methods while being comparable in terms of robustness.
翻訳日:2022-10-08 00:06:16 公開日:2020-10-13
# テキスト非依存話者認識のための3次元唇運動ネットワーク

Three-Dimensional Lip Motion Network for Text-Independent Speaker Recognition ( http://arxiv.org/abs/2010.06363v1 )

ライセンス: Link先を確認
Jianrong Wang and Tong Wu and Shanyu Wang and Mei Yu and Qiang Fang and Ju Zhang and Li Liu(参考訳) 唇の動きは話者の行動特性を反映するので、話者認識における新しいバイオメトリックスとして使用できる。 文献では、テキスト依存の文脈で話者を認識するために2次元(2次元)唇画像を用いた作品が多い。 しかし、2Dの唇は様々な顔の向きに苦しむ。 そこで本研究では,文レベル3Dリップモーション(S3DLM)を利用して,テキスト非依存とテキスト依存の両文脈で話者を認識することによって,新たなエンドツーエンド3Dリップモーションネットワーク(LMNet)を提案する。 新しい地域フィードバックモジュール (RFM) を提案する。 さらに、唇の動きに関する事前の知識がrfmを補完するために研究され、ランドマークレベルとフレームレベルの機能が統合され、より優れた特徴表現を形成する。 さらに,68の話者と146の文を含むLSD-AVデータセットを前処理するために,座標変換と顔姿勢補正という2つの手法を提案する。 この結果から,提案した3LMNetは,LSTM,VGG-16,ResNet-34といったベースラインモデルよりも優れており,2Dリップ画像および3D顔を用いた最先端技術よりも優れていることが示された。 この作業のコードはhttps://github.com/wutong18/Three-dimensional-LipMotion-Network-for-Text-Independent-Speaker-Recogni tionで公開されている。

Lip motion reflects behavior characteristics of speakers, and thus can be used as a new kind of biometrics in speaker recognition. In the literature, lots of works used two-dimensional (2D) lip images to recognize speaker in a textdependent context. However, 2D lip easily suffers from various face orientations. To this end, in this work, we present a novel end-to-end 3D lip motion Network (3LMNet) by utilizing the sentence-level 3D lip motion (S3DLM) to recognize speakers in both the text-independent and text-dependent contexts. A new regional feedback module (RFM) is proposed to obtain attentions in different lip regions. Besides, prior knowledge of lip motion is investigated to complement RFM, where landmark-level and frame-level features are merged to form a better feature representation. Moreover, we present two methods, i.e., coordinate transformation and face posture correction to pre-process the LSD-AV dataset, which contains 68 speakers and 146 sentences per speaker. The evaluation results on this dataset demonstrate that our proposed 3LMNet is superior to the baseline models, i.e., LSTM, VGG-16 and ResNet-34, and outperforms the state-of-the-art using 2D lip image as well as the 3D face. The code of this work is released at https://github.com/wutong18/Three-Dimensional-Lip- Motion-Network-for-Text-Independent-Speaker-Recognition.
翻訳日:2022-10-08 00:05:09 公開日:2020-10-13
# RMDL:全スライド胃画像分類のためのマルチインスタンス深層学習

RMDL: Recalibrated multi-instance deep learning for whole slide gastric image classification ( http://arxiv.org/abs/2010.06440v1 )

ライセンス: Link先を確認
Shujun Wang, Yaxi Zhu, Lequan Yu, Hao Chen, Huangjing Lin, Xiangbo Wan, Xinjuan Fan, and Pheng-Ann Hen(参考訳) 胃癌の診断において,全スライド病理像(WSIs)が重要な役割を担っている。 しかし,wsisの大規模化や異常領域の大きさなどにより,自動診断の過程において,情報領域の選択や解析が極めて困難である。 最も差別的な例に基づくマルチインスタンス学習は,スライド画像診断全体において大きなメリットがある。 本稿では,この課題に対処するために,再校正型マルチインスタンス深層学習法(RMDL)を設計する。 まず識別インスタンスを選択し,そのインスタンスを用いてRMDLアプローチに基づく疾患の診断を行う。 設計されたRMDLネットワークは、融合した特徴から得られた重要度係数に応じて、インスタンスの依存関係をキャプチャし、インスタンスの特徴を再検討することができる。 さらに,精細なピクセルレベルアノテーションを用いた胃病理画像データセットを構築した。 構築した胃データセットの実験結果から,提案手法の精度は,他の最先端マルチインスタンス学習法と比較して有意に向上した。 さらに,本手法は一般向けであり,WSIに基づいて異なるがんタイプの診断タスクに拡張することができる。

The whole slide histopathology images (WSIs) play a critical role in gastric cancer diagnosis. However, due to the large scale of WSIs and various sizes of the abnormal area, how to select informative regions and analyze them are quite challenging during the automatic diagnosis process. The multi-instance learning based on the most discriminative instances can be of great benefit for whole slide gastric image diagnosis. In this paper, we design a recalibrated multi-instance deep learning method (RMDL) to address this challenging problem. We first select the discriminative instances, and then utilize these instances to diagnose diseases based on the proposed RMDL approach. The designed RMDL network is capable of capturing instance-wise dependencies and recalibrating instance features according to the importance coefficient learned from the fused features. Furthermore, we build a large whole-slide gastric histopathology image dataset with detailed pixel-level annotations. Experimental results on the constructed gastric dataset demonstrate the significant improvement on the accuracy of our proposed framework compared with other state-of-the-art multi-instance learning methods. Moreover, our method is general and can be extended to other diagnosis tasks of different cancer types based on WSIs.
翻訳日:2022-10-08 00:04:11 公開日:2020-10-13
# ISTA-NAS:スパース符号化による効率的で一貫性のあるニューラルネットワーク探索

ISTA-NAS: Efficient and Consistent Neural Architecture Search by Sparse Coding ( http://arxiv.org/abs/2010.06176v1 )

ライセンス: Link先を確認
Yibo Yang, Hongyang Li, Shan You, Fei Wang, Chen Qian, Zhouchen Lin(参考訳) neural architecture search (nas) は、全ての候補接続にまたがる高次元空間から最適なスパースソリューションを作ることを目的としている。 現在の勾配に基づくNAS法は、探索フェーズにおけるスパーシティの制約を無視するが、最適化された解を後処理によってスパースに投影する。 その結果,探索用高密度スーパーネットは訓練に非効率であり,予測されたアーキテクチャとのギャップがあることがわかった。 本稿では,ニューラルアーキテクチャ探索をスパース符号化問題として定式化する。 圧縮された低次元空間において、元のスパース解空間と同じ検証損失を持つ微分可能探索を行い、スパース符号問題を解くことでアーキテクチャを復元する。 異なる検索とアーキテクチャのリカバリは、別の方法で最適化される。 これにより、更新毎に検索を行うネットワークは、スパーシリティ制約を満たすことができ、トレーニングの効率が向上する。 また、検索におけるネットワークとターゲットネットとの深さと幅のギャップをなくすため、さらに、ターゲットネット設定下の一段階において検索と評価する手法を提案する。 トレーニングが終了すると、アーキテクチャ変数はネットワーク重みに吸収される。 したがって、検索されたアーキテクチャと最適化されたパラメータを単一の実行で取得する。 実験では、CIFAR-10の2段階法では、検索にわずか0.05GPUを必要とする。 本手法は,CIFAR-10とImageNetの両方において,評価時間のみのコストで最先端のパフォーマンスを実現する。

Neural architecture search (NAS) aims to produce the optimal sparse solution from a high-dimensional space spanned by all candidate connections. Current gradient-based NAS methods commonly ignore the constraint of sparsity in the search phase, but project the optimized solution onto a sparse one by post-processing. As a result, the dense super-net for search is inefficient to train and has a gap with the projected architecture for evaluation. In this paper, we formulate neural architecture search as a sparse coding problem. We perform the differentiable search on a compressed lower-dimensional space that has the same validation loss as the original sparse solution space, and recover an architecture by solving the sparse coding problem. The differentiable search and architecture recovery are optimized in an alternate manner. By doing so, our network for search at each update satisfies the sparsity constraint and is efficient to train. In order to also eliminate the depth and width gap between the network in search and the target-net in evaluation, we further propose a method to search and evaluate in one stage under the target-net settings. When training finishes, architecture variables are absorbed into network weights. Thus we get the searched architecture and optimized parameters in a single run. In experiments, our two-stage method on CIFAR-10 requires only 0.05 GPU-day for search. Our one-stage method produces state-of-the-art performances on both CIFAR-10 and ImageNet at the cost of only evaluation time.
翻訳日:2022-10-07 23:57:36 公開日:2020-10-13
# DoFE: 見えないデータセット上の一般化可能なファンドイメージセグメンテーションのためのドメイン指向機能埋め込み

DoFE: Domain-oriented Feature Embedding for Generalizable Fundus Image Segmentation on Unseen Datasets ( http://arxiv.org/abs/2010.06208v1 )

ライセンス: Link先を確認
Shujun Wang, Lequan Yu, Kang Li, Xin Yang, Chi-Wing Fu, and Pheng-Ann Heng(参考訳) 深層畳み込みニューラルネットワークは、テストデータセットがトレーニングデータセットと同じ分布を持つ場合、基礎画像セグメンテーションのパフォーマンスを大幅に向上させる。 しかし、臨床では、スキャナーベンダーの違いや画像品質など、様々な理由から、医用画像は外観のバリエーションを示すことが多い。 これらの分散の相違は、ディープネットワークがトレーニングデータセットに過剰に適合し、見えないテストデータセットの一般化能力に欠ける可能性がある。 この問題を軽減するために,複数のソースドメインからの知識を探索することにより,ターゲットドメインにおけるcnnの一般化能力を向上させるための新しいdofe(domain-oriented feature embedded)フレームワークを提案する。 我々のDoFEフレームワークは、マルチソースドメインから学んだ追加のドメイン事前知識で画像特徴を動的に豊かにし、セマンティック機能をより差別的にします。 具体的には,マルチソースドメインから抽出した事前情報を学習・記憶するためのドメイン知識プールを提案する。 次に、入力画像とマルチソース領域画像との類似性に基づいて、知識プールから誘導されるドメイン指向集約機能により、元の画像特徴を拡張する。 我々はさらに,この類似性を推測する新たなドメインコード予測ブランチを設計,集約された特徴と意味的特徴を動的に結合する注意誘導機構を導入する。 本研究は,光学カップ,ディスクセグメンテーション,血管セグメンテーションの2つの基礎画像セグメンテーションタスクにおいて,我々のDoFEフレームワークを包括的に評価する。 当社のdofeフレームワークは,セグメンテーション結果に満足のいくデータセットを生成し,他のドメイン一般化やネットワーク正規化手法を上回っている。

Deep convolutional neural networks have significantly boosted the performance of fundus image segmentation when test datasets have the same distribution as the training datasets. However, in clinical practice, medical images often exhibit variations in appearance for various reasons, e.g., different scanner vendors and image quality. These distribution discrepancies could lead the deep networks to over-fit on the training datasets and lack generalization ability on the unseen test datasets. To alleviate this issue, we present a novel Domain-oriented Feature Embedding (DoFE) framework to improve the generalization ability of CNNs on unseen target domains by exploring the knowledge from multiple source domains. Our DoFE framework dynamically enriches the image features with additional domain prior knowledge learned from multi-source domains to make the semantic features more discriminative. Specifically, we introduce a Domain Knowledge Pool to learn and memorize the prior information extracted from multi-source domains. Then the original image features are augmented with domain-oriented aggregated features, which are induced from the knowledge pool based on the similarity between the input image and multi-source domain images. We further design a novel domain code prediction branch to infer this similarity and employ an attention-guided mechanism to dynamically combine the aggregated features with the semantic features. We comprehensively evaluate our DoFE framework on two fundus image segmentation tasks, including the optic cup and disc segmentation and vessel segmentation. Our DoFE framework generates satisfying segmentation results on unseen datasets and surpasses other domain generalization and network regularization methods.
翻訳日:2022-10-07 23:57:15 公開日:2020-10-13
# 意図しない時間的アライメントとペア類似度最適化を用いたアクション認識

Few-shot Action Recognition with Implicit Temporal Alignment and Pair Similarity Optimization ( http://arxiv.org/abs/2010.06215v1 )

ライセンス: Link先を確認
Congqi Cao, Yajuan Li, Qinyi Lv, Peng Wang, Yanning Zhang(参考訳) few-shot learningは、ラベル付きサンプルが少ない新しいクラスからのインスタンスを認識することを目的としています。 この領域では近年多くの作業が行われているが、既存の作業のほとんどは画像分類タスクに基づいている。 ビデオに基づく数発のアクション認識は、まだ十分に研究されていない。 1) 異なる論文間の実施の詳細の相違は、公正な比較を困難にする。 2) 時間系列のばらつきや誤用により, 映像レベルの類似性の比較が困難となる。 3) ラベル付きデータの不足により最適化が困難となる。 これらの問題を解決するために、本稿では 1) 数発の行動認識アルゴリズムの性能を評価するための特定の設定 2)ビデオレベルの類似性比較のための暗黙的なシーケンスアライメントアルゴリズム 3) 限られたデータでペアの類似性を最適化するために,少数の学習で高度な損失が発生する。 具体的には, 3次元畳み込み層に追従した長期短期記憶をシーケンスモデリングとアライメントに利用する, 新たな行動認識フレームワークを提案する。 円損失はクラス内類似度を最大化し、より明確な収束目標に向けて柔軟にクラス間類似度を最小化するために導入される。 ランダムあるいはあいまいな実験的な設定を用いる代わりに、標準的なイメージベースのマイトショット学習設定に類似した具体的基準を設定して、マイトショット動作認識の評価を行う。 2つのデータセットに対する実験により,提案手法の有効性が示された。

Few-shot learning aims to recognize instances from novel classes with few labeled samples, which has great value in research and application. Although there has been a lot of work in this area recently, most of the existing work is based on image classification tasks. Video-based few-shot action recognition has not been explored well and remains challenging: 1) the differences of implementation details among different papers make a fair comparison difficult; 2) the wide variations and misalignment of temporal sequences make the video-level similarity comparison difficult; 3) the scarcity of labeled data makes the optimization difficult. To solve these problems, this paper presents 1) a specific setting to evaluate the performance of few-shot action recognition algorithms; 2) an implicit sequence-alignment algorithm for better video-level similarity comparison; 3) an advanced loss for few-shot learning to optimize pair similarity with limited data. Specifically, we propose a novel few-shot action recognition framework that uses long short-term memory following 3D convolutional layers for sequence modeling and alignment. Circle loss is introduced to maximize the within-class similarity and minimize the between-class similarity flexibly towards a more definite convergence target. Instead of using random or ambiguous experimental settings, we set a concrete criterion analogous to the standard image-based few-shot learning setting for few-shot action recognition evaluation. Extensive experiments on two datasets demonstrate the effectiveness of our proposed method.
翻訳日:2022-10-07 23:56:48 公開日:2020-10-13
# 3次元ポーズ推定のための自己教師付きマルチビュー同期学習

Self-Supervised Multi-View Synchronization Learning for 3D Pose Estimation ( http://arxiv.org/abs/2010.06218v1 )

ライセンス: Link先を確認
Simon Jenni, Paolo Favaro(参考訳) 画像と対応する骨格ポーズの大規模なデータセット上でニューラルネットワークをトレーニングすることで、モノキュラーな3次元ポーズ推定を学習問題として採用している。 対照的に,未ラベルデータセット上で自己教師あり学習によって事前学習されたネットワークを微調整することにより,小さな注釈付きデータセットを活用できる手法を提案する。 事前学習段階における3次元ポーズ推定を支援するために,画像中の3次元構造に焦点をあてた自己教師型特徴学習タスクを導入する。 マルチビューカメラシステムを用いて,映像から抽出した画像を活用した。 タスクは、2つのイメージが同じシーンの2つのビューを厳格な変換まで描いているかどうかを分類することである。 オブジェクトが非厳密な方法で変形するマルチビューデータセットでは、厳格な変換は2つのビュー間でのみ、すなわち同期された時にのみ発生する。 我々は,Human3.6Mデータセット上での同期タスクの有効性を実証し,人間の3次元ポーズ推定における最先端結果を実現する。

Current state-of-the-art methods cast monocular 3D human pose estimation as a learning problem by training neural networks on large data sets of images and corresponding skeleton poses. In contrast, we propose an approach that can exploit small annotated data sets by fine-tuning networks pre-trained via self-supervised learning on (large) unlabeled data sets. To drive such networks towards supporting 3D pose estimation during the pre-training step, we introduce a novel self-supervised feature learning task designed to focus on the 3D structure in an image. We exploit images extracted from videos captured with a multi-view camera system. The task is to classify whether two images depict two views of the same scene up to a rigid transformation. In a multi-view data set, where objects deform in a non-rigid manner, a rigid transformation occurs only between two views taken at the exact same time, i.e., when they are synchronized. We demonstrate the effectiveness of the synchronization task on the Human3.6M data set and achieve state-of-the-art results in 3D human pose estimation.
翻訳日:2022-10-07 23:56:29 公開日:2020-10-13
# ドライバの眠気検出のためのロバストな2ストリーム多機能ネットワーク

Robust Two-Stream Multi-Feature Network for Driver Drowsiness Detection ( http://arxiv.org/abs/2010.06235v1 )

ライセンス: Link先を確認
Qi Shen, Shengjie Zhao, Rongqing Zhang, Bin Zhang(参考訳) 眠気運転は交通事故の主な原因であり,運転者の眠気検出に焦点を絞った研究が数多く行われている。 疲労検出には多くの要因が考慮されており、高精度化につながる可能性があるが、既存のモデルの多くが環境に影響を受けやすいなど、いくつかの深刻な制約がある。 本稿では,画像分類に代えて,疲労検出を時間的動作検出問題と見なす。 提案する検出システムは,(1)疲労検出に不可欠な検出されたドライバ画像のキーパッチを局所化し,対応する光フローを計算する4つの部分に分けられる。 2) コントラスト制限型適応ヒストグラム等化(clahe)は, 異なる光条件の影響を低減するために用いられる。 3)3つの個別2ストリームネットワークとアテンション機構を組み合わせることで,時間的情報抽出を行う。 (4)3つのサブネットワークの出力は連結され、完全接続されたネットワークに送信され、ドライバの状態が判断される。 有名な国tsing hua university driver drowsiness detection (nthu-ddd) データセット上でdrowsiness detection systemを訓練し、評価し、94.46%の精度を得た。

Drowsiness driving is a major cause of traffic accidents and thus numerous previous researches have focused on driver drowsiness detection. Many drive relevant factors have been taken into consideration for fatigue detection and can lead to high precision, but there are still several serious constraints, such as most existing models are environmentally susceptible. In this paper, fatigue detection is considered as temporal action detection problem instead of image classification. The proposed detection system can be divided into four parts: (1) Localize the key patches of the detected driver picture which are critical for fatigue detection and calculate the corresponding optical flow. (2) Contrast Limited Adaptive Histogram Equalization (CLAHE) is used in our system to reduce the impact of different light conditions. (3) Three individual two-stream networks combined with attention mechanism are designed for each feature to extract temporal information. (4) The outputs of the three sub-networks will be concatenated and sent to the fully-connected network, which judges the status of the driver. The drowsiness detection system is trained and evaluated on the famous Nation Tsing Hua University Driver Drowsiness Detection (NTHU-DDD) dataset and we obtain an accuracy of 94.46%, which outperforms most existing fatigue detection models.
翻訳日:2022-10-07 23:56:13 公開日:2020-10-13
# DORi:ビデオ中の自然言語クエリのモーメントローカライゼーションのためのオブジェクト関係の発見

DORi: Discovering Object Relationship for Moment Localization of a Natural-Language Query in Video ( http://arxiv.org/abs/2010.06260v1 )

ライセンス: Link先を確認
Cristian Rodriguez-Opazo and Edison Marrese-Taylor and Basura Fernando and Hongdong Li and Stephen Gould(参考訳) 本稿では,自然言語クエリを用いた長編ビデオにおける時間的モーメントローカライゼーションの課題について検討する。 問合せ文が与えられた場合、目標はビデオ内の関連するセグメントの開始と終了を決定することである。 私たちの重要なイノベーションは、時間的モーメントのローカライゼーションに適した言語条件付きメッセージパッシングアルゴリズムを通じて、ビデオ内の人間、オブジェクト、アクティビティの関係を捉えるビデオ機能を学ぶことです。 これらの関係は、検出されたオブジェクトと言語クエリで条件付けられた人間の特徴を用いてシーン表現をコンテキスト化する空間サブグラフによって得られる。 さらに、テンポラリサブグラフは、時間を通じてビデオ内のアクティビティをキャプチャする。 本手法は,3つの標準ベンチマークデータセットを用いて評価し,新しいベンチマークとしてYouCookIIを導入する。 実験により,本手法はこれらのデータセットの最先端手法よりも優れており,本手法の有効性が確認されている。

This paper studies the task of temporal moment localization in a long untrimmed video using natural language query. Given a query sentence, the goal is to determine the start and end of the relevant segment within the video. Our key innovation is to learn a video feature embedding through a language-conditioned message-passing algorithm suitable for temporal moment localization which captures the relationships between humans, objects and activities in the video. These relationships are obtained by a spatial sub-graph that contextualizes the scene representation using detected objects and human features conditioned in the language query. Moreover, a temporal sub-graph captures the activities within the video through time. Our method is evaluated on three standard benchmark datasets, and we also introduce YouCookII as a new benchmark for this task. Experiments show our method outperforms state-of-the-art methods on these datasets, confirming the effectiveness of our approach.
翻訳日:2022-10-07 23:55:51 公開日:2020-10-13
# スパース符号化に基づくスケールおよび回転不変キーポイント検出器

A Scale and Rotational Invariant Key-point Detector based on Sparse Coding ( http://arxiv.org/abs/2010.06264v1 )

ライセンス: Link先を確認
Thanh Hong-Phuoc and Ling Guan(参考訳) ハリスコーナー、SIFT、SURFなどの手作りキーポイント検出器は、画像中のコーナー、ブロブ、ジャンクション、その他の人間の定義された構造を検出することを目的としている。 幾何変換は堅牢であるが、意図しないシナリオや不均一な照明のバリエーションは性能を著しく低下させる可能性がある。 したがって、文脈変化に柔軟で、幾何学的および非一様照明のバリエーションと同時に堅牢な新しい検出器は非常に望ましい。 本稿では,SRI-SCK(Scale and Rotation Invariant Design)をSparse Codingベースのキーポイント検出器(Key-point Detector, SCK)に組み込むことにより,この問題の解決法を提案する。 sck検出器は様々なシナリオで柔軟であり、アフィン強度の変化に完全に不変であるが、劇的なスケールと回転変化を持つ画像を扱うように設計されていない。 SRI-SCKでは、SCKのスパース符号化ステップで使用される辞書の複数の回転バージョンを組み合わせて回転不変性を実現するとともに、画像ピラミッド技術を用いてスケール不変性を実現する。 また,キーポイントの特性尺度とサブピクセル精度位置の計算手法も提案した。 3つの公開データセットにおける実験結果は、再現性とマッチングスコアが有意に高いことを示している。

Most popular hand-crafted key-point detectors such as Harris corner, SIFT, SURF aim to detect corners, blobs, junctions or other human defined structures in images. Though being robust with some geometric transformations, unintended scenarios or non-uniform lighting variations could significantly degrade their performance. Hence, a new detector that is flexible with context change and simultaneously robust with both geometric and non-uniform illumination variations is very desirable. In this paper, we propose a solution to this challenging problem by incorporating Scale and Rotation Invariant design (named SRI-SCK) into a recently developed Sparse Coding based Key-point detector (SCK). The SCK detector is flexible in different scenarios and fully invariant to affine intensity change, yet it is not designed to handle images with drastic scale and rotation changes. In SRI-SCK, the scale invariance is implemented with an image pyramid technique while the rotation invariance is realized by combining multiple rotated versions of the dictionary used in the sparse coding step of SCK. Techniques for calculation of key-points' characteristic scales and their sub-pixel accuracy positions are also proposed. Experimental results on three public datasets demonstrate that significantly high repeatability and matching score are achieved.
翻訳日:2022-10-07 23:55:34 公開日:2020-10-13
# XL-WiC:意味文脈評価のための多言語ベンチマーク

XL-WiC: A Multilingual Benchmark for Evaluating Semantic Contextualization ( http://arxiv.org/abs/2010.06478v1 )

ライセンス: Link先を確認
Alessandro Raganato, Tommaso Pasini, Jose Camacho-Collados, Mohammad Taher Pilehvar(参考訳) 単語の異なる意味を正確にモデル化する能力は、意味表現技法の有効性に不可欠である。 しかし、この基準を評価するための既存の評価ベンチマークのほとんどは、知識に基づく表現技法のごく一部に制限された在庫(通常はwordnet)に結びついている。 Word-in-Context データセット (WiC) は、標準曖昧化タスクを二項分類問題として再定義することで、感覚在庫への依存に対処するが、英語に限られる。 我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、様々な言語ファミリーの12の言語でゴールド標準を特徴とし、リソースの可用性も異なる。 我々は、データセットの信頼性を決定するための一連の実験を行い、最近の文脈化多言語モデルのパフォーマンスベースラインを設定する。 実験結果から, 対象言語にタグ付けされたインスタンスが存在しない場合でも, 単語の異なる意味を識別するタスクにおいて, 英語データのみに訓練されたモデルは, 遠い言語でも, 競争力を発揮することが示された。 XL-WiCはhttps://pilehvar.github.io/xlwic/で入手できる。

The ability to correctly model distinct meanings of a word is crucial for the effectiveness of semantic representation techniques. However, most existing evaluation benchmarks for assessing this criterion are tied to sense inventories (usually WordNet), restricting their usage to a small subset of knowledge-based representation techniques. The Word-in-Context dataset (WiC) addresses the dependence on sense inventories by reformulating the standard disambiguation task as a binary classification problem; but, it is limited to the English language. We put forward a large multilingual benchmark, XL-WiC, featuring gold standards in 12 new languages from varied language families and with different degrees of resource availability, opening room for evaluation scenarios such as zero-shot cross-lingual transfer. We perform a series of experiments to determine the reliability of the datasets and to set performance baselines for several recent contextualized multilingual models. Experimental results show that even when no tagged instances are available for a target language, models trained solely on the English data can attain competitive performance in the task of distinguishing different meanings of a word, even for distant languages. XL-WiC is available at https://pilehvar.github.io/xlwic/.
翻訳日:2022-10-07 23:48:57 公開日:2020-10-13
# 変圧器に基づく言語モデルにおける多言語数値理解のための探索

Probing for Multilingual Numerical Understanding in Transformer-Based Language Models ( http://arxiv.org/abs/2010.06666v1 )

ライセンス: Link先を確認
Devin Johnson, Denise Mak, Drew Barker, Lexi Loessberg-Zahl(参考訳) 自然言語数は構成構造の例であり、より大きな数はより小さい数の演算で構成されている。 コンポジション推論が自然言語理解の鍵となることを前提として,DistilBERT,XLM,BERTでテストされた新しい多言語探索タスクを提案し,様々な自然言語数系における数値データに対するコンポジション推論の証拠について検討する。 英語,日本語,デンマーク語,フランス語の文法的判断と価値比較分類の両方を用いて,事前学習されたモデルの埋め込みに符号化された情報が文法的判断には十分であるが,一般的には価値比較には適さないことを示す。 この理由を分析し、今後の研究でタスクをどのように拡張できるかについて議論する。

Natural language numbers are an example of compositional structures, where larger numbers are composed of operations on smaller numbers. Given that compositional reasoning is a key to natural language understanding, we propose novel multilingual probing tasks tested on DistilBERT, XLM, and BERT to investigate for evidence of compositional reasoning over numerical data in various natural language number systems. By using both grammaticality judgment and value comparison classification tasks in English, Japanese, Danish, and French, we find evidence that the information encoded in these pretrained models' embeddings is sufficient for grammaticality judgments but generally not for value comparisons. We analyze possible reasons for this and discuss how our tasks could be extended in further studies.
翻訳日:2022-10-07 23:48:22 公開日:2020-10-13
# テキスト要約の人肉品質に対するブランの感度

Sensitivity of BLANC to human-scored qualities of text summaries ( http://arxiv.org/abs/2010.06716v1 )

ライセンス: Link先を確認
Oleg Vasilyev, Vedant Dharnidharka, Nicholas Egan, Charlene Chambliss, John Bohannon(参考訳) 文書要約品質推定器である blanc の人間による品質評価に対する感度について検討した。 人間の評価では,要約がいかに流動的で,理解可能で,情報的,コンパクトで,事実的に正しいかによって,5つの要約品質を区別する。 我々は,BLANCパラメータを最適に用いて,BLANCのほぼすべてのサマリ品質に対する感度は,人間のアノテータの感度と同程度であることを示す。

We explore the sensitivity of a document summary quality estimator, BLANC, to human assessment of qualities for the same summaries. In our human evaluations, we distinguish five summary qualities, defined by how fluent, understandable, informative, compact, and factually correct the summary is. We make the case for optimal BLANC parameters, at which the BLANC sensitivity to almost all of summary qualities is about as good as the sensitivity of a human annotator.
翻訳日:2022-10-07 23:48:01 公開日:2020-10-13
# 特定エミッタ同定のためのディープ遅延ループ貯留層計算

Deep Delay Loop Reservoir Computing for Specific Emitter Identification ( http://arxiv.org/abs/2010.06649v1 )

ライセンス: Link先を確認
Silvija Kokalj-Filipovic and Paul Toliver and William Johnson and Raymond R. Hoare II and Joseph J. Jezak(参考訳) 現在の戦術最先端のaiシステムは、現場でのトレーニングと状況把握のための推論をサポートする計算資源が欠如しており、セキュリティ、帯域幅、ミッションレイテンシ要件のためにバックホールリソースを活用することは必ずしも現実的ではない。 本稿では,小型モバイルデバイス上で一般的な機械学習アルゴリズムをサポートする処理アーキテクチャであるdeep delay loop reservoir computing (dlr) と,光領域における信号の時間的・時間的・波長的・空間的多様性を利用した革新的なフォトニックハードウェアを組み合わせたソリューションを提案する。 dlrは、最新技術と比較して、フォームファクタ、ハードウェアの複雑さ、消費電力、レイテンシの削減を提供する。 DLRは単一のフォトニックDLといくつかの電気光学部品で実装できる。 ある場合、複数のDLレイヤは、追加のレイテンシなしでDLRの学習能力を増加させる。 本稿では,rf特定エミッタ識別の適用におけるdlrの利点を示す。

Current AI systems at the tactical edge lack the computational resources to support in-situ training and inference for situational awareness, and it is not always practical to leverage backhaul resources due to security, bandwidth, and mission latency requirements. We propose a solution through Deep delay Loop Reservoir Computing (DLR), a processing architecture supporting general machine learning algorithms on compact mobile devices by leveraging delay-loop (DL) reservoir computing in combination with innovative photonic hardware exploiting the inherent speed, and spatial, temporal and wavelength-based processing diversity of signals in the optical domain. DLR delivers reductions in form factor, hardware complexity, power consumption and latency, compared to State-of-the-Art . DLR can be implemented with a single photonic DL and a few electro-optical components. In certain cases multiple DL layers increase learning capacity of the DLR with no added latency. We demonstrate the advantages of DLR on the application of RF Specific Emitter Identification.
翻訳日:2022-10-07 23:47:28 公開日:2020-10-13
# 因果構造学習:ランダムグラフに基づくベイズ的アプローチ

Causal Structure Learning: a Bayesian approach based on random graphs ( http://arxiv.org/abs/2010.06164v1 )

ライセンス: Link先を確認
Mauricio Gonzalez-Soto, Ivan R. Feliciano-Avelino, L. Enrique Sucar, Hugo J. Escalante Balderas(参考訳) ランダムグラフ(英: Random Graph)は、グラフの空間で値を取るランダムオブジェクトである。 グラフの表現可能性を利用して,与えられた変数群における因果関係の存在に関する不確かさをモデル化する。 我々は,因果環境との相互作用と学習を通じて因果構造を捉えるために,ベイズ的視点を採用する。 提案手法を2つの異なるシナリオでテストし,本手法が因果構造を学習できることを主に検証した。 さらに,第1テストシナリオに提示した実験と結果から,因果構造を学習する上での手法の有用性と,最適な行動を示す。 一方,第2の実験では,提案手法が,異なるサイズと異なる因果構造を持つ複数のタスクの背後にある因果構造を学習できることが示されている。

A Random Graph is a random object which take its values in the space of graphs. We take advantage of the expressibility of graphs in order to model the uncertainty about the existence of causal relationships within a given set of variables. We adopt a Bayesian point of view in order to capture a causal structure via interaction and learning with a causal environment. We test our method over two different scenarios, and the experiments mainly confirm that our technique can learn a causal structure. Furthermore, the experiments and results presented for the first test scenario demonstrate the usefulness of our method to learn a causal structure as well as the optimal action. On the other hand the second experiment, shows that our proposal manages to learn the underlying causal structure of several tasks with different sizes and different causal structures.
翻訳日:2022-10-07 23:47:10 公開日:2020-10-13
# グラフ畳み込みニューラルネットワークを用いた時間的協調フィルタリング

Temporal Collaborative Filtering with Graph Convolutional Neural Networks ( http://arxiv.org/abs/2010.06425v1 )

ライセンス: Link先を確認
Esther Rodrigo Bonet, Duc Minh Nguyen and Nikos Deligiannis(参考訳) 時間的コラボレーティブフィルタリング(tcf)の手法は,ユーザの嗜好のダイナミクスやアイテム周辺の社会的傾向など,レコメンダシステムの背後にある非静的な側面をモデル化することを目的としている。 最先端のTCF手法では、そのような側面をモデル化するためにリカレントニューラルネットワーク(RNN)を用いる。 これらの手法は、ユーザとアイテムの表現を学習するために、行列分解に基づく(MFに基づく)アプローチをデプロイする。 近年、グラフニューラルネットワーク(GNNベース)アプローチは、非時間的CF設定における従来のMFベースのアプローチよりも正確なレコメンデーションを提供することで、性能が改善されている。 そこで本研究では,ユーザとアイテムの表現を学習するためのGNNと,その時間的ダイナミクスをモデル化するためのRNNを利用した新しいTCF手法を提案する。 この手法の課題は、GNNによる有意義な品質表現の獲得に悪影響を及ぼすデータ空間の増大にある。 この課題を克服するために、時間的に蓄積された一連の観測相互作用を用いて、各ステップでGNNモデルを訓練する。 実世界のデータに対する包括的実験により, 最先端の時間的および非時間的CFモデルに対して, 提案手法により得られた改善性能を示す。

Temporal collaborative filtering (TCF) methods aim at modelling non-static aspects behind recommender systems, such as the dynamics in users' preferences and social trends around items. State-of-the-art TCF methods employ recurrent neural networks (RNNs) to model such aspects. These methods deploy matrix-factorization-based (MF-based) approaches to learn the user and item representations. Recently, graph-neural-network-based (GNN-based) approaches have shown improved performance in providing accurate recommendations over traditional MF-based approaches in non-temporal CF settings. Motivated by this, we propose a novel TCF method that leverages GNNs to learn user and item representations, and RNNs to model their temporal dynamics. A challenge with this method lies in the increased data sparsity, which negatively impacts obtaining meaningful quality representations with GNNs. To overcome this challenge, we train a GNN model at each time step using a set of observed interactions accumulated time-wise. Comprehensive experiments on real-world data show the improved performance obtained by our method over several state-of-the-art temporal and non-temporal CF models.
翻訳日:2022-10-07 23:46:56 公開日:2020-10-13
# 混合整数線形計画法によるゲームレベルの修復

Video Game Level Repair via Mixed Integer Linear Programming ( http://arxiv.org/abs/2010.06627v1 )

ライセンス: Link先を確認
Hejia Zhang, Matthew C. Fontaine, Amy K. Hoover, Julian Togelius, Bistra Dilkina, Stefanos Nikolaidis(参考訳) 機械学習によるプロシージャコンテンツ生成の進歩により、美学的に人間に類似したゲームレベルの生成が可能になった。 しかし、生成されたレベルは追加の編集なしでは再生できないことが多い。 本稿では,特定のスタイルに固執するプレイ可能なレベルの自動生成のための生成-then-repairフレームワークを提案する。 このフレームワークは、人によって訓練されたGAN(Generative Adversarial Network)を用いてレベルを構築し、遊び性制約のある混合整数線形プログラム(MIP)を用いてそれらを修復する。 このフレームワークの重要なコンポーネントは、gan生成レベルと最小コストネットワークフロー問題としてキャストされたmipソルバのソリューションの間の最小コスト編集を計算することである。 以上の結果から,提案フレームワークは多種多様なプレイ可能なレベルを生成し,人間に許可されたレベルのオブジェクト間の空間的関係をキャプチャする。

Recent advancements in procedural content generation via machine learning enable the generation of video-game levels that are aesthetically similar to human-authored examples. However, the generated levels are often unplayable without additional editing. We propose a generate-then-repair framework for automatic generation of playable levels adhering to specific styles. The framework constructs levels using a generative adversarial network (GAN) trained with human-authored examples and repairs them using a mixed-integer linear program (MIP) with playability constraints. A key component of the framework is computing minimum cost edits between the GAN generated level and the solution of the MIP solver, which we cast as a minimum cost network flow problem. Results show that the proposed framework generates a diverse range of playable levels, that capture the spatial relationships between objects exhibited in the human-authored levels.
翻訳日:2022-10-07 23:46:35 公開日:2020-10-13
# f1が足りない! ユーザ中心型説明可能な質問応答モデルと評価

F1 is Not Enough! Models and Evaluation Towards User-Centered Explainable Question Answering ( http://arxiv.org/abs/2010.06283v1 )

ライセンス: Link先を確認
Hendrik Schuff, Heike Adel, Ngoc Thang Vu(参考訳) 説明可能な質問応答システムは、回答が選択された理由を示す説明と共に回答を予測する。 目標は、ユーザがシステムの正確性を評価し、その推論プロセスを理解することにある。 しかし,現在のモデルと評価設定は,ユーザエクスペリエンスに深刻な問題を引き起こす可能性のある回答と説明の結合に関して,欠点があることが示されている。 そこで,本稿では,階層モデルと新たな正規化項を提案し,解-説明結合の強化と,結合の定量化のための2つの評価スコアを提案する。 我々はhotpotqaベンチマークデータセットの実験を行い,ユーザスタディを行う。 ユーザ調査の結果,本モデルではシステムの正確性を判断する能力が向上し,f1のようなスコアでは実用的環境でのモデルの有用性を推定できないことがわかった。 我々のスコアはユーザー体験に合致し、モデル選択に有望な候補となる。

Explainable question answering systems predict an answer together with an explanation showing why the answer has been selected. The goal is to enable users to assess the correctness of the system and understand its reasoning process. However, we show that current models and evaluation settings have shortcomings regarding the coupling of answer and explanation which might cause serious issues in user experience. As a remedy, we propose a hierarchical model and a new regularization term to strengthen the answer-explanation coupling as well as two evaluation scores to quantify the coupling. We conduct experiments on the HOTPOTQA benchmark data set and perform a user study. The user study shows that our models increase the ability of the users to judge the correctness of the system and that scores like F1 are not enough to estimate the usefulness of a model in a practical setting with human users. Our scores are better aligned with user experience, making them promising candidates for model selection.
翻訳日:2022-10-07 23:40:16 公開日:2020-10-13
# PDTB-3における意図的談話関係認識の拡張

Extending Implicit Discourse Relation Recognition to the PDTB-3 ( http://arxiv.org/abs/2010.06294v1 )

ライセンス: Link先を確認
Li Liang, Zheng Zhao and Bonnie Webber(参考訳) PDTB-3は以前のPDTB-2よりも多くのインプリシットな談話関係を含んでいる。 これは、暗黙的な関係が文内でもそれらの間でも注釈されているためである。 さらに、現在では、独自の立場ではなく、明示的な言論関係を持つ者もいる。 ここでは,暗黙の談話関係の位置を同定する問題を複雑化するが,それらの感覚を識別する問題を単純化できることを示す。 この主張を支持するためのデータと、暗黙の言論関係のための未来の最先端認識者のための非自明なベースラインとして機能する手法を提案する。

The PDTB-3 contains many more Implicit discourse relations than the previous PDTB-2. This is in part because implicit relations have now been annotated within sentences as well as between them. In addition, some now co-occur with explicit discourse relations, instead of standing on their own. Here we show that while this can complicate the problem of identifying the location of implicit discourse relations, it can in turn simplify the problem of identifying their senses. We present data to support this claim, as well as methods that can serve as a non-trivial baseline for future state-of-the-art recognizers for implicit discourse relations.
翻訳日:2022-10-07 23:40:04 公開日:2020-10-13
# tatoeba translation challenge -- 低リソースと多言語mtのための現実的なデータセット

The Tatoeba Translation Challenge -- Realistic Data Sets for Low Resource and Multilingual MT ( http://arxiv.org/abs/2010.06354v1 )

ライセンス: Link先を確認
J\"org Tiedemann(参考訳) 本稿では,500以上の言語を対象とした何千もの言語ペアのトレーニングとテストデータを提供する機械翻訳のための新しいベンチマークの開発について述べる。 主な目標は、世界言語をより広範囲にカバーしたオープン翻訳ツールとモデルの開発をトリガーすることである。 パッケージを使用することで、ゼロショットや少数ショット学習で一般的な、人工的に削減されたセットアップを避けることができる。 このパッケージは、体系的な言語とスクリプトのアノテーションとデータ分割によって、数百の言語で多様なデータセットを包括的に収集し、既存のベンチマークの範囲を広げる。 データリリースとともに、個々の言語ペアと選択された言語グループのための事前訓練されたベースラインモデルも増えています。

This paper describes the development of a new benchmark for machine translation that provides training and test data for thousands of language pairs covering over 500 languages and tools for creating state-of-the-art translation models from that collection. The main goal is to trigger the development of open translation tools and models with a much broader coverage of the World's languages. Using the package it is possible to work on realistic low-resource scenarios avoiding artificially reduced setups that are common when demonstrating zero-shot or few-shot learning. For the first time, this package provides a comprehensive collection of diverse data sets in hundreds of languages with systematic language and script annotation and data splits to extend the narrow coverage of existing benchmarks. Together with the data release, we also provide a growing number of pre-trained baseline models for individual language pairs and selected language groups.
翻訳日:2022-10-07 23:39:04 公開日:2020-10-13
# RuSemShift:ロシアにおける歴史的語彙意味変化のデータセット

RuSemShift: a dataset of historical lexical semantic change in Russian ( http://arxiv.org/abs/2010.06436v1 )

ライセンス: Link先を確認
Julia Rodina, Andrey Kutuzov(参考訳) ソ連時代からソ連時代、ソ連時代からソ連時代までの2つの長期にわたって、ロシアにおける意味的変化モデリングのタスクのための、大規模な手動アノテーションによるテストセットであるrusemshiftを提案する。 ターゲット語は複数のクラウドソースワーカーによって注釈付けされた。 アノテーションプロセスはDURELフレームワークに従って編成され、ロシア国立コーパスから抽出された文文脈に基づいていた。 また,RuSemShiftにおけるいくつかの分散手法の性能を報告し,将来性のある結果を得るとともに,他の研究者が改善する余地も確保した。

We present RuSemShift, a large-scale manually annotated test set for the task of semantic change modeling in Russian for two long-term time period pairs: from the pre-Soviet through the Soviet times and from the Soviet through the post-Soviet times. Target words were annotated by multiple crowd-source workers. The annotation process was organized following the DURel framework and was based on sentence contexts extracted from the Russian National Corpus. Additionally, we report the performance of several distributional approaches on RuSemShift, achieving promising results, which at the same time leave room for other researchers to improve.
翻訳日:2022-10-07 23:38:15 公開日:2020-10-13
# Twitter Hashtag Activism運動におけるデモグラフィック表現と集合的ストーリーテリング

Demographic Representation and Collective Storytelling in the Me Too Twitter Hashtag Activism Movement ( http://arxiv.org/abs/2010.06472v1 )

ライセンス: Link先を確認
Aaron Mueller, Zach Wood-Doughty, Silvio Amir, Mark Dredze, Alicia L. Nobles(参考訳) twitter上の#metoo運動は、セクハラや暴力の広汎な性質に注目を集めている。 また、#MeTooは、ハラスメントや暴力の自己開示や社会反応のシフトを支持することで称賛されているが、フェミニスト運動への歴史的貢献や排除により、有色人種の女性たちがいかに割引されたかを示すものとして批判されている。 25万6000以上のユニークユーザーから60万以上のツイートを分析し、性別と人種/民族のアイデンティティと各層が強調するトピックに関するオンライン#metooの会話を調査した。 白人女性によって書かれたツイートは、他の人口動態と比べて過大評価され、不平等な表現に対する批判と一致していることがわかった。 交差したアイデンティティは,運動のフレーム化に寄与し,並行して進行する運動の可視性を高めるために運動を協調し,批判的かつ支持的に同じハッシュタグを併用し,重要な瞬間に対応するために新たなハッシュタグを復活させ,創出することを発見した。 特に、黒人女性が書いたツイートは、しばしば感情的な支持を表明し、司法制度と警察の異なる扱いについて批判的であった。 対照的に、白人女性や男性によって書かれたツイートは、公的な人物によるセクハラや暴力をしばしば強調し、より一般的な政治議論に織り込まれた。 本稿では,デジタル・アクティビズム研究とデザインにおける作業の意義と,このハッシュタグ・アクティビズム運動に過小評価された人々の視認性を高めるための提案について論じる。 コンテンツ警告: この記事はセクハラと暴力の問題について論じる。

The #MeToo movement on Twitter has drawn attention to the pervasive nature of sexual harassment and violence. While #MeToo has been praised for providing support for self-disclosures of harassment or violence and shifting societal response, it has also been criticized for exemplifying how women of color have been discounted for their historical contributions to and excluded from feminist movements. Through an analysis of over 600,000 tweets from over 256,000 unique users, we examine online #MeToo conversations across gender and racial/ethnic identities and the topics that each demographic emphasized. We found that tweets authored by white women were overrepresented in the movement compared to other demographics, aligning with criticism of unequal representation. We found that intersected identities contributed differing narratives to frame the movement, co-opted the movement to raise visibility in parallel ongoing movements, employed the same hashtags both critically and supportively, and revived and created new hashtags in response to pivotal moments. Notably, tweets authored by black women often expressed emotional support and were critical about differential treatment in the justice system and by police. In comparison, tweets authored by white women and men often highlighted sexual harassment and violence by public figures and weaved in more general political discussions. We discuss the implications of work for digital activism research and design including suggestions to raise visibility by those who were under-represented in this hashtag activism movement. Content warning: this article discusses issues of sexual harassment and violence.
翻訳日:2022-10-07 23:37:26 公開日:2020-10-13
# 対数計算に基づく超小型組込みCNNプロセッサの設計

A Very Compact Embedded CNN Processor Design Based on Logarithmic Computing ( http://arxiv.org/abs/2010.11686v1 )

ライセンス: Link先を確認
Tsung-Ying Lu, Hsu-Hsun Chin, Hsin-I Wu, and Ren-Song Tsay(参考訳) 本稿では,超低ビット幅表現を用いた修正対数計算法に基づく,非常にコンパクトなcnnプロセッサ設計を提案する。 当社の高品質cnnプロセッサは、エッジデバイスに簡単にフィットできます。 Yolov2 では, TSMC 40 nm セルライブラリを使用すれば 0.15 mm2 しか処理できない。 鍵となる考え方は、すべての層の活性化と重量値を[-1, 1]の範囲内に均一に制限し、低ビット幅対数表現を生成することである。 統一された再利用可能なCNN計算カーネルを考案し,計算資源を大幅に削減する。 提案手法は,多数の画像分類CNNモデル (AlexNet, VGG16, ResNet-18/34) とオブジェクト検出モデル (Yolov2) で広く評価されている。 ハードウェアが実装した結果から、我々の設計は最小限の計算資源とストレージリソースしか消費しないが、精度は非常に高い。 設計はFPGA上で徹底的に検証されており、SoC統合は有望な結果と共に進行中である。 非常に効率的なリソースとエネルギーの使用により、我々の設計はエッジコンピューティングに最適です。

In this paper, we propose a very compact embedded CNN processor design based on a modified logarithmic computing method using very low bit-width representation. Our high-quality CNN processor can easily fit into edge devices. For Yolov2, our processing circuit takes only 0.15 mm2 using TSMC 40 nm cell library. The key idea is to constrain the activation and weight values of all layers uniformly to be within the range [-1, 1] and produce low bit-width logarithmic representation. With the uniform representations, we devise a unified, reusable CNN computing kernel and significantly reduce computing resources. The proposed approach has been extensively evaluated on many popular image classification CNN models (AlexNet, VGG16, and ResNet-18/34) and object detection models (Yolov2). The hardware-implemented results show that our design consumes only minimal computing and storage resources, yet attains very high accuracy. The design is thoroughly verified on FPGAs, and the SoC integration is underway with promising results. With extremely efficient resource and energy usage, our design is excellent for edge computing purposes.
翻訳日:2022-10-07 23:31:04 公開日:2020-10-13
# クラウドワーカーに詳細な例を書いて欲しい: 悪い選択肢のベスト

Asking Crowdworkers to Write Entailment Examples: The Best of Bad Options ( http://arxiv.org/abs/2010.06122v1 )

ライセンス: Link先を確認
Clara Vania, Ruijie Chen, Samuel R. Bowman(参考訳) SNLI(英語版)やMNLI(英語版)のような大規模自然言語推論(NLI)データセットは、クラウドワーカーに前提を読み、新しい仮説を3つ書き込むことで作成されている。 このプロトコルは有用なベンチマークデータの作成に使われてきたが、直接評価されていないため、書き込みベースのアノテーションプロトコルがどのような目的にも最適かどうかは不明だ。 さらに、クラウドワーカーがデータにアーティファクトを導入できるという証拠はたくさんある。 本稿では,アノテータがラベル付けする候補(前提,仮説)ペアを自動生成する2つの代替プロトコルについて検討する。 これらのプロトコルと書き込みベースのベースラインを使用して、それぞれ3k以上のサンプルからなる新しい英語NLIデータセットを収集し、それぞれに一定量のアノテータ時間を用いるが、その時間予算に適合するさまざまなサンプルを収集する。 nliとトランスファーラーニングの実験では、nli内の一般化の評価や外部のターゲットタスクへの転送において、代替プロトコルがベースラインを上回らないというネガティブな結果が得られました。 結論として,crowdworker writingはデータ補完の最もよく知られている選択肢であり,書き込みベースのアノテーションプロセスの改善に注力するためのデータ収集作業の必要性を強調している。

Large-scale natural language inference (NLI) datasets such as SNLI or MNLI have been created by asking crowdworkers to read a premise and write three new hypotheses, one for each possible semantic relationships (entailment, contradiction, and neutral). While this protocol has been used to create useful benchmark data, it remains unclear whether the writing-based annotation protocol is optimal for any purpose, since it has not been evaluated directly. Furthermore, there is ample evidence that crowdworker writing can introduce artifacts in the data. We investigate two alternative protocols which automatically create candidate (premise, hypothesis) pairs for annotators to label. Using these protocols and a writing-based baseline, we collect several new English NLI datasets of over 3k examples each, each using a fixed amount of annotator time, but a varying number of examples to fit that time budget. Our experiments on NLI and transfer learning show negative results: None of the alternative protocols outperforms the baseline in evaluations of generalization within NLI or on transfer to outside target tasks. We conclude that crowdworker writing still the best known option for entailment data, highlighting the need for further data collection work to focus on improving writing-based annotation processes.
翻訳日:2022-10-07 23:30:25 公開日:2020-10-13
# 崩壊は必ずしも悪いことではない:Essay ScoringのためのCorruptionによるプレトレーニングに談話構造を組み込むこと

Corruption Is Not All Bad: Incorporating Discourse Structure into Pre-training via Corruption for Essay Scoring ( http://arxiv.org/abs/2010.06137v1 )

ライセンス: Link先を確認
Farjana Sultana Mim, Naoya Inoue, Paul Reisert, Hiroki Ouchi and Kentaro Inui(参考訳) 既存のエッセイの自動採点と文書表現学習のアプローチは、談話構造をテキスト表現に組み込むために、談話パーサーに依存している。 しかし、特に学生エッセイなどの騒がしいテキストで使用される場合、パーサーのパフォーマンスは必ずしも適切ではない。 本稿では,エッセイの言論構造を,言論パーザやアノテーションを必要としない一貫性と凝集度で捉えるための教師なし事前学習手法を提案する。 提案する事前学習手法において,いくつかのトークン,文,段落レベルの腐敗手法を導入するとともに,文脈情報と談話情報の両方を活用するために,事前学習によるマスク言語モデリングを補強する。 提案手法は,エッセイ組織スコアリングタスクにおいて,新たな最先端結果を達成する。

Existing approaches for automated essay scoring and document representation learning typically rely on discourse parsers to incorporate discourse structure into text representation. However, the performance of parsers is not always adequate, especially when they are used on noisy texts, such as student essays. In this paper, we propose an unsupervised pre-training approach to capture discourse structure of essays in terms of coherence and cohesion that does not require any discourse parser or annotation. We introduce several types of token, sentence and paragraph-level corruption techniques for our proposed pre-training approach and augment masked language modeling pre-training with our pre-training method to leverage both contextualized and discourse information. Our proposed unsupervised approach achieves new state-of-the-art result on essay Organization scoring task.
翻訳日:2022-10-07 23:30:02 公開日:2020-10-13
# アダプタで並列シーケンスデコードにbertを組み込む

Incorporating BERT into Parallel Sequence Decoding with Adapters ( http://arxiv.org/abs/2010.06138v1 )

ライセンス: Link先を確認
Junliang Guo, Zhirui Zhang, Linli Xu, Hao-Ran Wei, Boxing Chen, Enhong Chen(参考訳) BERTのような大規模事前学習言語モデルは、様々な自然言語理解タスクにおいて大きな成功を収めてきたが、それらをシーケンス・ツー・シーケンスモデルに効率的に効果的に組み込む方法や、それに対応するテキスト生成タスクは、相変わらず簡単な問題である。 本稿では,2種類のBERTモデルをエンコーダとデコーダとして取り込んで,BERT層間に挿入してタスク固有のデータセットに調整する,シンプルで軽量なアダプタモジュールを導入することで,この問題に対処することを提案する。 このようにして,ソース・サイドとターゲット・サイドのbertモデルに含まれる情報を協調的に活用できる柔軟性と効率のよいモデルを得る。 フレームワークの各コンポーネントはプラグインユニットと見なすことができ、フレームワークは柔軟でタスクに依存しない。 本フレームワークは,BERTの双方向および条件独立性を考慮した並列シーケンス復号アルゴリズムMask-Predictに基づいており,従来の自己回帰復号に容易に適応できる。 提案手法は、推論遅延を半分に抑えながら自己回帰ベースラインを一貫して上回り、IWSLT14ドイツ語-英語/WMT14ドイツ語-英語翻訳のBLEUスコアを36.49ドル/33.57ドルで達成する。 自己回帰復号に適応すると、提案手法はWMT14の英語/ドイツ語/英語-フランス語翻訳で30.60$/43.56$BLEUスコアを得る。

While large scale pre-trained language models such as BERT have achieved great success on various natural language understanding tasks, how to efficiently and effectively incorporate them into sequence-to-sequence models and the corresponding text generation tasks remains a non-trivial problem. In this paper, we propose to address this problem by taking two different BERT models as the encoder and decoder respectively, and fine-tuning them by introducing simple and lightweight adapter modules, which are inserted between BERT layers and tuned on the task-specific dataset. In this way, we obtain a flexible and efficient model which is able to jointly leverage the information contained in the source-side and target-side BERT models, while bypassing the catastrophic forgetting problem. Each component in the framework can be considered as a plug-in unit, making the framework flexible and task agnostic. Our framework is based on a parallel sequence decoding algorithm named Mask-Predict considering the bi-directional and conditional independent nature of BERT, and can be adapted to traditional autoregressive decoding easily. We conduct extensive experiments on neural machine translation tasks where the proposed method consistently outperforms autoregressive baselines while reducing the inference latency by half, and achieves $36.49$/$33.57$ BLEU scores on IWSLT14 German-English/WMT14 German-English translation. When adapted to autoregressive decoding, the proposed method achieves $30.60$/$43.56$ BLEU scores on WMT14 English-German/English-French translation, on par with the state-of-the-art baseline models.
翻訳日:2022-10-07 23:29:48 公開日:2020-10-13
# ワークウィークは、家族を始めるのに最適な時間である -- GPT-2に基づくクレーム生成の研究

The workweek is the best time to start a family -- A Study of GPT-2 Based Claim Generation ( http://arxiv.org/abs/2010.06185v1 )

ライセンス: Link先を確認
Shai Gretz, Yonatan Bilu, Edo Cohen-Karlik and Noam Slonim(参考訳) 議論の生成は、ソーシャルメディアや情報の拡散に対する潜在的な影響をタイムリーに検討している困難な課題である。 本稿では,GPT-2に基づくコヒーレントなクレーム生成パイプラインを提案し,その生成するクレームの種類と妥当性について,手動および自動アセスメントの配列を用いて検討する。 さらに,この課題とCrim Retrievalの課題との相互作用を考察し,それらが相互に補完する方法について述べる。

Argument generation is a challenging task whose research is timely considering its potential impact on social media and the dissemination of information. Here we suggest a pipeline based on GPT-2 for generating coherent claims, and explore the types of claims that it produces, and their veracity, using an array of manual and automatic assessments. In addition, we explore the interplay between this task and the task of Claim Retrieval, showing how they can complement one another.
翻訳日:2022-10-07 23:29:16 公開日:2020-10-13
# KLearn: 要約データからの背景知識推論

KLearn: Background Knowledge Inference from Summarization Data ( http://arxiv.org/abs/2010.06213v1 )

ライセンス: Link先を確認
Maxime Peyrard, Robert West(参考訳) テキスト要約の目標は、受信者が既に知っている背景情報を排除しながら、文書を関連情報に圧縮することである。 これまでのところ、要約研究者は背景知識よりも関連性にかなり注意を払ってきた。 対照的に、この作品は背景知識を前景に置く。 人間の要約者や注釈者による選択が背景知識に関する暗黙の情報を含んでいるという認識に基づいて,要約データから背景知識を推定する手法を開発し,比較する。 この枠組みに基づいて,背景知識をモデル化する要約的スコアリング関数を定義し,これらのスコアリング関数が基準値よりも人間の判断に極めて適していることを示す。 フレームワークの多くの潜在的な応用について説明する。 まず、人間の情報の重要性に関する洞察を提供する。 第2に,複数の偏りのあるアノテーションやコーパスの背景知識を平均することで,要約性能が大幅に向上することを示す。 最後に,要約以外のフレームワークの可能性について論じる。

The goal of text summarization is to compress documents to the relevant information while excluding background information already known to the receiver. So far, summarization researchers have given considerably more attention to relevance than to background knowledge. In contrast, this work puts background knowledge in the foreground. Building on the realization that the choices made by human summarizers and annotators contain implicit information about their background knowledge, we develop and compare techniques for inferring background knowledge from summarization data. Based on this framework, we define summary scoring functions that explicitly model background knowledge, and show that these scoring functions fit human judgments significantly better than baselines. We illustrate some of the many potential applications of our framework. First, we provide insights into human information importance priors. Second, we demonstrate that averaging the background knowledge of multiple, potentially biased annotators or corpora greatly improves summary-scoring performance. Finally, we discuss potential applications of our framework beyond summarization.
翻訳日:2022-10-07 23:28:25 公開日:2020-10-13
# 健康状態の個人差を予測できる「Chasing Your Long Tails」

Chasing Your Long Tails: Differentially Private Prediction in Health Care Settings ( http://arxiv.org/abs/2010.06667v1 )

ライセンス: Link先を確認
Vinith M. Suriyakumar, Nicolas Papernot, Anna Goldenberg, Marzyeh Ghassemi(参考訳) 医療における機械学習モデルは、患者のプライバシを保護することが重要である設定にデプロイされることが多い。 このような設定では、差分プライベート(DP)学習の手法は、プライバシを保証するモデルを学ぶための汎用的なアプローチを提供する。 DP学習の近代的な手法は、情報にユニークすぎると判断される情報を検閲するメカニズムを通じてプライバシーを確保する。 結果として生じるプライバシ保護モデルは、データ配布の尾部からの情報を無視し、小さなグループに不均等に影響を及ぼすような精度の喪失をもたらす。 本稿では,医療におけるDP学習の効果について検討する。 画像のx線分類や時系列データの死亡率予測など,臨床予測タスクにおけるプライバシ保存モデルのトレーニングにdp学習の最先端手法を用いる。 これらのモデルを使用して、プライバシ、ユーティリティ、データセットシフトに対する堅牢性、公正性のトレードオフに関する包括的な実証的研究を行います。 以上の結果から, 医療におけるDP学習手法の限界, プライバシとユーティリティの急激なトレードオフを示すモデル, トレーニングデータにおける大規模人口集団の影響を受けないモデルが注目された。 医療における差分私的学習のコストとメリットについて論じる。

Machine learning models in health care are often deployed in settings where it is important to protect patient privacy. In such settings, methods for differentially private (DP) learning provide a general-purpose approach to learn models with privacy guarantees. Modern methods for DP learning ensure privacy through mechanisms that censor information judged as too unique. The resulting privacy-preserving models, therefore, neglect information from the tails of a data distribution, resulting in a loss of accuracy that can disproportionately affect small groups. In this paper, we study the effects of DP learning in health care. We use state-of-the-art methods for DP learning to train privacy-preserving models in clinical prediction tasks, including x-ray classification of images and mortality prediction in time series data. We use these models to perform a comprehensive empirical investigation of the tradeoffs between privacy, utility, robustness to dataset shift, and fairness. Our results highlight lesser-known limitations of methods for DP learning in health care, models that exhibit steep tradeoffs between privacy and utility, and models whose predictions are disproportionately influenced by large demographic groups in the training data. We discuss the costs and benefits of differentially private learning in health care.
翻訳日:2022-10-07 23:22:34 公開日:2020-10-13
# フェデレーションラーニングデザインによるデータプライバシーの可視化:理論的枠組み

COVID-19 Imaging Data Privacy by Federated Learning Design: A Theoretical Framework ( http://arxiv.org/abs/2010.06177v1 )

ライセンス: Link先を確認
Anwaar Ulhaq, Oliver Burmeister(参考訳) 新型コロナウイルス(covid-19)の医療問題に対処するためには、グローバル規模での健康データ、知識、リソースの頻繁な共有が必要です。 しかし、このデジタル時代において、データプライバシは、健康データを使用するすべての技術ソリューションの設計に、プライバシー保証をセキュアに組み込む必要がある大きな懸念である。 本稿では、設計による差分プライバシー(dPbD)フレームワークを導入し、その統合機械学習システムへの埋め込みについて議論する。 論文の範囲を制限するため、コンピュータビジョンとディープラーニングアプローチによる疾患診断のための、COVID-19画像データプライバシの問題シナリオに焦点を当てた。 本稿では,提案するフェデレーション機械学習システムの設計評価について検討し,dpbd( differential privacy by design)フレームワークが拡張性とロバスト性を備えたフェデレーション学習システムにおいて,データプライバシをいかに強化できるかについて議論する。 スケーラブルで微分プライベートなフェデレーション付き学習設計は、COVID19の課題に対処するために必要な、セキュアでプライベートでコラボレーティブな機械学習モデルを構築するための、有望なソリューションである、と私たちは主張する。

To address COVID-19 healthcare challenges, we need frequent sharing of health data, knowledge and resources at a global scale. However, in this digital age, data privacy is a big concern that requires the secure embedding of privacy assurance into the design of all technological solutions that use health data. In this paper, we introduce differential privacy by design (dPbD) framework and discuss its embedding into the federated machine learning system. To limit the scope of our paper, we focus on the problem scenario of COVID-19 imaging data privacy for disease diagnosis by computer vision and deep learning approaches. We discuss the evaluation of the proposed design of federated machine learning systems and discuss how differential privacy by design (dPbD) framework can enhance data privacy in federated learning systems with scalability and robustness. We argue that scalable differentially private federated learning design is a promising solution for building a secure, private and collaborative machine learning model such as required to combat COVID19 challenge.
翻訳日:2022-10-07 23:21:19 公開日:2020-10-13
# Scenic: シナリオ仕様とデータ生成のための言語

Scenic: A Language for Scenario Specification and Data Generation ( http://arxiv.org/abs/2010.06580v1 )

ライセンス: Link先を確認
Daniel J. Fremont and Edward Kim and Tommaso Dreossi and Shromona Ghosh and Xiangyu Yue and Alberto L. Sangiovanni-Vincentelli and Sanjit A. Seshia(参考訳) 本稿では,サイバー物理システムの設計と解析,特に機械学習に基づく新しい確率型プログラミング言語を提案する。 具体的には,レアなイベントに対して堅牢なシステムのトレーニングや,異なる条件下でのパフォーマンステスト,デバッグ障害などの問題を考える。 興味ある入力をエンコードする分布を特定し、それらをサンプリングして特別なトレーニングやテストデータを生成することで、確率的プログラミング言語がこれらの問題にどのように対処できるかを示す。 より一般的には、そのような言語は環境モデルを書くのに使うことができる。 本稿では,自律走行車やロボットといった,任意の時点における環境が,物理的物体やエージェントの構成である「シーン」であるシステムに焦点を当てる。 我々は、シーン上の分布とエージェントの振る舞いを時間とともに記述するドメイン固有言語、Scenicを設計する。 確率的プログラミング言語として、Scenicはシーンの特徴に分布を割り当てるだけでなく、シーン上のハードでソフトな制約を宣言的に課すことができる。 本研究では,maiseのドメイン特化構文による構造を生かして,結果の分布からサンプリングする特殊な手法を開発した。 最後に,道路画像中の車を検出する畳み込みニューラルネットワークのケーススタディにおいて,ランドスケープを適用し,最先端の合成データ生成手法による性能向上を実現した。

We propose a new probabilistic programming language for the design and analysis of cyber-physical systems, especially those based on machine learning. Specifically, we consider the problems of training a system to be robust to rare events, testing its performance under different conditions, and debugging failures. We show how a probabilistic programming language can help address these problems by specifying distributions encoding interesting types of inputs, then sampling these to generate specialized training and test data. More generally, such languages can be used to write environment models, an essential prerequisite to any formal analysis. In this paper, we focus on systems like autonomous cars and robots, whose environment at any point in time is a 'scene', a configuration of physical objects and agents. We design a domain-specific language, Scenic, for describing scenarios that are distributions over scenes and the behaviors of their agents over time. As a probabilistic programming language, Scenic allows assigning distributions to features of the scene, as well as declaratively imposing hard and soft constraints over the scene. We develop specialized techniques for sampling from the resulting distribution, taking advantage of the structure provided by Scenic's domain-specific syntax. Finally, we apply Scenic in a case study on a convolutional neural network designed to detect cars in road images, improving its performance beyond that achieved by state-of-the-art synthetic data generation methods.
翻訳日:2022-10-07 23:20:35 公開日:2020-10-13
# 深層学習による衛星画像の分類

Satellite Image Classification with Deep Learning ( http://arxiv.org/abs/2010.06497v1 )

ライセンス: Link先を確認
Mark Pritt and Gary Chern(参考訳) 衛星画像は災害対応、法執行、環境モニタリングなど多くの用途において重要である。 これらの応用には画像中の物体や施設の手動識別が必要である。 カバーすべき地理的拡張は素晴らしいものであり、検索を行うアナリストは少ないため、自動化が必要である。 しかし、従来のオブジェクト検出と分類アルゴリズムは、その問題を解決するには不正確で信頼できない。 ディープラーニング(deep learning)は、このようなタスクの自動化が期待できる機械学習アルゴリズムのファミリーである。 畳み込みニューラルネットワークによって画像理解に成功している。 本稿では,高解像度マルチスペクトル衛星画像における物体認識と施設認識の問題に適用する。 本稿では,世界のiarpa機能マップ(fmow)から対象と施設を63の異なるクラスに分類する深層学習システムについて述べる。 このシステムは、畳み込みニューラルネットワークと、衛星メタデータと画像特徴を統合する追加のニューラルネットワークからなる。 KerasとTensorFlowのディープラーニングライブラリを使用してPythonで実装され、NVIDIA Titan Xグラフィックカードを備えたLinuxサーバ上で動作する。 執筆時点では、このシステムはfMoW TopCoderコンペティションで2位だ。 総精度は83%、F1スコアは0.797で、95%以上の格付けを持つ15のクラスに分類される。

Satellite imagery is important for many applications including disaster response, law enforcement, and environmental monitoring. These applications require the manual identification of objects and facilities in the imagery. Because the geographic expanses to be covered are great and the analysts available to conduct the searches are few, automation is required. Yet traditional object detection and classification algorithms are too inaccurate and unreliable to solve the problem. Deep learning is a family of machine learning algorithms that have shown promise for the automation of such tasks. It has achieved success in image understanding by means of convolutional neural networks. In this paper we apply them to the problem of object and facility recognition in high-resolution, multi-spectral satellite imagery. We describe a deep learning system for classifying objects and facilities from the IARPA Functional Map of the World (fMoW) dataset into 63 different classes. The system consists of an ensemble of convolutional neural networks and additional neural networks that integrate satellite metadata with image features. It is implemented in Python using the Keras and TensorFlow deep learning libraries and runs on a Linux server with an NVIDIA Titan X graphics card. At the time of writing the system is in 2nd place in the fMoW TopCoder competition. Its total accuracy is 83%, the F1 score is 0.797, and it classifies 15 of the classes with accuracies of 95% or better.
翻訳日:2022-10-07 23:13:37 公開日:2020-10-13
# オフライン手書き署名拡張のための個人内パラメータ最適化

Intrapersonal Parameter Optimization for Offline Handwritten Signature Augmentation ( http://arxiv.org/abs/2010.06663v1 )

ライセンス: Link先を確認
Teruo M. Maruyama, Luiz S. Oliveira, Alceu S. Britto Jr, Robert Sabourin(参考訳) 通常、現実世界のシナリオでは、自動署名検証システム(asvs)をトレーニングするためのシグネチャサンプルがほとんどない。 しかし、そのようなシステムは許容できる性能を達成するために多くの署名を必要とする。 ニューロモーターのシグネチャ重複法と特徴空間拡張法は、サンプル数の増加の必要性を満たすために用いられる。 このようなテクニックは、手動または経験的に、ライターの変動度を導入するためのパラメータのセットを定義します。 そこで本研究では,最も一般的な作家変動特性を自動的にモデル化する手法を提案する。 この方法は、画像と特徴空間のオフラインシグネチャを生成し、ASVSを訓練するために使われる。 また,その特徴量を考慮したサンプルの品質評価手法を提案する。 我々は,gpds,mcyt-75,cedarの3つの既知のオフラインシグネチャデータセットを用いて,生成されたサンプルを用いたasvの性能評価を行った。 GPDS-300では、SVM分類器を1文字あたりの真のシグネチャと画像空間で生成された複製を用いて訓練すると、EER(Equal Error Rate)は5.71%から1.08%に低下した。 同じ条件下で、EERは特徴空間拡張技術を用いて1.04%まで低下した。 また,画像空間における重複を生成するモデルは,3つの異なるデータセットにおいて最も一般的なライター変動特性を再現することを確認した。

Usually, in a real-world scenario, few signature samples are available to train an automatic signature verification system (ASVS). However, such systems do indeed need a lot of signatures to achieve an acceptable performance. Neuromotor signature duplication methods and feature space augmentation methods may be used to meet the need for an increase in the number of samples. Such techniques manually or empirically define a set of parameters to introduce a degree of writer variability. Therefore, in the present study, a method to automatically model the most common writer variability traits is proposed. The method is used to generate offline signatures in the image and the feature space and train an ASVS. We also introduce an alternative approach to evaluate the quality of samples considering their feature vectors. We evaluated the performance of an ASVS with the generated samples using three well-known offline signature datasets: GPDS, MCYT-75, and CEDAR. In GPDS-300, when the SVM classifier was trained using one genuine signature per writer and the duplicates generated in the image space, the Equal Error Rate (EER) decreased from 5.71% to 1.08%. Under the same conditions, the EER decreased to 1.04% using the feature space augmentation technique. We also verified that the model that generates duplicates in the image space reproduces the most common writer variability traits in the three different datasets.
翻訳日:2022-10-07 23:13:05 公開日:2020-10-13
# 統合アスペクト強調トピック埋め込みによる弱教師付きアスペクトベース感情分析

Weakly-Supervised Aspect-Based Sentiment Analysis via Joint Aspect-Sentiment Topic Embedding ( http://arxiv.org/abs/2010.06705v1 )

ライセンス: Link先を確認
Jiaxin Huang, Yu Meng, Fang Guo, Heng Ji, Jiawei Han(参考訳) レビューテキストのアスペクトベースの感情分析は、ユーザのフィードバックをきめ細かい方法で理解するのに非常に価値がある。 一般に2つのサブタスクがある。 (i)各レビューからアスペクトを抽出すること、 (II)感情極性によるアスペクトベースのレビューの分類。 本稿では,アスペクトベース感情分析のための弱い教師付きアプローチを提案し,ラベル付き例を使わずに各アスペクト/強調を記述できるキーワードは少ない。 既存の手法はサブタスクの1つにのみ設計されており、両方の結合の利点を無視しているか、重複する概念を含む可能性のあるトピックモデルに基づいている。 そこで我々は,まず,単語の埋め込み空間に<Sentiment, aspect>を組み込むことで,トピックの特長を高めるために正規化を付与し,次にニューラルネットワークを用いて単語レベルの識別情報を一般化し,埋め込みに基づく予測とラベルなしデータによる自己学習を行うことを提案する。 総合的な性能分析の結果,ベンチマークデータセットにおいて,本手法は質の高いジョイントトピックを生成し,ベースラインを著しく上回っている(7.4%と5.1%のf1-score利得)。 私たちのコードとデータはhttps://github.com/teapot123/jasenで入手できます。

Aspect-based sentiment analysis of review texts is of great value for understanding user feedback in a fine-grained manner. It has in general two sub-tasks: (i) extracting aspects from each review, and (ii) classifying aspect-based reviews by sentiment polarity. In this paper, we propose a weakly-supervised approach for aspect-based sentiment analysis, which uses only a few keywords describing each aspect/sentiment without using any labeled examples. Existing methods are either designed only for one of the sub-tasks, neglecting the benefit of coupling both, or are based on topic models that may contain overlapping concepts. We propose to first learn <sentiment, aspect> joint topic embeddings in the word embedding space by imposing regularizations to encourage topic distinctiveness, and then use neural models to generalize the word-level discriminative information by pre-training the classifiers with embedding-based predictions and self-training them on unlabeled data. Our comprehensive performance analysis shows that our method generates quality joint topics and outperforms the baselines significantly (7.4% and 5.1% F1-score gain on average for aspect and sentiment classification respectively) on benchmark datasets. Our code and data are available at https://github.com/teapot123/JASen.
翻訳日:2022-10-07 23:12:27 公開日:2020-10-13
# それは目的地ではなく旅路だ: 遺伝的アルゴリズムの実践者は信頼できる

It's the Journey Not the Destination: Building Genetic Algorithms Practitioners Can Trust ( http://arxiv.org/abs/2010.06406v1 )

ライセンス: Link先を確認
Jakub Vincalek, Sean Walton and Ben Evans(参考訳) 遺伝的アルゴリズムは、何十年もの間、学界の研究者によって開発され、工学的応用でよく機能するが、産業におけるその普及は限られている。 このような理由を理解するため、エンジニアリングデザインツールの利用者の意見が集められた。 最適化アルゴリズムに関して,設計経験のある技術者と学生の態度を示す調査の結果を報告する。 学生、エンジニア、マネージャの間で、遺伝的アルゴリズムに基づくデザインに対する既往の感情(否定的あるいは肯定的な)がどの程度存在するか? 設計の最適化と設計の最適化プロセスに関して、実践者の要件は何でしょうか? 23名の参加者(N = 23)が3部混合法調査に参加した。 オープンエンドの質問に対してテーマ分析を行った。 参加者の反応全体を通して共通するスレッドは、業界内で遺伝的アルゴリズムに対する信頼の問題である。 おそらく驚くのは、この信頼を得る鍵は良い結果を生み出すのではなく、結果に達する過程を説明するアルゴリズムを作ることである。 参加者はデザインループに引き続き留まりたいと願っている。 これは、遺伝子アルゴリズムコミュニティの一部が、ループから人間を取り除こうという動機とは正反対である。 産業の取り込みを増やすために、異なるアプローチを取る必要があることは明らかです。 遺伝的アルゴリズムの透明性と説明可能性の増大、ユーザエクスペリエンスへのフォーカスの増大、開発者とエンジニア間のコミュニケーションの改善、アルゴリズムの振る舞いの可視化などだ。

Genetic algorithms have been developed for decades by researchers in academia and perform well in engineering applications, yet their uptake in industry remains limited. In order to understand why this is the case, the opinions of users of engineering design tools were gathered. The results from a survey showing the attitudes of engineers and students with design experience with respect to optimisation algorithms are presented. A survey was designed to answer two research questions: To what extent is there a pre-existing sentiment (negative or positive) among students, engineers, and managers towards genetic algorithm-based design? and What are the requirements of practitioners with regards to design optimisation and the design optimisation process? A total of 23 participants (N = 23) took part in the 3-part mixed methods survey. Thematic analysis was conducted on the open-ended questions. A common thread throughout participants responses is that there is a question of trust towards genetic algorithms within industry. Perhaps surprising is that the key to gaining this trust is not producing good results, but creating algorithms which explain the process they take in reaching a result. Participants have expressed a desire to continue to remain in the design loop. This is at odds with the motivation of a portion of the genetic algorithms community of removing humans from the loop. It is clear we need to take a different approach to increase industrial uptake. Based on this, the following recommendations have been made to increase their use in industry: an increase of transparency and explainability of genetic algorithms, an increased focus on user experience, better communication between developers and engineers, and visualising algorithm behaviour.
翻訳日:2022-10-07 23:12:01 公開日:2020-10-13
# ファーストフードレストランにおけるコンテクスト対応ドライブスルーレコメンデーションサービス

Context-Aware Drive-thru Recommendation Service at Fast Food Restaurants ( http://arxiv.org/abs/2010.06197v1 )

ライセンス: Link先を確認
Luyang Wang, Kai Huang, Jiao Wang, Shengsheng Huang, Jason Dai, Yue Zhuang(参考訳) Drive-thruはファストフード業界で人気のある販売チャネルで、消費者は車を離れることなく食品を購入することができる。 ドライブスルーレコメンデーションシステムでは、客の注文に応じてレストランがデジタルメニューボードに食品レコメンデーションを表示することができる。 電子商取引シナリオにおける一般的なレコメンデーションモデルは、ユーザー属性(ユーザープロファイルや購入履歴など)に依存してレコメンデーションを生成するが、ドライブスルーのユースケースではそのような情報は入手が困難である。 そこで本論文では,ドライブスルーレコメンデーションにTransformer encodeerを用いて,客の注文行動とコンテキスト特徴(位置,時間,天気など)を利用した新しいレコメンデーションモデルであるTransformer Cross Transformer(TxT)を提案する。 実験の結果,txtモデルはバーガーキングのドライブスルー生産環境において,既存のレコメンデーションソリューションと比較して優れた結果を得た。 さらに、エンドツーエンドのビッグデータ分析とディープラーニングワークロードを同一クラスタ上で実行するための統合システムも実装しています。 実際には、パイプライン全体に対して単一のビッグデータクラスタを維持する方が効率的でコスト削減が期待できます。 我々のリコメンデーションシステムは,ドライブスルーシナリオだけでなく,他の顧客インタラクションチャネルにも一般化することができる。

Drive-thru is a popular sales channel in the fast food industry where consumers can make food purchases without leaving their cars. Drive-thru recommendation systems allow restaurants to display food recommendations on the digital menu board as guests are making their orders. Popular recommendation models in eCommerce scenarios rely on user attributes (such as user profiles or purchase history) to generate recommendations, while such information is hard to obtain in the drive-thru use case. Thus, in this paper, we propose a new recommendation model Transformer Cross Transformer (TxT), which exploits the guest order behavior and contextual features (such as location, time, and weather) using Transformer encoders for drive-thru recommendations. Empirical results show that our TxT model achieves superior results in Burger King's drive-thru production environment compared with existing recommendation solutions. In addition, we implement a unified system to run end-to-end big data analytics and deep learning workloads on the same cluster. We find that in practice, maintaining a single big data cluster for the entire pipeline is more efficient and cost-saving. Our recommendation system is not only beneficial for drive-thru scenarios, and it can also be generalized to other customer interaction channels.
翻訳日:2022-10-07 23:11:24 公開日:2020-10-13
# 配水システムにおけるポンプのリアルタイム最適化のための深層強化学習

Deep Reinforcement Learning for Real-Time Optimization of Pumps in Water Distribution Systems ( http://arxiv.org/abs/2010.06460v1 )

ライセンス: Link先を確認
Gergely Hajgat\'o and Gy\"orgy Pa\'al and B\'alint Gyires-T\'oth(参考訳) 最適なポンプ速度を求める計算が資源集約的であるため、ポンプのリアルタイム制御は水流システム(wdss)では実現不可能である。 従来の最適化手法を使用する場合,スマートウォーターネットワークの能力によっても,計算ニーズを下げることはできない。 深部強化学習(DRL)は2つのWDSのポンプの制御装置として提供される。 デューリング深層qネットワークに基づくエージェントを訓練し、瞬時ノーダル圧力データに基づいてポンプ速度を維持する。 一般的な最適化手法(例えば、Nelder-Mead法、微分進化法)がベースラインとなる。 DRLエージェントが最高性能のベースラインに対して達成した総効率は0.98以上であり、スピードアップはそれに比べて約2倍である。 提案手法の主な貢献は, 測定データのみに依存するため, エージェントがポンプをリアルタイムに動作させることである。 WDSを油圧シミュレーションに置き換える場合、エージェントは依然として探索速度において従来の手法より優れている。

Real-time control of pumps can be an infeasible task in water distribution systems (WDSs) because the calculation to find the optimal pump speeds is resource-intensive. The computational need cannot be lowered even with the capabilities of smart water networks when conventional optimization techniques are used. Deep reinforcement learning (DRL) is presented here as a controller of pumps in two WDSs. An agent based on a dueling deep q-network is trained to maintain the pump speeds based on instantaneous nodal pressure data. General optimization techniques (e.g., Nelder-Mead method, differential evolution) serve as baselines. The total efficiency achieved by the DRL agent compared to the best performing baseline is above 0.98, whereas the speedup is around 2x compared to that. The main contribution of the presented approach is that the agent can run the pumps in real-time because it depends only on measurement data. If the WDS is replaced with a hydraulic simulation, the agent still outperforms conventional techniques in search speed.
翻訳日:2022-10-07 23:11:00 公開日:2020-10-13
# fMRIデータのペナル化モデルに基づくクラスタリング

Penalized model-based clustering of fMRI data ( http://arxiv.org/abs/2010.06408v1 )

ライセンス: Link先を確認
Andrew DiLernia, Karina Quevedo, Jazmin Camchong, Kelvin Lim, Wei Pan, and Lin Zhang(参考訳) 機能的磁気共鳴画像(fMRI)は、脳の領域における神経活動の関連性である機能的接続(FC)を記述するのに有用である。 この脳のfcは、特定の神経変性疾患や精神疾患についての洞察を提供するため、臨床的に重要である。 患者診断について医師に通知するためには、FCに基づく教師なしクラスタリングが望まれており、データの共有された接続性の特徴に基づいて、患者のグループ化を通知することができる。 FCの異種性は同一グループ内の患者の間でも存在するため、各グループ内の患者間で情報をプールしながら、グループレベルのFCを記述することが重要である。 そこで本研究では,各対象のFCネットワークを並列にクラスタリングし,各対象のユニークなFCネットワークを推定し,共有ネットワークの特徴を推定する,ランダムな共分散クラスタリングモデルを提案する。 現在,fMRIデータを用いてFCやクラスタリングの被験者を推定する手法は存在するが,本研究の新たな貢献は,グループレベルのFCネットワーク推定と主観レベルのFCネットワーク推定を同時に行うことにある。 他の手法と比較してrccmの競合性能は,様々な環境でのシミュレーションにより実証され,被験者のクラスタリングとfcネットワークの推定が向上した。 健常者43名と統合失調症61名を対象に収集した静止状態fMRIデータに適用し,本手法の有用性を実証した。

Functional magnetic resonance imaging (fMRI) data have become increasingly available and are useful for describing functional connectivity (FC), the relatedness of neuronal activity in regions of the brain. This FC of the brain provides insight into certain neurodegenerative diseases and psychiatric disorders, and thus is of clinical importance. To help inform physicians regarding patient diagnoses, unsupervised clustering of subjects based on FC is desired, allowing the data to inform us of groupings of patients based on shared features of connectivity. Since heterogeneity in FC is present even between patients within the same group, it is important to allow subject-level differences in connectivity, while still pooling information across patients within each group to describe group-level FC. To this end, we propose a random covariance clustering model (RCCM) to concurrently cluster subjects based on their FC networks, estimate the unique FC networks of each subject, and to infer shared network features. Although current methods exist for estimating FC or clustering subjects using fMRI data, our novel contribution is to cluster or group subjects based on similar FC of the brain while simultaneously providing group- and subject-level FC network estimates. The competitive performance of RCCM relative to other methods is demonstrated through simulations in various settings, achieving both improved clustering of subjects and estimation of FC networks. Utility of the proposed method is demonstrated with application to a resting-state fMRI data set collected on 43 healthy controls and 61 participants diagnosed with schizophrenia.
翻訳日:2022-10-07 23:05:18 公開日:2020-10-13
# 周波数に着目したマイナステップ・アドバーサリートレーニングに向けて

Toward Few-step Adversarial Training from a Frequency Perspective ( http://arxiv.org/abs/2010.06545v1 )

ライセンス: Link先を確認
Hans Shih-Han Wang, Cory Cornelius, Brandon Edwards, Jason Martin(参考訳) 周波数領域の観点からadversarial-sample生成法を調査し、標準の$l_{\infty}$射影勾配降下 (pgd) を周波数領域に拡張する。 提案手法は,SPGD (Spectral Projected Gradient Descent) とよばれる手法であり,この手法の初期段階においてPGDよりも成功率が高い。 SPGDを用いた逆トレーニングモデルは、攻撃ステップ数を一定にするとPGDよりも高い逆精度が得られる。 したがって、SPGDの使用は、少ないステップで対向生成を利用する場合の対向訓練のオーバーヘッドを軽減することができる。 しかし、我々はまたspgdが通常$l_{\infty}$脅威モデルで使用されるpgdの変種と等価であることを証明している。 このPGD変種は、通常勾配に適用される符号関数を省略する。 したがって、SPGDは周波数領域に明示的に変換することなく実行できる。 最後に, SPGD が生成する摂動を可視化し, 高周波成分と低周波成分の両方を用いていることから, 高周波成分と低周波成分の除去が効果的な防御策ではないことが示唆された。

We investigate adversarial-sample generation methods from a frequency domain perspective and extend standard $l_{\infty}$ Projected Gradient Descent (PGD) to the frequency domain. The resulting method, which we call Spectral Projected Gradient Descent (SPGD), has better success rate compared to PGD during early steps of the method. Adversarially training models using SPGD achieves greater adversarial accuracy compared to PGD when holding the number of attack steps constant. The use of SPGD can, therefore, reduce the overhead of adversarial training when utilizing adversarial generation with a smaller number of steps. However, we also prove that SPGD is equivalent to a variant of the PGD ordinarily used for the $l_{\infty}$ threat model. This PGD variant omits the sign function which is ordinarily applied to the gradient. SPGD can, therefore, be performed without explicitly transforming into the frequency domain. Finally, we visualize the perturbations SPGD generates and find they use both high and low-frequency components, which suggests that removing either high-frequency components or low-frequency components is not an effective defense.
翻訳日:2022-10-07 23:04:53 公開日:2020-10-13
# ランダム化平滑化のための高次認証

Higher-Order Certification for Randomized Smoothing ( http://arxiv.org/abs/2010.06651v1 )

ライセンス: Link先を確認
Jeet Mohapatra, Ching-Yun Ko, Tsui-Wei Weng, Pin-Yu Chen, Sijia Liu, Luca Daniel(参考訳) ランダムスムーシング(Randomized smoothing)は、SOTAによる$\ell_2$摂動に対する堅牢性を達成した敵攻撃に対する最近提案された防御である。 多くの出版物は、様々なスムーズな尺度を用いて、$\ell_1$や$\ell_\infty$といった他の指標に保証を拡張している。 現在のフレームワークは、ほぼ最適に近い$\ell_p$ radiiが得られることが示されているが、現在のフレームワークによって認証された全安全領域は、最適よりも任意に小さい。 本研究では,この平滑化方式を変更することなく,これらの平滑化分類器の認証安全領域を改善する枠組みを提案する。 理論的貢献は以下の通りである。 1) 認定半径計算をネスト最適化問題として, 関数のクラス上で再構成することにより, ランダム化平滑化の認証を一般化する。 2)gaussian-smoothed分類器に対する$0^{th}$-orderと$1^{st}$-order情報を用いて認証された安全領域を計算する方法を提案する。 また,高次情報を用いた認証計算を一般化するフレームワークも提供する。 3) 1次情報の関連統計量に対する効率的な高信頼度推定器を設計する。 理論的貢献の組合せ 2)と 3) 現在の手法よりはるかに大きい安全領域の認証が可能となる。 cifar10とimagenetデータセットでは、認証された新しいリージョンは、一般的な$\ell_1$認定radiiと、色空間攻撃用の$\ell_2$認定radii(1チャンネルに限定される)に対して大幅に改善され、一般的な$\ell_2$認定radiiに対してより小さな改善を達成しています。 当社のフレームワークは,データ依存型平滑化手法を必要とせずに,より高い大きさの認定radiiを達成するための,現在の不可能性を回避できる手段を提供することもできる。

Randomized smoothing is a recently proposed defense against adversarial attacks that has achieved SOTA provable robustness against $\ell_2$ perturbations. A number of publications have extended the guarantees to other metrics, such as $\ell_1$ or $\ell_\infty$, by using different smoothing measures. Although the current framework has been shown to yield near-optimal $\ell_p$ radii, the total safety region certified by the current framework can be arbitrarily small compared to the optimal. In this work, we propose a framework to improve the certified safety region for these smoothed classifiers without changing the underlying smoothing scheme. The theoretical contributions are as follows: 1) We generalize the certification for randomized smoothing by reformulating certified radius calculation as a nested optimization problem over a class of functions. 2) We provide a method to calculate the certified safety region using $0^{th}$-order and $1^{st}$-order information for Gaussian-smoothed classifiers. We also provide a framework that generalizes the calculation for certification using higher-order information. 3) We design efficient, high-confidence estimators for the relevant statistics of the first-order information. Combining the theoretical contribution 2) and 3) allows us to certify safety region that are significantly larger than the ones provided by the current methods. On CIFAR10 and Imagenet datasets, the new regions certified by our approach achieve significant improvements on general $\ell_1$ certified radii and on the $\ell_2$ certified radii for color-space attacks ($\ell_2$ restricted to 1 channel) while also achieving smaller improvements on the general $\ell_2$ certified radii. Our framework can also provide a way to circumvent the current impossibility results on achieving higher magnitude of certified radii without requiring the use of data-dependent smoothing techniques.
翻訳日:2022-10-07 23:04:33 公開日:2020-10-13
# resunetを用いた土地被覆意味セグメンテーション

Land Cover Semantic Segmentation Using ResUNet ( http://arxiv.org/abs/2010.06285v1 )

ライセンス: Link先を確認
Vasilis Pollatos, Loukas Kouvaras and Eleni Charou(参考訳) 本稿では,土地被覆分類のための自動システムの開発について述べる。 本システムは、入力として領域のマルチバンド衛星画像を取得し、入力と同じ解像度で領域のランドカバーマップを出力する。 この目的のために,衛星画像の土地被覆意味セグメンテーション予測タスクにおいて畳み込み機械学習モデルを訓練した。 これは教師付き学習の例です。 ランドカバーラベルデータはCORINEランドカバーの在庫から取得され、衛星画像はCopernicusハブから取得された。 モデルについては、U-Netアーキテクチャのバリエーションを適用した。 我々の興味のある地域はイオニア諸島(ギリシャ)である。 この領域をカバーするデータセットをスクラッチから作成しました。 さらに、BigEarthNetデータセット[1]からの転送学習が行われた。 [1] では、衛星画像を CLC のクラスに分類するが、私たちがしているようなセグメンテーションは行わない。 しかし、これらのモデルは我々のものよりもはるかに大きなデータセットに訓練されているため、これらのネットワークが衛星画像から有用な特徴を抽出する能力を利用して、事前訓練されたモデルを用いて転送学習を適用した(事前訓練されたResNet50をU-Res-Netに転送した)。 転送学習とは別に、関心領域の小さなサイズによって設定された制限を克服するために、他のテクニックが適用された。 データ拡張(画像の重複パッチへのカット、回転やフリップなどのランダムな変換)とクロスバリデーションを用いた。 結果は3つのCLCクラス階層レベルで検証され、異なるアプローチの結果について比較研究が行なわれた。

In this paper we present our work on developing an automated system for land cover classification. This system takes a multiband satellite image of an area as input and outputs the land cover map of the area at the same resolution as the input. For this purpose convolutional machine learning models were trained in the task of predicting the land cover semantic segmentation of satellite images. This is a case of supervised learning. The land cover label data were taken from the CORINE Land Cover inventory and the satellite images were taken from the Copernicus hub. As for the model, U-Net architecture variations were applied. Our area of interest are the Ionian islands (Greece). We created a dataset from scratch covering this particular area. In addition, transfer learning from the BigEarthNet dataset [1] was performed. In [1] simple classification of satellite images into the classes of CLC is performed but not segmentation as we do. However, their models have been trained into a dataset much bigger than ours, so we applied transfer learning using their pretrained models as the first part of out network, utilizing the ability these networks have developed to extract useful features from the satellite images (we transferred a pretrained ResNet50 into a U-Res-Net). Apart from transfer learning other techniques were applied in order to overcome the limitations set by the small size of our area of interest. We used data augmentation (cutting images into overlapping patches, applying random transformations such as rotations and flips) and cross validation. The results are tested on the 3 CLC class hierarchy levels and a comparative study is made on the results of different approaches.
翻訳日:2022-10-07 23:02:38 公開日:2020-10-13
# すべてのラベル数を作る:ドメイン知識の統合による意味的不正確処理

Making Every Label Count: Handling Semantic Imprecision by Integrating Domain Knowledge ( http://arxiv.org/abs/2010.06469v1 )

ライセンス: Link先を確認
Clemens-Alexander Brust and Bj\"orn Barz and Joachim Denzler(参考訳) ウェブからクロールされたり、メカニカル・ターカーや市民科学者などのボランティアによって提供されたノイズデータは、専門的にラベル付けされたデータに代わるものと考えられている。 ラベルノイズの影響を緩和する研究が行われている。 通常は不正確性としてモデル化され、正しいラベルは同じセットから間違ったラベルに置き換えられる。 我々はラベルノイズの付加次元:不正確さを考える。 例えば、非繁殖性の雪の束ねは鳥とラベル付けされる。 このラベルは正しいが、タスクが必要とするほど正確ではない。 標準的なソフトマックス分類器は、すべてのクラスが互いに排他的に排他的であり、非交配雪と鳥はそうではないため、そのような弱いラベルから学べない。 階層分類に基づく手法であるCHILLAX (Class Hierarchies for Imprecise Label Learning and Annotation eXtrapolation)を提案する。 nabirds と ilsvrc2012 のノイズ変動実験により,本手法は強いベースラインを最大 16.4 %,現在のアートを最大 3.9 % の精度で上回った。

Noisy data, crawled from the web or supplied by volunteers such as Mechanical Turkers or citizen scientists, is considered an alternative to professionally labeled data. There has been research focused on mitigating the effects of label noise. It is typically modeled as inaccuracy, where the correct label is replaced by an incorrect label from the same set. We consider an additional dimension of label noise: imprecision. For example, a non-breeding snow bunting is labeled as a bird. This label is correct, but not as precise as the task requires. Standard softmax classifiers cannot learn from such a weak label because they consider all classes mutually exclusive, which non-breeding snow bunting and bird are not. We propose CHILLAX (Class Hierarchies for Imprecise Label Learning and Annotation eXtrapolation), a method based on hierarchical classification, to fully utilize labels of any precision. Experiments on noisy variants of NABirds and ILSVRC2012 show that our method outperforms strong baselines by as much as 16.4 percentage points, and the current state of the art by up to 3.9 percentage points.
翻訳日:2022-10-07 23:01:53 公開日:2020-10-13
# FaiR-N:構造化データのための公正かつロバストなニューラルネットワーク

FaiR-N: Fair and Robust Neural Networks for Structured Data ( http://arxiv.org/abs/2010.06113v1 )

ライセンス: Link先を確認
Shubham Sharma, Alan H. Gee, David Paydarfar, Joydeep Ghosh(参考訳) 機械学習の公平性は、個人が高リスクドメインのモデルによって行われる自動決定を受ける場合に重要である。 これらのモデルを採用する組織は、責任と倫理的A.I.を促進する規制を満たさなければならない。サブポピュレーション間のモデルエラー率の比較に依存する公正度指標は、バイアスの検出と緩和のために広く研究されているが、異なる保護された属性グループの会話を達成できる平等化能力については、比較的調査されていない。 ニューラルネットワークをトレーニングするための新しい定式化手法として,(1)各グループにおいて否定的な結果を受ける個人に対する2つのグループ間の決定境界に対する平均距離を減らし,(2)関係を得る能力に関してネットワークはより公平であり,(2)境界へのデータポイントの平均距離を増大させ,敵の堅牢性を促進する。 この損失によるトレーニングは、トレーニングされていないモデルに類似した精度で、より公平で堅牢なニューラルネットワークをもたらすことを実証する。 さらに,グループ間での会話の相違の低減は,誤り率に依存する公平度対策も改善することを示す。 我々の知る限りでは、グループ間のリコース能力がより公平なニューラルネットワークを訓練すると考えられるのはこれが初めてであり、エラーレートに基づくフェアネスとリコースに基づくフェアネスの関係について検討する。

Fairness in machine learning is crucial when individuals are subject to automated decisions made by models in high-stake domains. Organizations that employ these models may also need to satisfy regulations that promote responsible and ethical A.I. While fairness metrics relying on comparing model error rates across subpopulations have been widely investigated for the detection and mitigation of bias, fairness in terms of the equalized ability to achieve recourse for different protected attribute groups has been relatively unexplored. We present a novel formulation for training neural networks that considers the distance of data points to the decision boundary such that the new objective: (1) reduces the average distance to the decision boundary between two groups for individuals subject to a negative outcome in each group, i.e. the network is more fair with respect to the ability to obtain recourse, and (2) increases the average distance of data points to the boundary to promote adversarial robustness. We demonstrate that training with this loss yields more fair and robust neural networks with similar accuracies to models trained without it. Moreover, we qualitatively motivate and empirically show that reducing recourse disparity across groups also improves fairness measures that rely on error rates. To the best of our knowledge, this is the first time that recourse capabilities across groups are considered to train fairer neural networks, and a relation between error rates based fairness and recourse based fairness is investigated.
翻訳日:2022-10-07 22:55:57 公開日:2020-10-13
# 深層強化学習と交通研究 : 総合的考察

Deep Reinforcement Learning and Transportation Research: A Comprehensive Review ( http://arxiv.org/abs/2010.06187v1 )

ライセンス: Link先を確認
Nahid Parvez Farazi, Tanvir Ahamed, Limon Barua, Bo Zou(参考訳) 深層強化学習(drl)は、多くの複雑な輸送意思決定問題に取り組む方法を変える新しい手法である。 研究者たちは、交通分野全体の課題を解決するために、この強力な学習ベースの手法にますます目を向けている。 文献で多くの有望な応用が報告されているが、多くのDRLアルゴリズムとその利用と適応の総合的な合成が不足している。 本研究の目的は,交通におけるDRL適用の総合的,総合的なレビューを行うことによって,このギャップを埋めることである。 まず、DRLの数学的背景、人気があり有望なDRLアルゴリズム、高効率なDRL拡張について概説する。 本総説に基づき,7つのカテゴリーに区分された輸送文学に出現した約150のdrl研究を体系的に調査した。 このレビューに基づいて,drl技術の適用性,長所,欠点,および輸送分野におけるdrl技術の共通および応用特有の課題について検討し続けている。 最後に,DRLを実際に実装するための今後の研究の方向性と利用可能なリソースについて紹介する。

Deep reinforcement learning (DRL) is an emerging methodology that is transforming the way many complicated transportation decision-making problems are tackled. Researchers have been increasingly turning to this powerful learning-based methodology to solve challenging problems across transportation fields. While many promising applications have been reported in the literature, there remains a lack of comprehensive synthesis of the many DRL algorithms and their uses and adaptations. The objective of this paper is to fill this gap by conducting a comprehensive, synthesized review of DRL applications in transportation. We start by offering an overview of the DRL mathematical background, popular and promising DRL algorithms, and some highly effective DRL extensions. Building on this overview, a systematic investigation of about 150 DRL studies that have appeared in the transportation literature, divided into seven different categories, is performed. Building on this review, we continue to examine the applicability, strengths, shortcomings, and common and application-specific issues of DRL techniques with regard to their applications in transportation. In the end, we recommend directions for future research and present available resources for actually implementing DRL.
翻訳日:2022-10-07 22:55:31 公開日:2020-10-13
# 帰属グラフの近傍保存核

Neighborhood Preserving Kernels for Attributed Graphs ( http://arxiv.org/abs/2010.06261v1 )

ライセンス: Link先を確認
Asif Salim, Shiju. S. S, and Sumitra. S(参考訳) 本稿では,2つのグラフ間の類似性を,積グラフ定式化の助けを借りてグラフノードの近傍情報に基づいて定義する,属性付きグラフに適した再生カーネルの設計について述べる。 提案するカーネルを,グラフの属性情報を処理するr-畳み込みカーネルとラベル情報を処理する最適割当カーネルという,他の2つのカーネルの重み付き和として表現する。 それらは、カーネル計算の一部として処理されたエッジが同じ近傍特性を持つように定式化され、提案されたカーネルは、グラフで処理された領域間の適切に定義された対応を行う。 これらの概念は最短経路の場合にも拡張される。 このような近辺保存フレームワークにマッピング可能な最先端カーネルを特定した。 Wesfeiler-Lehman色補正アルゴリズムの各イテレーションにおける引数グラフのカーネル値は、我々の方法で定式化された積グラフから再帰的に得ることができる。 提案するカーネルをサポートベクターマシンに組み込むことにより,実世界のデータセットを分析し,他の最先端グラフカーネルと比較して優れた性能を示した。

We describe the design of a reproducing kernel suitable for attributed graphs, in which the similarity between the two graphs is defined based on the neighborhood information of the graph nodes with the aid of a product graph formulation. We represent the proposed kernel as the weighted sum of two other kernels of which one is an R-convolution kernel that processes the attribute information of the graph and the other is an optimal assignment kernel that processes label information. They are formulated in such a way that the edges processed as part of the kernel computation have the same neighborhood properties and hence the kernel proposed makes a well-defined correspondence between regions processed in graphs. These concepts are also extended to the case of the shortest paths. We identified the state-of-the-art kernels that can be mapped to such a neighborhood preserving framework. We found that the kernel value of the argument graphs in each iteration of the Weisfeiler-Lehman color refinement algorithm can be obtained recursively from the product graph formulated in our method. By incorporating the proposed kernel on support vector machines we analyzed the real-world data sets and it has shown superior performance in comparison with that of the other state-of-the-art graph kernels.
翻訳日:2022-10-07 22:55:11 公開日:2020-10-13
# カスケード決定木による帰属説明

Succinct Explanations With Cascading Decision Trees ( http://arxiv.org/abs/2010.06631v1 )

ライセンス: Link先を確認
Jialu Zhang, Mark Santolucito and Ruzica Piskac(参考訳) 古典的な決定木学習(classic decision tree learning)は、一級の透明性を持つモデルを構築するバイナリ分類アルゴリズムである。 しかし、現代のデータセット上の決定木を学習すると大きな木が生成されるため、過剰な深さの決定経路が生成される。 分類の理解性を向上させるため,我々はcascading decision treeと呼ばれる新しい決定木モデルを提案する。 cascading decision treeは、全体のモデルパフォーマンスを犠牲にすることなく、分類の説明のサイズを短くする。 私たちの重要な洞察は、決定パスと説明パスの概念を分離することです。 この洞察を利用することで、モノリシックな決定木をひとつ持つ代わりに、いくつかの小さな決定木を構築し、それらを順番にカスケードする。 当社のcascading decisionサブツリーは、ポジティブな分類の説明をターゲットとして設計されています。 このようにして、各サブツリーは可能な限り多くの正のサンプルを分類できる最小の機能セットを識別する。 カスケード決定木を新しいサンプルに適用すると、サブツリーの1つが正の分類を検出する場合、非常に短く簡潔な説明が得られる。 この場合、分類の説明として、現在のサブツリーのみの決定パスを直ちに停止し、ユーザに報告する。 標準データセットと新しい実世界のアプリケーションでアルゴリズムを評価し、従来の決定木モデルと比較して、正の分類で説明の深さを40.8%以上短縮することを示した。

Classic decision tree learning is a binary classification algorithm that constructs models with first-class transparency - every classification has a directly derivable explanation. However, learning decision trees on modern datasets generates large trees, which in turn generate decision paths of excessive depth, obscuring the explanation of classifications. To improve the comprehensibility of classifications, we propose a new decision tree model that we call Cascading Decision Trees. Cascading Decision Trees shorten the size of explanations of classifications, without sacrificing model performance overall. Our key insight is to separate the notion of a decision path and an explanation path. Utilizing this insight, instead of having one monolithic decision tree, we build several smaller decision subtrees and cascade them in sequence. Our cascading decision subtrees are designed to specifically target explanations for positive classifications. This way each subtree identifies the smallest set of features that can classify as many positive samples as possible, without misclassifying any negative samples. Applying cascading decision trees to new samples results in a significantly shorter and succinct explanation, if one of the subtrees detects a positive classification. In that case, we immediately stop and report the decision path of only the current subtree to the user as an explanation for the classification. We evaluate our algorithm on standard datasets, as well as new real-world applications and find that our model shortens the explanation depth by over 40.8% for positive classifications compared to the classic decision tree model.
翻訳日:2022-10-07 22:54:52 公開日:2020-10-13
# パーキンソン病診断のための機械学習 : 体系的検討

Machine learning for the diagnosis of Parkinson's disease: A systematic review ( http://arxiv.org/abs/2010.06101v1 )

ライセンス: Link先を確認
Jie Mei, Christian Desrosiers, Johannes Frasnelli(参考訳) パーキンソン病(PD)の診断は、様々な運動症状の特徴づけを含む臨床症状の医学的観察と評価に基づいて行われる。 しかし、従来の診断アプローチは、人間の目には微妙で分類が難しい運動の評価に依存するため、主観性に苦しむ可能性があるため、誤分類につながる可能性がある。 一方、PDの初期の非運動性症状は軽度であり、他の多くの症状によって引き起こされる可能性がある。 したがって、これらの症状はしばしば軽視され、早期のPDの診断は困難である。 これらの困難に対処し、PDの診断と評価の手順を洗練するために、PDと健康管理の分類や同様の臨床的プレゼンテーション(運動障害やパーキンソン症候群など)の患者のために機械学習手法が実装されている。 pdの診断と鑑別診断に用いられてきたデータモダリティと機械学習の方法を総合的に概観するため,本研究は,pubmedとieee xploreデータベースを用いて,2020年2月14日までに発表された研究の体系的文献レビューを行った。 対象、データソース、データの種類、機械学習手法、関連する結果について調査し、関連情報を抽出し、この体系的なレビューで提示した合計209の研究結果を含む。 これらの研究は, 臨床意思決定における機械学習法と新しいバイオマーカーの適応の可能性が高く, pdの体系的, インフォームドな診断へと繋がる。

Diagnosis of Parkinson's disease (PD) is commonly based on medical observations and assessment of clinical signs, including the characterization of a variety of motor symptoms. However, traditional diagnostic approaches may suffer from subjectivity as they rely on the evaluation of movements that are sometimes subtle to human eyes and therefore difficult to classify, leading to possible misclassification. In the meantime, early non-motor symptoms of PD may be mild and can be caused by many other conditions. Therefore, these symptoms are often overlooked, making diagnosis of PD at an early stage challenging. To address these difficulties and to refine the diagnosis and assessment procedures of PD, machine learning methods have been implemented for the classification of PD and healthy controls or patients with similar clinical presentations (e.g., movement disorders or other Parkinsonian syndromes). To provide a comprehensive overview of data modalities and machine learning methods that have been used in the diagnosis and differential diagnosis of PD, in this study, we conducted a systematic literature review of studies published until February 14, 2020, using the PubMed and IEEE Xplore databases. A total of 209 studies were included, extracted for relevant information and presented in this systematic review, with an investigation of their aims, sources of data, types of data, machine learning methods and associated outcomes. These studies demonstrate a high potential for adaptation of machine learning methods and novel biomarkers in clinical decision making, leading to increasingly systematic, informed diagnosis of PD.
翻訳日:2022-10-07 22:54:07 公開日:2020-10-13
# ニューラルネットワークにおける特徴選択制御のためのニューラルガウスミラー

Neural Gaussian Mirror for Controlled Feature Selection in Neural Networks ( http://arxiv.org/abs/2010.06175v1 )

ライセンス: Link先を確認
Xin Xing, Yu Gui, Chenguang Dai, and Jun S. Liu(参考訳) ディープニューラルネットワーク(DNN)はますます普及し、予測タスクにおいて優れたパフォーマンスを実現している。 しかし、DNNフレームワーク自体は、多くの科学分野における適用性を制限する予測にどのような特徴が関係しているかをユーザーに知らせることができない。 神経ガウスミラー(neural gaussian mirrors, ngms)は, カーネルに基づく条件依存尺度に基づく構造的摂動によって, 特徴量を評価するのに役立つ。 我々は,DNNアーキテクチャの2つの改良点を設計し,特徴量を測定するミラー統計を提供する。 シミュレーションおよび実データ例で示すように,提案手法は特徴選択誤り率を予め定義されたレベルで制御し,高い相関性を有する特徴が存在する場合でも高い選択力を維持する。

Deep neural networks (DNNs) have become increasingly popular and achieved outstanding performance in predictive tasks. However, the DNN framework itself cannot inform the user which features are more or less relevant for making the prediction, which limits its applicability in many scientific fields. We introduce neural Gaussian mirrors (NGMs), in which mirrored features are created, via a structured perturbation based on a kernel-based conditional dependence measure, to help evaluate feature importance. We design two modifications of the DNN architecture for incorporating mirrored features and providing mirror statistics to measure feature importance. As shown in simulated and real data examples, the proposed method controls the feature selection error rate at a predefined level and maintains a high selection power even with the presence of highly correlated features.
翻訳日:2022-10-07 22:53:21 公開日:2020-10-13
# トピック対応グラフニューラルネットワークによる抽出テキスト要約の強化

Enhancing Extractive Text Summarization with Topic-Aware Graph Neural Networks ( http://arxiv.org/abs/2010.06253v1 )

ライセンス: Link先を確認
Peng Cui, Le Hu, and Yuanchao Liu(参考訳) テキスト要約(text summarization)は、テキスト文書を短い要約に圧縮することを目的としている。 抽出的アプローチは、その頻度と効率性のためにテキスト要約に広く用いられている。 しかし、既存の抽出モデルのほとんどは、特に長い文書において、文間関係をほとんど捉えない。 また、重要コンテンツの収集における話題情報の影響も無視することが多い。 これらの問題に対処するために,グラフ構造化文書表現を用いて文間関係を効率的に把握するグラフニューラルネットワーク(GNN)に基づく抽出要約モデルを提案する。 さらに,本モデルでは,対話型ニューラルトピックモデル(NTM)を統合し,文選択のための文書レベルの特徴を提供する。 実験の結果,本モデルはCNN/DMおよびNYTデータセットの最先端結果だけでなく,はるかに長い文書からなる科学論文データセットの既存手法よりも優れており,文書のジャンルや長さの堅牢性が向上していることが示された。 さらに議論することで、トピック情報は、長い文書要約においてその効果を解釈する文書全体から有能な内容を選択するのに役立つことが示される。

Text summarization aims to compress a textual document to a short summary while keeping salient information. Extractive approaches are widely used in text summarization because of their fluency and efficiency. However, most of existing extractive models hardly capture inter-sentence relationships, particularly in long documents. They also often ignore the effect of topical information on capturing important contents. To address these issues, this paper proposes a graph neural network (GNN)-based extractive summarization model, enabling to capture inter-sentence relationships efficiently via graph-structured document representation. Moreover, our model integrates a joint neural topic model (NTM) to discover latent topics, which can provide document-level features for sentence selection. The experimental results demonstrate that our model not only substantially achieves state-of-the-art results on CNN/DM and NYT datasets but also considerably outperforms existing approaches on scientific paper datasets consisting of much longer documents, indicating its better robustness in document genres and lengths. Further discussions show that topical information can help the model preselect salient contents from an entire document, which interprets its effectiveness in long document summarization.
翻訳日:2022-10-07 22:46:21 公開日:2020-10-13
# SemEval-2020 Task 12におけるBRUMS : ソーシャルメディアにおけるトランスフォーマーに基づく多言語攻撃言語識別

BRUMS at SemEval-2020 Task 12 : Transformer based Multilingual Offensive Language Identification in Social Media ( http://arxiv.org/abs/2010.06278v1 )

ライセンス: Link先を確認
Tharindu Ranasinghe, Hansi Hettiarachchi(参考訳) 本稿では,SemEval-2020におけるOffensEval 2: Multilingual Offensive Language Identification in Social Mediaについて述べる。 主催者は参加者に、アラビア語、デンマーク語、英語、ギリシャ語、トルコ語のソーシャルメディアからの投稿を含む注釈付きデータセットを提供した。 ソーシャルメディアにおける攻撃的言語を特定するための多言語深層学習モデルを提案する。 全体として、このアプローチは言語間の柔軟性を維持しながら、許容できる評価スコアを達成します。

In this paper, we describe the team \textit{BRUMS} entry to OffensEval 2: Multilingual Offensive Language Identification in Social Media in SemEval-2020. The OffensEval organizers provided participants with annotated datasets containing posts from social media in Arabic, Danish, English, Greek and Turkish. We present a multilingual deep learning model to identify offensive language in social media. Overall, the approach achieves acceptable evaluation scores, while maintaining flexibility between languages.
翻訳日:2022-10-07 22:45:52 公開日:2020-10-13
# 私のマルチモーダルモデルは相互モーダル相互作用を学ぶか? 思った以上に言いにくい!

Does my multimodal model learn cross-modal interactions? It's harder to tell than you might think! ( http://arxiv.org/abs/2010.06572v1 )

ライセンス: Link先を確認
Jack Hessel and Lillian Lee(参考訳) 表現的相互モーダル相互作用のモデル化は、視覚的質問応答のような多モーダルタスクにおいて重要である。 しかし、時に高いパフォーマンスのブラックボックスアルゴリズムは、主にデータ内の偶発的な信号を利用する。 本稿では,与えられたタスク上でのモデル間の相互作用によって性能が向上するか否かを分離する,新しい診断ツールEMAPを提案する。 この関数プロジェクションはモデル予測を修正し、クロスモーダルな相互作用を排除し、加法的不定形構造を分離する。 7つの画像+テキスト分類タスク(それぞれに新しい最先端のベンチマークを設定した)に対して、多くの場合、モーダル間相互作用を削除することは、パフォーマンスの劣化をほとんど、あるいは全く起こさない。 驚くべきことに、これは表現力のあるモデルであっても、相互作用を考慮する能力を持ち、そうでなければ表現力の少ないモデルよりも優れている。 したがって、マルチモーダル機械学習の研究者は、単調なベースラインだけでなく、最高のパフォーマンスモデルのEMAPも報告することを推奨する。

Modeling expressive cross-modal interactions seems crucial in multimodal tasks, such as visual question answering. However, sometimes high-performing black-box algorithms turn out to be mostly exploiting unimodal signals in the data. We propose a new diagnostic tool, empirical multimodally-additive function projection (EMAP), for isolating whether or not cross-modal interactions improve performance for a given model on a given task. This function projection modifies model predictions so that cross-modal interactions are eliminated, isolating the additive, unimodal structure. For seven image+text classification tasks (on each of which we set new state-of-the-art benchmarks), we find that, in many cases, removing cross-modal interactions results in little to no performance degradation. Surprisingly, this holds even when expressive models, with capacity to consider interactions, otherwise outperform less expressive models; thus, performance improvements, even when present, often cannot be attributed to consideration of cross-modal feature interactions. We hence recommend that researchers in multimodal machine learning report the performance not only of unimodal baselines, but also the EMAP of their best-performing model.
翻訳日:2022-10-07 22:45:45 公開日:2020-10-13
# BERT-EMD:アースモーバー距離を用いたBERT圧縮のための多対多層マッピング

BERT-EMD: Many-to-Many Layer Mapping for BERT Compression with Earth Mover's Distance ( http://arxiv.org/abs/2010.06133v1 )

ライセンス: Link先を確認
Jianquan Li, Xiaokang Liu, Honghong Zhao, Ruifeng Xu, Min Yang and Yaohong Jin(参考訳) 事前訓練された言語モデル(例えばBERT)は、様々な自然言語処理(NLP)タスクで大きな成功を収めた。 しかし、高ストレージと計算コストは、事前訓練された言語モデルがリソース制約されたデバイスに効果的にデプロイされることを妨げる。 本稿では,中間教師層から各中間生徒層を学習できる多対多の層マッピングに基づく新しいBERT蒸留法を提案する。 このようにして,様々なnlpタスクに適応した教師層から学習を行うことができる。 異なるNLPタスクは、BERTの中間層に含まれる異なるレベルの言語知識を必要とするという直感に動機づけられた。 さらに, earth mover's distance (emd) を利用して,教師ネットワークから生徒ネットワークへ知識を変換するために必要な最小累積コストを計算する。 EMDは、多層間マッピングの効果的なマッチングを可能にする。 %emdは大きさの異なるネットワーク層に適用でき,教師ネットワークと学生ネットワーク間の意味距離を効果的に測定できる。 さらに,EMDにおける重み付けを自動的に学習するコストアテンション機構を提案し,モデルの性能向上と収束時間の短縮を図る。 GLUEベンチマークの大規模な実験により, 精度とモデル圧縮の両面で, 強力な競合相手と比較して, 競争性能が向上することが示された。

Pre-trained language models (e.g., BERT) have achieved significant success in various natural language processing (NLP) tasks. However, high storage and computational costs obstruct pre-trained language models to be effectively deployed on resource-constrained devices. In this paper, we propose a novel BERT distillation method based on many-to-many layer mapping, which allows each intermediate student layer to learn from any intermediate teacher layers. In this way, our model can learn from different teacher layers adaptively for various NLP tasks. %motivated by the intuition that different NLP tasks require different levels of linguistic knowledge contained in the intermediate layers of BERT. In addition, we leverage Earth Mover's Distance (EMD) to compute the minimum cumulative cost that must be paid to transform knowledge from teacher network to student network. EMD enables the effective matching for many-to-many layer mapping. %EMD can be applied to network layers with different sizes and effectively measures semantic distance between the teacher network and student network. Furthermore, we propose a cost attention mechanism to learn the layer weights used in EMD automatically, which is supposed to further improve the model's performance and accelerate convergence time. Extensive experiments on GLUE benchmark demonstrate that our model achieves competitive performance compared to strong competitors in terms of both accuracy and model compression.
翻訳日:2022-10-07 22:45:01 公開日:2020-10-13
# Batch Centering と Tempered Word Mover Distance によるテキスト生成評価の改善

Improving Text Generation Evaluation with Batch Centering and Tempered Word Mover Distance ( http://arxiv.org/abs/2010.06150v1 )

ライセンス: Link先を確認
Xi Chen, Nan Ding, Tomer Levinboim, Radu Soricut(参考訳) 近年のテキストの自動評価指標の進歩により,BERTエンコーダなどの文脈的単語表現が人間の判断とよく相関する指標を設計するのに有用であることが示されている。 同時に、文脈化された単語表現は、単語または文間の真の類似性をエンコードするための準最適統計特性を示すと論じられている。 本稿では,類似度メトリクスの符号化表現を改善するための2つの手法について述べる。統計特性を改善するバッチ平均中心戦略と,文脈化単語表現における情報の融合を改善するための計算効率の良いテンパリングワードムーバー距離である。 提案手法のロバスト性を実証する数値実験を行い,様々なBERTバックボーン学習指標に対する結果の報告と,複数のベンチマークによる人体評価との相関の達成について検討した。

Recent advances in automatic evaluation metrics for text have shown that deep contextualized word representations, such as those generated by BERT encoders, are helpful for designing metrics that correlate well with human judgements. At the same time, it has been argued that contextualized word representations exhibit sub-optimal statistical properties for encoding the true similarity between words or sentences. In this paper, we present two techniques for improving encoding representations for similarity metrics: a batch-mean centering strategy that improves statistical properties; and a computationally efficient tempered Word Mover Distance, for better fusion of the information in the contextualized word representations. We conduct numerical experiments that demonstrate the robustness of our techniques, reporting results over various BERT-backbone learned metrics and achieving state of the art correlation with human ratings on several benchmarks.
翻訳日:2022-10-07 22:44:39 公開日:2020-10-13
# 素晴らしい特徴とそれを見つけるべき場所:サブシーケンス分類による認知障害の検出

Fantastic Features and Where to Find Them: Detecting Cognitive Impairment with a Subsequence Classification Guided Approach ( http://arxiv.org/abs/2010.06579v1 )

ライセンス: Link先を確認
Benjamin Eyre, Aparna Balagopalan, Jekaterina Novikova(参考訳) 自然言語処理タスクにおける埋め込みベースの機械学習手法の成功は広く報告されているが、より容易に解釈された特徴の使用は、認知障害(CI)検出などの分野では一般的である。 ノイズの多いテキストからの手動のエンジニアリング機能は時間とリソース消費であり、モデルパフォーマンスを向上しない機能をもたらす可能性がある。 そこで本研究では,逐次的機械学習モデルとドメイン知識を活用し,性能向上に役立つ特徴量を予測する,機能工学の新しいアプローチについて述べる。 本稿では,CI音声の標準データセット上で本手法の具体例を示し,この手法によって生成された特徴を用いた場合,CI分類精度が強いベースラインよりも2.3%向上することを示す。 このデモは、医療などの解釈が重要である分野の分類を支援するために、この方法がどのように使われるかの例を示している。

Despite the widely reported success of embedding-based machine learning methods on natural language processing tasks, the use of more easily interpreted engineered features remains common in fields such as cognitive impairment (CI) detection. Manually engineering features from noisy text is time and resource consuming, and can potentially result in features that do not enhance model performance. To combat this, we describe a new approach to feature engineering that leverages sequential machine learning models and domain knowledge to predict which features help enhance performance. We provide a concrete example of this method on a standard data set of CI speech and demonstrate that CI classification accuracy improves by 2.3% over a strong baseline when using features produced by this method. This demonstration provides an ex-ample of how this method can be used to assist classification in fields where interpretability is important, such as health care.
翻訳日:2022-10-07 22:43:48 公開日:2020-10-13
# 画像およびテキスト生成の多様性指標としてのランダムネットワーク蒸留

Random Network Distillation as a Diversity Metric for Both Image and Text Generation ( http://arxiv.org/abs/2010.06715v1 )

ライセンス: Link先を確認
Liam Fowl, Micah Goldblum, Arjun Gupta, Amr Sharaf, Tom Goldstein(参考訳) 生成モデルは、驚くほど高品質な画像やテキストを生成できるようになっている。 コミュニティは生成モデルを比較するための多くの評価指標を開発した。 しかし、これらの指標はデータの多様性を効果的に定量化しない。 我々は,任意のタイプのデータに対して,合成データと自然データの両方に容易に適用可能な,新たな多様性指標を開発した。 本手法は、強化学習で導入されたランダムネットワーク蒸留を用いる。 このメトリクスを画像とテキストの両方で検証し、デプロイします。 また,これまで評価が困難であった画像生成の多様性についても検討した。

Generative models are increasingly able to produce remarkably high quality images and text. The community has developed numerous evaluation metrics for comparing generative models. However, these metrics do not effectively quantify data diversity. We develop a new diversity metric that can readily be applied to data, both synthetic and natural, of any type. Our method employs random network distillation, a technique introduced in reinforcement learning. We validate and deploy this metric on both images and text. We further explore diversity in few-shot image generation, a setting which was previously difficult to evaluate.
翻訳日:2022-10-07 22:37:16 公開日:2020-10-13
# 人物の顔はどの程度重要か?

How important are faces for person re-identification? ( http://arxiv.org/abs/2010.06307v1 )

ライセンス: Link先を確認
Julia Dietlmeier, Joseph Antony, Kevin McGuinness, Noel E. O'Connor(参考訳) 本稿では,既存の人物識別モデルが人間の顔の存在と視認性に与える影響について検討する。 顔検出とぼかしアルゴリズムを用いて、Market1501, DukeMTMC-reID, CUHK03, Viper, Airport などの人気人物再識別データセットの匿名化バージョンを作成する。 精度と計算効率の異なる既存の最先端モデルの断面を用いて,この匿名化が標準メトリクスを用いた再同定性能に与える影響を評価した。 おそらく驚くべきことに、mAPへの影響は非常に小さく、元のデータではなく、匿名化されたバージョンのデータを単にトレーニングすることで精度を回復する。 これらの発見は、複数のモデルとデータセットで一致している。 これらの結果は、人物識別システムの性能に大きな影響を与えることなく、顔のぼやけによってデータセットを安全に匿名化することができ、以前はプライバシーやデータ保護の懸念があった新しいリッチな再識別データセットのリリースを可能にすることを示している。

This paper investigates the dependence of existing state-of-the-art person re-identification models on the presence and visibility of human faces. We apply a face detection and blurring algorithm to create anonymized versions of several popular person re-identification datasets including Market1501, DukeMTMC-reID, CUHK03, Viper, and Airport. Using a cross-section of existing state-of-the-art models that range in accuracy and computational efficiency, we evaluate the effect of this anonymization on re-identification performance using standard metrics. Perhaps surprisingly, the effect on mAP is very small, and accuracy is recovered by simply training on the anonymized versions of the data rather than the original data. These findings are consistent across multiple models and datasets. These results indicate that datasets can be safely anonymized by blurring faces without significantly impacting the performance of person reidentification systems, and may allow for the release of new richer re-identification datasets where previously there were privacy or data protection concerns.
翻訳日:2022-10-07 22:37:06 公開日:2020-10-13
# 類似性に基づくStratified Splitting: より良い分類器を訓練するためのアプローチ

Similarity Based Stratified Splitting: an approach to train better classifiers ( http://arxiv.org/abs/2010.06099v1 )

ライセンス: Link先を確認
Felipe Farias, Teresa Ludermir, Carmelo Bastos-Filho(参考訳) 本稿では,データ分割のための出力空間情報と入力空間情報の両方を用いた類似性に基づく階層分割(sbss)手法を提案する。 分割はサンプル間の類似関数を用いて生成され、類似したサンプルを異なる分割に配置する。 このアプローチは、トレーニングフェーズにおけるデータのより良い表現を可能にします。 この戦略は、現実世界のアプリケーションで使用する場合、より現実的なパフォーマンス推定につながる。 提案手法は,多層パーセプトロン,サポートベクターマシン,ランダムフォレスト,k-ネアレスト近傍などの分類器と,cityblock,chebyshev,cosine,correlation,euclideanの5つの類似関数を用いて,22のベンチマークデータセットで評価した。 Wilcoxon Sign-Rank testによると、評価されたシナリオの75%で通常の10倍のクロスバリデーションを一貫して上回りました。

We propose a Similarity-Based Stratified Splitting (SBSS) technique, which uses both the output and input space information to split the data. The splits are generated using similarity functions among samples to place similar samples in different splits. This approach allows for a better representation of the data in the training phase. This strategy leads to a more realistic performance estimation when used in real-world applications. We evaluate our proposal in twenty-two benchmark datasets with classifiers such as Multi-Layer Perceptron, Support Vector Machine, Random Forest and K-Nearest Neighbors, and five similarity functions Cityblock, Chebyshev, Cosine, Correlation, and Euclidean. According to the Wilcoxon Sign-Rank test, our approach consistently outperformed ordinary stratified 10-fold cross-validation in 75\% of the assessed scenarios.
翻訳日:2022-10-07 22:28:51 公開日:2020-10-13
# アクティベーション緩和アルゴリズムのスケーラビリティと生物学的可視性の検討

Investigating the Scalability and Biological Plausibility of the Activation Relaxation Algorithm ( http://arxiv.org/abs/2010.06219v1 )

ライセンス: Link先を確認
Beren Millidge, Alexander Tschantz, Anil Seth, Christopher L Buckley(参考訳) 最近提案された Activation Relaxation (AR) アルゴリズムは、局所学習ルールのみを用いてエラーアルゴリズムのバックプロパゲーションを近似するための単純で堅牢なアプローチを提供する。 競合するスキームとは異なり、正確なバックプロパゲーション勾配に収束し、単一の種類の計算ユニットと単一の後方緩和フェーズのみを利用する。 我々は以前, このアルゴリズムをさらに単純化し, 生物学的に有理化できることを実証してきた。 (i)重量輸送問題を克服した学習可能な後方重みの組を導入すること、 (ii)各ニューロンにおける非線形微分の計算を避けること。 しかしながら、これらの単純化の有効性は、これまでのところ、単純なマルチレイヤー・パーセプトロン(mlp)ネットワークでのみテストされてきた。 ここでは、より複雑なCNNアーキテクチャと挑戦的なデータセットを使用して、これらの単純化が依然としてパフォーマンスを維持していることを示す。 また、元のarアルゴリズムの他の生物学的に予測できない仮定 -- 凍結フィードフォワードパス -- が性能を損なうことなく緩和できるかどうかについても検討した。

The recently proposed Activation Relaxation (AR) algorithm provides a simple and robust approach for approximating the backpropagation of error algorithm using only local learning rules. Unlike competing schemes, it converges to the exact backpropagation gradients, and utilises only a single type of computational unit and a single backwards relaxation phase. We have previously shown that the algorithm can be further simplified and made more biologically plausible by (i) introducing a learnable set of backwards weights, which overcomes the weight-transport problem, and (ii) avoiding the computation of nonlinear derivatives at each neuron. However, tthe efficacy of these simplifications has, so far, only been tested on simple multi-layer-perceptron (MLP) networks. Here, we show that these simplifications still maintain performance using more complex CNN architectures and challenging datasets, which have proven difficult for other biologically-plausible schemes to scale to. We also investigate whether another biologically implausible assumption of the original AR algorithm -- the frozen feedforward pass -- can be relaxed without damaging performance.
翻訳日:2022-10-07 22:28:34 公開日:2020-10-13
# 2次元ラグランジアン法の性能と運動画像bci分類における共通空間パターン

Performance of Dual-Augmented Lagrangian Method and Common Spatial Patterns applied in classification of Motor-Imagery BCI ( http://arxiv.org/abs/2010.10359v1 )

ライセンス: Link先を確認
Aleksandar Miladinovi\'c, Milo\v{s} Aj\v{c}evi\'c, Agostino Accardo(参考訳) 運動画像に基づく脳-コンピュータインタフェース(MI-BCI)は、神経リハビリテーション、非筋肉コミュニケーションの再構築、神経障害や障害に悩む患者へのコマンド、そして、ゲームコントロールやその他のエンターテイメント目的のための臨床の外部においても、画期的な技術となる可能性がある。 しかし、使用済み脳波信号のノイズのため、信頼性の高いbciシステムは特徴の最適化と抽出のために特別な手順を必要とする。 本稿では,bciにおいて運動像(mi)課題の特徴抽出に広く用いられている共通空間パターンと線形判別分析分類器(csp-lda)と,群スパーシティと行群(dal-glr),双対スペクトラム(dal-ds),l1ノルム正規化(dal-l1)の3つの異なる正規化手法を用いた2次元ラグランジアン(dal)フレームワークを比較した。 被験者7名を対象に,bci-miを5回実施した。 DAL-GLR法は標準CSP-LDAよりも6.9%低い誤分類誤差(p-value = 0.008)を示し,MI-BCIにおけるDALフレームワークの利点を示した。

Motor-imagery based brain-computer interfaces (MI-BCI) have the potential to become ground-breaking technologies for neurorehabilitation, the reestablishment of non-muscular communication and commands for patients suffering from neuronal disorders and disabilities, but also outside of clinical practice, for video game control and other entertainment purposes. However, due to the noisy nature of the used EEG signal, reliable BCI systems require specialized procedures for features optimization and extraction. This paper compares the two approaches, the Common Spatial Patterns with Linear Discriminant Analysis classifier (CSP-LDA), widely used in BCI for extracting features in Motor Imagery (MI) tasks, and the Dual-Augmented Lagrangian (DAL) framework with three different regularization methods: group sparsity with row groups (DAL-GLR), dual-spectrum (DAL-DS) and l1-norm regularization (DAL-L1). The test has been performed on 7 healthy subjects performing 5 BCI-MI sessions each. The preliminary results show that DAL-GLR method outperforms standard CSP-LDA, presenting 6.9% lower misclassification error (p-value = 0.008) and demonstrate the advantage of DAL framework for MI-BCI.
翻訳日:2022-10-07 22:28:15 公開日:2020-10-13
# テキストと視覚的手がかりを用いた風刺検出のためのマルチモーダル手法

A Multi-Modal Method for Satire Detection using Textual and Visual Cues ( http://arxiv.org/abs/2010.06671v1 )

ライセンス: Link先を確認
Lily Li, Or Levi, Pedram Hosseini, David A. Broniatowski(参考訳) 風刺はユーモラスな批評の一形態であるが、読者によっては正当なニュースと誤解され、有害な結果をもたらすことがある。 風刺ニュース記事で使用される画像は、しばしばばかばかしい内容やばかげた内容を含み、画像操作は架空のシナリオを作成するために使用される。 従来の研究はテキストベースの手法を研究してきたが、本研究では、最先端のビジオ言語モデルであるViLBERTに基づくマルチモーダルアプローチを提案する。 この目的のために,風刺検出タスクのために,定期的かつ風刺的なニュースの画像と見出しからなる新しいデータセットを作成する。 データセット上でViLBERTを微調整し、画像法医学技術を用いた畳み込みニューラルネットワークを訓練する。 データセットの評価は,提案手法が画像のみ,テキストのみ,単純な融合ベースラインよりも優れていることを示す。

Satire is a form of humorous critique, but it is sometimes misinterpreted by readers as legitimate news, which can lead to harmful consequences. We observe that the images used in satirical news articles often contain absurd or ridiculous content and that image manipulation is used to create fictional scenarios. While previous work have studied text-based methods, in this work we propose a multi-modal approach based on state-of-the-art visiolinguistic model ViLBERT. To this end, we create a new dataset consisting of images and headlines of regular and satirical news for the task of satire detection. We fine-tune ViLBERT on the dataset and train a convolutional neural network that uses an image forensics technique. Evaluation on the dataset shows that our proposed multi-modal approach outperforms image-only, text-only, and simple fusion baselines.
翻訳日:2022-10-07 22:27:48 公開日:2020-10-13
# SemEval-2020 Task 6 における RGCL: 定義抽出へのニューラルアプローチ

RGCL at SemEval-2020 Task 6: Neural Approaches to Definition Extraction ( http://arxiv.org/abs/2010.06281v1 )

ライセンス: Link先を確認
Tharindu Ranasinghe, Alistair Plum, Constantin Orasan, Ruslan Mitkov(参考訳) 本稿では,SemEval 2020 Task 6: DeftEval, subtasks 1, 2へのRGCLチームの提出について述べる。 システムは文とトークンのレベルで定義を分類する。 これは、自動拡張トレーニングセットを含むタスク固有の適応を持つ、最先端のニューラルネットワークアーキテクチャを利用する。 全体としては、アーキテクチャ選択の柔軟性を維持しながら、許容できる評価スコアを達成する。

This paper presents the RGCL team submission to SemEval 2020 Task 6: DeftEval, subtasks 1 and 2. The system classifies definitions at the sentence and token levels. It utilises state-of-the-art neural network architectures, which have some task-specific adaptations, including an automatically extended training set. Overall, the approach achieves acceptable evaluation scores, while maintaining flexibility in architecture selection.
翻訳日:2022-10-07 22:27:36 公開日:2020-10-13
# マルチリンガルargument Mining:データセットと分析

Multilingual Argument Mining: Datasets and Analysis ( http://arxiv.org/abs/2010.06432v1 )

ライセンス: Link先を確認
Orith Toledo-Ronen, Matan Orbach, Yonatan Bilu, Artem Spector, Noam Slonim(参考訳) 議論のマイニングと計算の議論に対する関心が高まり、自然言語理解(nlu)タスクと対応するデータセットが数多くもたらされた。 しかし、他の多くのNLUタスクと同様に、支配的な言語は英語であり、他の言語のリソースは少ない。 本研究では,多言語BERTモデルを用いた移動学習の可能性を探り,英語データセットと機械翻訳を用いた非英語言語における議論マイニング課題に対処する。 このような手法は議論の姿勢の分類や証拠の発見に適しているが,おそらくは翻訳下での保存が困難であるため,議論の質を評価するには適していないと考えられる。 さらに,翻訳-学習アプローチに着目し,翻訳言語の選択とそれらの関係が,結果モデルの精度にどのように影響するかを示す。 最後に、議論マイニングタスクにおける伝達学習の評価を容易にするために、複数の言語で10k以上の引数を持つ人間生成データセットと、英語データセットの機械翻訳を提供する。

The growing interest in argument mining and computational argumentation brings with it a plethora of Natural Language Understanding (NLU) tasks and corresponding datasets. However, as with many other NLU tasks, the dominant language is English, with resources in other languages being few and far between. In this work, we explore the potential of transfer learning using the multilingual BERT model to address argument mining tasks in non-English languages, based on English datasets and the use of machine translation. We show that such methods are well suited for classifying the stance of arguments and detecting evidence, but less so for assessing the quality of arguments, presumably because quality is harder to preserve under translation. In addition, focusing on the translate-train approach, we show how the choice of languages for translation, and the relations among them, affect the accuracy of the resultant model. Finally, to facilitate evaluation of transfer learning on argument mining tasks, we provide a human-generated dataset with more than 10k arguments in multiple languages, as well as machine translation of the English datasets.
翻訳日:2022-10-07 22:27:29 公開日:2020-10-13
# 小さな力で大きな責任が生まれる

With Little Power Comes Great Responsibility ( http://arxiv.org/abs/2010.06595v1 )

ライセンス: Link先を確認
Dallas Card and Peter Henderson and Urvashi Khandelwal and Robin Jia and Kyle Mahowald and Dan Jurafsky(参考訳) 実験設計において重要であるにもかかわらず、統計力(実効が与えられた場合、実験はヌル仮説を否定する確率)はNLPコミュニティによって無視されている。 アンダーパワー実験により、統計的ノイズと有意義なモデル改善の違いを識別し、誇張された発見の可能性を高めることがより困難になる。 既存のNLP論文やデータセットをメタアナライズすることにより、さまざまな設定の典型的なパワーを特徴づけ、低パワー実験はNLP文献に共通していると結論付ける。 特に、人気の高いGLUEベンチマークのいくつかのタスクでは、小さなテストセットは、ほとんどの試行錯誤が、最先端のモデルとの比較を適切に動かさないことを意味する。 同様に、合理的な仮定に基づいて、人間の評価研究における最も典型的な実験設計は、しばしば研究されるような小さなモデルの違いを検出するために過小評価される。 機械翻訳では,2000文の典型的テストセットが約75%のパワーで1 BLEU点の差を検出する。 今後の状況を改善するため,NLPにおける電力分析のベストプラクティスの概要と,今後の電力分析を支援する一連のノートブックをリリースする。

Despite its importance to experimental design, statistical power (the probability that, given a real effect, an experiment will reject the null hypothesis) has largely been ignored by the NLP community. Underpowered experiments make it more difficult to discern the difference between statistical noise and meaningful model improvements, and increase the chances of exaggerated findings. By meta-analyzing a set of existing NLP papers and datasets, we characterize typical power for a variety of settings and conclude that underpowered experiments are common in the NLP literature. In particular, for several tasks in the popular GLUE benchmark, small test sets mean that most attempted comparisons to state of the art models will not be adequately powered. Similarly, based on reasonable assumptions, we find that the most typical experimental design for human rating studies will be underpowered to detect small model differences, of the sort that are frequently studied. For machine translation, we find that typical test sets of 2000 sentences have approximately 75% power to detect differences of 1 BLEU point. To improve the situation going forward, we give an overview of best practices for power analysis in NLP and release a series of notebooks to assist with future power analyses.
翻訳日:2022-10-07 22:27:12 公開日:2020-10-13
# 「何をしようとしているのですか。」 イベントプロセスのセマンティックタイピング

"What Are You Trying to Do?" Semantic Typing of Event Processes ( http://arxiv.org/abs/2010.06724v1 )

ライセンス: Link先を確認
Muhao Chen, Hongming Zhang, Haoyu Wang, Dan Roth(参考訳) 本稿では,新しい認知的動機づけによる意味的タイピングタスクである多軸イベントプロセスタイピングについて検討する。 (i)その工程によってなされる行為の種類及び (ii) プロセスが影響を及ぼそうとしているオブジェクトの種類。 このタスクは、イベント理解の計算的および認知的な研究にインスパイアされ、イベントの理解は、しばしば主人公の目標、計画、意図を認識することによって行われることを示唆する。 10^3\sim 10^4$)のラベルボキャブラリを持つアクション型とオブジェクト型の両方に超きめ細かなタイピングを特徴とする60k以上のイベントプロセスを含む大規模データセットを開発した。 次に,gloses1からの間接的監督による課題型付け問題に対処するハイブリッド学習フレームワーク,p2gtを提案する。 実験が示すように、p2gtはプロセスの意図を識別するだけでなく、影響を受けるオブジェクトの詳細な意味タイプもサポートしています。 また、少数のケースを扱う能力、ドメイン外のイベントプロセスに対する強力な一般化性を示す。

This paper studies a new cognitively motivated semantic typing task, multi-axis event process typing, that, given an event process, attempts to infer free-form type labels describing (i) the type of action made by the process and (ii) the type of object the process seeks to affect. This task is inspired by computational and cognitive studies of event understanding, which suggest that understanding processes of events is often directed by recognizing the goals, plans or intentions of the protagonist(s). We develop a large dataset containing over 60k event processes, featuring ultra fine-grained typing on both the action and object type axes with very large ($10^3\sim 10^4$) label vocabularies. We then propose a hybrid learning framework, P2GT, which addresses the challenging typing problem with indirect supervision from glosses1and a joint learning-to-rank framework. As our experiments indicate, P2GT supports identifying the intent of processes, as well as the fine semantic type of the affected object. It also demonstrates the capability of handling few-shot cases, and strong generalizability on out-of-domain event processes.
翻訳日:2022-10-07 22:26:49 公開日:2020-10-13