このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200605となっている論文です。

PDF登録状況(公開日: 20200605)

TitleAuthorsAbstract論文公表日・翻訳日
# ポイントワイズパラフレーズ評価は潜在的に問題である

Pointwise Paraphrase Appraisal is Potentially Problematic ( http://arxiv.org/abs/2005.11996v2 )

ライセンス: Link先を確認
Hannah Chen, Yangfeng Ji, David Evans(参考訳) パラフレーズ識別モデルの訓練と評価のための一般的なアプローチは、二項分類問題として構築され、そのモデルには一対の文が与えられ、ペアをパラフレーズまたは非パラフレーズとして正確に分類する。 このポイントワイズに基づく評価手法は,実世界のほとんどのアプリケーションの目的に合致しないため,本研究の目的は,ポイントワイズ評価でうまく機能するモデルが実際どのように失敗するかを理解し,パラファーゼ識別モデルを評価するより良い方法を見出すことである。 この目標に向けた第一歩として、2つの文を1つのシーケンスとしてペア化することでパラフレーズの識別を微調整する標準的な方法が、そのモデルが2つの同じ文とペアを識別するといった単純なタスクでは不十分であることを示す。 さらに,これらのモデルでは,一対の同一文よりも高いパラフレーズスコアを持つランダム選択文を予測できることを示した。

The prevailing approach for training and evaluating paraphrase identification models is constructed as a binary classification problem: the model is given a pair of sentences, and is judged by how accurately it classifies pairs as either paraphrases or non-paraphrases. This pointwise-based evaluation method does not match well the objective of most real world applications, so the goal of our work is to understand how models which perform well under pointwise evaluation may fail in practice and find better methods for evaluating paraphrase identification models. As a first step towards that goal, we show that although the standard way of fine-tuning BERT for paraphrase identification by pairing two sentences as one sequence results in a model with state-of-the-art performance, that model may perform poorly on simple tasks like identifying pairs with two identical sentences. Moreover, we show that these models may even predict a pair of randomly-selected sentences with higher paraphrase score than a pair of identical ones.
翻訳日:2022-11-29 05:57:43 公開日:2020-06-05
# Permutation Matters: ポイントクラウド上での学習のための異方的畳み込み層

Permutation Matters: Anisotropic Convolutional Layer for Learning on Point Clouds ( http://arxiv.org/abs/2005.13135v2 )

ライセンス: Link先を確認
Zhongpai Gao, Guangtao Zhai, Junchi Yan, Xiaokang Yang(参考訳) 多くの3dコンピュータビジョンアプリケーションにおいて、ポイントクラウド上で効率的な表現学習を求める声が高まっている。 畳み込みニューラルネットワーク(CNN)の成功の裏では、データ(例えば画像)がユークリッド構造になっている。 しかし、点雲は不規則で無秩序である。 様々な点ニューラルネットワークが等方性フィルタや重み付け行列を用いて開発され、点雲上の構造の不整合を克服している。 しかし、等方フィルタや重み付け行列は表現力を制限する。 本稿では,球面上の等分散カーネル点の集合に応じてドット積注意を用いて各点のソフトな置換行列を計算し,共有異方性フィルタを行う変分異方性畳み込み演算(PAI-Conv)を提案する。 実際、カーネルポイントを持つドット製品は、自然言語処理(NLP)で広く使われているTransformerのキーを持つドット製品と類似している。 この観点から、PAI-Convは、物理的に有意であり、効率的なランダムな点サンプリング法と協調する堅牢な点雲の変換器とみなすことができる。 点雲に関する総合的な実験により、PAI-Convは最先端の手法と比較して分類とセマンティックセグメンテーションタスクにおいて競合する結果をもたらすことを示した。

It has witnessed a growing demand for efficient representation learning on point clouds in many 3D computer vision applications. Behind the success story of convolutional neural networks (CNNs) is that the data (e.g., images) are Euclidean structured. However, point clouds are irregular and unordered. Various point neural networks have been developed with isotropic filters or using weighting matrices to overcome the structure inconsistency on point clouds. However, isotropic filters or weighting matrices limit the representation power. In this paper, we propose a permutable anisotropic convolutional operation (PAI-Conv) that calculates soft-permutation matrices for each point using dot-product attention according to a set of evenly distributed kernel points on a sphere's surface and performs shared anisotropic filters. In fact, dot product with kernel points is by analogy with the dot-product with keys in Transformer as widely used in natural language processing (NLP). From this perspective, PAI-Conv can be regarded as the transformer for point clouds, which is physically meaningful and is robust to cooperate with the efficient random point sampling method. Comprehensive experiments on point clouds demonstrate that PAI-Conv produces competitive results in classification and semantic segmentation tasks compared to state-of-the-art methods.
翻訳日:2022-11-28 08:37:40 公開日:2020-06-05
# 視覚表現のためのコントラスト学習における相互情報について

On Mutual Information in Contrastive Learning for Visual Representations ( http://arxiv.org/abs/2005.13149v2 )

ライセンス: Link先を確認
Mike Wu, Chengxu Zhuang, Milan Mosse, Daniel Yamins, Noah Goodman(参考訳) 近年,視覚における「コントラスト的」な学習アルゴリズムのいくつかは,伝達タスクにおいて極めてよく機能する表現を学習することが示されている。 このアルゴリズムのファミリは、画像の2つ以上の「ビュー」間の相互情報の低境界を最大化し、典型的なビューは画像拡張の合成から得られることを示す。 我々の境界はインフォデンス目標を一般化し、"差分"コントラストの制限された領域からの負のサンプリングをサポートする。 負のサンプルとビューの選択は、これらのアルゴリズムの成功に不可欠である。 事前の学習目標を相互情報の観点から再構成することで、それらを単純化し安定化する。 実際には、我々の新しい目的は、分類、境界ボックス検出、インスタンスのセグメンテーション、キーポイント検出といった、以前のアプローチで学んだことを上回ります。 %実験の結果,ir,la,cmcを用いた分類,バウンディングボックス検出,インスタンスセグメンテーション,キーポイント検出において,より難しい負のサンプルを選択するとより強い表現が得られることがわかった。 相互情報フレームワークは、対比学習へのアプローチを統一的に比較し、表現学習に影響を与える選択を明らかにする。

In recent years, several unsupervised, "contrastive" learning algorithms in vision have been shown to learn representations that perform remarkably well on transfer tasks. We show that this family of algorithms maximizes a lower bound on the mutual information between two or more "views" of an image where typical views come from a composition of image augmentations. Our bound generalizes the InfoNCE objective to support negative sampling from a restricted region of "difficult" contrasts. We find that the choice of negative samples and views are critical to the success of these algorithms. Reformulating previous learning objectives in terms of mutual information also simplifies and stabilizes them. In practice, our new objectives yield representations that outperform those learned with previous approaches for transfer to classification, bounding box detection, instance segmentation, and keypoint detection. % experiments show that choosing more difficult negative samples results in a stronger representation, outperforming those learned with IR, LA, and CMC in classification, bounding box detection, instance segmentation, and keypoint detection. The mutual information framework provides a unifying comparison of approaches to contrastive learning and uncovers the choices that impact representation learning.
翻訳日:2022-11-28 07:53:07 公開日:2020-06-05
# オンラインソーシャルメディア上でのCOVID-19分析:トレンド、感情、感情

Analyzing COVID-19 on Online Social Media: Trends, Sentiments and Emotions ( http://arxiv.org/abs/2005.14464v3 )

ライセンス: Link先を確認
Xiaoya Li, Mingxin Zhou, Jiawei Wu, Arianna Yuan, Fei Wu and Jiwei Li(参考訳) 執筆時点では、現在進行中の新型コロナウイルスのパンデミック(covid-19)が社会、経済、人々の日常生活に深刻な影響を及ぼしている。 人々はソーシャルメディア上でパンデミックのさまざまな側面について意見を常に表明し、ユーザー生成コンテンツは公共の感情や懸念を理解する上で重要な情報源となっている。 本稿では,2020年1月20日から2020年5月11日までのTwitterとWeiboの投稿に基づいて,米国人と中国人の情緒的軌跡を包括的に分析した。 具体的には、人々の感情、感情(怒り、嫌悪感、恐怖、幸福、悲しみ、驚き)と感情的な引き金(例えば、ユーザーが怒り/悲しみを抱いているもの)を識別することで、COVID-19の時代に公衆の感情のダイナミクスを描写することができる。 中国と国連の2つの非常に異なる国とは対照的に、異なる文化におけるCOVID-19に対する人々の見解に顕著な違いが見られる。 本研究は、パンデミックに対する公衆の感情や懸念をリアルタイムで明らかにするための計算的アプローチを提供し、政策立案者が人々のニーズをより理解し、最適な政策を立案するのに役立つ。

At the time of writing, the ongoing pandemic of coronavirus disease (COVID-19) has caused severe impacts on society, economy and people's daily lives. People constantly express their opinions on various aspects of the pandemic on social media, making user-generated content an important source for understanding public emotions and concerns. In this paper, we perform a comprehensive analysis on the affective trajectories of the American people and the Chinese people based on Twitter and Weibo posts between January 20th, 2020 and May 11th 2020. Specifically, by identifying people's sentiments, emotions (i.e., anger, disgust, fear, happiness, sadness, surprise) and the emotional triggers (e.g., what a user is angry/sad about) we are able to depict the dynamics of public affect in the time of COVID-19. By contrasting two very different countries, China and the Unites States, we reveal sharp differences in people's views on COVID-19 in different cultures. Our study provides a computational approach to unveiling public emotions and concerns on the pandemic in real-time, which would potentially help policy-makers better understand people's need and thus make optimal policy.
翻訳日:2022-11-26 23:51:19 公開日:2020-06-05
# 自動車再識別のためのハイブリッドピラミッドグラフネットワークによる空間的意義の探索

Exploring Spatial Significance via Hybrid Pyramidal Graph Network for Vehicle Re-identification ( http://arxiv.org/abs/2005.14684v2 )

ライセンス: Link先を確認
Fei Shen, Jianqing Zhu, Xiaobin Zhu, Yi Xie, and Jingchang Huang(参考訳) 既存の車両再識別手法では, 既設のバックボーンネットワークから抽出した特徴マップの収集に空間プール操作が一般的である。 彼らは特徴マップの空間的重要性の探索を無視し、最終的に車両の再識別性能を低下させた。 本稿では,まず,特徴写像の空間的意義を詳細に検討するために,革新的な空間グラフネットワーク (sgn) を提案する。 SGNは複数の空間グラフ(SG)を積み重ねる。 各SGは特徴マップの要素をノードとして割り当て、空間的近傍関係を利用してノード間のエッジを決定する。 SGNの伝搬中、SG上の各ノードとその空間近傍を次のSGに集約する。 次のSGでは、各集約ノードを学習可能なパラメータで再重み付けして、対応する位置における重要度を求める。 第二に、新しいピラミッドグラフネットワーク(PGN)は、複数スケールで特徴写像の空間的意義を包括的に探求するために設計されている。 PGNはピラミッド状に複数のSGNを編成し、それぞれのSGNが特定のスケールの特徴マップを処理する。 最後に、ハイブリッドピラミッドグラフネットワーク(HPGN)を開発し、PGNをResNet-50ベースのバックボーンネットワークに埋め込む。 3つの大規模車両データベース(VeRi776、VeRiID、VeRi-Wild)の大規模な実験により、提案されたHPGNは最先端の車両再識別手法よりも優れていることが示された。

Existing vehicle re-identification methods commonly use spatial pooling operations to aggregate feature maps extracted via off-the-shelf backbone networks. They ignore exploring the spatial significance of feature maps, eventually degrading the vehicle re-identification performance. In this paper, firstly, an innovative spatial graph network (SGN) is proposed to elaborately explore the spatial significance of feature maps. The SGN stacks multiple spatial graphs (SGs). Each SG assigns feature map's elements as nodes and utilizes spatial neighborhood relationships to determine edges among nodes. During the SGN's propagation, each node and its spatial neighbors on an SG are aggregated to the next SG. On the next SG, each aggregated node is re-weighted with a learnable parameter to find the significance at the corresponding location. Secondly, a novel pyramidal graph network (PGN) is designed to comprehensively explore the spatial significance of feature maps at multiple scales. The PGN organizes multiple SGNs in a pyramidal manner and makes each SGN handles feature maps of a specific scale. Finally, a hybrid pyramidal graph network (HPGN) is developed by embedding the PGN behind a ResNet-50 based backbone network. Extensive experiments on three large scale vehicle databases (i.e., VeRi776, VehicleID, and VeRi-Wild) demonstrate that the proposed HPGN is superior to state-of-the-art vehicle re-identification approaches.
翻訳日:2022-11-26 22:46:47 公開日:2020-06-05
# スケッチによる顔画像の深部生成

Deep Generation of Face Images from Sketches ( http://arxiv.org/abs/2006.01047v2 )

ライセンス: Link先を確認
Shu-Yu Chen, Wanchao Su, Lin Gao, Shihong Xia, Hongbo Fu(参考訳) 最近の深層画像から画像への翻訳技術は、フリーハンドスケッチから顔画像の高速生成を可能にする。 しかし、既存のソリューションはスケッチに過剰に適合する傾向があるため、プロのスケッチやエッジマップさえ入力する必要がある。 この問題に対処するために, 顔画像の形状空間を暗黙的にモデル化し, この空間における顔画像合成を行い, 入力スケッチを近似する。 私たちは地域対グローバルのアプローチを取る。 まず、キーフェイスコンポーネントの特徴埋め込みを学習し、入力スケッチの対応する部分を、顔コンポーネントサンプルの特徴ベクトルによって定義される基礎となるコンポーネント多様体にプッシュする。 また,組込み成分の特徴から実写画像へのマッピングを中間結果として学習し,情報フローを改善するための深層ニューラルネットワークを提案する。 本手法は基本的にソフトな制約として入力スケッチを使用し,粗面や不完全なスケッチからでも高品質な顔画像を生成することができる。 我々のツールは非アーチストでも使いやすく、形状の細かい制御もサポートしています。 定性的および定量的評価は,既存および代替ソリューションに対して,我々のシステムの優れた生成能力を示す。 本システムのユーザビリティと表現性は,ユーザスタディによって確認される。

Recent deep image-to-image translation techniques allow fast generation of face images from freehand sketches. However, existing solutions tend to overfit to sketches, thus requiring professional sketches or even edge maps as input. To address this issue, our key idea is to implicitly model the shape space of plausible face images and synthesize a face image in this space to approximate an input sketch. We take a local-to-global approach. We first learn feature embeddings of key face components, and push corresponding parts of input sketches towards underlying component manifolds defined by the feature vectors of face component samples. We also propose another deep neural network to learn the mapping from the embedded component features to realistic images with multi-channel feature maps as intermediate results to improve the information flow. Our method essentially uses input sketches as soft constraints and is thus able to produce high-quality face images even from rough and/or incomplete sketches. Our tool is easy to use even for non-artists, while still supporting fine-grained control of shape details. Both qualitative and quantitative evaluations show the superior generation ability of our system to existing and alternative solutions. The usability and expressiveness of our system are confirmed by a user study.
翻訳日:2022-11-26 07:44:21 公開日:2020-06-05
# BIMCV COVID-19+:COVID-19患者のRXおよびCT画像の注釈付きデータセット

BIMCV COVID-19+: a large annotated dataset of RX and CT images from COVID-19 patients ( http://arxiv.org/abs/2006.01174v3 )

ライセンス: Link先を確認
Maria de la Iglesia Vay\'a, Jose Manuel Saborit, Joaquim Angel Montell, Antonio Pertusa, Aurelia Bustos, Miguel Cazorla, Joaquin Galant, Xavier Barber, Domingo Orozco-Beltr\'an, Francisco Garc\'ia-Garc\'ia, Marisa Caparr\'os, Germ\'an Gonz\'alez and Jose Mar\'ia Salinas(参考訳) 胸部x線画像cxr (cr, dx) とct (ct) 画像を含むバレンシア地域医用画像バンク (bimcv) からの大規模データセットであるbimcv covid-19+について, 放射線学的所見, 病理, 放射線学的報告 (スペイン語), dicomメタデータ, ポリメラーゼ連鎖反応 (pcr), 免疫グロブリンg (igg) および免疫グロブリンm (igm) 診断抗体試験と合わせて検討した。 この結果は、以前のデータセットで注釈付けされたエンティティの数が大幅に減少しているのとは異なり、UMLS(Unified Medical Language System)の標準的な用語にマッピングされ、胸部実体の幅広い範囲をカバーする。 画像は高解像度に保存され、エンティティは解剖学的ラベルでローカライズされ、医療イメージングデータ構造(MIDS)形式で保存される。 さらに10枚の画像は、放射線学者のチームによって、放射線学的発見のセマンティックセグメンテーションを含むように注釈付けされた。 このデータベースの最初のイテレーションには、1,380のCX、885のDX、163のCT研究が含まれている。 これは私たちの知る限りでは、オープンフォーマットで利用可能な最大のCOVID-19+画像データセットです。 データセットはhttp://bimcv.cipf.es/bimcv-projects/bimcv-covid19からダウンロードできる。

This paper describes BIMCV COVID-19+, a large dataset from the Valencian Region Medical ImageBank (BIMCV) containing chest X-ray images CXR (CR, DX) and computed tomography (CT) imaging of COVID-19+ patients along with their radiological findings and locations, pathologies, radiological reports (in Spanish), DICOM metadata, Polymerase chain reaction (PCR), Immunoglobulin G (IgG) and Immunoglobulin M (IgM) diagnostic antibody tests. The findings have been mapped onto standard Unified Medical Language System (UMLS) terminology and cover a wide spectrum of thoracic entities, unlike the considerably more reduced number of entities annotated in previous datasets. Images are stored in high resolution and entities are localized with anatomical labels and stored in a Medical Imaging Data Structure (MIDS) format. In addition, 10 images were annotated by a team of radiologists to include semantic segmentation of radiological findings. This first iteration of the database includes 1,380 CX, 885 DX and 163 CT studies from 1,311 COVID-19+ patients. This is, to the best of our knowledge, the largest COVID-19+ dataset of images available in an open format. The dataset can be downloaded from http://bimcv.cipf.es/bimcv-projects/bimcv-covid19.
翻訳日:2022-11-26 06:48:21 公開日:2020-06-05
# ソーシャルメディアにおけるヘイト対策 : ヘイトとカウンタースピーチの大規模分類

Countering hate on social media: Large scale classification of hate and counter speech ( http://arxiv.org/abs/2006.01974v3 )

ライセンス: Link先を確認
Joshua Garland and Keyan Ghazi-Zahedi and Jean-Gabriel Young and Laurent H\'ebert-Dufresne and Mirta Galesic(参考訳) 憎しみに満ちたレトリックは、オンラインの議論をかき立て、極端な社会運動を促進し、現実世界の暴力を引き起こす可能性がある。 この世界的な問題に対する潜在的な解決策は、市民が憎しみに満ちた会話を積極的に行い、市民の非分極的言論を復活させようとする、市民生成のカウンタースピーチである。 しかし、憎悪の拡散を抑制する実際の効果は不明であり、定量化が難しい。 この問題を研究する上での大きな障害は、カウンター音声を識別するための自動分類器を訓練するための大きなラベル付きデータセットがないことである。 ここではドイツのユニークな状況を利用して、オンラインヘイトとカウンタースピーチの組織化に従事した。 我々は,複数の段落埋め込みと正規化ロジスティック回帰関数を組み合わさったアンサンブル学習アルゴリズムを用いて,これらのグループから何百万もの関連ツイートを抽出した。 サンプルバランステストセットのうち0.76から0.97--の範囲でマクロf1得点を達成し,その精度は最先端にさえ達した。 何千ものツイートで、私たちはクラウドソーシングを使用して、分類者による判断が人間の判断と密接に一致していることを確認する。 そして、この分類器を使って、2013年から2018年にかけて発生した135,000件以上の完全に解決されたTwitterの会話を分析し、それらの頻度と対話を研究しました。 また,ソーシャルメディア上での会話の安定化におけるコーディネート音声の効果を評価するための自動手法の可能性も明らかにした。

Hateful rhetoric is plaguing online discourse, fostering extreme societal movements and possibly giving rise to real-world violence. A potential solution to this growing global problem is citizen-generated counter speech where citizens actively engage in hate-filled conversations to attempt to restore civil non-polarized discourse. However, its actual effectiveness in curbing the spread of hatred is unknown and hard to quantify. One major obstacle to researching this question is a lack of large labeled data sets for training automated classifiers to identify counter speech. Here we made use of a unique situation in Germany where self-labeling groups engaged in organized online hate and counter speech. We used an ensemble learning algorithm which pairs a variety of paragraph embeddings with regularized logistic regression functions to classify both hate and counter speech in a corpus of millions of relevant tweets from these two groups. Our pipeline achieved macro F1 scores on out of sample balanced test sets ranging from 0.76 to 0.97---accuracy in line and even exceeding the state of the art. On thousands of tweets, we used crowdsourcing to verify that the judgments made by the classifier are in close alignment with human judgment. We then used the classifier to discover hate and counter speech in more than 135,000 fully-resolved Twitter conversations occurring from 2013 to 2018 and study their frequency and interaction. Altogether, our results highlight the potential of automated methods to evaluate the impact of coordinated counter speech in stabilizing conversations on social media.
翻訳日:2022-11-26 01:22:50 公開日:2020-06-05
# 光源推定におけるデータセット作成の問題点

Problems of dataset creation for light source estimation ( http://arxiv.org/abs/2006.02692v2 )

ライセンス: Link先を確認
E.I. Ershov, A.V. Belokopytov, A.V. Savchik(参考訳) 本稿では,光源推定問題に対する新たなデータセットを単一画像で収集した経験について述べる。 既存のカラーターゲットの分析は、データ収集に不可欠な様々な技術的および科学的側面とともに提示される。 この論文には、次の第2回国際照明推定チャレンジ(IEC 2020)の発表も含まれている。

The paper describes our experience collecting a new dataset for the light source estimation problem in a single image. The analysis of existing color targets is presented along with various technical and scientific aspects essential for data collection. The paper also contains an announcement of an upcoming 2-nd International Illumination Estimation Challenge (IEC 2020).
翻訳日:2022-11-25 10:11:00 公開日:2020-06-05
# ディープラーニングにおけるロバストサンプリング

Robust Sampling in Deep Learning ( http://arxiv.org/abs/2006.02734v2 )

ライセンス: Link先を確認
Aurora Cobo Aguilera, Antonio Art\'es-Rodr\'iguez, Fernando P\'erez-Cruz, Pablo Mart\'inez Olmos(参考訳) ディープラーニングは、オーバーフィッティングを減らし、一般化を改善するために正規化メカニズムを必要とする。 分散ロバスト最適化に基づく新しい正規化手法によりこの問題に対処する。 重要なアイデアは、各サンプルからのコントリビューションを変更して、経験的リスクバウンドを締め付けることだ。 確率的トレーニングの間、最悪のサンプルが最適化に最も貢献するものであるように、その正確性に応じてサンプルの選択が行われる。 異なるシナリオを研究し、収束を速くしたり、精度を高めたりできるところを示します。

Deep learning requires regularization mechanisms to reduce overfitting and improve generalization. We address this problem by a new regularization method based on distributional robust optimization. The key idea is to modify the contribution from each sample for tightening the empirical risk bound. During the stochastic training, the selection of samples is done according to their accuracy in such a way that the worst performed samples are the ones that contribute the most in the optimization. We study different scenarios and show the ones where it can make the convergence faster or increase the accuracy.
翻訳日:2022-11-25 09:26:14 公開日:2020-06-05
# Quora Question Pairsデータセットを用いたパラフレーズ識別実験

Experiments on Paraphrase Identification Using Quora Question Pairs Dataset ( http://arxiv.org/abs/2006.02648v2 )

ライセンス: Link先を確認
Andreas Chandra, Ruben Stefanus(参考訳) 同様の質問を特定するために、quora question pairsデータセットをモデル化しました。 使用するデータセットはQuoraによって提供されます。 タスクはバイナリ分類です。 従来の手法と異なる手法,アルゴリズム,アプローチを試した。 特徴抽出にはBag of Words,例えば Count Vectorizer と Term Frequency-Inverse Document Frequency with unigram for XGBoost and CatBoost を用いた。 さらに,モデル性能を大幅に向上させるワードピーストークン化も行った。 97パーセントの精度で達成しました コードとデータセット。

We modeled the Quora question pairs dataset to identify a similar question. The dataset that we use is provided by Quora. The task is a binary classification. We tried several methods and algorithms and different approach from previous works. For feature extraction, we used Bag of Words including Count Vectorizer, and Term Frequency-Inverse Document Frequency with unigram for XGBoost and CatBoost. Furthermore, we also experimented with WordPiece tokenizer which improves the model performance significantly. We achieved up to 97 percent accuracy. Code and Dataset.
翻訳日:2022-11-25 08:58:14 公開日:2020-06-05
# 推薦における安定マッチングを用いた精度と多様性のバランスの最適化

Using Stable Matching to Optimize the Balance between Accuracy and Diversity in Recommendation ( http://arxiv.org/abs/2006.03715v1 )

ライセンス: Link先を確認
Farzad Eskandanian, Bamshad Mobasher(参考訳) 多くのレコメンデーションドメインにおいて、総多様性(もしくはカタログのカバレッジ)の増加は、人気バイアスを緩和し、ユーザに与えられるリコメンデーションにおけるロングテールアイテムのカバレッジを改善することが望ましい重要なシステムレベル目標である。 これは、エンドユーザーだけでなく、システムによって作成されたレコメンデーションリスト全体で商品の公正な表現を望む商品販売者や生産者といった他の利害関係者にとっても、ユーティリティを最適化することが重要となるマルチステークホルダーレコメンデーションシナリオにおいて特に重要である。 残念ながら、集約の多様性を高める試みは、エンドユーザの推奨精度を低下させることが多い。 したがって、この問題に対処するには、精度と集約多様性のトレードオフを効果的に管理できるアプローチが必要である。 本稿では,ユーザとアイテムの両方のユーティリティを考慮した2面後処理手法を提案する。 我々の目標は、推薦精度の損失を最小限に抑えながら、多様性を最大化することです。 我々の解は、よく知られた安定マッチング問題を解くための効率的なアルゴリズムとして提案されたDederred Acceptanceアルゴリズムの一般化である。 提案アルゴリズムは,アイテムとユーザ間の一意なユーザ-最適整合性を証明した。 3つのレコメンデーションデータセットを用いて,いくつかのベースラインと比較して,アプローチの有効性を実証的に実証した。 特に,提案手法は,エンドユーザの推薦精度を最適化しつつ,集約的多様性とアイテム側の有用性を高める上で極めて有効であることを示す。

Increasing aggregate diversity (or catalog coverage) is an important system-level objective in many recommendation domains where it may be desirable to mitigate the popularity bias and to improve the coverage of long-tail items in recommendations given to users. This is especially important in multistakeholder recommendation scenarios where it may be important to optimize utilities not just for the end user, but also for other stakeholders such as item sellers or producers who desire a fair representation of their items across recommendation lists produced by the system. Unfortunately, attempts to increase aggregate diversity often result in lower recommendation accuracy for end users. Thus, addressing this problem requires an approach that can effectively manage the trade-offs between accuracy and aggregate diversity. In this work, we propose a two-sided post-processing approach in which both user and item utilities are considered. Our goal is to maximize aggregate diversity while minimizing loss in recommendation accuracy. Our solution is a generalization of the Deferred Acceptance algorithm which was proposed as an efficient algorithm to solve the well-known stable matching problem. We prove that our algorithm results in a unique user-optimal stable match between items and users. Using three recommendation datasets, we empirically demonstrate the effectiveness of our approach in comparison to several baselines. In particular, our results show that the proposed solution is quite effective in increasing aggregate diversity and item-side utility while optimizing recommendation accuracy for end users.
翻訳日:2022-11-25 04:39:17 公開日:2020-06-05
# LSTMとARIMAモデルを用いた新型コロナウイルス患者の時系列分析と予測

Time Series Analysis and Forecasting of COVID-19 Cases Using LSTM and ARIMA Models ( http://arxiv.org/abs/2006.13852v1 )

ライセンス: Link先を確認
Arko Barman(参考訳) 2019年のcovid-19(covid-19)は、世界保健機関(who)がパンデミックと宣言した世界的な公衆衛生危機である。 政策立案者や医療提供者が将来に備えるためには、国別感染の予測が必要である。 本研究では,いくつかの長期短期記憶モデル (lstm) と自己回帰的統合移動平均モデル (arima) の性能について検討した。 LSTMモデルとARIMAを用いて1日,3日,5日間の予測を作成した。 k-day平均絶対パーセンテージ誤差(kmape)とk-day中央値対称精度(kmdsa)という2つの新しいk- periodパフォーマンス指標が,複数日間の時系列値予測におけるモデルの性能評価のために開発された。 LSTMモデルではkMAPEとkMdSAの予測誤差が0.05%, ARIMAでは0.07%, 0.06%であった。 LSTMモデルはやや過小評価され、ARIMAは予測の数値を少し過小評価した。 LSTMモデルの性能は、新型コロナウイルスの予測におけるARIMAに匹敵する。 ARIMAはより長いシーケンスを必要とするが、LSTMは配列サイズを3.3まで小さくできる。 しかし、LSTMは多数のトレーニングサンプルを必要とする。 さらに,提案するk周期性能指標の開発は,複数周期予測における時系列モデルの性能評価に有用であると考えられる。 LSTMとARIMAは、k- periodのパフォーマンス指標に基づいて、時系列分析とCOVID-19の予測に有用である。

Coronavirus disease 2019 (COVID-19) is a global public health crisis that has been declared a pandemic by World Health Organization. Forecasting country-wise COVID-19 cases is necessary to help policymakers and healthcare providers prepare for the future. This study explores the performance of several Long Short-Term Memory (LSTM) models and Auto-Regressive Integrated Moving Average (ARIMA) model in forecasting the number of confirmed COVID-19 cases. Time series of daily cumulative COVID-19 cases were used for generating 1-day, 3-day, and 5-day forecasts using several LSTM models and ARIMA. Two novel k-period performance metrics - k-day Mean Absolute Percentage Error (kMAPE) and k-day Median Symmetric Accuracy (kMdSA) - were developed for evaluating the performance of the models in forecasting time series values for multiple days. Errors in prediction using kMAPE and kMdSA for LSTM models were both as low as 0.05%, while those for ARIMA were 0.07% and 0.06% respectively. LSTM models slightly underestimated while ARIMA slightly overestimated the numbers in the forecasts. The performance of LSTM models is comparable to ARIMA in forecasting COVID-19 cases. While ARIMA requires longer sequences, LSTMs can perform reasonably well with sequence sizes as small as 3. However, LSTMs require a large number of training samples. Further, the development of k-period performance metrics proposed is likely to be useful for performance evaluation of time series models in predicting multiple periods. Based on the k-period performance metrics proposed, both LSTMs and ARIMA are useful for time series analysis and forecasting for COVID-19.
翻訳日:2022-11-25 04:38:52 公開日:2020-06-05
# 移動データから公共交通機関の時空間需要の抽出

Extracting Spatiotemporal Demand for Public Transit from Mobility Data ( http://arxiv.org/abs/2006.03351v1 )

ライセンス: Link先を確認
Trivik Verma, Mikhail Sirenko, Itto Kornecki, Scott Cunningham, Nuno AM Ara\'ujo(参考訳) 人々が常に異なる都市部に移動する中、私たちのモビリティは仕事、サービス、レジャーが急速に変化しています。 都市人口の変化は、交通サービスの効率的な管理にいくつかの課題をもたらす。 交通需要を予測するために、プランナーはしばしば社会学的調査や、入手が困難、不正確、または時代遅れのモデルに頼っている。 モビリティに対する様々な需要をどうやって見積もるのか? 都市における公共交通機関の時空間需要を簡易に把握する手法を提案する。 ガウス混合モデルを用いて,経験的ライダーシップデータを,任意の日にわたってライダーシップを表す時間需要プロファイルに分解する。 グレーター・ロンドン地域の1日あたりの交通量約460万の事例は、異なる需要プロファイルを示している。 これらのプロファイルの重み付けされた混合は、空間的に同心性のあるモビリティ要求のクラスタを明らかにすることで、駅のトラフィックを著しく高めることができる。 都市の時空間地理を解析する方法は、公共交通機関の異なる他の都市にも拡張することができる。

With people constantly migrating to different urban areas, our mobility needs for work, services and leisure are transforming rapidly. The changing urban demographics pose several challenges for the efficient management of transit services. To forecast transit demand, planners often resort to sociological investigations or modelling that are either difficult to obtain, inaccurate or outdated. How can we then estimate the variegated demand for mobility? We propose a simple method to identify the spatiotemporal demand for public transit in a city. Using a Gaussian mixture model, we decompose empirical ridership data into a set of temporal demand profiles representative of ridership over any given day. A case of approximately 4.6 million daily transit traces from the Greater London region reveals distinct demand profiles. We find that a weighted mixture of these profiles can generate any station traffic remarkably well, uncovering spatially concentric clusters of mobility needs. Our method of analysing the spatiotemporal geography of a city can be extended to other urban regions with different modes of public transit.
翻訳日:2022-11-25 04:37:26 公開日:2020-06-05
# LSTMによる非線形力学系の異常検出

LSTM-based Anomaly Detection for Non-linear Dynamical System ( http://arxiv.org/abs/2006.03193v1 )

ライセンス: Link先を確認
Yue Tan, Chunjing Hu, Kuan Zhang, Kan Zheng, Ethan A. Davis and Jae Sung Park(参考訳) 非線形力学系の異常検出はシステムの安定性を確保する上で重要な役割を果たす。 しかし、通常は複雑であり、広範な計算資源を必要とする大規模なシミュレーションによって解決されなければならない。 本稿では,時系列の複雑な時間変化を捉え,多段階予測を行うための,long short-term memory (lstm) に基づく非線形力学系における新しい異常検出手法を提案する。 具体的には、データ前処理、多段階予測、異常検出を含む非線形力学系におけるLSTMに基づく異常検出の枠組みを最初に提示する。 予測条件により,壁せん断応力データセット内のサンプルを適応スライディングウインドウで収集する多段階予測において,2種類のトレーニングモードが検討される。 多段階予測結果に基づいて、時間列の局所的な数値的特徴を抽出し、今後の異常を推定するために、適応パラメータ付き局所平均(LAAP)アルゴリズムを提案する。 実験の結果,壁面せん断応力データセットでは従来の手法よりも高い予測精度が得られ,LAAPアルゴリズムは異常検出タスクにおいて絶対値に基づく手法よりも優れた性能を示すことがわかった。

Anomaly detection for non-linear dynamical system plays an important role in ensuring the system stability. However, it is usually complex and has to be solved by large-scale simulation which requires extensive computing resources. In this paper, we propose a novel anomaly detection scheme in non-linear dynamical system based on Long Short-Term Memory (LSTM) to capture complex temporal changes of the time sequence and make multi-step predictions. Specifically, we first present the framework of LSTM-based anomaly detection in non-linear dynamical system, including data preprocessing, multi-step prediction and anomaly detection. According to the prediction requirement, two types of training modes are explored in multi-step prediction, where samples in a wall shear stress dataset are collected by an adaptive sliding window. On the basis of the multi-step prediction result, a Local Average with Adaptive Parameters (LAAP) algorithm is proposed to extract local numerical features of the time sequence and estimate the upcoming anomaly. The experimental results show that our proposed multi-step prediction method can achieve a higher prediction accuracy than traditional method in wall shear stress dataset, and the LAAP algorithm performs better than the absolute value-based method in anomaly detection task.
翻訳日:2022-11-25 04:30:22 公開日:2020-06-05
# 相関数データに対するベイズ偏差共分散構造解析

Bayesian Sparse Covariance Structure Analysis for Correlated Count Data ( http://arxiv.org/abs/2006.03241v1 )

ライセンス: Link先を確認
Sho Ichigozaki, Takahiro Kawashima and Hayaru Shouno(参考訳) 本稿では,相関可算データに対するベイズ図形LASSOを提案し,空間犯罪データに適用する。 提案モデルでは,犯罪の潜在的なリスクを支配する潜在変数に対するガウス図形モデルを仮定する。 提案モデルを評価するために,サンプルを良く表現する最適ハイパーパラメータを決定する。 提案したモデルを用いて,潜在変数のスパース逆共分散を推定し,偏相関係数を評価する。 最後に, 犯罪スポットデータを用いた結果を示し, 推定潜時変数とスパース逆共分散の偏相関係数について考察する。

In this paper, we propose a Bayesian Graphical LASSO for correlated countable data and apply it to spatial crime data. In the proposed model, we assume a Gaussian Graphical Model for the latent variables which dominate the potential risks of crimes. To evaluate the proposed model, we determine optimal hyperparameters which represent samples better. We apply the proposed model for estimation of the sparse inverse covariance of the latent variable and evaluate the partial correlation coefficients. Finally, we illustrate the results on crime spots data and consider the estimated latent variables and the partial correlation coefficients of the sparse inverse covariance.
翻訳日:2022-11-25 04:29:36 公開日:2020-06-05
# パイプライン故障ドライバの理解による水漏れ防止のための機械学習の利用

Utilizing machine learning to prevent water main breaks by understanding pipeline failure drivers ( http://arxiv.org/abs/2006.03385v1 )

ライセンス: Link先を確認
Dilusha Weeraddana, Bin Liang, Zhidong Li, Yang Wang, Fang Chen, Livia Bonazzi, Dean Phillips, Nitin Saxena(参考訳) data61とウェスタンウォーターは、エンジニアリングの専門知識と機械学習ツールを適用して、年間平均400件の水道本管障害が発生するメルボルン西部のパイプ故障問題に対するコスト効率の高い解決策を見つけるために協力した。 この目的を達成するために,水管網の挙動に関する詳細な画像と理解を構築した。 1)水メインブレイクの基礎となるドライバの発見,及び 2) 歴史的故障記録, 管の記述子, その他の環境要因を用いた水本破砕の失敗可能性の評価と予測を行う機械学習システムの開発。 管の更新の優先事項を特定するため,西方水への道を開く結果

Data61 and Western Water worked collaboratively to apply engineering expertise and Machine Learning tools to find a cost-effective solution to the pipe failure problem in the region west of Melbourne, where on average 400 water main failures occur per year. To achieve this objective, we constructed a detailed picture and understanding of the behaviour of the water pipe network by 1) discovering the underlying drivers of water main breaks, and 2) developing a Machine Learning system to assess and predict the failure likelihood of water main breaking using historical failure records, descriptors of pipes, and other environmental factors. The ensuing results open up an avenue for Western Water to identify the priority of pipe renewals
翻訳日:2022-11-25 04:28:59 公開日:2020-06-05
# 解釈可能な機械学習手法による国際移動のドライバの研究

Using an interpretable Machine Learning approach to study the drivers of International Migration ( http://arxiv.org/abs/2006.03560v1 )

ライセンス: Link先を確認
Harold Silv\`ere Kiossou, Yannik Schenk, Fr\'ed\'eric Docquier, Vinasetan Ratheil Houndji, Siegfried Nijssen, Pierre Schaus(参考訳) 移住圧力の増大は、効果的な政策を設計するために新しいモデリングアプローチを要求する。 マイグレーションフローを予測するための効率的なモデルだけでなく、特定のパラメータがこれらのフローに与える影響を理解することも重要です。 本稿では,国際移住をモデル化する人工知能ニューラルネットワーク(ANN)を提案する。 さらに,PDP(Partial Dependence Plots)と呼ばれる機械学習モデルの解釈手法を用いて,国際移動の背景にあるドライバの影響を十分に研究できることを示す。 我々は,国際二国間移動が1960ドルから2010ドル,原産地国が135ドル,oecdが中心となる335ドル,移行文献で特定される主要な要因を含むデータセット上でモデルを訓練し,評価した。 実験の結果、以下のことが確認された。 1) ANNモデルは従来のモデルよりも効率的である。 2) PDPを用いることで, マイグレーションドライバの具体的な影響について, さらなる知見を得ることができる。 このアプローチは、以前の作業で使用される機能重要情報のみを使用するよりも、はるかに多くの情報を提供する。

Globally increasing migration pressures call for new modelling approaches in order to design effective policies. It is important to have not only efficient models to predict migration flows but also to understand how specific parameters influence these flows. In this paper, we propose an artificial neural network (ANN) to model international migration. Moreover, we use a technique for interpreting machine learning models, namely Partial Dependence Plots (PDP), to show that one can well study the effects of drivers behind international migration. We train and evaluate the model on a dataset containing annual international bilateral migration from $1960$ to $2010$ from $175$ origin countries to $33$ mainly OECD destinations, along with the main determinants as identified in the migration literature. The experiments carried out confirm that: 1) the ANN model is more efficient w.r.t. a traditional model, and 2) using PDP we are able to gain additional insights on the specific effects of the migration drivers. This approach provides much more information than only using the feature importance information used in previous works.
翻訳日:2022-11-25 04:28:20 公開日:2020-06-05
# 指数的平滑化とホルトの線形トレンド法による電子商取引における売上予測の階層的ロバスト集約

Hierarchical robust aggregation of sales forecasts at aggregated levels in e-commerce, based on exponential smoothing and Holt's linear trend method ( http://arxiv.org/abs/2006.03373v1 )

ライセンス: Link先を確認
Malo Huard (LMO), R\'emy Garnier, Gilles Stoltz (LMO, HEC Paris, CELESTE)(参考訳) 指数的平滑化や拡張(ホルトの線形トレンド法)のような販売予測における古典的統計手法の関心を再考する。 我々はアンサンブル予測を考慮し、異なる(一連の)パラメータで調整されたこれらの古典的手法のいくつかの例から与えられること、そしてアンサンブル予測の要素の凸結合を、頑健でシーケンシャルな方法で形成することである。 この背景にある機械学習理論は、"robust online aggregate"、"prediction with expert advice"、"prediction of individual sequences" (Cesa-Bianchi and Lugosi, 2006)と呼ばれている。 本手法を,電子商取引会社Cdiscountが提供する販売の階層的データセットに適用し,販売対象のサブファミリティ,サブファミリティ,ファミリティのレベルにおいて,様々な予測地平線(最大6週間前)に予測を出力する。 達成された性能は、列車セットの古典的テクニックを最適に調整し、テストセットの予測を使用することによって得られるものよりも優れている。 パフォーマンスは(平均的な絶対的なエラー率の観点から)本質的な観点からも良好である。 サブファミリティ、サブファミリティ、ファミリーのレベルでの販売予測を改善することは、それぞれ興味深いが、アイテムレベルでの需要予測では追加機能として使うことも提案する。

We revisit the interest of classical statistical techniques for sales forecasting like exponential smoothing and extensions thereof (as Holt's linear trend method). We do so by considering ensemble forecasts, given by several instances of these classical techniques tuned with different (sets of) parameters, and by forming convex combinations of the elements of ensemble forecasts over time, in a robust and sequential manner. The machine-learning theory behind this is called "robust online aggregation", or "prediction with expert advice", or "prediction of individual sequences" (see Cesa-Bianchi and Lugosi, 2006). We apply this methodology to a hierarchical data set of sales provided by the e-commerce company Cdiscount and output forecasts at the levels of subsubfamilies, subfamilies and families of items sold, for various forecasting horizons (up to 6-week-ahead). The performance achieved is better than what would be obtained by optimally tuning the classical techniques on a train set and using their forecasts on the test set. The performance is also good from an intrinsic point of view (in terms of mean absolute percentage of error). While getting these better forecasts of sales at the levels of subsubfamilies, subfamilies and families is interesting per se, we also suggest to use them as additional features when forecasting demand at the item level.
翻訳日:2022-11-25 04:21:46 公開日:2020-06-05
# deconvolved calcium imaging tracesのためのゼロインフレーションガンマモデル

A zero-inflated gamma model for deconvolved calcium imaging traces ( http://arxiv.org/abs/2006.03737v1 )

ライセンス: Link先を確認
Xue-Xin Wei, Ding Zhou, Andres Grosmark, Zaki Ajabi, Fraser Sparks, Pengcheng Zhou, Mark Brandon, Attila Losonczy, Liam Paninski(参考訳) カルシウムイメージングは、大きな神経集団の活動を測定する重要なツールである。 カルシウムビデオデータのための「前処理」ツールの開発に多くの努力が払われており、運動補正、デノイジング、圧縮、デミックス、デコンボリューションといった重要な問題に対処している。 しかし、逆畳みカルシウム信号(すなわち、前処理パイプラインによって抽出された推定活性)の統計的モデリングは、カルシウム測定の解釈や、下流の確率的符号化と復号モデルにこれらの観測を組み込むのに重要である。 驚くべきことに、これらの問題はこれまであまり注目されなかった。 本研究では,非畳み込み活動推定の統計的性質を検証し,確率モデルとランダム信号を比較した。 特に,カルシウム応答をガンマ分布とゼロ応答のモデル化に役立つ点質量の混合物として特徴づけるゼロ膨張ガンマ(zig)モデルを提案する。 結果のモデルをニューラルエンコーディングと復号化問題に適用する。 ZIGモデルは、シミュレーションと実際のニューラルデータの両方の文脈において、より単純なモデル(例えば、PoissonやBernoulliモデル)よりも優れており、そのため、大きなニューラル集団における活動を分析するツールを用いたカルシウムイメージング分析手法のブリッジングにおいて有用な役割を果たす。

Calcium imaging is a critical tool for measuring the activity of large neural populations. Much effort has been devoted to developing "pre-processing" tools for calcium video data, addressing the important issues of e.g., motion correction, denoising, compression, demixing, and deconvolution. However, statistical modeling of deconvolved calcium signals (i.e., the estimated activity extracted by a pre-processing pipeline) is just as critical for interpreting calcium measurements, and for incorporating these observations into downstream probabilistic encoding and decoding models. Surprisingly, these issues have to date received significantly less attention. In this work we examine the statistical properties of the deconvolved activity estimates, and compare probabilistic models for these random signals. In particular, we propose a zero-inflated gamma (ZIG) model, which characterizes the calcium responses as a mixture of a gamma distribution and a point mass that serves to model zero responses. We apply the resulting models to neural encoding and decoding problems. We find that the ZIG model outperforms simpler models (e.g., Poisson or Bernoulli models) in the context of both simulated and real neural data, and can therefore play a useful role in bridging calcium imaging analysis methods with tools for analyzing activity in large neural populations.
翻訳日:2022-11-25 04:21:04 公開日:2020-06-05
# 音声ファイルの局所特徴探索のための新しい手法

A New Method Towards Speech Files Local Features Investigation ( http://arxiv.org/abs/2006.03388v1 )

ライセンス: Link先を確認
Rustam Latypov and Evgeni Stolov(参考訳) 近年,音声ファイルの局所的特徴研究への関心が高まっている理由はいくつかある。 使用する話者言語の多くの本質的な特徴が音声信号の形で現れることが述べられている。 伝統的な楽器 - 短フーリエ変換、ウェーブレット変換、ハダマール変換、自己相関など - は言語の特定の性質を全て検出できるわけではない。 本稿では,そのような特性を探索するための新しいアプローチを提案する。 ソース信号は、その値が有限集合から取られる新しい信号によって近似される。 次に、これらの近似の基底に一定の大きさのベクトルの新しい列を構築する。 生成されたベクトルの分布の検討は、音声ファイルの局所的特徴を記述する新しい方法を提供する。 最後に,音声ファイルにおける2つの既知の言語の自動識別の問題に対して,本手法を適用した。 この目的のために、単純なニューラルネットが消費される。

There are a few reasons for the recent increased interest in the study of local features of speech files. It is stated that many essential features of the speaker language used can appear in the form of the speech signal. The traditional instruments - short Fourier transform, wavelet transform, Hadamard transforms, autocorrelation, and the like can detect not all particular properties of the language. In this paper, we suggest a new approach to the exploration of such properties. The source signal is approximated by a new one that has its values taken from a finite set. Then we construct a new sequence of vectors of a fixed size on the base of those approximations. Examination of the distribution of the produced vectors provides a new method for a description of speech files local characteristics. Finally, the developed technique is applied to the problem of the automatic distinguishing of two known languages used in speech files. For this purpose, a simple neural net is consumed.
翻訳日:2022-11-25 04:20:41 公開日:2020-06-05
# CTとMRの画像変換のための構造認識型双方向画像

Structurally aware bidirectional unpaired image to image translation between CT and MR ( http://arxiv.org/abs/2006.03374v1 )

ライセンス: Link先を確認
Vismay Agrawal, Avinash Kori, Vikas Kumar Anand, and Ganapathy Krishnamurthi(参考訳) mri (mr) とct (ct) は、手術計画や解析に非常に頻繁に用いられる画像診断の主要な特徴である。 医療画像の一般的な問題は、取得プロセスが非常に高価で時間がかかることである。 generative adversarial networks(gans)のようなディープラーニング技術は、複数の画像モダリティ間の画像翻訳の可能性を活用するのに役立ち、時間とコストの節約に役立ちます。 これらの技術は、MRI情報のフィードバックにより、CT下で外科的計画を実行するのに役立つ。 これまでの研究では、MRからCTへの画像合成のペア化とアンペア化が見られたが、組織情報の追加を伴うため、CTからMRへの画像合成は依然として課題である。 本稿では,CT画像とMR画像の両モード間の周期的整合性と構造的類似性を利用した2種類のジェネレーティブ・アドバーサリアル・ネットワークをペロビット・データセット上で実装し,これらの画像モダリティ間のコンテンツとスタイルの双方向交換を容易にする。 提案したGANは入力された医用画像を異なるメカニズムで変換するので、生成した画像は現実的に見えるだけでなく、様々な比較指標でよく機能する。 放射線学の検証では、生成したMR画像とCT画像のわずかな変化は、真の画像と全く同じではなく、医学的目的に使用できることが示されている。

Magnetic Resonance (MR) Imaging and Computed Tomography (CT) are the primary diagnostic imaging modalities quite frequently used for surgical planning and analysis. A general problem with medical imaging is that the acquisition process is quite expensive and time-consuming. Deep learning techniques like generative adversarial networks (GANs) can help us to leverage the possibility of an image to image translation between multiple imaging modalities, which in turn helps in saving time and cost. These techniques will help to conduct surgical planning under CT with the feedback of MRI information. While previous studies have shown paired and unpaired image synthesis from MR to CT, image synthesis from CT to MR still remains a challenge, since it involves the addition of extra tissue information. In this manuscript, we have implemented two different variations of Generative Adversarial Networks exploiting the cycling consistency and structural similarity between both CT and MR image modalities on a pelvis dataset, thus facilitating a bidirectional exchange of content and style between these image modalities. The proposed GANs translate the input medical images by different mechanisms, and hence generated images not only appears realistic but also performs well across various comparison metrics, and these images have also been cross verified with a radiologist. The radiologist verification has shown that slight variations in generated MR and CT images may not be exactly the same as their true counterpart but it can be used for medical purposes.
翻訳日:2022-11-25 04:20:29 公開日:2020-06-05
# 画像レベルラベルを用いたエンドツーエンドトレーニングによるslide画像中の前立腺癌の検出

Detection of prostate cancer in whole-slide images through end-to-end training with image-level labels ( http://arxiv.org/abs/2006.03394v1 )

ライセンス: Link先を確認
Hans Pinckaers, Wouter Bulten, Jeroen van der Laak, Geert Litjens(参考訳) 前立腺がんは西部諸国の男性の中で最も多いがんであり、毎年11万の新しい診断が行われている。 前立腺癌の診断のための金の基準は、病理学者による前立腺組織の評価である。 病理学者を支援するために深層学習に基づくがん検出システムを開発した。 最先端モデルの多くはパッチベースの畳み込みニューラルネットワークであり、スキャンされたスライド全体の使用はアクセラレータカードのメモリ制限によって妨げられている。 パッチベースのシステムは通常、効果的なトレーニングのために詳細なピクセルレベルのアノテーションを必要とする。 しかし、これらのアノテーションは、スライドレベルのラベルを含む病理医の臨床報告とは対照的に、ほとんど利用できない。 このように、手作業でピクセル単位のアノテーションを必要とせず、臨床報告のみを使って学習できるアルゴリズムの開発は、この分野の大きな進歩となるでしょう。 本稿では,4712前立腺生検で2100万のパラメータを終端とする最新のCNN(ResNet-34)をトレーニングするために,畳み込み層のストリーミング実装を提案する。 この方法では、GPUメモリの要求を2.4TB削減することで、バイオプシー画像全体を高解像度で直接使用することができる。 ストリーミングアプローチを用いてトレーニングされた最新のCNNは、追加のヒューリスティックを伴わずに高解像度画像から有意義な特徴を抽出できることを示し、最先端のパッチベースおよびマルチインスタンス学習手法と同等の性能に達することを示す。 手動アノテーションの必要性を回避することで、このアプローチは病理診断における他のタスクの青写真として機能することができる。 ストリーミングモデルを再現するソースコードはhttps://github.com/diagnijmegen/pathology-streaming-pipeline.com/で入手できる。

Prostate cancer is the most prevalent cancer among men in Western countries, with 1.1 million new diagnoses every year. The gold standard for the diagnosis of prostate cancer is a pathologists' evaluation of prostate tissue. To potentially assist pathologists deep-learning-based cancer detection systems have been developed. Many of the state-of-the-art models are patch-based convolutional neural networks, as the use of entire scanned slides is hampered by memory limitations on accelerator cards. Patch-based systems typically require detailed, pixel-level annotations for effective training. However, such annotations are seldom readily available, in contrast to the clinical reports of pathologists, which contain slide-level labels. As such, developing algorithms which do not require manual pixel-wise annotations, but can learn using only the clinical report would be a significant advancement for the field. In this paper, we propose to use a streaming implementation of convolutional layers, to train a modern CNN (ResNet-34) with 21 million parameters end-to-end on 4712 prostate biopsies. The method enables the use of entire biopsy images at high-resolution directly by reducing the GPU memory requirements by 2.4 TB. We show that modern CNNs, trained using our streaming approach, can extract meaningful features from high-resolution images without additional heuristics, reaching similar performance as state-of-the-art patch-based and multiple-instance learning methods. By circumventing the need for manual annotations, this approach can function as a blueprint for other tasks in histopathological diagnosis. The source code to reproduce the streaming models is available at https://github.com/DIAGNijmegen/pathology-streaming-pipeline .
翻訳日:2022-11-25 04:20:02 公開日:2020-06-05
# Applied Awareness:コンピュータビジョンと暗号を用いたテスト駆動GUI開発

Applied Awareness: Test-Driven GUI Development using Computer Vision and Cryptography ( http://arxiv.org/abs/2006.03725v1 )

ライセンス: Link先を確認
Donald Beaver(参考訳) グラフィカルなユーザインターフェーステストは極めて困難で、さらに自動化されています。 テスト駆動開発は非現実的であり、一般的に、黄金の画像を生成するか、インタラクティブなテストシナリオを構築するためにGUIの初期実装が必要である。 コンピュータビジョンはGUIテストのいくつかの側面に適用されているが、バックエンド通信の観点でGUIプレゼンテーションを解釈し、セキュリティの暗号的証明が採用する手法で「認識」をモデル化する、新しい、即時適用可能なアプローチを実証する。 これは、プラットフォーム依存のuiアプライアンスやアクセシビリティ機能に依存する典型的なテスト方法論の欠陥を回避するバックエンド通信にフォーカスします。 オンラインとオフラインの両方のバリデーションで自己完結した実践的な実装を報告し、最初からシンプルなデザイナ仕様を使用して、ブートストラップ実装やゴールデンイメージの要件を特に回避しています。 実用的な実装に加えて、暗号化における形式的検証手法との関わりを探求し、aiにおけるuiの保証と解釈可能性に関する豊かな視点を提供する。

Graphical user interface testing is significantly challenging, and automating it even more so. Test-driven development is impractical: it generally requires an initial implementation of the GUI to generate golden images or to construct interactive test scenarios, and subsequent maintenance is costly. While computer vision has been applied to several aspects of GUI testing, we demonstrate a novel and immediately applicable approach of interpreting GUI presentation in terms of backend communications, modeling "awareness" in the fashion employed by cryptographic proofs of security. This focus on backend communication circumvents deficiencies in typical testing methodologies that rely on platform-dependent UI affordances or accessibility features. Our interdisciplinary work is ready for off-the-shelf practice: we report self-contained, practical implementation with both online and offline validation, using simple designer specifications at the outset and specifically avoiding any requirements for a bootstrap implementation or golden images. In addition to practical implementation, ties to formal verification methods in cryptography are explored and explained, providing fertile perspectives on assurance in UI and interpretability in AI.
翻訳日:2022-11-25 04:19:15 公開日:2020-06-05
# 『ターゲット・ターゲット・ターゲット』:分類器のアンサンブルを用いた乱用テキストの同定と分析

"To Target or Not to Target": Identification and Analysis of Abusive Text Using Ensemble of Classifiers ( http://arxiv.org/abs/2006.03256v1 )

ライセンス: Link先を確認
Gaurav Verma, Niyati Chhaya, Vishwa Vinay(参考訳) ソーシャルメディア上での虐待的・憎悪的行動に対する懸念が高まる中,これらのコンテンツの言語特性を識別・分析するためのアンサンブル学習手法を提案する。 我々の積み重ねられたアンサンブルは、言語の異なる側面を捉え、不適切な言語に関する多様で一貫性のある洞察を提供する3つの機械学習モデルで構成されている。 提案手法は,ユーザやネットワーク関連情報を使わずに,既存のtwitter abusive behavior dataset(founta et al. 2018)の最先端技術と同等の結果を提供する。 我々は、提示された洞察と現在のアプローチの欠点に関する議論が将来の研究の方向性を強調すると信じている。

With rising concern around abusive and hateful behavior on social media platforms, we present an ensemble learning method to identify and analyze the linguistic properties of such content. Our stacked ensemble comprises of three machine learning models that capture different aspects of language and provide diverse and coherent insights about inappropriate language. The proposed approach provides comparable results to the existing state-of-the-art on the Twitter Abusive Behavior dataset (Founta et al. 2018) without using any user or network-related information; solely relying on textual properties. We believe that the presented insights and discussion of shortcomings of current approaches will highlight potential directions for future research.
翻訳日:2022-11-25 04:11:15 公開日:2020-06-05
# SEAL:科学用語の抽出と分類

SEAL: Scientific Keyphrase Extraction and Classification ( http://arxiv.org/abs/2006.03292v1 )

ライセンス: Link先を確認
Ayush Garg, Sammed Shantinath Kagi, Mayank Singh(参考訳) 自動科学キーフレーズ抽出は、検索、推薦、ランキングといった下流の学術的なタスクを促進する難しい問題である。 本稿では,自動キーフレーズ抽出と分類のための学術ツールであるSEALを紹介する。 キーフレーズ抽出モジュールは、条件ランダムフィールドを付加した双方向長短期記憶細胞からなる2段階のニューラルアーキテクチャを含む。 分類モジュールは、ランダム森林分類器からなる。 システムの堅牢性を示すために,我々は広範囲に実験を行った。 複数の最先端ベースラインを評価し,大幅な改善を示した。 現在のシステムはhttp://lingo.iitgn.ac.in:5000/にホストされている。

Automatic scientific keyphrase extraction is a challenging problem facilitating several downstream scholarly tasks like search, recommendation, and ranking. In this paper, we introduce SEAL, a scholarly tool for automatic keyphrase extraction and classification. The keyphrase extraction module comprises two-stage neural architecture composed of Bidirectional Long Short-Term Memory cells augmented with Conditional Random Fields. The classification module comprises of a Random Forest classifier. We extensively experiment to showcase the robustness of the system. We evaluate multiple state-of-the-art baselines and show a significant improvement. The current system is hosted at http://lingo.iitgn.ac.in:5000/.
翻訳日:2022-11-25 04:11:04 公開日:2020-06-05
# 並列ディリクレ割当てモデルと肘法による会話コーパスからの話題検出

Topic Detection from Conversational Dialogue Corpus with Parallel Dirichlet Allocation Model and Elbow Method ( http://arxiv.org/abs/2006.03353v1 )

ライセンス: Link先を確認
Haider Khalid, Vincent Wade(参考訳) 会話システムは、より長い期間会話を続けるために、トピック間の切り替え方法を知る必要があります。 対話コーパスからのトピック検出は,対話における重要なタスクとなり,対話システムの構築には,会話トピックの正確な予測が重要である。 本稿では,tf-idfスコアとbag of words (bow) 手法に基づいて既知の類似語の語彙をクラスタリングすることにより,並列潜在ディリクレ割当(plda)モデルを用いた話題検出手法を提案する。 実験では,k-meanクラスタリングを用いてクラスタ内一貫性の解釈と検証を行い,クラスタ数を最適に決定する。 従来のLDAとクラスタリング技術との比較により,我々のアプローチを評価する。 実験の結果,pldaと肘法を組み合わせることで,最適なクラスタ数を選択し,会話のトピックを洗練できることがわかった。

A conversational system needs to know how to switch between topics to continue the conversation for a more extended period. For this topic detection from dialogue corpus has become an important task for a conversation and accurate prediction of conversation topics is important for creating coherent and engaging dialogue systems. In this paper, we proposed a topic detection approach with Parallel Latent Dirichlet Allocation (PLDA) Model by clustering a vocabulary of known similar words based on TF-IDF scores and Bag of Words (BOW) technique. In the experiment, we use K-mean clustering with Elbow Method for interpretation and validation of consistency within-cluster analysis to select the optimal number of clusters. We evaluate our approach by comparing it with traditional LDA and clustering technique. The experimental results show that combining PLDA with Elbow method selects the optimal number of clusters and refine the topics for the conversation.
翻訳日:2022-11-25 04:10:57 公開日:2020-06-05
# 相互接続型マルチエージェント経路探索の競合に基づく探索

Conflict-Based Search for Connected Multi-Agent Path Finding ( http://arxiv.org/abs/2006.03280v1 )

ライセンス: Link先を確認
Arthur Queffelec and Ocan Sankur and Fran\c{c}ois Schwarzentruber(参考訳) エージェントが互いに接続し、指定されたベースに留まることを必要とするマルチエージェントパス探索問題(MAPF)の変種について検討する。 この問題は、人間のオペレーターが実行全体を監視しなければならない探索と救助のミッションに応用できる。 我々はMAPFとして知られるコンフリクトベースの探索アルゴリズムを再検討し、コンフリクトが衝突ではなく切断から生じる変種を定義する。 我々は最適化を研究し,アルゴリズムと文献を比較する実験結果を与える。

We study a variant of the multi-agent path finding problem (MAPF) in which agents are required to remain connected to each other and to a designated base. This problem has applications in search and rescue missions where the entire execution must be monitored by a human operator. We re-visit the conflict-based search algorithm known for MAPF, and define a variant where conflicts arise from disconnections rather than collisions. We study optimizations, and give experimental results in which we compare our algorithms with the literature.
翻訳日:2022-11-25 04:09:41 公開日:2020-06-05
# tcdesc: 学習トポロジー一貫性記述子

TCDesc: Learning Topology Consistent Descriptors ( http://arxiv.org/abs/2006.03254v1 )

ライセンス: Link先を確認
Honghu Pan, Fanyang Meng, Zhenyu He, Yongsheng Liang, Wei Liu(参考訳) Triplet Losは画像パッチからローカル記述子を学習するために広く利用されている。 しかし、三重項損失は一致するディスクリプタ間のユークリッド距離を最小化し、2つのディスクリプタセット間のトポロジー類似性を無視する非マッチングディスクリプタ間の距離を最大化する。 本稿では, ユークリッド距離以外のトポロジ尺度を提案し, 正サンプルのkNN記述子を考慮したトポロジ一貫性記述子を学習する。 まず,各記述子に対する新しいトポロジベクトルを構築し,次に局所線形埋め込み(LLE)を用いて記述子とそのkNN記述子間のトポロジ的関係を示す。 次に、記述子間の位相距離を位相ベクトルの差として定義する。 最後に, 動的重み付け戦略を用いて, 一致するディスクリプタのユークリッド距離とトポロジー距離を融合し, 融合結果を三重項損失の正のサンプル距離とする。 いくつかのベンチマークにおける実験結果から,本手法は最新結果よりも優れた性能を示し,トリプルトロスの性能を効果的に向上した。

Triplet loss is widely used for learning local descriptors from image patch. However, triplet loss only minimizes the Euclidean distance between matching descriptors and maximizes that between the non-matching descriptors, which neglects the topology similarity between two descriptor sets. In this paper, we propose topology measure besides Euclidean distance to learn topology consistent descriptors by considering kNN descriptors of positive sample. First we establish a novel topology vector for each descriptor followed by Locally Linear Embedding (LLE) to indicate the topological relation among the descriptor and its kNN descriptors. Then we define topology distance between descriptors as the difference of their topology vectors. Last we employ the dynamic weighting strategy to fuse Euclidean distance and topology distance of matching descriptors and take the fusion result as the positive sample distance in the triplet loss. Experimental results on several benchmarks show that our method performs better than state-of-the-arts results and effectively improves the performance of triplet loss.
翻訳日:2022-11-25 04:03:38 公開日:2020-06-05
# エンド・ツー・エンドの視覚注意の学習による自動運転の説明

Explaining Autonomous Driving by Learning End-to-End Visual Attention ( http://arxiv.org/abs/2006.03347v1 )

ライセンス: Link先を確認
Luca Cultrera, Lorenzo Seidenari, Federico Becattini, Pietro Pala, Alberto Del Bimbo(参考訳) 現在のディープラーニングベースの自動運転アプローチは、特定の制御されたシナリオで運用環境にデプロイする上で、印象的な結果をもたらします。 最も人気があり魅力的なアプローチの1つは、センサーが認識したデータから直接車両の制御を学習することだ。 このエンドツーエンド学習パラダイムは、古典的な教師付き設定と強化学習の両方で適用することができる。 それでも、他の学習問題と同様にこのアプローチの主な欠点は、説明可能性の欠如である。 実際、ディープネットワークは、なぜそのような決定がなされたのかをフィードバックすることなく、以前に見られた運転パターンに応じて予測を出力するブラックボックスとして振る舞う。 最適性能を得るためには、特にそのような安全クリティカルフィールドにおいて、学習エージェントから説明可能な出力を得ることは重要ではないが、ネットワークがどのように振る舞うかを理解することが最重要である。 これは特に、そのようなシステムの失敗の解釈に関係している。 本研究では,注意モデルを備えた模擬学習エージェントを訓練することを提案する。 注意モデルによって、画像のどの部分がもっとも重要かを理解することができます。 興味深いことに、注意力の使用は、CARLA駆動シミュレータを使用した標準ベンチマークのパフォーマンスも向上する。

Current deep learning based autonomous driving approaches yield impressive results also leading to in-production deployment in certain controlled scenarios. One of the most popular and fascinating approaches relies on learning vehicle controls directly from data perceived by sensors. This end-to-end learning paradigm can be applied both in classical supervised settings and using reinforcement learning. Nonetheless the main drawback of this approach as also in other learning problems is the lack of explainability. Indeed, a deep network will act as a black-box outputting predictions depending on previously seen driving patterns without giving any feedback on why such decisions were taken. While to obtain optimal performance it is not critical to obtain explainable outputs from a learned agent, especially in such a safety critical field, it is of paramount importance to understand how the network behaves. This is particularly relevant to interpret failures of such systems. In this work we propose to train an imitation learning based agent equipped with an attention model. The attention model allows us to understand what part of the image has been deemed most important. Interestingly, the use of attention also leads to superior performance in a standard benchmark using the CARLA driving simulator.
翻訳日:2022-11-25 04:02:38 公開日:2020-06-05
# ニューラル光輸送の学習

Learning Neural Light Transport ( http://arxiv.org/abs/2006.03427v1 )

ライセンス: Link先を確認
Paul Sanzenbacher, Lars Mescheder, Andreas Geiger(参考訳) 近年,コンピュータビジョンモデルのトレーニング用として,仮想現実からデータ拡張まで,自然に見える画像を合成する能力によって,深層生成モデルの重要性が高まっている。 既存のモデルはトレーニングセットの画像分布を忠実に学習できるが、2Dピクセル空間で動作し、物理的画像形成過程をモデル化しないため、制御性に欠けることが多い。 本研究では,フォトリアリスティックレンダリングにおける3次元推論の重要性について検討する。 本稿では,フォトリアリスティック画像の予測を目的としたニューラルネットワークを用いた,静的および動的3次元シーンにおける光伝達の学習手法を提案する。 2次元画像領域で動作する既存のアプローチとは対照的に,我々のアプローチは3次元空間と2次元空間の両方で原因となり,地球規模の照明効果と3次元シーン形状の操作が可能となった。 実験の結果,本モデルは静的および動的シーンのフォトリアリスティックなレンダリングを生成できることが判明した。 さらに、パストレースと画像デノーミングを併用したベースラインを、同じ計算予算で好適に比較する。

In recent years, deep generative models have gained significance due to their ability to synthesize natural-looking images with applications ranging from virtual reality to data augmentation for training computer vision models. While existing models are able to faithfully learn the image distribution of the training set, they often lack controllability as they operate in 2D pixel space and do not model the physical image formation process. In this work, we investigate the importance of 3D reasoning for photorealistic rendering. We present an approach for learning light transport in static and dynamic 3D scenes using a neural network with the goal of predicting photorealistic images. In contrast to existing approaches that operate in the 2D image domain, our approach reasons in both 3D and 2D space, thus enabling global illumination effects and manipulation of 3D scene geometry. Experimentally, we find that our model is able to produce photorealistic renderings of static and dynamic scenes. Moreover, it compares favorably to baselines which combine path tracing and image denoising at the same computational budget.
翻訳日:2022-11-25 04:02:21 公開日:2020-06-05
# 意図的視覚探索のメタベイズモデル

A Meta-Bayesian Model of Intentional Visual Search ( http://arxiv.org/abs/2006.03531v1 )

ライセンス: Link先を確認
Maell Cullen, Jonathan Monney, M. Berk Mirza, Rosalyn Moran(参考訳) 本稿では,カテゴリー知覚とサッケード計画の基盤となる神経機構のベイズ解釈を組み込んだ視覚探索の計算モデルを提案する。 擬似行動と人的行動の有意義な比較を可能にするため、参加者は視線に追従する窓から隠蔽されたMNIST桁を分類する必要がある。 この課題における時間スケールの分離によって課される条件付き無依存は、我々のモデルの階層構造上の制約によって具現化され、計画と意思決定は部分的に観察可能なマルコフ決定プロセスとしてキャスティングされるが、プロピオセプティブおよびエクスセプタプティブ信号は、視覚情報とその潜在原因の近似推論を容易にする動的モデルによって統合される。 本モデルでは,人間行動から被験者固有のパラメータを回収することで,高い解釈性を維持しながら,分類精度などの人間の行動指標を再現することができる。

We propose a computational model of visual search that incorporates Bayesian interpretations of the neural mechanisms that underlie categorical perception and saccade planning. To enable meaningful comparisons between simulated and human behaviours, we employ a gaze-contingent paradigm that required participants to classify occluded MNIST digits through a window that followed their gaze. The conditional independencies imposed by a separation of time scales in this task are embodied by constraints on the hierarchical structure of our model; planning and decision making are cast as a partially observable Markov Decision Process while proprioceptive and exteroceptive signals are integrated by a dynamic model that facilitates approximate inference on visual information and its latent causes. Our model is able to recapitulate human behavioural metrics such as classification accuracy while retaining a high degree of interpretability, which we demonstrate by recovering subject-specific parameters from observed human behaviour.
翻訳日:2022-11-25 04:02:04 公開日:2020-06-05
# リコンストラクションアライメントによる新しい物体視点推定

Novel Object Viewpoint Estimation through Reconstruction Alignment ( http://arxiv.org/abs/2006.03586v1 )

ライセンス: Link先を確認
Mohamed El Banani, Jason J. Corso, David F. Fouhey(参考訳) 本稿の目的は,新しい対象の視点を推定することである。 標準視点推定手法は, 多数のクラス固有のトレーニングデータとそれに対応する標準ポーズをアライメントする3Dモデルに依存しているため, 一般的には, この課題において失敗する。 再構成と整合性アプローチを学ぶことで、これらの制限を克服します。 私たちのキーとなる洞察は、明示的な3Dモデルや定義済みの標準ポーズは持っていませんが、ビューアのフレーム内のオブジェクトの形状を推定し、イメージを使用して参照モデルや標準ポーズを提供します。 特に,2つのネットワークの学習を提案する。第1は画像から画像への変換損失を学習し,第2は2つの特徴が一致しているかどうかを学習する。 テスト時に、我々のモデルは、テスト画像のボトルネック特徴と参照画像とを最もよく一致させる相対変換を見つけます。 提案手法は,異なるデータセットにまたがって一般化し,異なるモジュールの影響を分析し,学習した特徴の質的分析を行い,どの表現がアライメントのために学習されているかを特定することで,新たなオブジェクト視点推定手法を評価する。

The goal of this paper is to estimate the viewpoint for a novel object. Standard viewpoint estimation approaches generally fail on this task due to their reliance on a 3D model for alignment or large amounts of class-specific training data and their corresponding canonical pose. We overcome those limitations by learning a reconstruct and align approach. Our key insight is that although we do not have an explicit 3D model or a predefined canonical pose, we can still learn to estimate the object's shape in the viewer's frame and then use an image to provide our reference model or canonical pose. In particular, we propose learning two networks: the first maps images to a 3D geometry-aware feature bottleneck and is trained via an image-to-image translation loss; the second learns whether two instances of features are aligned. At test time, our model finds the relative transformation that best aligns the bottleneck features of our test image to a reference image. We evaluate our method on novel object viewpoint estimation by generalizing across different datasets, analyzing the impact of our different modules, and providing a qualitative analysis of the learned features to identify what representations are being learnt for alignment.
翻訳日:2022-11-25 04:01:45 公開日:2020-06-05
# スパースフュージョン:スパースRGBD画像からの動的人間のアバターモデリング

SparseFusion: Dynamic Human Avatar Modeling from Sparse RGBD Images ( http://arxiv.org/abs/2006.03630v1 )

ライセンス: Link先を確認
Xinxin Zuo and Sen Wang and Jiangbin Zheng and Weiwei Yu and Minglun Gong and Ruigang Yang and Li Cheng(参考訳) 本稿では,単一のrgbdカメラを用いて,rgbdフレームのばらばらな集合に基づく3次元人体形状を再構成する新しい手法を提案する。 特に、撮影中に被験者が自由に動くリアルな設定に焦点を合わせます。 主な課題は、これらのスパースフレームを、ポーズの変化と表面の閉塞の下で、標準の3dモデルにロバストに融合する方法である。 これは、以下のステップからなる新しいフレームワークによって対処されます。 まず、生成的ヒューマンテンプレートに基づいて、十分な重なりを持つ2つのフレーム毎に最初のペアワイズアライメントを行い、次に、ペアワイズアライメントからの対応の指導のもと、rgbdフレームからの部分的な結果を統一された3d形状に収集するグローバル非リギッド登録手順を実行し、最後に、再構成されたヒトモデルのテクスチャマップを最適化して、明快で空間的に一貫したテクスチャを提供する。 合成データセットと実データセットの実証評価は,高忠実度で完全な3次元モデルを構築する上で,我々のフレームワークの定量的かつ定性的に優れた性能を示す。 私たちのフレームワークは柔軟性があり、潜在的なアプリケーションは形状の再構築を超えています。 例として、新しいアバターへのリフォームやリポジションにおける使用例を挙げる。

In this paper, we propose a novel approach to reconstruct 3D human body shapes based on a sparse set of RGBD frames using a single RGBD camera. We specifically focus on the realistic settings where human subjects move freely during the capture. The main challenge is how to robustly fuse these sparse frames into a canonical 3D model, under pose changes and surface occlusions. This is addressed by our new framework consisting of the following steps. First, based on a generative human template, for every two frames having sufficient overlap, an initial pairwise alignment is performed; It is followed by a global non-rigid registration procedure, in which partial results from RGBD frames are collected into a unified 3D shape, under the guidance of correspondences from the pairwise alignment; Finally, the texture map of the reconstructed human model is optimized to deliver a clear and spatially consistent texture. Empirical evaluations on synthetic and real datasets demonstrate both quantitatively and qualitatively the superior performance of our framework in reconstructing complete 3D human models with high fidelity. It is worth noting that our framework is flexible, with potential applications going beyond shape reconstruction. As an example, we showcase its use in reshaping and reposing to a new avatar.
翻訳日:2022-11-25 04:01:25 公開日:2020-06-05
# 逆学習とマルチタスク学習を用いた駆動監視用ブリッジ間の知識伝達

Knowledge transfer between bridges for drive-by monitoring using adversarial and multi-task learning ( http://arxiv.org/abs/2006.03641v1 )

ライセンス: Link先を確認
Jingxiao Liu, Mario Berg\'es, Jacobo Bielak, Hae Young Noh(参考訳) 車両の振動による橋梁の健康状態のモニタリングには、低コスト化や直接設置の不要化、橋梁の設備のオンサイトメンテナンスなど様々な利点がある。 しかし、このようなアプローチの多くは、橋のラベル付きデータを必要としており、これは高価で、不可能ではないとしても、入手するのに時間がかかる。 これは、ダメージ定量化や局所化といった複数の診断タスクによってさらに悪化する。 この問題に対処する方法の1つは、ある橋で訓練された教師付きモデルを他の橋に直接適用することであるが、異なる橋のデータ間の分散ミスマッチのため、精度が大幅に低下する可能性がある。 これらの問題を緩和するために、ドメイン・アドバイザリ・トレーニングとマルチタスク・ラーニングを用いた伝達学習フレームワークを導入し、損傷を検出し、局所化し、定量化する。 具体的には、敵対的な方法で深いネットワークをトレーニングして、機能を学ぶ。 1)被害に敏感で 2)異なる橋に不変である。 さらに,あるタスクから次のタスクへのエラー伝搬を改善するために,マルチタスク学習を用いて,タスクの共有機能について学習する。 2つの異なる橋を用いたラボスケール実験を用いて, フレームワークの評価を行った。 平均して, 損傷検出, 局所化, 定量化の精度は, 94%, 97%, 84%であった。 ダメージのレベルは1つ。

Monitoring bridge health using the vibrations of drive-by vehicles has various benefits, such as low cost and no need for direct installation or on-site maintenance of equipment on the bridge. However, many such approaches require labeled data from every bridge, which is expensive and time-consuming, if not impossible, to obtain. This is further exacerbated by having multiple diagnostic tasks, such as damage quantification and localization. One way to address this issue is to directly apply the supervised model trained for one bridge to other bridges, although this may significantly reduce the accuracy because of distribution mismatch between different bridges'data. To alleviate these problems, we introduce a transfer learning framework using domain-adversarial training and multi-task learning to detect, localize and quantify damage. Specifically, we train a deep network in an adversarial way to learn features that are 1) sensitive to damage and 2) invariant to different bridges. In addition, to improve the error propagation from one task to the next, our framework learns shared features for all the tasks using multi-task learning. We evaluate our framework using lab-scale experiments with two different bridges. On average, our framework achieves 94%, 97% and 84% accuracy for damage detection, localization and quantification, respectively. within one damage severity level.
翻訳日:2022-11-25 04:01:01 公開日:2020-06-05
# RIT-Eyes:視線追跡のための近眼画像のレンダリング

RIT-Eyes: Rendering of near-eye images for eye-tracking applications ( http://arxiv.org/abs/2006.03642v1 )

ライセンス: Link先を確認
Nitinraj Nair, Rakshit Kothari, Aayush K. Chaudhary, Zhizhuo Yang, Gabriel J. Diaz, Jeff B. Pelz, Reynold J. Bailey(参考訳) ビデオベースの視線追跡のためのディープニューラルネットワークは、ノイズの多い環境、迷路反射、低解像度に対するレジリエンスを実証している。 しかし、これらのネットワークを訓練するには、多数の手作業による注釈画像が必要である。 手動ラベリングの煩雑なプロセスを軽減するため、コンピュータグラフィックスレンダリングを用いて、様々な条件下で注釈付き眼画像の大規模なコーパスを自動生成する。 そこで本研究では, 眼球内レンズ, 眼球角膜, 網膜の逆反射, 視線調整眼底変形, 瞬きなどの機能追加により, 従来の作業を改善する人工眼球画像生成プラットフォームを提案する。 プラットフォームの有用性を示すために,NVGaze と OpenEDS という2つの公開データセットに固有の表現された視線分布を反映した画像を描画する。 また,2つのセマンティックセグメンテーションアーキテクチャ(SegNetとRITnet)の性能について報告する。

Deep neural networks for video-based eye tracking have demonstrated resilience to noisy environments, stray reflections, and low resolution. However, to train these networks, a large number of manually annotated images are required. To alleviate the cumbersome process of manual labeling, computer graphics rendering is employed to automatically generate a large corpus of annotated eye images under various conditions. In this work, we introduce a synthetic eye image generation platform that improves upon previous work by adding features such as an active deformable iris, an aspherical cornea, retinal retro-reflection, gaze-coordinated eye-lid deformations, and blinks. To demonstrate the utility of our platform, we render images reflecting the represented gaze distributions inherent in two publicly available datasets, NVGaze and OpenEDS. We also report on the performance of two semantic segmentation architectures (SegNet and RITnet) trained on rendered images and tested on the original datasets.
翻訳日:2022-11-25 04:00:40 公開日:2020-06-05
# CNNモデルの性能向上のための入力画像関連二次入力としての画像勾配の導入

Incorporating Image Gradients as Secondary Input Associated with Input Image to Improve the Performance of the CNN Model ( http://arxiv.org/abs/2006.04570v1 )

ライセンス: Link先を確認
Vijay Pandey, Shashi Bhushan Jha(参考訳) CNNは、現代において非常に人気のあるニューラルネットワークアーキテクチャである。 主に視覚関連タスクにおいて、与えられた画像から重要な特徴を抽出するために使用される。 さらに、cnnはフィルターとして働き、異なる層で畳み込み操作を使用して重要な特徴を抽出する。 既存のcnnアーキテクチャでは、与えられた入力でネットワークをトレーニングするために、与えられた入力の1つの形式のみがネットワークに供給される。 本稿では,入力層を2つの入力形式で共有することにより,入力を複数の形式でネットワークに同時に渡す新しいアーキテクチャを提案する。 画像勾配を元の入力画像に付随する入力の2番目の形として取り入れ、同じ数のパラメータを用いて両方の入力をネットワーク内へ流し、より一般化するためにモデルの性能を向上させる。 MNIST, CIFAR10, CIFAR100などの多様なデータセットに適用したCNNアーキテクチャの結果は, 単一形式の入力を考慮したベンチマークCNNアーキテクチャと比較して, 優れた結果を示した。

CNN is very popular neural network architecture in modern days. It is primarily most used tool for vision related task to extract the important features from the given image. Moreover, CNN works as a filter to extract the important features using convolutional operation in distinct layers. In existing CNN architectures, to train the network on given input, only single form of given input is fed to the network. In this paper, new architecture has been proposed where given input is passed in more than one form to the network simultaneously by sharing the layers with both forms of input. We incorporate image gradient as second form of the input associated with the original input image and allowing both inputs to flow in the network using same number of parameters to improve the performance of the model for better generalization. The results of the proposed CNN architecture, applying on diverse set of datasets such as MNIST, CIFAR10 and CIFAR100 show superior result compared to the benchmark CNN architecture considering inputs in single form.
翻訳日:2022-11-25 03:54:35 公開日:2020-06-05
# IWSLT 2020におけるELITR非負音声翻訳

ELITR Non-Native Speech Translation at IWSLT 2020 ( http://arxiv.org/abs/2006.03331v1 )

ライセンス: Link先を確認
Dominik Mach\'a\v{c}ek, Jon\'a\v{s} Kratochv\'il, Sangeet Sagar, Mat\'u\v{s} \v{Z}ilinec, Ond\v{r}ej Bojar, Thai-Son Nguyen, Felix Schneider, Philip Williams, Yuekun Yao(参考訳) 本稿では,IWSLT 2020における非ネイティブ音声翻訳タスクに対してERLITRシステムを提案する。 オフラインasr,リアルタイムasr,およびオフラインsltおよびリアルタイムsltへのカスケードアプローチについて述べる。 既存のシステムから予備候補を選び、新しいエンドツーエンドの汎用asrシステムを開発し、非ネイティブ音声で訓練したハイブリッドasrを開発した。 提供される小さな検証セットは、複雑な検証の実行を妨げますが、テストセットの対比評価のために、選択されていないすべての候補を提出します。

This paper is an ELITR system submission for the non-native speech translation task at IWSLT 2020. We describe systems for offline ASR, real-time ASR, and our cascaded approach to offline SLT and real-time SLT. We select our primary candidates from a pool of pre-existing systems, develop a new end-to-end general ASR system, and a hybrid ASR trained on non-native speech. The provided small validation set prevents us from carrying out a complex validation, but we submit all the unselected candidates for contrastive evaluation on the test set.
翻訳日:2022-11-25 03:53:36 公開日:2020-06-05
# プラハ依存性ツリーバンク -- 統合1.0

Prague Dependency Treebank -- Consolidated 1.0 ( http://arxiv.org/abs/2006.03679v1 )

ライセンス: Link先を確認
Jan Haji\v{c}, Eduard Bej\v{c}ek, Jaroslava Hlav\'a\v{c}ov\'a, Marie Mikulov\'a, Milan Straka, Jan \v{S}t\v{e}p\'anek, Barbora \v{S}t\v{e}p\'ankov\'a(参考訳) 本稿では,プラハ依存関係ツリーバンク統合 1.0 (pdt-c 1.0) について,プラハ依存ツリーバンクの系統が常にそうであるように,様々なnlpタスクのトレーニングデータと言語指向研究のためのトレーニングデータとして機能することを目的とする。 PDT-C 1.0には、チェコの4つの異なるデータセットが含まれており、標準のPDTスキームで一様に注釈付けされている(詳細はこちら)。 テキストは、日刊の新聞記事、the wall street journalのチェコ語訳、書き起こされたダイアログ、少量のユーザー生成、短い、しばしば標準ではない言語セグメントなど、さまざまなソースから来ている。 木バンクには約180,000の文があり、その形態的、表面的、深い構文的アノテーションがある。 テキストとアノテーションの多様性は、異なるジャンルのテキストに関する比較研究を含む、言語研究の貴重な情報源であると同時に、NLPの応用にも役立てるべきである。 コーパスは公開され、自由に利用できる。

We present a richly annotated and genre-diversified language resource, the Prague Dependency Treebank-Consolidated 1.0 (PDT-C 1.0), the purpose of which is - as it always been the case for the family of the Prague Dependency Treebanks - to serve both as a training data for various types of NLP tasks as well as for linguistically-oriented research. PDT-C 1.0 contains four different datasets of Czech, uniformly annotated using the standard PDT scheme (albeit not everything is annotated manually, as we describe in detail here). The texts come from different sources: daily newspaper articles, Czech translation of the Wall Street Journal, transcribed dialogs and a small amount of user-generated, short, often non-standard language segments typed into a web translator. Altogether, the treebank contains around 180,000 sentences with their morphological, surface and deep syntactic annotation. The diversity of the texts and annotations should serve well the NLP applications as well as it is an invaluable resource for linguistic research, including comparative studies regarding texts of different genres. The corpus is publicly and freely available.
翻訳日:2022-11-25 03:53:26 公開日:2020-06-05
# UDPipe at EvaLatin 2020: コンテキスト化された埋め込みとツリーバンクの埋め込み

UDPipe at EvaLatin 2020: Contextualized Embeddings and Treebank Embeddings ( http://arxiv.org/abs/2006.03687v1 )

ライセンス: Link先を確認
Milan Straka, Jana Strakov\'a(参考訳) EvaLatin共有タスクへのコントリビューションは,NLPツールをラテン語で評価するための最初の評価キャンペーンである。 我々は,CoNLL 2018 Shared Task, The 2018 Shared Task on Extrinsic Parser Evaluation, SIGMORPHON 2019 Shared Taskの勝者の一人であるUDPipe 2.0に基づくシステムを提出した。 まず,オープンモダリティ(オープンモダリティ)における補間とposタグの双方において,教師付きデータの追加を許可し,その場合,すべての普遍依存ラテン・ツリーバンクを利用する。 EvaLatinのトレーニングデータのみを許すクローズドモダリティでは,クロスジェネリクスとクロスタイムセッティングで2位となりながら,従来のPOSタギングのサブタスクで最高の性能を達成する。 アブレーション実験では, BERT と XLM-RoBERTa の文脈的埋め込みの影響や, ラテン木バンクの異なるフレーバーのツリーバンクエンコーディングの影響も評価した。

We present our contribution to the EvaLatin shared task, which is the first evaluation campaign devoted to the evaluation of NLP tools for Latin. We submitted a system based on UDPipe 2.0, one of the winners of the CoNLL 2018 Shared Task, The 2018 Shared Task on Extrinsic Parser Evaluation and SIGMORPHON 2019 Shared Task. Our system places first by a wide margin both in lemmatization and POS tagging in the open modality, where additional supervised data is allowed, in which case we utilize all Universal Dependency Latin treebanks. In the closed modality, where only the EvaLatin training data is allowed, our system achieves the best performance in lemmatization and in classical subtask of POS tagging, while reaching second place in cross-genre and cross-time settings. In the ablation experiments, we also evaluate the influence of BERT and XLM-RoBERTa contextualized embeddings, and the treebank encodings of the different flavors of Latin treebanks.
翻訳日:2022-11-25 03:53:04 公開日:2020-06-05
# アントインスパイアされたアプローチによる肥料としての家畜農場から作物畑への肥料の移動

Transfer of Manure from Livestock Farms to Crop Fields as Fertilizer using an Ant Inspired Approach ( http://arxiv.org/abs/2006.04573v1 )

ライセンス: Link先を確認
Andreas Kamilaris, Andries Engelbrecht, Andreas Pitsillides and Francesc X. Prenafeta-Boldu(参考訳) 集約的な畜産生産は、大量の動物糞を生産することで環境に悪影響を及ぼす可能性があり、適切に管理されていない場合は、近くの水域を栄養過剰に汚染することができる。 しかし、家畜の肥料を遠くの作物畑に輸出して有機肥料として利用すれば、汚染を軽減できる。 これは、家畜の肥料によって栄養素作物のニーズを満たすロジスティクスプロセスの最良の解決策を見つけるための、単一目的の最適化問題である。 本稿では,アリ(aia)の採餌行動に触発された分散的自然に触発された協調的手法に基づいて,この問題に対する動的アプローチを提案する。 その結果、農作物の肥料として家畜の肥料としての利用の可能性について、政策立案者に重要な洞察を与える一方、AIAは、農夫に公平に、各家畜農家がカバーしなければならない平均輸送距離の観点からバランスよく、問題を効果的に解決する。 我々の研究は、Swarmのインテリジェンス手法がまだ解明されていない領域において、この興味深い現実世界問題に対する分散AIAの最初の応用である。

Intensive livestock production might have a negative environmental impact, by producing large amounts of animal excrements, which, if not properly managed, can contaminate nearby water bodies with nutrient excess. However, if animal manure is exported to distant crop fields, to be used as organic fertilizer, pollution can be mitigated. It is a single-objective optimization problem, in regards to finding the best solution for the logistics process of satisfying nutrient crops needs by means of livestock manure. This paper proposes a dynamic approach to solve the problem, based on a decentralized nature-inspired cooperative technique, inspired by the foraging behavior of ants (AIA). Results provide important insights for policy-makers over the potential of using animal manure as fertilizer for crop fields, while AIA solves the problem effectively, in a fair way to the farmers and well balanced in terms of average transportation distances that need to be covered by each livestock farmer. Our work constitutes the first application of a decentralized AIA to this interesting real-world problem, in a domain where swarm intelligence methods are still under-exploited.
翻訳日:2022-11-25 03:52:42 公開日:2020-06-05
# MSDU-net:Blur検出のためのマルチスケール拡張U-net

MSDU-net: A Multi-Scale Dilated U-net for Blur Detection ( http://arxiv.org/abs/2006.03182v1 )

ライセンス: Link先を確認
Fan Yang and Xiao Xiao(参考訳) ぼやけた検出とは、画像のぼやけた透明な領域を分離することであり、コンピュータビジョンにおいて重要かつ困難なタスクである。 本研究では,ぼかし検出を画像分割問題とみなす。 画像セグメンテーションのためのU-netアーキテクチャの成功に触発されて、我々は、MSDU-netと呼ぶU-netに基づくマルチスケール拡張畳み込みニューラルネットワークを設計した。 MSDU-netは、拡張畳み込みを持つマルチスケールの特徴抽出器のグループを使用して、異なるスケールでテクスチャ情報を抽出する。 MSDU-netのU字型アーキテクチャは、異なるスケールのテクスチャ特徴を融合させ、意味的特徴を生成し、ぼかし検出タスクにおいてより良い結果を得られるようにする。 我々は,MSDU-netを用いて,公開された2つのベンチマークにおいて,アートボケ検出方法の他の状況よりも優れていることを示す。

Blur detection is the separation of blurred and clear regions of an image, which is an important and challenging task in computer vision. In this work, we regard blur detection as an image segmentation problem. Inspired by the success of the U-net architecture for image segmentation, we design a Multi-Scale Dilated convolutional neural network based on U-net, which we call MSDU-net. The MSDU-net uses a group of multi-scale feature extractors with dilated convolutions to extract texture information at different scales. The U-shape architecture of the MSDU-net fuses the different-scale texture features and generates a semantic feature which allows us to achieve better results on the blur detection task. We show that using the MSDU-net we are able to outperform other state of the art blur detection methods on two publicly available benchmarks.
翻訳日:2022-11-25 03:52:03 公開日:2020-06-05
# ステレオマッチングのためのコンテンツ対応スケール間コストアグリゲーション

Content-Aware Inter-Scale Cost Aggregation for Stereo Matching ( http://arxiv.org/abs/2006.03209v1 )

ライセンス: Link先を確認
Chengtang Yao, Yunde Jia, Huijun Di, Yuwei Wu, Lidong Yu(参考訳) コストアグリゲーションは、高品質な深さ推定のためのステレオマッチングの重要なコンポーネントである。 ほとんどのメソッドは、適切なコンテキスト情報のためにコストボリュームをダウンサンプルするためにマルチスケール処理を使用するが、アップサンプリング時に詳細が失われる。 本稿では,2つのスケールにおける左右のビューの内容に応じて,動的フィルタ重みを学習することにより,コスト量を粗大から細大に適応的に集約・アップする,コンテンツ対応のスケール間コスト集約手法を提案する。 本手法は,異なるスケールで情報収集を行う際に,信頼性の高い詳細回復を実現する。 さらに, 3次元フィルタ重みを効率的に構築し, 3次元コストボリュームを集約する新しい分解戦略を提案し, 計算コストを大幅に削減した。 まず2つのスケールの特徴マップから2Dの類似性を学び、次に左右のビューから2Dの類似性に基づいて3Dフィルタの重みを構築します。 その後, 2次元空間空間と1次元空間空間のアグリゲーションに, 全3次元空間のアグリゲーションを分割した。 Scene Flow データセット,KITTI2015 と Middlebury の実験結果から,本手法の有効性が示された。

Cost aggregation is a key component of stereo matching for high-quality depth estimation. Most methods use multi-scale processing to downsample cost volume for proper context information, but will cause loss of details when upsampling. In this paper, we present a content-aware inter-scale cost aggregation method that adaptively aggregates and upsamples the cost volume from coarse-scale to fine-scale by learning dynamic filter weights according to the content of the left and right views on the two scales. Our method achieves reliable detail recovery when upsampling through the aggregation of information across different scales. Furthermore, a novel decomposition strategy is proposed to efficiently construct the 3D filter weights and aggregate the 3D cost volume, which greatly reduces the computation cost. We first learn the 2D similarities via the feature maps on the two scales, and then build the 3D filter weights based on the 2D similarities from the left and right views. After that, we split the aggregation in a full 3D spatial-disparity space into the aggregation in 1D disparity space and 2D spatial space. Experiment results on Scene Flow dataset, KITTI2015 and Middlebury demonstrate the effectiveness of our method.
翻訳日:2022-11-25 03:51:47 公開日:2020-06-05
# 量子批判:感情と名前付きエンティティで分析されたタグ付きニュースコーパス

Quantum Criticism: A Tagged News Corpus Analysed for Sentiment and Named Entities ( http://arxiv.org/abs/2006.05267v1 )

ライセンス: Link先を確認
Ashwini Badgujar, Sheng Chen, Andrew Wang, Kai Yu, Paul Intrevado, David Guy Brizan(参考訳) 本研究では,従来のニュースソースのrssフィードから継続的にデータを収集する。 我々は、名前付きエンティティ認識(NER)ツールの事前訓練された実装を適用し、それぞれの実装の成功を定量化する。 また,文書,段落,文レベルで各ニュース記事の感情分析を行い,webインターフェースを通じて公開可能なタグ付きニュース記事のコーパスを作成することを目的とした。 最後に、このコーパスのデータを用いて、ニュースレポートのバイアスを特定する方法を示す。

In this research, we continuously collect data from the RSS feeds of traditional news sources. We apply several pre-trained implementations of named entity recognition (NER) tools, quantifying the success of each implementation. We also perform sentiment analysis of each news article at the document, paragraph and sentence level, with the goal of creating a corpus of tagged news articles that is made available to the public through a web interface. Finally, we show how the data in this corpus could be used to identify bias in news reporting.
翻訳日:2022-11-25 03:45:29 公開日:2020-06-05
# データサイエンティストのストリームフロー予測ガイド

A Data Scientist's Guide to Streamflow Prediction ( http://arxiv.org/abs/2006.12975v1 )

ライセンス: Link先を確認
Martin Gauch and Jimmy Lin(参考訳) 近年、データ駆動科学のパラダイムは物理科学、特に気候学のような物理分野において重要な要素となっている。 水文学の分野は、機械学習とデータ駆動モデルが注目を浴びている分野の一つである。 これはデータ科学者による水文学研究への貢献に大きな可能性がある。 あらゆる学際的な研究の取り組みと同様に、ドメインに対する最初の相互理解が、後に成功する作業の鍵となる。 本研究では, 河川に流入する水量, 洪水予測, 河川流量予測への水文降雨モデルの適用について検討した。 このガイドは、データサイエンティストが問題、水文学的な概念、そしてその過程で現れる詳細を理解するのを助けることを目的としています。 ストリームフローの予測について“スピードアップ”しながら学んだ教訓をキャッチし、私たちの経験がコミュニティにとって役に立つことを願っています。

In recent years, the paradigms of data-driven science have become essential components of physical sciences, particularly in geophysical disciplines such as climatology. The field of hydrology is one of these disciplines where machine learning and data-driven models have attracted significant attention. This offers significant potential for data scientists' contributions to hydrologic research. As in every interdisciplinary research effort, an initial mutual understanding of the domain is key to successful work later on. In this work, we focus on the element of hydrologic rainfall--runoff models and their application to forecast floods and predict streamflow, the volume of water flowing in a river. This guide aims to help interested data scientists gain an understanding of the problem, the hydrologic concepts involved, and the details that come up along the way. We have captured lessons that we have learned while "coming up to speed" on streamflow prediction and hope that our experiences will be useful to the community.
翻訳日:2022-11-25 03:45:20 公開日:2020-06-05
# VATEXキャプションチャレンジ2020におけるマルチモーダル機能融合

Multi-modal Feature Fusion with Feature Attention for VATEX Captioning Challenge 2020 ( http://arxiv.org/abs/2006.03315v1 )

ライセンス: Link先を確認
Ke Lin, Zhuoxin Gan and Liwei Wang(参考訳) 本稿では,VATEX Captioning Challenge 2020のモデルについて述べる。 まず、複数のドメインから情報を収集するために、動き、外観、意味、音声の特徴を抽出する。 次に、デコード時に異なる機能に対応する機能アテンションモジュールを設計する。 トップダウンとX-LANの2種類のデコーダを適用し、これらのモデルをアンサンブルして最終的な結果を得る。 提案手法は公式ベースラインを上回っており,大きなギャップがある。 英語と中国語のプライベートテストセットで76.0 CIDErと50.0 CIDErを達成する。 私たちは英語と中国のテストリーダーボードで2位です。

This report describes our model for VATEX Captioning Challenge 2020. First, to gather information from multiple domains, we extract motion, appearance, semantic and audio features. Then we design a feature attention module to attend on different feature when decoding. We apply two types of decoders, top-down and X-LAN and ensemble these models to get the final result. The proposed method outperforms official baseline with a significant gap. We achieve 76.0 CIDEr and 50.0 CIDEr on English and Chinese private test set. We rank 2nd on both English and Chinese private test leaderboard.
翻訳日:2022-11-25 03:44:52 公開日:2020-06-05
# 生成型深部ニューラルネットワークを用いた極小侵襲ロボット支援のための手術器具の分割

Segmentation of Surgical Instruments for Minimally-Invasive Robot-Assisted Procedures Using Generative Deep Neural Networks ( http://arxiv.org/abs/2006.03486v1 )

ライセンス: Link先を確認
I\~nigo Azqueta-Gavaldon, Florian Fr\"ohlich, Klaus Strobl and Rudolph Triebel(参考訳) 本研究は, 領域適応により拡張されたトレーニングデータを用いて, 最小侵襲手術器具のセマンティックセグメンテーションを改善することができることを示す。 この方法の利点は2倍である。 まず、合成データを現実的なデータに変換することで、何千ものイメージを手動でラベル付けする必要性を抑える。 これを実現するために、ソースデータセットを変換してターゲットデータセットのドメイン分布を近似するcycleganモデルが使用される。 第2に、この新たに生成された完全ラベル付きデータは、セマンティックセグメンテーションニューラルネットワーク、u-netのトレーニングに使用される。 本手法は,回転-位置-照明条件に関する変動のあるデータに対する一般化能力を示す。 それにもかかわらず、このアプローチの注意事項の1つは、このモデルは訓練に使用するものとは異なる形状の他の手術器具にうまく一般化できないことである。 これは、トレーニングデータの幾何学的分布に高いばらつきが欠如していることによるものである。 今後の取り組みでは、モデルをよりスケール不変にし、トレーニングで認識できなかった他の種類の手術器具に適応させることに重点を置く。

This work proves that semantic segmentation on minimally invasive surgical instruments can be improved by using training data that has been augmented through domain adaptation. The benefit of this method is twofold. Firstly, it suppresses the need of manually labeling thousands of images by transforming synthetic data into realistic-looking data. To achieve this, a CycleGAN model is used, which transforms a source dataset to approximate the domain distribution of a target dataset. Secondly, this newly generated data with perfect labels is utilized to train a semantic segmentation neural network, U-Net. This method shows generalization capabilities on data with variability regarding its rotation- position- and lighting conditions. Nevertheless, one of the caveats of this approach is that the model is unable to generalize well to other surgical instruments with a different shape from the one used for training. This is driven by the lack of a high variance in the geometric distribution of the training data. Future work will focus on making the model more scale-invariant and able to adapt to other types of surgical instruments previously unseen by the training.
翻訳日:2022-11-25 03:44:30 公開日:2020-06-05
# 価値:大規模投票に基づく都市環境の自動ラベリング

VALUE: Large Scale Voting-based Automatic Labelling for Urban Environments ( http://arxiv.org/abs/2006.03492v1 )

ライセンス: Link先を確認
Giacomo Dabisias, Emanuele Ruffaldi, Hugo Grimmett, Peter Ondruska(参考訳) 本稿では,大規模都市環境における静的3次元物体の自動位置決め手法を提案する。 ノイズが多いが精度の高い2次元画像データをマージする可能性を利用して、回収した3次元情報の堅牢性と精度の両面で優れた性能を実現する。 この方法は,大規模シナリオにスケールするために,完全に分散して並列化可能な,シンプルな分散投票スキーマに基づいている。 この方法を評価するために、ニューヨーク市とサンフランシスコから40 km$^2$の面積にまたがる約400kの画像を収集し、交通信号の3d位置を正確に復元するために使用した。 我々は,ロバストな性能を示すとともに,データ量の増加に伴ってソリューションの品質が向上することを示す。

This paper presents a simple and robust method for the automatic localisation of static 3D objects in large-scale urban environments. By exploiting the potential to merge a large volume of noisy but accurately localised 2D image data, we achieve superior performance in terms of both robustness and accuracy of the recovered 3D information. The method is based on a simple distributed voting schema which can be fully distributed and parallelised to scale to large-scale scenarios. To evaluate the method we collected city-scale data sets from New York City and San Francisco consisting of almost 400k images spanning the area of 40 km$^2$ and used it to accurately recover the 3D positions of traffic lights. We demonstrate a robust performance and also show that the solution improves in quality over time as the amount of data increases.
翻訳日:2022-11-25 03:44:12 公開日:2020-06-05
# LDP-Fed: ローカル差分プライバシーによるフェデレーション学習

LDP-Fed: Federated Learning with Local Differential Privacy ( http://arxiv.org/abs/2006.03637v1 )

ライセンス: Link先を確認
Stacey Truex, Ling Liu, Ka-Ho Chow, Mehmet Emre Gursoy, Wenqi Wei(参考訳) 本稿では,ローカルディファレンシャルプライバシ(LDP)を用いた形式的プライバシ保証を備えた,新しいフェデレーション学習システム LDP-Fed を提案する。 既存のLCPプロトコルは、Webアクセスログのクリック数など、単一の数値またはカテゴリ値の収集におけるデータのプライバシを確保するために開発されている。 しかし、フェデレーション学習モデルでは、パラメータの更新は各参加者から反復的に収集され、高精度な高次元連続値(十進点の10桁)からなり、既存のLPPプロトコルを適用できない。 LDP-Fedにおけるこの問題に対処するために,我々は2つの新しいアプローチを設計・開発する。 まず、ldp-fedのldpモジュールは、複数の参加者のプライベートデータセットにまたがる大規模ニューラルネットワークの連合トレーニングにおいて、モデルトレーニングパラメータの繰り返し収集に対して、公式な差分プライバシー保証を提供する。 第二に、ldp-fedは選択パラメータ更新をパラメータサーバで摂動および共有するための一連の選択およびフィルタリング技術を実装している。 我々は,公開データ上でのディープニューラルネットワークのトレーニングにおいて,LDPプロトコルを凝縮してデプロイしたシステムを検証する。 CLDP-Fedと呼ばれるこのバージョンのLCP-Fedと、モデル精度、プライバシー保護、システム機能に関する最先端のアプローチを比較した。

This paper presents LDP-Fed, a novel federated learning system with a formal privacy guarantee using local differential privacy (LDP). Existing LDP protocols are developed primarily to ensure data privacy in the collection of single numerical or categorical values, such as click count in Web access logs. However, in federated learning model parameter updates are collected iteratively from each participant and consist of high dimensional, continuous values with high precision (10s of digits after the decimal point), making existing LDP protocols inapplicable. To address this challenge in LDP-Fed, we design and develop two novel approaches. First, LDP-Fed's LDP Module provides a formal differential privacy guarantee for the repeated collection of model training parameters in the federated training of large-scale neural networks over multiple individual participants' private datasets. Second, LDP-Fed implements a suite of selection and filtering techniques for perturbing and sharing select parameter updates with the parameter server. We validate our system deployed with a condensed LDP protocol in training deep neural networks on public data. We compare this version of LDP-Fed, coined CLDP-Fed, with other state-of-the-art approaches with respect to model accuracy, privacy preservation, and system capabilities.
翻訳日:2022-11-25 03:35:55 公開日:2020-06-05
# 部分観測データを用いた逆問題に対する変分表現と解の連成学習

Joint learning of variational representations and solvers for inverse problems with partially-observed data ( http://arxiv.org/abs/2006.03653v1 )

ライセンス: Link先を確認
Ronan Fablet, Lucas Drumetz, Francois Rousseau(参考訳) 適切な変分正則化スキームを設計することは逆問題を解く上で重要な部分であり、それらの解が望ましい性質を満たすことを保証している。 近年、学習ベースの戦略は、真の状態と観測の可能なペアから直接反転スキームやプラグアンドプレイ正規化器を学習することで、逆問題の解決に非常に効率的であるように見える。 本稿では,さらに一歩進めて,このような教師付き設定で逆問題に対する実際の変動フレームワークを学習可能なエンドツーエンドフレームワークの設計を行う。 変動コストと勾配型ソルバは、後者の自動微分を用いたニューラルネットワークとして記述される。 両コンポーネントを共同で学習し,真の状態におけるデータ再構成エラーを最小限に抑える。 これにより、変動モデルがデータ駆動で発見される。 不完全なデータセット(画像インパインティングと多変量時系列補間)を持つ逆問題に対する応用を考える。 筆者らは, この枠組みが, 既知の生成モデルから派生した変分定式化の直接最小化を含む, 復元性能の面で大きな向上をもたらすことを実験的に示した。

Designing appropriate variational regularization schemes is a crucial part of solving inverse problems, making them better-posed and guaranteeing that the solution of the associated optimization problem satisfies desirable properties. Recently, learning-based strategies have appeared to be very efficient for solving inverse problems, by learning direct inversion schemes or plug-and-play regularizers from available pairs of true states and observations. In this paper, we go a step further and design an end-to-end framework allowing to learn actual variational frameworks for inverse problems in such a supervised setting. The variational cost and the gradient-based solver are both stated as neural networks using automatic differentiation for the latter. We can jointly learn both components to minimize the data reconstruction error on the true states. This leads to a data-driven discovery of variational models. We consider an application to inverse problems with incomplete datasets (image inpainting and multivariate time series interpolation). We experimentally illustrate that this framework can lead to a significant gain in terms of reconstruction performance, including w.r.t. the direct minimization of the variational formulation derived from the known generative model.
翻訳日:2022-11-25 03:34:53 公開日:2020-06-05
# 余剰生活推定を改善するための健康指標予測

Health Indicator Forecasting for Improving Remaining Useful Life Estimation ( http://arxiv.org/abs/2006.03729v1 )

ライセンス: Link先を確認
Qiyao Wang, Ahmed Farahat, Chetan Gupta, Haiyan Wang(参考訳) 予後予測は、機器の将来の健康と潜在的な故障を予測することに関係している。 IoT(Internet of Things)の進歩に伴い、マシンラーニングモデルのパワーを活用する、データ駆動型アプローチが人気を集めている。 データ駆動アプローチの最も重要なカテゴリの1つは、事前に定義されたまたは学習された健康指標に基づいて、機器の状態が現在まで特徴付けられ、将来どのように進化するかを推測する。 これらのアプローチでは、部分的に観測された測定値(すなわち初期期間内の健康指標値)を用いて寿命にわたって健康指標曲線を構成する健康指標予測が重要な役割を果たす。 機能的ベイズ法、回帰に基づく定式化、最寄りの近傍に基づくナイーブなシナリオマッチングなど、既存の健康指標予測アルゴリズムには、一定の制限がある。 本稿では,健康指標予測のための新しい「生成的・シナリオマッチング」アルゴリズムを提案する。 提案されたアプローチの背後にある重要なアイデアは、最初に、健康指標曲線を連続ガウス過程に非パラメトリックに適合させることである。 提案手法は学習した分布からランダムな曲線のリッチな集合を生成し、システムの寿命を経たターゲットの健康状態の進化過程のあらゆるバリエーションを得る。 機能機器の健康指標外挿を、観測期間内で最も一致レベルの高い生成曲線として推定する。 実験の結果,他の最先端手法よりも優れたアルゴリズムが得られた。

Prognostics is concerned with predicting the future health of the equipment and any potential failures. With the advances in the Internet of Things (IoT), data-driven approaches for prognostics that leverage the power of machine learning models are gaining popularity. One of the most important categories of data-driven approaches relies on a predefined or learned health indicator to characterize the equipment condition up to the present time and make inference on how it is likely to evolve in the future. In these approaches, health indicator forecasting that constructs the health indicator curve over the lifespan using partially observed measurements (i.e., health indicator values within an initial period) plays a key role. Existing health indicator forecasting algorithms, such as the functional Empirical Bayesian approach, the regression-based formulation, a naive scenario matching based on the nearest neighbor, have certain limitations. In this paper, we propose a new `generative + scenario matching' algorithm for health indicator forecasting. The key idea behind the proposed approach is to first non-parametrically fit the underlying health indicator curve with a continuous Gaussian Process using a sample of run-to-failure health indicator curves. The proposed approach then generates a rich set of random curves from the learned distribution, attempting to obtain all possible variations of the target health condition evolution process over the system's lifespan. The health indicator extrapolation for a piece of functioning equipment is inferred as the generated curve that has the highest matching level within the observed period. Our experimental results show the superiority of our algorithm over the other state-of-the-art methods.
翻訳日:2022-11-25 03:34:34 公開日:2020-06-05
# 因果方向推定のための並列アンサンブル法

Parallel ensemble methods for causal direction inference ( http://arxiv.org/abs/2006.03231v1 )

ライセンス: Link先を確認
Yulai Zhang, Jiachen Wang, Gang Cen, and Guiming Luo(参考訳) 観測データから2変数間の因果方向を推定することは、データサイエンスにおける最も基本的で困難なトピックの1つである。 因果方向推定アルゴリズムは、観測データを、xがyまたはyを原因とする2値にマッピングする。 これらのアルゴリズムの性質は、データポイントの変化によって結果が不安定になる。 したがって、並列アンサンブルフレームワークを用いて因果方向推定の精度を大幅に向上させることができる。 本稿では,複数種類の並列アンサンブルに基づく新たな因果方向推論アルゴリズムを提案する。 精度に関する理論的分析が与えられる。 実験は、人工データセットと実世界のデータセットの両方で行われます。 並列計算機環境における手法の精度と計算効率を実証した。

Inferring the causal direction between two variables from their observation data is one of the most fundamental and challenging topics in data science. A causal direction inference algorithm maps the observation data into a binary value which represents either x causes y or y causes x. The nature of these algorithms makes the results unstable with the change of data points. Therefore the accuracy of the causal direction inference can be improved significantly by using parallel ensemble frameworks. In this paper, new causal direction inference algorithms based on several ways of parallel ensemble are proposed. Theoretical analyses on accuracy rates are given. Experiments are done on both of the artificial data sets and the real world data sets. The accuracy performances of the methods and their computational efficiencies in parallel computing environment are demonstrated.
翻訳日:2022-11-25 03:26:48 公開日:2020-06-05
# パッケージを考えてみよう:eコマース出荷のパッケージタイプを推奨する

Think out of the package: Recommending package types for e-commerce shipments ( http://arxiv.org/abs/2006.03239v1 )

ライセンス: Link先を確認
Karthik S. Gurumoorthy, Subhajit Sanyal and Vineet Chaoji(参考訳) 寸法、重量、不安定性、液体コンテンツなどの複数の製品属性は、Eコマース企業が製品を出荷するために使用するパッケージタイプを決定する。 準最適パッケージタイプは、出荷が損傷し、巨額の損害を被り、会社の安全な配送に対する評判に悪影響を及ぼす。 商品はより保護パッケージに出荷でき、損傷コストを低減できるが、高価な包装と輸送コストの上昇により出荷コストが上昇する。 本研究では,各製品の出荷コストと損傷コストをトレードオフする多段階アプローチを提案し,スケーラブルで計算効率の良い線形時間アルゴリズムを用いて最適なパッケージタイプを正確に割り当てる。 単純な二分探索アルゴリズムを用いて,出荷コストと損傷コストのバランスをとるハイパーパラメータを求める。 当社のアプローチは,amazon出荷のパッケージタイプ選択に適用することで,出荷コスト全体とトランジット内損害の数を削減して,新興市場における数千万ドルの大幅なコスト削減を実現しています。 当社のアルゴリズムは実運用システムで運用されており,13万以上の製品のパッケージタイプをモデル推奨に基づいて修正し,損傷率24%の低減を実現している。

Multiple product attributes like dimensions, weight, fragility, liquid content etc. determine the package type used by e-commerce companies to ship products. Sub-optimal package types lead to damaged shipments, incurring huge damage related costs and adversely impacting the company's reputation for safe delivery. Items can be shipped in more protective packages to reduce damage costs, however this increases the shipment costs due to expensive packaging and higher transportation costs. In this work, we propose a multi-stage approach that trades-off between shipment and damage costs for each product, and accurately assigns the optimal package type using a scalable, computationally efficient linear time algorithm. A simple binary search algorithm is presented to find the hyper-parameter that balances between the shipment and damage costs. Our approach when applied to choosing package type for Amazon shipments, leads to significant cost savings of tens of millions of dollars in emerging marketplaces, by decreasing both the overall shipment cost and the number of in-transit damages. Our algorithm is live and deployed in the production system where, package types for more than 130,000 products have been modified based on the model's recommendation, realizing a reduction in damage rate of 24%.
翻訳日:2022-11-25 03:26:39 公開日:2020-06-05
# Daydream: DNNトレーニングにおける最適化の有効性を正確に評価する

Daydream: Accurately Estimating the Efficacy of Optimizations for DNN Training ( http://arxiv.org/abs/2006.03318v1 )

ライセンス: Link先を確認
Hongyu Zhu, Amar Phanishayee, Gennady Pekhimenko(参考訳) 現代のディープニューラルネットワーク(DNN)トレーニングジョブは、複雑で異質なソフトウェア/ハードウェアスタックを使用する。 ソフトウェアレベルの最適化の有効性は、異なるデプロイメント構成で使用する場合、大きく異なる。 MLの実践者とシステム開発者は、それぞれの最適化を別々に実装し、どの最適化が自身の構成でパフォーマンスを改善するかを決定するのは、面倒でエラーを起こしやすい。 残念ながら、既存のプロファイリングツールは、“最適化Xは私のモデルの性能にどのように影響するのか? この限界に対処し、プログラマがDNN最適化の有効性を効率的に探求するための新しいプロファイリングツールDaydreamを提案する。 Daydreamは、CUPTIが収集した低レベルのトレースに基づいて、きめ細かい依存性グラフでDNNの実行をモデル化し、依存性グラフに基づいて実行をシミュレートすることでランタイムを予測する。 daydreamはdnnドメイン固有の知識を使って低レベルのトレースをマッピングし、様々な最適化を簡単にモデル化できるグラフ変換プリミティブを導入する。 本研究では,Daydreamが主流のDNN最適化手法をモデル化し,性能改善をもたらす最適化の有効性を正確に予測できることを示す。

Modern deep neural network (DNN) training jobs use complex and heterogeneous software/hardware stacks. The efficacy of software-level optimizations can vary significantly when used in different deployment configurations. It is onerous and error-prone for ML practitioners and system developers to implement each optimization separately, and determine which ones will improve performance in their own configurations. Unfortunately, existing profiling tools do not aim to answer predictive questions such as "How will optimization X affect the performance of my model?". We address this critical limitation, and proposes a new profiling tool, Daydream, to help programmers efficiently explore the efficacy of DNN optimizations. Daydream models DNN execution with a fine-grained dependency graph based on low-level traces collected by CUPTI, and predicts runtime by simulating execution based on the dependency graph. Daydream maps the low-level traces using DNN domain-specific knowledge, and introduces a set of graph-transformation primitives that can easily model a wide variety of optimizations. We show that Daydream is able to model most mainstream DNN optimization techniques, and accurately predict the efficacy of optimizations that will result in significant performance improvements.
翻訳日:2022-11-25 03:25:36 公開日:2020-06-05
# 深層学習のための構造

Structure preserving deep learning ( http://arxiv.org/abs/2006.03364v1 )

ライセンス: Link先を確認
Elena Celledoni, Matthias J. Ehrhardt, Christian Etmann, Robert I McLachlan, Brynjulf Owren, Carola-Bibiane Sch\"onlieb and Ferdia Sherry(参考訳) 過去数年間、大規模画像処理タスクの解決に成功して、ディープラーニングが大きな関心を集めているトピックとして、フォアグラウンドに発展してきた。 多くのディープラーニング手法は、ハード最適化問題の解法を必要とし、与えられた問題に対するディープラーニングアプローチをうまく設計するためには、計算の労力、データの量、モデルの複雑さの間のトレードオフを十分に理解する必要がある。 深層学習における多くの進歩はヒューリスティックな探索に基づいているが、既存の深層学習法の構造を数学的に理解し、深層学習におけるある種の構造を保存するための新しい深層学習法を体系的に設計する努力が増えている。 本稿では、いくつかのディープニューラルネットワークを力学系の再考として理解することができ、ニューラルネットワークは可逆性や群同値性などの望ましい性質を持つように設計することができ、また、共形ハミルトニアン系とリーマン多様体に基づく新しいアルゴリズムフレームワークが提案されている。 今後の研究の方向性であると考えられるオープンな問題を議論することで、これらのトピックのレビューを締めくくります。

Over the past few years, deep learning has risen to the foreground as a topic of massive interest, mainly as a result of successes obtained in solving large-scale image processing tasks. There are multiple challenging mathematical problems involved in applying deep learning: most deep learning methods require the solution of hard optimisation problems, and a good understanding of the tradeoff between computational effort, amount of data and model complexity is required to successfully design a deep learning approach for a given problem. A large amount of progress made in deep learning has been based on heuristic explorations, but there is a growing effort to mathematically understand the structure in existing deep learning methods and to systematically design new deep learning methods to preserve certain types of structure in deep learning. In this article, we review a number of these directions: some deep neural networks can be understood as discretisations of dynamical systems, neural networks can be designed to have desirable properties such as invertibility or group equivariance, and new algorithmic frameworks based on conformal Hamiltonian systems and Riemannian manifolds to solve the optimisation problems have been proposed. We conclude our review of each of these topics by discussing some open problems that we consider to be interesting directions for future research.
翻訳日:2022-11-25 03:25:15 公開日:2020-06-05
# 動的システムモデリングのためのテンソル変換器

Tensorized Transformer for Dynamical Systems Modeling ( http://arxiv.org/abs/2006.03445v1 )

ライセンス: Link先を確認
Anna Shalova and Ivan Oseledets(参考訳) 観測からの非線形ダイナミクスの同定は、理論的アイデアと実験データのアライメントに不可欠である。 最後のものは、異なる性質の副作用とノイズによってしばしば破壊されるため、確率論的アプローチはプロセスのより一般的なイメージを与える可能性がある。 同時に、高次元確率モデリングは困難でデータ集約的なタスクである。 本稿では,動的システムモデリングと言語モデリングタスクの並列性を確立する。 本稿では,データの幾何学的性質を取り入れたトランスフォーマーモデルを提案し,高次元力学系の条件付き確率の微積分近似を可能にする反復学習アルゴリズムを提案する。

The identification of nonlinear dynamics from observations is essential for the alignment of the theoretical ideas and experimental data. The last, in turn, is often corrupted by the side effects and noise of different natures, so probabilistic approaches could give a more general picture of the process. At the same time, high-dimensional probabilities modeling is a challenging and data-intensive task. In this paper, we establish a parallel between the dynamical systems modeling and language modeling tasks. We propose a transformer-based model that incorporates geometrical properties of the data and provide an iterative training algorithm allowing the fine-grid approximation of the conditional probabilities of high-dimensional dynamical systems.
翻訳日:2022-11-25 03:24:55 公開日:2020-06-05
# エゴセントリックオブジェクト操作グラフ

Egocentric Object Manipulation Graphs ( http://arxiv.org/abs/2006.03201v1 )

ライセンス: Link先を確認
Eadom Dessalene, Michael Maynord, Chinmaya Devaraj, Cornelia Fermuller and Yiannis Aloimonos(参考訳) エゴセントリックオブジェクト操作グラフ (ego-omg) - アクティビティモデリングのための新しい表現と、3つのコンポーネントを統合する近未来のアクションの予測を紹介する。 1)活動の意味的時間構造 2)短期ダイナミクス,及び 3)外見の表現。 意味的時間構造はグラフを通してモデル化され、グラフ畳み込みネットワークを通じて埋め込み、その状態は手とオブジェクトの関係をモデル化する。 これらの状態表現は、3つの抽象レベル全てから派生し、手オブジェクト接触の生成と破壊によって区切られたスパンセグメントから導かれる。 短期力学は2つの方法でモデル化される: A) 3次元の畳み込み、B) 手の動きの時空間的な端点を予測し、手は物体と接触する。 外観は、既存の方法で生成された深い時空間的特徴によってモデル化される。 Ego-OMGでは、これらの外観特徴を置き換えることは簡単であり、Ego-OMGは既存の行動予測手法を補完するものである。 EPIC Kitchens Action Precipation ChallengeにおけるEgo-OMGの評価を行った。 EPIC Kitchensの自我中心の視点の一貫性は、Ego-OMGが依存する手中心の手がかりの利用を可能にする。 我々は最先端のパフォーマンスを実証し、これまでのすべてのメソッドを大きなマージンでランク付けし、未発見のテストセットで第1位、epic kitchens action anticipation challengeで見たテストセットで第2位でランク付けする。 Ego-OMGの成功は、長い時間に捕獲された意味構造のモデル化によるものである。 我々はいくつかのアブレーション研究を通じて設計選択を評価する。 コードは受理時に解放される

We introduce Egocentric Object Manipulation Graphs (Ego-OMG) - a novel representation for activity modeling and anticipation of near future actions integrating three components: 1) semantic temporal structure of activities, 2) short-term dynamics, and 3) representations for appearance. Semantic temporal structure is modeled through a graph, embedded through a Graph Convolutional Network, whose states model characteristics of and relations between hands and objects. These state representations derive from all three levels of abstraction, and span segments delimited by the making and breaking of hand-object contact. Short-term dynamics are modeled in two ways: A) through 3D convolutions, and B) through anticipating the spatiotemporal end points of hand trajectories, where hands come into contact with objects. Appearance is modeled through deep spatiotemporal features produced through existing methods. We note that in Ego-OMG it is simple to swap these appearance features, and thus Ego-OMG is complementary to most existing action anticipation methods. We evaluate Ego-OMG on the EPIC Kitchens Action Anticipation Challenge. The consistency of the egocentric perspective of EPIC Kitchens allows for the utilization of the hand-centric cues upon which Ego-OMG relies. We demonstrate state-of-the-art performance, outranking all other previous published methods by large margins and ranking first on the unseen test set and second on the seen test set of the EPIC Kitchens Action Anticipation Challenge. We attribute the success of Ego-OMG to the modeling of semantic structure captured over long timespans. We evaluate the design choices made through several ablation studies. Code will be released upon acceptance
翻訳日:2022-11-25 03:18:25 公開日:2020-06-05
# 人工知能による新型コロナウイルスの臨床診断支援-アート・ツーとは何か-

Artificial Intelligence-based Clinical Decision Support for COVID-19 -- Where Art Thou? ( http://arxiv.org/abs/2006.03434v1 )

ライセンス: Link先を確認
Mathias Unberath and Kimia Ghobadi and Scott Levin and Jeremiah Hinson and Gregory D Hager(参考訳) 新型コロナウイルス(COVID-19)危機は、新たな臨床問題、新たなワークフロー、分散医療ニーズの加速をもたらした。 人工知能(AI)に基づく臨床決定支援が成熟したようだが、新型コロナウイルスに対するAIベースのツールの適用は、現在まで限られている。 本稿では、AIベースの臨床意思決定支援システムの機会と要件を特定し、急激な医療課題に対する「AIの準備」に影響を与える課題を強調する。

The COVID-19 crisis has brought about new clinical questions, new workflows, and accelerated distributed healthcare needs. While artificial intelligence (AI)-based clinical decision support seemed to have matured, the application of AI-based tools for COVID-19 has been limited to date. In this perspective piece, we identify opportunities and requirements for AI-based clinical decision support systems and highlight challenges that impact "AI readiness" for rapidly emergent healthcare challenges.
翻訳日:2022-11-25 03:17:42 公開日:2020-06-05
# 文脈埋め込みによる削除としての文圧縮

Sentence Compression as Deletion with Contextual Embeddings ( http://arxiv.org/abs/2006.03210v1 )

ライセンス: Link先を確認
Minh-Tien Nguyen and Bui Cong Minh and Dung Tien Le and Le Thai Linh(参考訳) 文圧縮は、重要な情報を保持しながら、入力文の短いバージョンを作成するタスクである。 本稿では,文脈埋め込みを用いて,削除による圧縮作業を拡張する。 通常、非コンテキスト埋め込み(GloveやWord2Vec)を使った以前の作業とは違い、コンテキスト埋め込みを利用して入力のコンテキストをキャプチャします。 より正確には、双方向長短項記憶と条件ランダムフィールドを重畳したコンテキスト埋め込みを用いてシーケンスラベリングを扱う。 ベンチマークgoogleデータセットにおける実験の結果は、コンテキスト埋め込みを利用することで、リーダボードで報告された強力なメソッドと比較して、新たな最先端のf-scoreが実現できることを示しています。

Sentence compression is the task of creating a shorter version of an input sentence while keeping important information. In this paper, we extend the task of compression by deletion with the use of contextual embeddings. Different from prior work usually using non-contextual embeddings (Glove or Word2Vec), we exploit contextual embeddings that enable our model capturing the context of inputs. More precisely, we utilize contextual embeddings stacked by bidirectional Long-short Term Memory and Conditional Random Fields for dealing with sequence labeling. Experimental results on a benchmark Google dataset show that by utilizing contextual embeddings, our model achieves a new state-of-the-art F-score compared to strong methods reported on the leader board.
翻訳日:2022-11-25 03:17:21 公開日:2020-06-05
# 科学レビューの視点に基づく感性分析

Aspect-based Sentiment Analysis of Scientific Reviews ( http://arxiv.org/abs/2006.03257v1 )

ライセンス: Link先を確認
Souvic Chakraborty, Pawan Goyal, Animesh Mukherjee(参考訳) 科学論文は複雑であり、これらの論文の有用性を理解するには事前の知識が必要である。 ピアレビューは、その分野の専門家によって提供される論文にコメントされ、編集者や椅子が最終決定を下すだけでなく、論文の潜在的な影響を判断するために、かなりの量の情報を保持する。 本稿では,科学的レビューの側面に基づく感情分析を用いて有用な情報を抽出することを提案する。 機械学習の分野でトップクラスのカンファレンスのひとつであるICLRから8k近いレビューのデータセットに取り組んでいる間、私たちはアクティブな学習フレームワークを使用してアスペクト予測のためのトレーニングデータセットを構築しました。 レビューから得られたアスペクトベース感情の分布は,受理された論文と却下された論文では著しく異なる。 我々はこれらのレビューの側面の感情を利用して興味深い観察を行い、論文の中にある特定の側面を考察し、レビューにおいて最終勧告を強く決定する。 第2の目的として,論文レビュワー間の不一致の程度を定量化する。 また,レビュアーとチェアの意見の不一致の程度を調査し,リビュアー間の意見の不一致がチェアとの意見の不一致と関連があることを見出した。 この研究から得られた最も興味深い観察の1つは、レビュアーのスコアとレビュアーが書いたレビューテキストから抽出したアスペクトの感情が一貫しているレビューもまた、議長の決定と同時である可能性が高いことである。

Scientific papers are complex and understanding the usefulness of these papers requires prior knowledge. Peer reviews are comments on a paper provided by designated experts on that field and hold a substantial amount of information, not only for the editors and chairs to make the final decision, but also to judge the potential impact of the paper. In this paper, we propose to use aspect-based sentiment analysis of scientific reviews to be able to extract useful information, which correlates well with the accept/reject decision. While working on a dataset of close to 8k reviews from ICLR, one of the top conferences in the field of machine learning, we use an active learning framework to build a training dataset for aspect prediction, which is further used to obtain the aspects and sentiments for the entire dataset. We show that the distribution of aspect-based sentiments obtained from a review is significantly different for accepted and rejected papers. We use the aspect sentiments from these reviews to make an intriguing observation, certain aspects present in a paper and discussed in the review strongly determine the final recommendation. As a second objective, we quantify the extent of disagreement among the reviewers refereeing a paper. We also investigate the extent of disagreement between the reviewers and the chair and find that the inter-reviewer disagreement may have a link to the disagreement with the chair. One of the most interesting observations from this study is that reviews, where the reviewer score and the aspect sentiments extracted from the review text written by the reviewer are consistent, are also more likely to be concurrent with the chair's decision.
翻訳日:2022-11-25 03:17:10 公開日:2020-06-05
# 深層学習に基づく感性分析:比較研究

Sentiment Analysis Based on Deep Learning: A Comparative Study ( http://arxiv.org/abs/2006.03541v1 )

ライセンス: Link先を確認
Nhan Cach Dang, Mar\'ia N. Moreno-Garc\'ia and Fernando De la Prieta(参考訳) 世論研究は私たちに貴重な情報を提供することができる。 TwitterやFacebookなどのソーシャルネットワーク上での感情分析は、ユーザの意見を学ぶための強力な手段となり、幅広いアプリケーションを持つようになった。 しかし、感情分析の効率と精度は、自然言語処理(NLP)で直面する課題によって妨げられている。 近年,NLPの課題に対して,ディープラーニングモデルが有望な解決策であることが示された。 本稿では,感情極性などの感情分析問題を解決するためにディープラーニングを用いた最近の研究を概説する。 項周波数逆文書周波数(TF-IDF)と単語埋め込みを用いたモデルが一連のデータセットに適用されている。 最後に、異なるモデルと入力特徴に対して得られた実験結果の比較研究を行った。

The study of public opinion can provide us with valuable information. The analysis of sentiment on social networks, such as Twitter or Facebook, has become a powerful means of learning about the users' opinions and has a wide range of applications. However, the efficiency and accuracy of sentiment analysis is being hindered by the challenges encountered in natural language processing (NLP). In recent years, it has been demonstrated that deep learning models are a promising solution to the challenges of NLP. This paper reviews the latest studies that have employed deep learning to solve sentiment analysis problems, such as sentiment polarity. Models using term frequency-inverse document frequency (TF-IDF) and word embedding have been applied to a series of datasets. Finally, a comparative study has been conducted on the experimental results obtained for the different models and input features
翻訳日:2022-11-25 03:16:45 公開日:2020-06-05
# 重み付きトラベリングセールスマン問題とトラベリングティーフ問題に対する最適ツアー:ソリューションの構造的比較

Optimising Tours for the Weighted Traveling Salesperson Problem and the Traveling Thief Problem: A Structural Comparison of Solutions ( http://arxiv.org/abs/2006.03260v1 )

ライセンス: Link先を確認
Jakob Bossek, Aneta Neumann, Frank Neumann(参考訳) トラベリングセールスパーソン問題(TSP)は、最もよく知られた組合せ最適化問題の1つである。 しかし、現実世界の多くの問題はいくつかの相互作用するコンポーネントで構成されている。 トラベリング・ティーフ問題(TTP)は、TSPとKnapsack問題(KP)という2つの組合せ最適化問題を組み合わせることでそのような相互作用に対処する。 近年,ノード重み依存型トラベルセールスパーソン問題(w-tsp)と呼ばれる新たな問題が発生し,ノードがツアーの費用に影響を与える重みを持つようになった。 本稿では,W-TSPとTPを比較した。 W-TSP と TTP の最適ツアーの構造と適合度関数の相互利用の影響について検討した。 実験結果から,(1)TTP適合関数を用いてW-TSPをよりよく解けることが示唆され,(2)最終W-TSPおよびTTP解は,最適TSPや重み付きグリーディ解と比較して異なる分布を示す。

The Traveling Salesperson Problem (TSP) is one of the best-known combinatorial optimisation problems. However, many real-world problems are composed of several interacting components. The Traveling Thief Problem (TTP) addresses such interactions by combining two combinatorial optimisation problems, namely the TSP and the Knapsack Problem (KP). Recently, a new problem called the node weight dependent Traveling Salesperson Problem (W-TSP) has been introduced where nodes have weights that influence the cost of the tour. In this paper, we compare W-TSP and TTP. We investigate the structure of the optimised tours for W-TSP and TTP and the impact of using each others fitness function. Our experimental results suggest (1) that the W-TSP often can be solved better using the TTP fitness function and (2) final W-TSP and TTP solutions show different distributions when compared with optimal TSP or weighted greedy solutions.
翻訳日:2022-11-25 03:16:34 公開日:2020-06-05
# ジャンプ関数を用いたヘビーテール$(1+(\lambda,\lambda))$遺伝的アルゴリズムのランタイム解析

Runtime Analysis of a Heavy-Tailed $(1+(\lambda,\lambda))$ Genetic Algorithm on Jump Functions ( http://arxiv.org/abs/2006.03523v1 )

ライセンス: Link先を確認
Denis Antipov, Benjamin Doerr(参考訳) 最近、$(1+(\lambda,\lambda))$の遺伝的アルゴリズムはjump関数ベンチマークの局所最適値から容易に逃れることができることが観測された。 したがって、このアルゴリズムはジャンプサイズ$k$のジャンプ関数を、たった$n^{(k + 1)/2}k^{-k/2}e^{o(k)}$フィットネス評価(antipov, doerr, karavaev (gecco 2020))のランタイムで最適化することができる。 しかし、この性能を得るためには、ジャンプサイズ$k$に依存する非標準パラメータ設定が用いられた。 この課題を克服するために, 1+(\lambda,\lambda))$ 遺伝的アルゴリズムの2つのパラメータをパワーロー分布からランダムに選ぶことを提案する。 数学的な実行時解析により、ジャンプサイズが最大$n/4$のすべてのジャンプ関数上の分布パラメータの自然なインスタンス非依存の選択を持つこのアルゴリズムは、前回の作業で得られる最良のインスタンス固有パラメータに近い性能を持つことを示す。 このインスタンス独立性の価格は、$O(n\log(n))$ factor のように小さくすることができる。 ジャンプ問題の難しさと、軽度に最適でない固定パラメータの使用によるランタイム損失(この作業でも議論されている)を考えると、これは妥当な価格である。

It was recently observed that the $(1+(\lambda,\lambda))$ genetic algorithm can comparably easily escape the local optimum of the jump functions benchmark. Consequently, this algorithm can optimize the jump function with jump size $k$ in an expected runtime of only $n^{(k + 1)/2}k^{-k/2}e^{O(k)}$ fitness evaluations (Antipov, Doerr, Karavaev (GECCO 2020)). To obtain this performance, however, a non-standard parameter setting depending on the jump size $k$ was used. To overcome this difficulty, we propose to choose two parameters of the $(1+(\lambda,\lambda))$ genetic algorithm randomly from a power-law distribution. Via a mathematical runtime analysis, we show that this algorithm with natural instance-independent choices of the distribution parameters on all jump functions with jump size at most $n/4$ has a performance close to what the best instance-specific parameters in the previous work obtained. This price for instance-independence can be made as small as an $O(n\log(n))$ factor. Given the difficulty of the jump problem and the runtime losses from using mildly suboptimal fixed parameters (also discussed in this work), this appears to be a fair price.
翻訳日:2022-11-25 03:16:14 公開日:2020-06-05
# 機能プログラムとしてのゲノム

Genome as a functional program ( http://arxiv.org/abs/2006.09980v1 )

ライセンス: Link先を確認
S.V. Kozyrev(参考訳) 機能的アーキテクチャを持つプログラムとしてのゲノムのモデルについて検討し,ダーウィン進化へのアプローチを関数型プログラミングの学習問題として捉える。 特に,ある種の関数型プログラムの学習モデルを提案する。 このアプローチは情報幾何に関連している -- 学習モデルは情報空間(モデルの還元グラフ)で何らかの距離を使い、還元グラフの経路上の統計和を検討し、この和と温度学習との関係について議論する。

We discuss a model of genome as a program with functional architecture and consider the approach to Darwinian evolution as a learning problem for functional programming. In particular we introduce a model of learning for some class of functional programs. This approach is related to information geometry -- the learning model uses some kind of distance in the information space (the reduction graph of the model), we consider statistical sum over paths in the reduction graph and discuss relation of this sum to temperature learning.
翻訳日:2022-11-25 03:15:52 公開日:2020-06-05
# コンパクト支持カーネルのパラメトリックファミリによるスパースガウス過程

Sparse Gaussian Processes via Parametric Families of Compactly-supported Kernels ( http://arxiv.org/abs/2006.03673v1 )

ライセンス: Link先を確認
Jarred Barber(参考訳) ガウス過程は確率的機械学習の強力なモデルであるが、O(N^3)$推論複雑性によって応用に制限される。 本稿では,コンパクトな空間的支援により,自然にスパースなカーネル行列を生成し,スパース線形代数による高速ガウス過程推論を可能にする,カーネル関数のパラメトリック族を導出する手法を提案する。 これらの族は、ウェンドランド多項式のような既知のコンパクト支持カーネル関数を一般化する。 この一連のカーネルのパラメータは、最大確率推定を用いてデータから学習することができる。 あるいは、凸最適化を用いて、ターゲットカーネルのコンパクト近似を迅速に計算できる。 これらの近似は、ターゲットGPから直接描画されたデータをモデル化する際に、精度の低いモデルに対して最小限の誤差を発生させることを示した。

Gaussian processes are powerful models for probabilistic machine learning, but are limited in application by their $O(N^3)$ inference complexity. We propose a method for deriving parametric families of kernel functions with compact spatial support, which yield naturally sparse kernel matrices and enable fast Gaussian process inference via sparse linear algebra. These families generalize known compactly-supported kernel functions, such as the Wendland polynomials. The parameters of this family of kernels can be learned from data using maximum likelihood estimation. Alternatively, we can quickly compute compact approximations of a target kernel using convex optimization. We demonstrate that these approximations incur minimal error over the exact models when modeling data drawn directly from a target GP, and can out-perform the traditional GP kernels on real-world signal reconstruction tasks, while exhibiting sub-quadratic inference complexity.
翻訳日:2022-11-25 03:09:49 公開日:2020-06-05
# ドメイン適応による異常検出

Anomaly Detection with Domain Adaptation ( http://arxiv.org/abs/2006.03689v1 )

ライセンス: Link先を確認
Ziyi Yang, Iman Soltani Bozchalooi, Eric Darve(参考訳) 領域適応を用いた半教師付き異常検出の問題点について検討する。 ソースドメインからの正規データの集合と、ターゲットドメインからの正規例の限られた量を考えると、目標は、ターゲットドメインに適切な異常検出器を持つことである。 本稿では、まずドメイン不変表現を抽出することを学ぶために、不変表現異常検出(irad)を提案する。 抽出は、ソース固有のエンコーダやジェネレータと共に訓練されたクロスドメインエンコーダによって行われる。 その後、学習表現を用いて異常検出器を訓練する。 我々は、桁画像データセット(MNIST、USPS、SVHN)とオブジェクト認識データセット(Office-Home)に基づいて、IRADを広範囲に評価する。 実験の結果、IRADは様々なデータセットでベースラインモデルよりも広いマージンで優れていた。 我々は、オーバートレーニングによる性能劣化を説明するジョイントエラーの理論的下界と、一般化誤差の上限を導出する。

We study the problem of semi-supervised anomaly detection with domain adaptation. Given a set of normal data from a source domain and a limited amount of normal examples from a target domain, the goal is to have a well-performing anomaly detector in the target domain. We propose the Invariant Representation Anomaly Detection (IRAD) to solve this problem where we first learn to extract a domain-invariant representation. The extraction is achieved by an across-domain encoder trained together with source-specific encoders and generators by adversarial learning. An anomaly detector is then trained using the learnt representations. We evaluate IRAD extensively on digits images datasets (MNIST, USPS and SVHN) and object recognition datasets (Office-Home). Experimental results show that IRAD outperforms baseline models by a wide margin across different datasets. We derive a theoretical lower bound for the joint error that explains the performance decay from overtraining and also an upper bound for the generalization error.
翻訳日:2022-11-25 03:09:35 公開日:2020-06-05
# マルチメディア社会分析のためのデータセットとベンチマーク

A Dataset and Benchmarks for Multimedia Social Analysis ( http://arxiv.org/abs/2006.08335v1 )

ライセンス: Link先を確認
Bofan Xue, David Chan, John Canny(参考訳) 本稿では,マルチモダリティ学習を目的とし,同じ文脈内で視覚情報と言語データを提供することにより,新しいデータセットを提案する。 これは、複数のペア画像/ビデオとテキストを含む投稿と、画像/ビデオと/またはテキストを含むコメントツリーを含むソーシャルメディアウェブサイトからデータを取得することで達成される。 投稿総数は677万件、ポスト画像2.9万件、ポストビデオ488万件、コメント画像14万件、コメントビデオ460万件、コメントビデオ969万件で、画像キャプション、画像分類、次のフレーム予測、感情分析、言語モデリングなど、さまざまなタスクのパフォーマンス向上にさまざまなモダリティからのデータを併用することができる。 データセットについて、幅広い統計データを提示する。 最後に、事前学習されたモデルと複数の完全連結ネットワークを用いた回帰タスクのベースライン性能解析を行う。

We present a new publicly available dataset with the goal of advancing multi-modality learning by offering vision and language data within the same context. This is achieved by obtaining data from a social media website with posts containing multiple paired images/videos and text, along with comment trees containing images/videos and/or text. With a total of 677k posts, 2.9 million post images, 488k post videos, 1.4 million comment images, 4.6 million comment videos, and 96.9 million comments, data from different modalities can be jointly used to improve performances for a variety of tasks such as image captioning, image classification, next frame prediction, sentiment analysis, and language modeling. We present a wide range of statistics for our dataset. Finally, we provide baseline performance analysis for one of the regression tasks using pre-trained models and several fully connected networks.
翻訳日:2022-11-25 03:08:41 公開日:2020-06-05
# 前景, 背景, ハイブリッド特徴によるシーン画像の表現

Scene Image Representation by Foreground, Background and Hybrid Features ( http://arxiv.org/abs/2006.03199v1 )

ライセンス: Link先を確認
Chiranjibi Sitaula and Yong Xiang and Sunil Aryal and Xuequan Lu(参考訳) 従来の深層学習に基づくシーン画像の表現方法は,前景情報か背景情報かを,分類作業の手がかりの識別として主に考慮している。 しかし、シーン画像はクラス間の類似性とクラス内変異問題に対処するために追加情報(ハイブリッド)を必要とする。 本稿では,フォアグラウンドと背景機能に加えて,シーン画像の表現にハイブリッド機能を用いることを提案する。 これら3種類の情報によって、シーンイメージをより正確に表現できると仮定する。 そこで我々は,前景,背景,ハイブリッド情報の抽出のために,imagenet,places,hybrid(imagenetとplacesの両方)データセットをプリトレーニングしたvgg-16アーキテクチャを3つ採用した。 これら3種類の深い特徴は、シーンイメージの表現の最終特徴を達成するためにさらに集約される。 2つの大規模ベンチマークシーンデータセット(MIT-67とSUN-397)の大規模な実験により,本手法が最先端の分類性能を生んでいることが示された。

Previous methods for representing scene images based on deep learning primarily consider either the foreground or background information as the discriminating clues for the classification task. However, scene images also require additional information (hybrid) to cope with the inter-class similarity and intra-class variation problems. In this paper, we propose to use hybrid features in addition to foreground and background features to represent scene images. We suppose that these three types of information could jointly help to represent scene image more accurately. To this end, we adopt three VGG-16 architectures pre-trained on ImageNet, Places, and Hybrid (both ImageNet and Places) datasets for the corresponding extraction of foreground, background and hybrid information. All these three types of deep features are further aggregated to achieve our final features for the representation of scene images. Extensive experiments on two large benchmark scene datasets (MIT-67 and SUN-397) show that our method produces the state-of-the-art classification performance.
翻訳日:2022-11-25 03:07:58 公開日:2020-06-05
# ディープ・コンプリートのための不確かさを意識したCNN:最初から最後まで不確かさ

Uncertainty-Aware CNNs for Depth Completion: Uncertainty from Beginning to End ( http://arxiv.org/abs/2006.03349v1 )

ライセンス: Link先を確認
Abdelrahman Eldesokey, Michael Felsberg, Karl Holmquist, and Mikael Persson(参考訳) ディープラーニング研究の焦点は、主に予測精度の限界を押し上げることにある。 しかし、これはしばしば複雑さが増大するコストで達成され、深いネットワークの解釈可能性や信頼性に対する懸念が高まった。 近年、ディープネットワークの複雑さを解き、異なるコンピュータビジョンタスクに対する不確実性を定量化するために注目が集まっている。 異なることに、深度センサの固有のノイズ特性にもかかわらず、深度完了のタスクには十分な注意が払われていない。 そこで本研究では,スパースノイズ入力から最終予測まで,深度データの不確かさをモデル化することに注力する。 本稿では,正規化畳み込みニューラルネットワーク(NCNN)に基づいて,入力信頼度推定器を自己教師型で学習し,入力中の乱れの測定値を特定する手法を提案する。 さらに,最終予測のための統計的に有意な不確実性尺度を生成するncnnsの確率的バージョンを提案する。 深度推定のためのKITTIデータセットに対するアプローチを評価すると、予測精度、不確実性尺度の品質、計算効率の点で既存のベイズディープラーニングアプローチよりも優れています。 さらに,670kのパラメータを持つ小型ネットワークは,従来手法とほぼ同等のパラメータで動作している。 これらの結果は、ネットワークを並列不確実性に分離し、予測ストリームが正確な不確実性推定で最先端のパフォーマンスをもたらすという強い証拠を与える。

The focus in deep learning research has been mostly to push the limits of prediction accuracy. However, this was often achieved at the cost of increased complexity, raising concerns about the interpretability and the reliability of deep networks. Recently, an increasing attention has been given to untangling the complexity of deep networks and quantifying their uncertainty for different computer vision tasks. Differently, the task of depth completion has not received enough attention despite the inherent noisy nature of depth sensors. In this work, we thus focus on modeling the uncertainty of depth data in depth completion starting from the sparse noisy input all the way to the final prediction. We propose a novel approach to identify disturbed measurements in the input by learning an input confidence estimator in a self-supervised manner based on the normalized convolutional neural networks (NCNNs). Further, we propose a probabilistic version of NCNNs that produces a statistically meaningful uncertainty measure for the final prediction. When we evaluate our approach on the KITTI dataset for depth completion, we outperform all the existing Bayesian Deep Learning approaches in terms of prediction accuracy, quality of the uncertainty measure, and the computational efficiency. Moreover, our small network with 670k parameters performs on-par with conventional approaches with millions of parameters. These results give strong evidence that separating the network into parallel uncertainty and prediction streams leads to state-of-the-art performance with accurate uncertainty estimates.
翻訳日:2022-11-25 03:06:57 公開日:2020-06-05
# 差動的不均質電子健康記録の生成

Generation of Differentially Private Heterogeneous Electronic Health Records ( http://arxiv.org/abs/2006.03423v1 )

ライセンス: Link先を確認
Kieran Chin-Cheong, Thomas Sutter and Julia E. Vogt(参考訳) 電子健康記録(ehrs)は、医療や医療に関する問題の研究のために機械学習コミュニティによって一般的に使用されている。 EHRには、簡単に配布でき、例えば分類問題に有用な多くの特徴を含むという利点がある。 EHRデータセットが一般的な機械学習データセットと異なるのは、高次元性のためしばしば非常に疎外であり、しばしば異質な(混合された)データ型を含んでいることである。 さらに、データセットは機密情報を扱うため、プライバシー上の懸念から学習したモデルの分布を制限する。 これらの理由から、実際にEHRデータを使用することは、真の課題である。 本研究では,これらの合成レコードを下流分類タスクの既存のデータセットの代わりに活用することを目的として,ジェネレーティブ・アドバーサリアル・ネットワークを用いて合成異種EHRを生成することを検討する。 我々はさらに、厳密なプライバシー保証を提供するDP合成EHRデータセットを作成するために、差分プライバシー(DP)保存最適化の適用について検討する。 AUROC, AUPRC, 精度によって測定された同種データの性能は, バイナリ分類タスクでテストした場合の非DPモデルに対する元のデータセット(ベースラインの3~5%)に非常に近い。 強力な$(1, 10^{-5})$ dpを使用すると、テスト対象の分類タスクで約17%のパフォーマンスペナルティが発生しながら、機械学習タスクに有用なデータを生成します。 また, 本モデルでは, 男性・女性両集団のベースライン, 0-18, 19-50, 51+以上の年齢群と比較して, 非DP, DPのいずれかの分類性能において, 合成ERHデータに偏りは生じないことがわかった。

Electronic Health Records (EHRs) are commonly used by the machine learning community for research on problems specifically related to health care and medicine. EHRs have the advantages that they can be easily distributed and contain many features useful for e.g. classification problems. What makes EHR data sets different from typical machine learning data sets is that they are often very sparse, due to their high dimensionality, and often contain heterogeneous (mixed) data types. Furthermore, the data sets deal with sensitive information, which limits the distribution of any models learned using them, due to privacy concerns. For these reasons, using EHR data in practice presents a real challenge. In this work, we explore using Generative Adversarial Networks to generate synthetic, heterogeneous EHRs with the goal of using these synthetic records in place of existing data sets for downstream classification tasks. We will further explore applying differential privacy (DP) preserving optimization in order to produce DP synthetic EHR data sets, which provide rigorous privacy guarantees, and are therefore shareable and usable in the real world. The performance (measured by AUROC, AUPRC and accuracy) of our model's synthetic, heterogeneous data is very close to the original data set (within 3 - 5% of the baseline) for the non-DP model when tested in a binary classification task. Using strong $(1, 10^{-5})$ DP, our model still produces data useful for machine learning tasks, albeit incurring a roughly 17% performance penalty in our tested classification task. We additionally perform a sub-population analysis and find that our model does not introduce any bias into the synthetic EHR data compared to the baseline in either male/female populations, or the 0-18, 19-50 and 51+ age groups in terms of classification performance for either the non-DP or DP variant.
翻訳日:2022-11-25 03:01:20 公開日:2020-06-05
# ストリームデータによる異常検出

Anomaly detection on streamed data ( http://arxiv.org/abs/2006.03487v1 )

ライセンス: Link先を確認
Thomas Cochrane and Peter Foster and Terry Lyons and Imanol Perez Arribas(参考訳) 我々は,「正常」観測のコーパスに対して異常観測を識別するための,強力だが簡単な手法を導入する。 すべてのデータはベクトル値特徴マップを通して観測される。 我々のアプローチはコーパスの選択と特徴写像に依存するが、地図のアフィン変換には不変であり、計量の選択のような外部依存は存在しない。 この手法を時系列や他のストリームデータの種類に応用することにより、異常な複雑なマルチモーダルシーケンシャルデータを特定するための幅広い適用可能性の効果的な方法論を提供する。 複数のデータセットに対して評価することで,本手法の適用性と有効性を示す。 提案手法は, 曲線(AUC)下での受信機動作特性(ROC)の定量化性能に基づいて, ペンディジットデータセットのAUCスコア98.9\%を出力し, その後の海洋船舶交通データを含む実験では, AUCスコア89.1\%を出力する。 uea \& ucr時系列リポジトリからの不定時系列と、バランスのとれた精度で定量化され、最適な操作ポイントを仮定したパフォーマンスの比較に基づいて、28のデータセットのうち19のシェープレット法を上回った。

We introduce powerful but simple methodology for identifying anomalous observations against a corpus of `normal' observations. All data are observed through a vector-valued feature map. Our approach depends on the choice of corpus and that feature map but is invariant to affine transformations of the map and has no other external dependencies, such as choices of metric; we call it conformance. Applying this method to (signatures) of time series and other types of streamed data we provide an effective methodology of broad applicability for identifying anomalous complex multimodal sequential data. We demonstrate the applicability and effectiveness of our method by evaluating it against multiple data sets. Based on quantifying performance using the receiver operating characteristic (ROC) area under the curve (AUC), our method yields an AUC score of 98.9\% for the PenDigits data set; in a subsequent experiment involving marine vessel traffic data our approach yields an AUC score of 89.1\%. Based on comparison involving univariate time series from the UEA \& UCR time series repository with performance quantified using balanced accuracy and assuming an optimal operating point, our approach outperforms a state-of-the-art shapelet method for 19 out of 28 data sets.
翻訳日:2022-11-25 03:00:48 公開日:2020-06-05
# 予想ジャコビアン外積:理論と経験論

The Expected Jacobian Outerproduct: Theory and Empirics ( http://arxiv.org/abs/2006.03550v1 )

ライセンス: Link先を確認
Shubhendu Trivedi, J. Wang(参考訳) 未知回帰関数の期待勾配外積(英: expected gradient outerproduct、egop)は、マルチインデックス回帰の理論において生じる作用素であり、出力の予測に最も関係のある方向を回復することが知られている。 しかしながら、egopに関する作業は、その安価な推定値を含む作業は、回帰設定に制限される。 本研究では,この演算子を多クラス設定に適応させ,期待されるジャコビアン外積 (EJOP) をダブする。 さらに,EJOPの簡易な粗推定器を提案し,やや意外なことに,軽度の仮定の下では統計的に一貫性が保たれていることを示す。 さらに、固有値と固有空間も一貫していることを示す。 最後に、推定されたEJOPは、実世界の非パラメトリック分類タスクを改善するために、メトリックとしての使用と、メトリック学習タスクにおける安価な初期化の両方によって、メートル法として使用できることを示す。

The expected gradient outerproduct (EGOP) of an unknown regression function is an operator that arises in the theory of multi-index regression, and is known to recover those directions that are most relevant to predicting the output. However, work on the EGOP, including that on its cheap estimators, is restricted to the regression setting. In this work, we adapt this operator to the multi-class setting, which we dub the expected Jacobian outerproduct (EJOP). Moreover, we propose a simple rough estimator of the EJOP and show that somewhat surprisingly, it remains statistically consistent under mild assumptions. Furthermore, we show that the eigenvalues and eigenspaces also remain consistent. Finally, we show that the estimated EJOP can be used as a metric to yield improvements in real-world non-parametric classification tasks: both by its use as a metric, and also as cheap initialization in metric learning tasks.
翻訳日:2022-11-25 02:59:28 公開日:2020-06-05
# ブラックボックス文脈バンディットアルゴリズム群を用いたレート適応モデル選択

Rate-adaptive model selection over a collection of black-box contextual bandit algorithms ( http://arxiv.org/abs/2006.03632v1 )

ライセンス: Link先を確認
Aur\'elien F. Bibaut, Antoine Chambaz, Mark J. van der Laan(参考訳) 確率的文脈的バンディット設定におけるモデル選択タスクを考える。 基本文脈のバンディットアルゴリズムの集合が与えられると仮定する。 我々は、それらを組み合わせて、最高のベースアルゴリズムが単独で実行されていた場合のように、定数まで、同じパフォーマンスを達成するマスターアルゴリズムを提供する。 我々のアプローチは、それぞれのアルゴリズムが高い確率後悔境界を満たすことだけを要求する。 我々の手順は非常に単純で、基本的には以下のとおりである: 確率の順に選択された列 $(p_{t})_{t\geq 1}$ に対して、各ラウンド$t$ において、どの候補をフォローするか(確率 $p_{t}$ で)ランダムに選択するか、あるいは、各候補について同じ内部サンプルサイズで、それぞれの累積報酬をそれぞれ選択し、比較に勝つものを選ぶ(確率 $1-p_{t}$ で)。 我々の知る限りでは、我々の提案は、一般的なブラックボックスの文脈的バンディットアルゴリズムの集合において、最初のレート適応型であり、最高の候補と同じ後悔率を達成する。 シミュレーション研究により本手法の有効性を実証する。

We consider the model selection task in the stochastic contextual bandit setting. Suppose we are given a collection of base contextual bandit algorithms. We provide a master algorithm that combines them and achieves the same performance, up to constants, as the best base algorithm would, if it had been run on its own. Our approach only requires that each algorithm satisfy a high probability regret bound. Our procedure is very simple and essentially does the following: for a well chosen sequence of probabilities $(p_{t})_{t\geq 1}$, at each round $t$, it either chooses at random which candidate to follow (with probability $p_{t}$) or compares, at the same internal sample size for each candidate, the cumulative reward of each, and selects the one that wins the comparison (with probability $1-p_{t}$). To the best of our knowledge, our proposal is the first one to be rate-adaptive for a collection of general black-box contextual bandit algorithms: it achieves the same regret rate as the best candidate. We demonstrate the effectiveness of our method with simulation studies.
翻訳日:2022-11-25 02:58:52 公開日:2020-06-05
# 本物がいない人為的な異常値の生成 - 調査

Generating Artificial Outliers in the Absence of Genuine Ones -- a Survey ( http://arxiv.org/abs/2006.03646v1 )

ライセンス: Link先を確認
Georg Steinbuss and Klemens B\"ohm(参考訳) 定義上、異常値が現実に観測されることはほとんどなく、検出や解析が困難である。 人工的外れ値(artificial outliers)は、そのような真の外れ値に近似し、例えば、本物の外れ値の検出や、ベンチマークの外れ値検出アルゴリズムに役立つ。 文学は、人工的なアウトリーチを生成する様々なアプローチを特徴としている。 しかし、これらのアプローチの体系的な比較はいまだにない。 このアプローチを調査して比較する。 まず、出版から出版まで様々である分野の用語を明確にし、一般的な問題定式化を提案する。 実験設計や生成モデルといった他の研究分野へのアウトリアー生成の関連について,人工アウトリアーの分野を概説する。 簡潔な説明を提供するとともに、それらの一般的な概念とそれらが真のインスタンスをどのように利用するかによってアプローチをグループ化する。 広範囲にわたる実験的研究は、最終的に外れ値検出に使用される場合の世代的アプローチの違いを明らかにしている。 この調査は、既存のアプローチが世代の基礎となる幅広い概念をすでにカバーしていることを示しているが、この分野は今後も発展する可能性があることも示している。 私たちの実験では、例えば、使用するデータセットの観点で、生成アプローチの品質が広く変化するという期待を裏付けています。 最終的に、特定の文脈における生成アプローチの選択を導くために、適切な一般決定プロセスを提案する。 要約すると、この調査は人工外乱の発生に関するすべての関連する研究を包含し、記述し、接続し、この分野におけるさらなる研究の指針となる。

By definition, outliers are rarely observed in reality, making them difficult to detect or analyse. Artificial outliers approximate such genuine outliers and can, for instance, help with the detection of genuine outliers or with benchmarking outlier-detection algorithms. The literature features different approaches to generate artificial outliers. However, systematic comparison of these approaches remains absent. This surveys and compares these approaches. We start by clarifying the terminology in the field, which varies from publication to publication, and we propose a general problem formulation. Our description of the connection of generating outliers to other research fields like experimental design or generative models frames the field of artificial outliers. Along with offering a concise description, we group the approaches by their general concepts and how they make use of genuine instances. An extensive experimental study reveals the differences between the generation approaches when ultimately being used for outlier detection. This survey shows that the existing approaches already cover a wide range of concepts underlying the generation, but also that the field still has potential for further development. Our experimental study does confirm the expectation that the quality of the generation approaches varies widely, for example, in terms of the data set they are used on. Ultimately, to guide the choice of the generation approach in a specific context, we propose an appropriate general-decision process. In summary, this survey comprises, describes, and connects all relevant work regarding the generation of artificial outliers and may serve as a basis to guide further research in the field.
翻訳日:2022-11-25 02:58:29 公開日:2020-06-05
# タスク指向対話における自然言語理解の促進

Accelerating Natural Language Understanding in Task-Oriented Dialog ( http://arxiv.org/abs/2006.03701v1 )

ライセンス: Link先を確認
Ojas Ahuja and Shrey Desai(参考訳) タスク指向ダイアログモデルは通常、複雑なニューラルネットワークアーキテクチャと大規模で事前学習されたトランスフォーマを使用して、人気のある自然言語理解ベンチマークで最先端のパフォーマンスを達成する。 しかしながら、これらのモデルは数千万以上のパラメータを持つことが多く、リソース効率が大きな懸念事項であるデバイス上でのデプロイが不可能である。 本研究では,構造的プルーニングで圧縮された単純な畳み込みモデルが,atisおよびsnipsのbertとほぼ同等の結果を100k以下のパラメータで達成することを示す。 さらに、我々はCPU上で加速実験を行い、マルチタスクモデルがDistilBERTよりも63倍早く意図やスロットを予測するのを観察した。

Task-oriented dialog models typically leverage complex neural architectures and large-scale, pre-trained Transformers to achieve state-of-the-art performance on popular natural language understanding benchmarks. However, these models frequently have in excess of tens of millions of parameters, making them impossible to deploy on-device where resource-efficiency is a major concern. In this work, we show that a simple convolutional model compressed with structured pruning achieves largely comparable results to BERT on ATIS and Snips, with under 100K parameters. Moreover, we perform acceleration experiments on CPUs, where we observe our multi-task model predicts intents and slots nearly 63x faster than even DistilBERT.
翻訳日:2022-11-25 02:51:27 公開日:2020-06-05
# DeepVar: 生物医学におけるゲノム変異認識のためのエンドツーエンドのディープラーニングアプローチ

DeepVar: An End-to-End Deep Learning Approach for Genomic Variant Recognition in Biomedical Literature ( http://arxiv.org/abs/2006.08338v1 )

ライセンス: Link先を確認
Chaoran Cheng, Fei Tan, Zhi Wei(参考訳) 生物医学的な学術文献における名前付きエンティティ認識(NER)の問題,特に本研究におけるゲノム変異の認識について考察する。 大規模なデータセットが一般に利用可能である近年の標準タスクにおいて、NERにとって重要な成功が達成されている。 しかし、多くのドメイン固有の領域、特に小さな金のアノテーションしか得られない領域で問題となっている。 さらに、ゲノム変異体は、既存の標準nerタスクで特徴付けられるものと大きく異なる、多様な言語的多様性を示す。 このようなタスクにおける最先端の機械学習アプローチは、これらのユニークなパターンを特徴づけるために、厳しい機能エンジニアリングに大きく依存している。 本研究では,汎用NERアルゴリズムと低リソースアプリケーションとのギャップをゲノム変異認識によって埋める,エンド・ツー・エンドのディープラーニング手法を初めて提案する。 提案モデルでは,手作り機能や後処理ルールを使わずに,有望な性能が得られる。 当社の広範な実験と成果は、同様の低リソースのnerアプリケーションにも当てはまります。

We consider the problem of Named Entity Recognition (NER) on biomedical scientific literature, and more specifically the genomic variants recognition in this work. Significant success has been achieved for NER on canonical tasks in recent years where large data sets are generally available. However, it remains a challenging problem on many domain-specific areas, especially the domains where only small gold annotations can be obtained. In addition, genomic variant entities exhibit diverse linguistic heterogeneity, differing much from those that have been characterized in existing canonical NER tasks. The state-of-the-art machine learning approaches in such tasks heavily rely on arduous feature engineering to characterize those unique patterns. In this work, we present the first successful end-to-end deep learning approach to bridge the gap between generic NER algorithms and low-resource applications through genomic variants recognition. Our proposed model can result in promising performance without any hand-crafted features or post-processing rules. Our extensive experiments and results may shed light on other similar low-resource NER applications.
翻訳日:2022-11-25 02:50:57 公開日:2020-06-05
# ラベルインフォーム分布アライメントを用いた連続伝達学習

Continuous Transfer Learning with Label-informed Distribution Alignment ( http://arxiv.org/abs/2006.03230v1 )

ライセンス: Link先を確認
Jun Wu, Jingrui He(参考訳) 転送学習は多くの高インパクトアプリケーションに適用されている。 しかし、既存の作品の多くは静的転送学習の設定に焦点を当てており、映画に対するオンラインレビューなど、ターゲットドメインの時間発展のモデル化にほとんど焦点が当てられていない。 本稿では,このギャップを埋めるために,時間発展ターゲット領域を持つ新しい連続移動学習環境について検討する。 連続転写学習に関連する大きな課題の1つは、ターゲットドメインが時間とともに進化するにつれて負転移が起こる可能性があることである。 この課題に対処するため,本研究では,データ分布の変化を計測し,潜在的な負の転送を識別するために,ソースとターゲットドメイン間のラベルインフォームドC分割を提案する。 次に,提案するc-divergenceの実験的推定を用いて,対象領域の誤差バウンドを導出する。 さらに,潜時特徴空間における連続時間スタンプ間の対象領域の分類誤差とC偏差を最小化し,TransLATEと呼ばれる汎用逆変分自動エンコーダフレームワークを提案する。 さらに,C分割に基づく負転移を特徴付ける転写シグネチャを定義し,より大きいC分割は実シナリオにおける負転移の確率が高いことを示す。 合成および実データ集合に関する大規模な実験は、我々のTransLATEフレームワークの有効性を示す。

Transfer learning has been successfully applied across many high-impact applications. However, most existing work focuses on the static transfer learning setting, and very little is devoted to modeling the time evolving target domain, such as the online reviews for movies. To bridge this gap, in this paper, we study a novel continuous transfer learning setting with a time evolving target domain. One major challenge associated with continuous transfer learning is the potential occurrence of negative transfer as the target domain evolves over time. To address this challenge, we propose a novel label-informed C-divergence between the source and target domains in order to measure the shift of data distributions as well as to identify potential negative transfer. We then derive the error bound for the target domain using the empirical estimate of our proposed C-divergence. Furthermore, we propose a generic adversarial Variational Auto-encoder framework named TransLATE by minimizing the classification error and C-divergence of the target domain between consecutive time stamps in a latent feature space. In addition, we define a transfer signature for characterizing the negative transfer based on C-divergence, which indicates that larger C-divergence implies a higher probability of negative transfer in real scenarios. Extensive experiments on synthetic and real data sets demonstrate the effectiveness of our TransLATE framework.
翻訳日:2022-11-25 02:50:18 公開日:2020-06-05
# マルチBSS WLANにおけるマルチアーマッド帯域を用いた同時分散チャネル割り当てとアクセスポイント選択

Concurrent Decentralized Channel Allocation and Access Point Selection using Multi-Armed Bandits in multi BSS WLANs ( http://arxiv.org/abs/2006.03350v1 )

ライセンス: Link先を確認
\'Alvaro L\'opez-Ravent\'os, Boris Bellalta(参考訳) Enterprise Wireless Local Area Networks (WLAN) は、特定のエリアをカバーする複数のアクセスポイント(AP)で構成される。 エンタプライズ WLAN のパフォーマンスを最大化できる適切なネットワーク構成を見つけることは,AP とステーション間の複雑な依存関係を考えると,難しい作業である。 近年, 無線ネットワークにおいて, 各種ネットワーク構成がシステム性能に与える影響を効率的に探索し, 優れた性能を実現するための効果的な手法として強化学習技術が登場している。 本稿では,Multi-Armed Bandits (MABs) が,エンタープライズ WLAN シナリオにおける分散チャネル割り当てとAP選択問題に対して,実現可能なソリューションを提供できるかどうかを検討する。 そこで我々は,トンプソンサンプリングアルゴリズムを実装することによって,APと局にエージェントを付与し,最適なチャネルを探索し,どのAPを関連づけるかを学習する。 本評価は,異なるネットワークトポロジとトラフィック負荷を含むランダムに生成されたシナリオに対して行われる。 その結果,MABを用いた適応型フレームワークは,ネットワーク密度やトラフィック要求に関わらず,静的アプローチ(初期デフォルト設定を常に使用,通常はランダム)よりも優れていた。 さらに,提案フレームワークの利用により,異なるシナリオ間の性能変動を低減できることを示す。 また、同じ駅数に対してAPが少ない静的戦略よりも、同じ性能(あるいはより良い)を達成することを示す。 最後に、エージェントの相互作用に特に注意が払われている。 エージェントが完全に独立した方法で動作しても、その決定は、同一のチャネルリソースの集合に対して行動を起こすため、相互に関係する効果を持つ。

Enterprise Wireless Local Area Networks (WLANs) consist of multiple Access Points (APs) covering a given area. Finding a suitable network configuration able to maximize the performance of enterprise WLANs is a challenging task given the complex dependencies between APs and stations. Recently, in wireless networking, the use of reinforcement learning techniques has emerged as an effective solution to efficiently explore the impact of different network configurations in the system performance, identifying those that provide better performance. In this paper, we study if Multi-Armed Bandits (MABs) are able to offer a feasible solution to the decentralized channel allocation and AP selection problems in Enterprise WLAN scenarios. To do so, we empower APs and stations with agents that, by means of implementing the Thompson sampling algorithm, explore and learn which is the best channel to use, and which is the best AP to associate, respectively. Our evaluation is performed over randomly generated scenarios, which enclose different network topologies and traffic loads. The presented results show that the proposed adaptive framework using MABs outperform the static approach (i.e., using always the initial default configuration, usually random) regardless of the network density and the traffic requirements. Moreover, we show that the use of the proposed framework reduces the performance variability between different scenarios. Results also show that we achieve the same performance (or better) than static strategies with less APs for the same number of stations. Finally, special attention is placed on how the agents interact. Even if the agents operate in a completely independent manner, their decisions have interrelated effects, as they take actions over the same set of channel resources.
翻訳日:2022-11-25 02:49:27 公開日:2020-06-05
# ガウス測度間のエントロピー規則化2ドルワッサーシュタイン距離

Entropy-Regularized $2$-Wasserstein Distance between Gaussian Measures ( http://arxiv.org/abs/2006.03416v1 )

ライセンス: Link先を確認
Anton Mallasto, Augusto Gerolin, H\`a Quang Minh(参考訳) ガウス分布は不確かさの定量化と微分率を扱う応用において豊富である。 さらに、それらは確率測度のための測度を提供するフレームワークにとって重要な特別なケースであり、ガウス幾何学の結果として得られる幾何学は、しばしばフレームワークの下で閉形式で表現できる。 本研究では、エントロピー正規化2-wasserstein距離の下でガウス幾何学を、要素間の距離と補間に関する閉形式解を提供することによって研究する。 さらに, ガウス多様体に制限されたとき, 集団バリーセンタの固定点キャラクタリゼーションを提供し, 固定点反復アルゴリズムによる計算を可能にした。 その結果、2-シンクホーンの発散に対する閉形式表現が得られる。 ジオメトリが正規化等級を変化させることで変化すると、消失等級と無限等級の制限ケースを研究し、シンクホーン分岐の限界に関するよく知られた結果を再確認する。 最後に, 得られた測地線を数値的研究により示す。

Gaussian distributions are plentiful in applications dealing in uncertainty quantification and diffusivity. They furthermore stand as important special cases for frameworks providing geometries for probability measures, as the resulting geometry on Gaussians is often expressible in closed-form under the frameworks. In this work, we study the Gaussian geometry under the entropy-regularized 2-Wasserstein distance, by providing closed-form solutions for the distance and interpolations between elements. Furthermore, we provide a fixed-point characterization of a population barycenter when restricted to the manifold of Gaussians, which allows computations through the fixed-point iteration algorithm. As a consequence, the results yield closed-form expressions for the 2-Sinkhorn divergence. As the geometries change by varying the regularization magnitude, we study the limiting cases of vanishing and infinite magnitudes, reconfirming well-known results on the limits of the Sinkhorn divergence. Finally, we illustrate the resulting geometries with a numerical study.
翻訳日:2022-11-25 02:48:59 公開日:2020-06-05
# 拡大分離表現の表現性

Expressivity of expand-and-sparsify representations ( http://arxiv.org/abs/2006.03741v1 )

ライセンス: Link先を確認
Sanjoy Dasgupta and Christopher Tosh(参考訳) 粗い近似に対して入力された$x \in \r^d$ は、ランダムな線形変換によってより高次元の $m \gg d$ にマッピングされ、上位の$k$ の位置のみが保持され、$k$-sparse ベクトル $z \in \{0,1\}^m$ となる。 この表現の利点をその後の学習のために研究する。 まず、$x$ の任意の連続函数が、$m$ が十分大きければ$z$ の線型函数によって十分に近似されるような普遍近似特性を示す。 これは、$z$が情報を$x$でアンパックし、より簡単にアクセスできるようにするという意味と解釈できる。 線形関数は明示的に指定することができ、学習しやすく、入力次元$d$の関数としてどれだけ大きな$m$が必要か、ターゲット関数の滑らかさについて境界を与える。 次に、この表現が入力空間の多様体構造に適応するかどうかを考える。 これはスペーシフィケーションの特定の方法に大きく依存している: 適応性は、すべての勝者のメカニズムの下では得られず、わずかに変種の下で保たれることを示す。 最後に、ランダムだがデータ分布に順応した表現空間への写像を検討し、この設定で好ましい近似境界を与える。

A simple sparse coding mechanism appears in the sensory systems of several organisms: to a coarse approximation, an input $x \in \R^d$ is mapped to much higher dimension $m \gg d$ by a random linear transformation, and is then sparsified by a winner-take-all process in which only the positions of the top $k$ values are retained, yielding a $k$-sparse vector $z \in \{0,1\}^m$. We study the benefits of this representation for subsequent learning. We first show a universal approximation property, that arbitrary continuous functions of $x$ are well approximated by linear functions of $z$, provided $m$ is large enough. This can be interpreted as saying that $z$ unpacks the information in $x$ and makes it more readily accessible. The linear functions can be specified explicitly and are easy to learn, and we give bounds on how large $m$ needs to be as a function of the input dimension $d$ and the smoothness of the target function. Next, we consider whether the representation is adaptive to manifold structure in the input space. This is highly dependent on the specific method of sparsification: we show that adaptivity is not obtained under the winner-take-all mechanism, but does hold under a slight variant. Finally we consider mappings to the representation space that are random but are attuned to the data distribution, and we give favorable approximation bounds in this setting.
翻訳日:2022-11-25 02:42:39 公開日:2020-06-05
# ドメインAPIを超えて:非構造化知識アクセスによるタスク指向の会話モデリング

Beyond Domain APIs: Task-oriented Conversational Modeling with Unstructured Knowledge Access ( http://arxiv.org/abs/2006.03533v1 )

ライセンス: Link先を確認
Seokhwan Kim, Mihail Eric, Karthik Gopalakrishnan, Behnam Hedayatnia, Yang Liu, Dilek Hakkani-Tur(参考訳) タスク指向の対話システムに関するこれまでの作業は、ドメインAPIの限定的なカバレッジに制限されている。 本稿では,外部の非構造化知識源を取り入れたタスク指向対話システムの拡張を提案する。 我々は,知識探索ターン検出,知識選択,知識接地応答生成という3つのサブタスクを定義し,個別または共同でモデル化できる。 外部の知識ソースを基盤とした新たなapi対応と応答を含む,multiwoz 2.1の拡張版を紹介する。 従来のアプローチとニューラルアプローチの両方を用いて,各サブタスクのベースラインを示す。 実験結果から,より情報的な会話システムを実現するために,この方向へのさらなる研究の必要性が示された。

Most prior work on task-oriented dialogue systems are restricted to a limited coverage of domain APIs, while users oftentimes have domain related requests that are not covered by the APIs. In this paper, we propose to expand coverage of task-oriented dialogue systems by incorporating external unstructured knowledge sources. We define three sub-tasks: knowledge-seeking turn detection, knowledge selection, and knowledge-grounded response generation, which can be modeled individually or jointly. We introduce an augmented version of MultiWOZ 2.1, which includes new out-of-API-coverage turns and responses grounded on external knowledge sources. We present baselines for each sub-task using both conventional and neural approaches. Our experimental results demonstrate the need for further research in this direction to enable more informative conversational systems.
翻訳日:2022-11-25 02:41:37 公開日:2020-06-05
# human or machine: nlgテキストのヒューマンライクライン評価の自動化

Human or Machine: Automating Human Likeliness Evaluation of NLG Texts ( http://arxiv.org/abs/2006.03189v1 )

ライセンス: Link先を確認
Erion \c{C}ano and Ond\v{r}ej Bojar(参考訳) データ駆動型知的手法によって生成される各種テキスト品質基準の自動評価は、安価で高速で、通常繰り返し可能な結果が得られるため、非常に一般的で有用である。 本稿では,複数の課題を解決するための自然言語生成手法から出力されるテキストサンプルの評価を,人間に似せて自動化する試みについて述べる。 そこで,本研究では,人間によって書かれたようにみえる手法を用いて,出力サンプルの比率を示す,人間の類似度スコアを提案する。 これらのサンプルのラベル付けや評価を行う代わりに、大規模な事前学習言語モデルとそれらの確率分布に基づく識別手法を用いて、プロセスを完全に自動化する。 以下に示すように、本評価手法の最適設定を見つけるために、人書きテキストと機械生成テキストの実証分析を行う。 被験者を含む検証手順は、自動評価が人間の判断とどのように相関するかもチェックする。

Automatic evaluation of various text quality criteria produced by data-driven intelligent methods is very common and useful because it is cheap, fast, and usually yields repeatable results. In this paper, we present an attempt to automate the human likeliness evaluation of the output text samples coming from natural language generation methods used to solve several tasks. We propose to use a human likeliness score that shows the percentage of the output samples from a method that look as if they were written by a human. Instead of having human participants label or rate those samples, we completely automate the process by using a discrimination procedure based on large pretrained language models and their probability distributions. As follow up, we plan to perform an empirical analysis of human-written and machine-generated texts to find the optimal setup of this evaluation approach. A validation procedure involving human participants will also check how the automatic evaluation correlates with human judgments.
翻訳日:2022-11-25 02:41:24 公開日:2020-06-05
# 文・段落レベルでのテキストコヒーレンスの評価

Evaluating Text Coherence at Sentence and Paragraph Levels ( http://arxiv.org/abs/2006.03221v1 )

ライセンス: Link先を確認
Sennan Liu, Shuang Zeng and Sujian Li(参考訳) 本稿では,文のコヒーレンスを評価するために,文の順序だけでなく段落の順序付けも提案する。 そこで我々は,各ドメインから4つの異なるコーパスを収集し,既存の文順化手法を段落順化タスクに適用することを検討した。 また,既存のモデルの学習可能性と頑健性を比較し,ミニデータセットとノイズデータセットをそれぞれ人工的に作成し,これらの状況下で確立したモデルの効率性を検証する。 さらに,WLCS-lは,これまで使用されてきた最も一般的な指標であるタウよりも,人体評価との相関が有意に高い指標であることが確認された。 これらの評価結果から、一定の極端な条件を除いて、リカレントグラフニューラルネットワークモデルがコヒーレンスモデリングの最適選択であることが示された。

In this paper, to evaluate text coherence, we propose the paragraph ordering task as well as conducting sentence ordering. We collected four distinct corpora from different domains on which we investigate the adaptation of existing sentence ordering methods to a paragraph ordering task. We also compare the learnability and robustness of existing models by artificially creating mini datasets and noisy datasets respectively and verifying the efficiency of established models under these circumstances. Furthermore, we carry out human evaluation on the rearranged passages from two competitive models and confirm that WLCS-l is a better metric performing significantly higher correlations with human rating than tau, the most prevalent metric used before. Results from these evaluations show that except for certain extreme conditions, the recurrent graph neural network-based model is an optimal choice for coherence modeling.
翻訳日:2022-11-25 02:41:11 公開日:2020-06-05
# マルチフィルタアーキテクチャを用いたTwitterの音声方言識別

Spoken dialect identification in Twitter using a multi-filter architecture ( http://arxiv.org/abs/2006.03564v1 )

ライセンス: Link先を確認
Mohammadreza Banaei, R\'emi Lebret, Karl Aberer(参考訳) 本稿では,swisstext & konvens 2020 shared task 2 に対して,swiss german (gsw) 識別のための多段階ニューラルモデルを提案する。 我々のモデルはGSWか非GSWのいずれかを出力し、汎用言語識別子として使用するものではない。 我々のアーキテクチャは、2つの独立したフィルタで構成されており、第1のフィルタはリコールを好んでおり、第2のフィルタは精度(どちらもGSW)がよい。 さらに、フィルタにはバイナリモデル(GSW vs. not-GSW)を使用しません。 我々のモデルは共有タスクのテストセットで0.982のF1スコアに達する。

This paper presents our approach for SwissText & KONVENS 2020 shared task 2, which is a multi-stage neural model for Swiss German (GSW) identification on Twitter. Our model outputs either GSW or non-GSW and is not meant to be used as a generic language identifier. Our architecture consists of two independent filters where the first one favors recall, and the second one filter favors precision (both towards GSW). Moreover, we do not use binary models (GSW vs. not-GSW) in our filters but rather a multi-class classifier with GSW being one of the possible labels. Our model reaches F1-score of 0.982 on the test set of the shared task.
翻訳日:2022-11-25 02:40:56 公開日:2020-06-05
# 状態動作分離型強化学習

State Action Separable Reinforcement Learning ( http://arxiv.org/abs/2006.03713v1 )

ライセンス: Link先を確認
Ziyao Zhang and Liang Ma and Kin K. Leung and Konstantinos Poularakis and Mudhakar Srivatsa(参考訳) 強化学習(Reinforcement Learning, RL)に基づく手法は, 近年, 連続的な意思決定・制御問題の解決に成功している。 従来のRL定式化では、マルコフ決定過程(MDP)と状態-作用値関数が問題モデリングと政策評価の基礎となっている。 しかし、いくつかの問題はまだ残っている。 最も引用される問題のうち、状態/動作空間の非効率性は、状態-アクション-値関数の正確な近似に非効率をもたらす重要な要素である。 我々は、アクションはエージェントの振る舞いを直接定義するが、多くの問題において、状態遷移後の次の状態は、そのような状態遷移の返却を決定する際のアクションよりも重要であることを観察する。 そこで本研究では,新たな学習パラダイムであるステートアクション分離型強化学習(sasRL)を提案する。 次に、軽量遷移モデルを学び、エージェントが関連する状態遷移をトリガーするアクションを決定するのを支援する。 さらに、収束解析により、ある条件下では、sasRL の収束時間は$O(T^{1/k})$であり、$T$ は MDP の定式化における値関数を更新する収束時間であり、$k$ は重み付け因子であることが明らかになった。 いくつかのゲームシナリオの実験では、sasRLは最先端のMDPベースのRLアルゴリズムを最大75\%$で上回っている。

Reinforcement Learning (RL) based methods have seen their paramount successes in solving serial decision-making and control problems in recent years. For conventional RL formulations, Markov Decision Process (MDP) and state-action-value function are the basis for the problem modeling and policy evaluation. However, several challenging issues still remain. Among most cited issues, the enormity of state/action space is an important factor that causes inefficiency in accurately approximating the state-action-value function. We observe that although actions directly define the agents' behaviors, for many problems the next state after a state transition matters more than the action taken, in determining the return of such a state transition. In this regard, we propose a new learning paradigm, State Action Separable Reinforcement Learning (sasRL), wherein the action space is decoupled from the value function learning process for higher efficiency. Then, a light-weight transition model is learned to assist the agent to determine the action that triggers the associated state transition. In addition, our convergence analysis reveals that under certain conditions, the convergence time of sasRL is $O(T^{1/k})$, where $T$ is the convergence time for updating the value function in the MDP-based formulation and $k$ is a weighting factor. Experiments on several gaming scenarios show that sasRL outperforms state-of-the-art MDP-based RL algorithms by up to $75\%$.
翻訳日:2022-11-25 02:33:48 公開日:2020-06-05
# PLANS: ニューラルネットワーク仕様によるロバストプログラム学習

PLANS: Robust Program Learning from Neurally Inferred Specifications ( http://arxiv.org/abs/2006.03312v1 )

ライセンス: Link先を確認
Rapha\"el Dang-Nhu(参考訳) 近年、ニューラルモデルに基づく統計的プログラム学習が、例えばプログラミングのための伝統的なルールベースのシステムに代わるものとして台頭している。 ルールベースのアプローチは、本来は論理ルールをキャプチャするが、ニューラルネットワークは生の高次元入力に対してより現実的にスケーラブルであり、ノイズの多いI/O仕様に対する耐性を提供する。 我々は、視覚観察からプログラム合成のためのハイブリッドモデルであるplan(neurally inferred specificationからのプログラム学習)を紹介する。 (i)個々の入力から抽象的でハイレベルな情報を抽出するように訓練されたニューラルアーキテクチャ (ii) 抽出した情報をi/o仕様として利用し、異なる観測を捉えたプログラムを合成するルールベースシステム。 ネットワークの出力におけるノイズに耐性を持つPLANSの鍵となる課題に対処するため,選択的分類手法に基づくI/O仕様に対するフィルタリングヒューリスティックを導入する。 我々は,Karel と ViZDoom 環境における多様なデモビデオから,プログラム合成における最先端のパフォーマンスを得る。 実装はgithub.com/rdang-nhu/plansで利用可能です。

Recent years have seen the rise of statistical program learning based on neural models as an alternative to traditional rule-based systems for programming by example. Rule-based approaches offer correctness guarantees in an unsupervised way as they inherently capture logical rules, while neural models are more realistically scalable to raw, high-dimensional input, and provide resistance to noisy I/O specifications. We introduce PLANS (Program LeArning from Neurally inferred Specifications), a hybrid model for program synthesis from visual observations that gets the best of both worlds, relying on (i) a neural architecture trained to extract abstract, high-level information from each raw individual input (ii) a rule-based system using the extracted information as I/O specifications to synthesize a program capturing the different observations. In order to address the key challenge of making PLANS resistant to noise in the network's output, we introduce a filtering heuristic for I/O specifications based on selective classification techniques. We obtain state-of-the-art performance at program synthesis from diverse demonstration videos in the Karel and ViZDoom environments, while requiring no ground-truth program for training. We make our implementation available at github.com/rdang-nhu/PLANS.
翻訳日:2022-11-25 02:33:18 公開日:2020-06-05
# 学習曲線のランク付けを学ぶ

Learning to Rank Learning Curves ( http://arxiv.org/abs/2006.03361v1 )

ライセンス: Link先を確認
Martin Wistuba and Tejaswini Pedapati(参考訳) ハイパーパラメータやニューラルアーキテクチャ最適化などの多くの自動機械学習手法は、さまざまなモデル構成のトレーニングを含むため、計算コストがかかる。 そこで本研究では,学習の早い段階で構成不良を解消し,計算予算を削減する新しい手法を提案する。 既存の手法とは対照的に、我々はこのタスクをランキングと転送の学習問題と見なしている。 本モデルでは,ペアワイズランキングの損失を最適化し,他のデータセットからの学習曲線を活用することにより,学習曲線を多数,あるいは非常に長い学習曲線を観察することなく,効果的にランク付けできることを示す。 さらに,本手法は,検出したアーキテクチャの大幅な性能劣化を伴わずに,最大100倍の精度でニューラルネットワーク探索を高速化できることを示す。 さらなる実験では、ランキングの質、異なるモデルコンポーネントの影響、およびモデルの予測行動を分析した。

Many automated machine learning methods, such as those for hyperparameter and neural architecture optimization, are computationally expensive because they involve training many different model configurations. In this work, we present a new method that saves computational budget by terminating poor configurations early on in the training. In contrast to existing methods, we consider this task as a ranking and transfer learning problem. We qualitatively show that by optimizing a pairwise ranking loss and leveraging learning curves from other datasets, our model is able to effectively rank learning curves without having to observe many or very long learning curves. We further demonstrate that our method can be used to accelerate a neural architecture search by a factor of up to 100 without a significant performance degradation of the discovered architecture. In further experiments we analyze the quality of ranking, the influence of different model components as well as the predictive behavior of the model.
翻訳日:2022-11-25 02:32:03 公開日:2020-06-05
# 階層型クラスベースカリキュラムロス

Hierarchical Class-Based Curriculum Loss ( http://arxiv.org/abs/2006.03629v1 )

ライセンス: Link先を確認
Palash Goyal and Shalini Ghosh(参考訳) 機械学習における分類アルゴリズムは、しばしばフラットラベル空間を仮定する。 しかし、現実世界のほとんどのデータにはラベル間の依存関係があり、階層構造を使ってキャプチャできることが多い。 この関係を利用することで、依存関係を満足し、モデルの正確性と解釈性を向上させることができるモデルの開発に役立つ。 さらに、階層の異なるレベルが異なる粒度に対応するため、各ラベルを等しくペナル化することはモデル学習に有害である。 本稿では,2つの特性を持つ損失関数,階層型カリキュラム損失を提案する。 (i)ラベル空間に存在する階層的な制約を満たすこと、 (ii)学習パラダイムによって暗黙的に学習された階層のレベルに基づいてラベルに非一様重みを与える。 理論上,提案する損失関数は,階層的制約を満たす他の損失関数と比較して,0-1 の狭い値であることを示す。 我々は実世界の画像データセット上で損失関数をテストし、複数のベースラインを大きく上回っていることを示す。

Classification algorithms in machine learning often assume a flat label space. However, most real world data have dependencies between the labels, which can often be captured by using a hierarchy. Utilizing this relation can help develop a model capable of satisfying the dependencies and improving model accuracy and interpretability. Further, as different levels in the hierarchy correspond to different granularities, penalizing each label equally can be detrimental to model learning. In this paper, we propose a loss function, hierarchical curriculum loss, with two properties: (i) satisfy hierarchical constraints present in the label space, and (ii) provide non-uniform weights to labels based on their levels in the hierarchy, learned implicitly by the training paradigm. We theoretically show that the proposed loss function is a tighter bound of 0-1 loss compared to any other loss satisfying the hierarchical constraints. We test our loss function on real world image data sets, and show that it significantly substantially outperforms multiple baselines.
翻訳日:2022-11-25 02:31:33 公開日:2020-06-05
# 電気化学電池の故障予測のための自己監督エンコーダ

Self-Supervised Encoder for Fault Prediction in Electrochemical Cells ( http://arxiv.org/abs/2007.13492v1 )

ライセンス: Link先を確認
Daniel Buades Marcos, Soumaya Yacout, Said Berriah(参考訳) 発生前に障害を予測することは、潜在的な安全性の危険を避けるのに役立つ。 さらに、必要な保守作業の事前計画により、運用コストが削減される。 本稿では、電気化学細胞に焦点を当てる。 セルの故障を予測するために、典型的な方法は、健全なセルが有する期待電圧を推定し、リアルタイムに測定した電圧と比較することである。 このアプローチは、障害が発生した場合、セルの測定電圧が同じ動作条件で期待される電圧と異なるため可能である。 しかし、健康な細胞の電圧もその劣化(未知のパラメータ)の影響を受けているため、予想される電圧の推定は困難である。 専門家定義パラメトリックモデルは、現在この推定作業に使われている。 代わりに,エンコーダ-デコーダアーキテクチャに基づくニューラルネットワークモデルの利用を提案する。 ネットワークは、動作条件を入力として受信する。 エンコーダのタスクは、セルの劣化の忠実な表現を見つけ、それをデコーダに渡すことである。 ラベル付き劣化データはネットワークに渡されないので,本手法は自己教師付きエンコーダであると考えられる。 その結果,パラメトリックモデルにより得られた予測誤差を53%低減しながら,複数のセルの電圧を予測することができた。 この改良により、ネットワークが31時間前に故障を予測できるようになり、パラメトリックモデルと比較して64%の反応時間が増加した。 さらに、エンコーダの出力をプロットし、ニューラルネットワークモデルに解釈可能性を追加することができる。

Predicting faults before they occur helps to avoid potential safety hazards. Furthermore, planning the required maintenance actions in advance reduces operation costs. In this article, the focus is on electrochemical cells. In order to predict a cell's fault, the typical approach is to estimate the expected voltage that a healthy cell would present and compare it with the cell's measured voltage in real-time. This approach is possible because, when a fault is about to happen, the cell's measured voltage differs from the one expected for the same operating conditions. However, estimating the expected voltage is challenging, as the voltage of a healthy cell is also affected by its degradation -- an unknown parameter. Expert-defined parametric models are currently used for this estimation task. Instead, we propose the use of a neural network model based on an encoder-decoder architecture. The network receives the operating conditions as input. The encoder's task is to find a faithful representation of the cell's degradation and to pass it to the decoder, which in turn predicts the expected cell's voltage. As no labeled degradation data is given to the network, we consider our approach to be a self-supervised encoder. Results show that we were able to predict the voltage of multiple cells while diminishing the prediction error that was obtained by the parametric models by 53%. This improvement enabled our network to predict a fault 31 hours before it happened, a 64% increase in reaction time compared to the parametric model. Moreover, the output of the encoder can be plotted, adding interpretability to the neural network model.
翻訳日:2022-11-25 02:24:34 公開日:2020-06-05
# 絡み合った内部表現によるk平均クラスタリング性能の向上

Improving k-Means Clustering Performance with Disentangled Internal Representations ( http://arxiv.org/abs/2006.04535v1 )

ライセンス: Link先を確認
Abien Fred Agarap, Arnulfo P. Azcarraga(参考訳) ディープクラスタリングアルゴリズムは、クラスタリング損失と非クラスタリング損失を共同最適化することにより、表現学習とクラスタリングを組み合わせる。 このような方法では、ディープニューラルネットワークはクラスタリングネットワークと共に表現学習に使用される。 クラスタリング性能を改善するためにこのフレームワークに従う代わりに、オートエンコーダの学習した潜在コード表現の絡み合いを最適化するシンプルなアプローチを提案する。 絡み合いを、同一のクラスや構造からの点の対が、異なるクラスや構造からの点の対に対していかに密接であるかで定義する。 データポイントの絡み合いを測定するために、最寄りのソフトロスを使用し、アニーリング温度係数を導入して拡張する。 提案手法を用いて,MNISTデータセットでは96.2%,Fashion-MNISTデータセットでは85.6%,EMNIST Balancedデータセットでは79.2%,ベースラインモデルでは79.2%であった。

Deep clustering algorithms combine representation learning and clustering by jointly optimizing a clustering loss and a non-clustering loss. In such methods, a deep neural network is used for representation learning together with a clustering network. Instead of following this framework to improve clustering performance, we propose a simpler approach of optimizing the entanglement of the learned latent code representation of an autoencoder. We define entanglement as how close pairs of points from the same class or structure are, relative to pairs of points from different classes or structures. To measure the entanglement of data points, we use the soft nearest neighbor loss, and expand it by introducing an annealing temperature factor. Using our proposed approach, the test clustering accuracy was 96.2% on the MNIST dataset, 85.6% on the Fashion-MNIST dataset, and 79.2% on the EMNIST Balanced dataset, outperforming our baseline models.
翻訳日:2022-11-25 02:23:53 公開日:2020-06-05
# Funnel-Transformer:効率的な言語処理のための逐次冗長性のフィルタリング

Funnel-Transformer: Filtering out Sequential Redundancy for Efficient Language Processing ( http://arxiv.org/abs/2006.03236v1 )

ライセンス: Link先を確認
Zihang Dai, Guokun Lai, Yiming Yang, Quoc V. Le(参考訳) 言語の事前学習の成功により、豊富なラベルのないデータを低コストで活用できる優れたスケーラビリティのより効率的なアーキテクチャを開発することが非常に望ましい。 効率を向上させるため,完全長のトークンレベルでのプレゼンテーション,特にシーケンスの単一のvectorのみを必要とするタスクにおいて,見過ごされがちな冗長性を検討する。 この直観により,隠れ状態の列をより短い状態に徐々に圧縮し,計算コストを削減するファンネル変換器を提案する。 さらに,より深く,より広いモデルを構築する際に,保存したFLOPを長さ削減から再投資することにより,モデル容量をさらに向上する。 さらに、共通の事前学習目標によって要求されるトークンレベルの予測を実行するために、funnel-transformerはデコーダを介して縮小された隠れシーケンスから各トークンの深い表現を復元することができる。 経験上、同等か少ないフラップを持つファンネル変換器は、テキスト分類、言語理解、読み理解など、様々なシーケンスレベルの予測タスクで標準トランスフォーマーを上回っている。 コードと事前訓練されたチェックポイントはhttps://github.com/laiguokun/Funnel-Transformer.comで入手できる。

With the success of language pretraining, it is highly desirable to develop more efficient architectures of good scalability that can exploit the abundant unlabeled data at a lower cost. To improve the efficiency, we examine the much-overlooked redundancy in maintaining a full-length token-level presentation, especially for tasks that only require a single-vector presentation of the sequence. With this intuition, we propose Funnel-Transformer which gradually compresses the sequence of hidden states to a shorter one and hence reduces the computation cost. More importantly, by re-investing the saved FLOPs from length reduction in constructing a deeper or wider model, we further improve the model capacity. In addition, to perform token-level predictions as required by common pretraining objectives, Funnel-Transformer is able to recover a deep representation for each token from the reduced hidden sequence via a decoder. Empirically, with comparable or fewer FLOPs, Funnel-Transformer outperforms the standard Transformer on a wide variety of sequence-level prediction tasks, including text classification, language understanding, and reading comprehension. The code and pretrained checkpoints are available at https://github.com/laiguokun/Funnel-Transformer.
翻訳日:2022-11-25 02:23:36 公開日:2020-06-05
# gmat: トランスフォーマーのためのグローバルメモリ拡張

GMAT: Global Memory Augmentation for Transformers ( http://arxiv.org/abs/2006.03274v1 )

ライセンス: Link先を確認
Ankit Gupta, Jonathan Berant(参考訳) トランスフォーマティブベースのモデルは、そのキャパシティ、インナート並列性、高性能により、自然言語処理においてユビキタスになった。 Transformerブロックのコンテキスト化コンポーネントは、$\textit{pairwise dot-product}$ attentionであり、長さ$L$シーケンスに対する大きな$\Omega(L^2)$メモリ要件を持ち、長いドキュメントを処理する能力を制限する。 これは近年、スパースアテンション行列を用いて二次記憶の必要性を減らすために複数の近似が提案され、かなりの関心を集めている。 本稿では,各位置に対する入力シーケンス全体の総合的なグローバルビューを提供する,注意度の高い$\textit{global memory}$ of length $m$ (\ll l$) によるスパーストランスフォーマブロックの拡張を提案する。 私たちの拡張は、管理可能な$O(M\cdot(L+M))$メモリオーバーヘッドを持ち、以前のスパースソリューションとシームレスに統合できます。 さらに、大域的なメモリは、メモリ表現のみを持つ長い入力シーケンスを表現することで、シーケンス圧縮にも使用できる。 我々は,本手法がタスクの範囲を大幅に改善することを示す実証実験を行った。 (a)グローバルな推論を必要とする合成作業 (b)マスキング言語モデリング、及び (c) 理解を読むこと。

Transformer-based models have become ubiquitous in natural language processing thanks to their large capacity, innate parallelism and high performance. The contextualizing component of a Transformer block is the $\textit{pairwise dot-product}$ attention that has a large $\Omega(L^2)$ memory requirement for length $L$ sequences, limiting its ability to process long documents. This has been the subject of substantial interest recently, where multiple approximations were proposed to reduce the quadratic memory requirement using sparse attention matrices. In this work, we propose to augment sparse Transformer blocks with a dense attention-based $\textit{global memory}$ of length $M$ ($\ll L$) which provides an aggregate global view of the entire input sequence to each position. Our augmentation has a manageable $O(M\cdot(L+M))$ memory overhead, and can be seamlessly integrated with prior sparse solutions. Moreover, global memory can also be used for sequence compression, by representing a long input sequence with the memory representations only. We empirically show that our method leads to substantial improvement on a range of tasks, including (a) synthetic tasks that require global reasoning, (b) masked language modeling, and (c) reading comprehension.
翻訳日:2022-11-25 02:22:55 公開日:2020-06-05