このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200814となっている論文です。

PDF登録状況(公開日: 20200814)

TitleAuthorsAbstract論文公表日・翻訳日
# ALBA : ビデオオブジェクトセグメンテーションのための強化学習

ALBA : Reinforcement Learning for Video Object Segmentation ( http://arxiv.org/abs/2005.13039v2 )

ライセンス: Link先を確認
Shreyank N Gowda, Panagiotis Eustratiadis, Timothy Hospedales, Laura Sevilla-Lara(参考訳) ゼロショットビデオオブジェクトセグメンテーション(VOS)の課題について考察する。 つまり、手動で初期化することなく、ビデオ内の複数の動くオブジェクトを完全に自動的にセグメンテーションして追跡する。 我々はこれを,オブジェクトの提案を活用し,空間と時間の両面でグループ化に関する共同推論を行うことで,グループ化問題として扱う。 本稿では,提案選択と共同グルーピングを行うネットワークアーキテクチャを提案する。 重要なことは、このネットワークを強化学習でトレーニングする方法を示し、ビデオ全体をセグメンテーションするグループ決定の最適な非ミオピックシーケンスを実行することを学習する。 標準的な教師付き手法とは異なり、VOSを評価するために使われる非微分不可能な重複ベースのメトリクスを直接最適化することができる。 DAVIS 2017 [2], FBMS [20], Youtube-VOS [27] の3つのベンチマークにおいて, ALBAと呼ばれる提案手法が先行技術よりも優れていることを示す。

We consider the challenging problem of zero-shot video object segmentation (VOS). That is, segmenting and tracking multiple moving objects within a video fully automatically, without any manual initialization. We treat this as a grouping problem by exploiting object proposals and making a joint inference about grouping over both space and time. We propose a network architecture for tractably performing proposal selection and joint grouping. Crucially, we then show how to train this network with reinforcement learning so that it learns to perform the optimal non-myopic sequence of grouping decisions to segment the whole video. Unlike standard supervised techniques, this also enables us to directly optimize for the non-differentiable overlap-based metrics used to evaluate VOS. We show that the proposed method, which we call ALBA outperforms the previous stateof-the-art on three benchmarks: DAVIS 2017 [2], FBMS [20] and Youtube-VOS [27].
翻訳日:2022-11-29 00:22:53 公開日:2020-08-14
# VarFA: 効率的なベイズ学習分析のための変分分析フレームワーク

VarFA: A Variational Factor Analysis Framework For Efficient Bayesian Learning Analytics ( http://arxiv.org/abs/2005.13107v2 )

ライセンス: Link先を確認
Zichao Wang, Yi Gu, Andrew Lan, Richard Baraniuk(参考訳) 本稿では,学習データマイニングのための既存の因子分析モデルを拡張し,モデル推定因子の不確実性評価を効率的に出力する変分推論因子分析フレームワークであるVarFAを提案する。 このような不確実性情報は、例えば、モデルが学生のスキルレベル推定について十分に確実でない場合に追加のテストを実施することができる適応テストシナリオにおいて有用である。 このような不確実性情報を生成する従来のベイズ推論手法は計算コストが高く、大規模なデータセットにスケールしない。 VarFAは変分推論を利用して、非常に大きなデータセットでも効率的にベイズ推論を行うことができる。 本研究では, スパース因子分析モデルを用いて, 合成データと実データの両方に対するVarFAの有効性を実証する。 VarFA もまた非常に一般的であり、幅広い因子分析モデルに適用することができる。

We propose VarFA, a variational inference factor analysis framework that extends existing factor analysis models for educational data mining to efficiently output uncertainty estimation in the model's estimated factors. Such uncertainty information is useful, for example, for an adaptive testing scenario, where additional tests can be administered if the model is not quite certain about a students' skill level estimation. Traditional Bayesian inference methods that produce such uncertainty information are computationally expensive and do not scale to large data sets. VarFA utilizes variational inference which makes it possible to efficiently perform Bayesian inference even on very large data sets. We use the sparse factor analysis model as a case study and demonstrate the efficacy of VarFA on both synthetic and real data sets. VarFA is also very general and can be applied to a wide array of factor analysis models.
翻訳日:2022-11-28 08:31:01 公開日:2020-08-14
# 凝縮物質物理のための機械学習

Machine Learning for Condensed Matter Physics ( http://arxiv.org/abs/2005.14228v3 )

ライセンス: Link先を確認
Edwin A. Bedolla-Montiel, Luis Carlos Padierna, Ram\'on Casta\~neda-Priego(参考訳) 凝縮物質物理学(CMP)は、量子と原子のレベルでの物質の微視的相互作用を理解し、これらの相互作用がメゾスコピックとマクロスコピックの両方の性質をもたらすかを説明する。 CMPは、化学、材料科学、統計物理学、高性能コンピューティングなど、多くの重要な科学分野と重複している。 機械学習(ML)技術の進歩により、これらのアルゴリズムをさらなるCMP研究に適用することへの強い関心が、両方の分野の交差点で魅力的な新しい研究分野を生み出した。 本稿では,CMP におけるML の手法を応用し,ポテンシャルエネルギー面に対する ML スキームの記述と利用,格子系の物質トポロジカル位相のキャラクタリゼーション,非格子・原子シミュレーションにおける相転移の予測,物理に着想を得たフレームワークによる ML 理論の解釈,ML アルゴリズムによるシミュレーション手法の強化など,さらなる研究に成功している分野について検討する。 また,CMP問題におけるML手法の主な課題と欠点,今後の発展への展望についても詳しく論じる。

Condensed Matter Physics (CMP) seeks to understand the microscopic interactions of matter at the quantum and atomistic levels, and describes how these interactions result in both mesoscopic and macroscopic properties. CMP overlaps with many other important branches of science, such as Chemistry, Materials Science, Statistical Physics, and High-Performance Computing. With the advancements in modern Machine Learning (ML) technology, a keen interest in applying these algorithms to further CMP research has created a compelling new area of research at the intersection of both fields. In this review, we aim to explore the main areas within CMP, which have successfully applied ML techniques to further research, such as the description and use of ML schemes for potential energy surfaces, the characterization of topological phases of matter in lattice systems, the prediction of phase transitions in off-lattice and atomistic simulations, the interpretation of ML theories with physics-inspired frameworks and the enhancement of simulation methods with ML algorithms. We also discuss in detail the main challenges and drawbacks of using ML methods on CMP problems, as well as some perspectives for future developments.
翻訳日:2022-11-27 06:09:03 公開日:2020-08-14
# オンデバイス音声認識におけるストリーム・ツー・エンドの品質と安定性の解析

Analyzing the Quality and Stability of a Streaming End-to-End On-Device Speech Recognizer ( http://arxiv.org/abs/2006.01416v2 )

ライセンス: Link先を確認
Yuan Shangguan, Kate Knister, Yanzhang He, Ian McGraw, Francoise Beaufays(参考訳) 自動音声認識(ASR)の適用が拡大するにつれて,高速かつ正確なインクリメンタル音声認識の需要が高まっている。 増分認識器は、ユーザが話している間に部分的に認識された単語の断片を出力する。 ASRが仮説を確定する前に部分的な結果は修正され、不安定な問題を引き起こす。 デバイス上でのストリーミングエンドツーエンド(E2E)ASRモデルの品質と安定性を解析する。 まず,単語とセグメントレベルでの不安定性を定量化する新しい指標について紹介する。 本研究では,E2Eモデルの品質を向上するが,モデルの安定性を低下させる複数のモデルトレーニング手法の影響について検討する。 我々は不安定の原因を分類し、ストリーミングE2E ASRシステムでそれらを緩和する様々なソリューションを探索する。 インデックス用語:ASR、安定性、エンドツーエンド、テキスト正規化、オンデバイス、RNN-T

The demand for fast and accurate incremental speech recognition increases as the applications of automatic speech recognition (ASR) proliferate. Incremental speech recognizers output chunks of partially recognized words while the user is still talking. Partial results can be revised before the ASR finalizes its hypothesis, causing instability issues. We analyze the quality and stability of on-device streaming end-to-end (E2E) ASR models. We first introduce a novel set of metrics that quantify the instability at word and segment levels. We study the impact of several model training techniques that improve E2E model qualities but degrade model stability. We categorize the causes of instability and explore various solutions to mitigate them in a streaming E2E ASR system. Index Terms: ASR, stability, end-to-end, text normalization,on-device, RNN-T
翻訳日:2022-11-26 00:59:18 公開日:2020-08-14
# 多モード網膜スキャンによる網膜病変抽出における深層学習システムの伝達能の活用

Exploiting the Transferability of Deep Learning Systems Across Multi-modal Retinal Scans for Extracting Retinopathy Lesions ( http://arxiv.org/abs/2006.02662v2 )

ライセンス: Link先を確認
Taimur Hassan, Muhammad Usman Akram and Naoufel Werghi(参考訳) 網膜病変は網膜異常の正確な分類において重要な役割を果たす。 多くの研究者が網膜症の進行を分析し評価する深部病変認識スクリーニングシステムを提案している。 しかし、我々の知る限りでは、複数のスキャナー仕様やマルチモーダル画像にまたがる一般化の傾向を利用する文献は存在しない。 そこで本論文では, 網膜内液, 網膜下液, 硬口蓋, ドルゼンなどの網膜病変を抽出する, セマンティックセグメンテーション, シーン解析, ハイブリッド深層学習システムについて, 融合した基底部および光コヒーレンス断層撮影(OCT)画像から詳細な評価を行った。 さらに、複数の網膜スキャナー仕様にまたがるモデルの転送可能性を利用した新しい手法を提案する。 この研究で利用可能な7つのデータセットから合計363基のファンドと173,915基のCTスキャンが使用された(そのうち297基のファンドと59,593基のCTスキャンが試験目的に使用された)。 総じて、ResNet-50を介してバックボンドされたハイブリッド網膜解析およびグレーディングネットワーク(RAGNet)は、まず網膜病変を抽出し、平均ダイス係数スコア0.822を達成した。 さらに、完全なソースコードとそのドキュメントは、http://biomisa.org/index.php/downloads/でリリースされる。

Retinal lesions play a vital role in the accurate classification of retinal abnormalities. Many researchers have proposed deep lesion-aware screening systems that analyze and grade the progression of retinopathy. However, to the best of our knowledge, no literature exploits the tendency of these systems to generalize across multiple scanner specifications and multi-modal imagery. Towards this end, this paper presents a detailed evaluation of semantic segmentation, scene parsing and hybrid deep learning systems for extracting the retinal lesions such as intra-retinal fluid, sub-retinal fluid, hard exudates, drusen, and other chorioretinal anomalies from fused fundus and optical coherence tomography (OCT) imagery. Furthermore, we present a novel strategy exploiting the transferability of these models across multiple retinal scanner specifications. A total of 363 fundus and 173,915 OCT scans from seven publicly available datasets were used in this research (from which 297 fundus and 59,593 OCT scans were used for testing purposes). Overall, a hybrid retinal analysis and grading network (RAGNet), backboned through ResNet-50, stood first for extracting the retinal lesions, achieving a mean dice coefficient score of 0.822. Moreover, the complete source code and its documentation are released at: http://biomisa.org/index.php/downloads/.
翻訳日:2022-11-25 12:40:19 公開日:2020-08-14
# 制約のないオンライン最適化:強凸・平滑問題の動的回帰解析

Unconstrained Online Optimization: Dynamic Regret Analysis of Strongly Convex and Smooth Problems ( http://arxiv.org/abs/2006.03912v2 )

ライセンス: Link先を確認
Ting-Jui Chang, Shahin Shahrampour(参考訳) 動的オンライン学習アルゴリズムの後悔境界は、関数列(V_T$)および/または$T$ラウンド後の最小値列のパス長の変化によって表されることが多い。 強い凸と滑らかな函数に対して、Zhangらは最小化列(C^*_{2,T}$)の平方経路長を後悔の低い境界として定めている。 彼らはまた、オンライン勾配降下(ogd)がラウンド毎に複数の勾配クエリを使用してこの下限を達成することも示している。 本稿では,制約のないオンライン最適化に注目する。 まず,プリコンディショニングしたogdが1ラウンドあたり1つの勾配クエリで$o(c^*_{2,t})$を達成することを示す。 次に,関数列の第1次および第2次情報が予測可能である場合に,オンライン楽観的ニュートン法を提案する。 OONの後悔境界は、最小化シーケンス(C^*_{4,T}$)のクォートパス長(C^*_{2,T}$)を介して取得され、これは$C^*_{2,T}$よりもはるかに小さい。 最終的に、OGD に対して多重勾配を用いることで、後悔して$O(\min\{C^*_{2,T},V_T\}) の上限が得られることを示す。

The regret bound of dynamic online learning algorithms is often expressed in terms of the variation in the function sequence ($V_T$) and/or the path-length of the minimizer sequence after $T$ rounds. For strongly convex and smooth functions, , Zhang et al. establish the squared path-length of the minimizer sequence ($C^*_{2,T}$) as a lower bound on regret. They also show that online gradient descent (OGD) achieves this lower bound using multiple gradient queries per round. In this paper, we focus on unconstrained online optimization. We first show that a preconditioned variant of OGD achieves $O(C^*_{2,T})$ with one gradient query per round. We then propose online optimistic Newton (OON) method for the case when the first and second order information of the function sequence is predictable. The regret bound of OON is captured via the quartic path-length of the minimizer sequence ($C^*_{4,T}$), which can be much smaller than $C^*_{2,T}$. We finally show that by using multiple gradients for OGD, we can achieve an upper bound of $O(\min\{C^*_{2,T},V_T\})$ on regret.
翻訳日:2022-11-24 21:33:40 公開日:2020-08-14
# 教師なし光流の諸問題

What Matters in Unsupervised Optical Flow ( http://arxiv.org/abs/2006.04902v2 )

ライセンス: Link先を確認
Rico Jonschkowski, Austin Stone, Jonathan T. Barron, Ariel Gordon, Kurt Konolige, Anelia Angelova(参考訳) 教師なし光フローにおけるキー成分のセットを系統的に比較分析し,どの測光損失,咬合取扱い,滑らかさの規則化が最も効果的かを同定した。 この研究と並行して, コストボリューム正規化, 咬合マスクの勾配停止, フローフィールドのサンプリング前の滑らかさの促進, 画像再サイズによる連続的自己スーパービジョンなど, 教師なしフローモデルに対する多くの新しい改善を行った。 本研究の結果と改良されたモデルコンポーネントを組み合わせることで,従来の教師なしの状態を著しく上回り,KITTI 2015データセットの教師付きFlowNet2と同等に動作するとともに,関連するアプローチよりもはるかにシンプルな,新たな教師なしフロー技術を提案することができる。

We systematically compare and analyze a set of key components in unsupervised optical flow to identify which photometric loss, occlusion handling, and smoothness regularization is most effective. Alongside this investigation we construct a number of novel improvements to unsupervised flow models, such as cost volume normalization, stopping the gradient at the occlusion mask, encouraging smoothness before upsampling the flow field, and continual self-supervision with image resizing. By combining the results of our investigation with our improved model components, we are able to present a new unsupervised flow technique that significantly outperforms the previous unsupervised state-of-the-art and performs on par with supervised FlowNet2 on the KITTI 2015 dataset, while also being significantly simpler than related approaches.
翻訳日:2022-11-24 01:44:31 公開日:2020-08-14
# 特殊分類器のアンサンブルによる新しい社会ボットの検出

Detection of Novel Social Bots by Ensembles of Specialized Classifiers ( http://arxiv.org/abs/2006.06867v2 )

ライセンス: Link先を確認
Mohsen Sayyadiharikandeh, Onur Varol, Kai-Cheng Yang, Alessandro Flammini, Filippo Menczer(参考訳) 悪意ある俳優は、社会ボットとして知られるアルゴリズムによって部分的に制御される不正なソーシャルメディアアカウントを作成し、誤情報を広め、オンラインでの議論を扇動する。 研究者は乱用を検出するための洗練された方法を開発したが、多様な行動を持つ新しいボットは検出を回避した。 異なるタイプのボットが異なる行動特徴によって特徴づけられることを示す。 その結果、教師付き学習技術は、訓練データに観察されない行動を検出する際に、パフォーマンスが著しく低下する。 さらに、新しいボットを認識するためにこれらのモデルをチューニングするには、大量の新しいアノテーションで再訓練する必要がある。 そこで本研究では,ロボットのクラスごとに分類器を訓練し,その決定を最大ルールで組み合わせる,教師付き学習手法を提案する。 特殊分類器(ESC)のアンサンブルはより一般化され、データセット全体にわたって見えないアカウントに対するF1スコアの平均56\%が向上する。 さらに、新しいボットの振る舞いは、再トレーニング中にラベル付きサンプルが少なく学習される。 われわれはESCをBotometerの最新バージョンにデプロイした。これはソーシャルボットを検出できる人気ツールで、AUCは0.99である。

Malicious actors create inauthentic social media accounts controlled in part by algorithms, known as social bots, to disseminate misinformation and agitate online discussion. While researchers have developed sophisticated methods to detect abuse, novel bots with diverse behaviors evade detection. We show that different types of bots are characterized by different behavioral features. As a result, supervised learning techniques suffer severe performance deterioration when attempting to detect behaviors not observed in the training data. Moreover, tuning these models to recognize novel bots requires retraining with a significant amount of new annotations, which are expensive to obtain. To address these issues, we propose a new supervised learning method that trains classifiers specialized for each class of bots and combines their decisions through the maximum rule. The ensemble of specialized classifiers (ESC) can better generalize, leading to an average improvement of 56\% in F1 score for unseen accounts across datasets. Furthermore, novel bot behaviors are learned with fewer labeled examples during retraining. We deployed ESC in the newest version of Botometer, a popular tool to detect social bots in the wild, with a cross-validation AUC of 0.99.
翻訳日:2022-11-22 14:52:06 公開日:2020-08-14
# poisson learning: 非常に低いラベルレートでグラフベースの半教師付き学習

Poisson Learning: Graph Based Semi-Supervised Learning At Very Low Label Rates ( http://arxiv.org/abs/2006.11184v2 )

ライセンス: Link先を確認
Jeff Calder, Brendan Cook, Matthew Thorpe, Dejan Slepcev(参考訳) グラフに基づく半教師付き学習を低ラベルレートで行うため,Poisson Learningと呼ばれる新しいフレームワークを提案する。 ポアソン学習は、ラプラシアの半教師付き学習の退化に対処する必要性に動機づけられている。 この方法は、トレーニングポイントにおけるラベル値の割り当てをソースとシンクの配置に置き換え、グラフ上のポアソン方程式を解く。 結果はラプラシア語の学習よりも確実に安定し、情報的である。 ポアソン学習は効率的で実装が簡単であり, mnist, fashionmnist, cifar-10のラベルレートの低い半教師付き学習に対する他の手法よりも優れていることを示す数値実験を行った。 また,Poisson MBO (Poisson MBO) と呼ばれる,相対的なクラスサイズに関する事前知識を取り入れたグラフカット学習も提案する。

We propose a new framework, called Poisson learning, for graph based semi-supervised learning at very low label rates. Poisson learning is motivated by the need to address the degeneracy of Laplacian semi-supervised learning in this regime. The method replaces the assignment of label values at training points with the placement of sources and sinks, and solves the resulting Poisson equation on the graph. The outcomes are provably more stable and informative than those of Laplacian learning. Poisson learning is efficient and simple to implement, and we present numerical experiments showing the method is superior to other recent approaches to semi-supervised learning at low label rates on MNIST, FashionMNIST, and Cifar-10. We also propose a graph-cut enhancement of Poisson learning, called Poisson MBO, that gives higher accuracy and can incorporate prior knowledge of relative class sizes.
翻訳日:2022-11-19 03:40:43 公開日:2020-08-14
# イテレーティブ・プルーニングのスナップショットにもっと注意を払う:エンサンブル蒸留によるモデル圧縮の改善

Paying more attention to snapshots of Iterative Pruning: Improving Model Compression via Ensemble Distillation ( http://arxiv.org/abs/2006.11487v3 )

ライセンス: Link先を確認
Duong H. Le, Trung-Nhan Vo, Nam Thoai(参考訳) ネットワークプルーニングは、ディープニューラルネットワークの重い推論コストを削減する最も支配的な方法の1つである。 既存の手法はしばしば、性能に大きな損失を与えることなく、高い圧縮率を達成するために反復的にプルーンネットワークを使用する。 しかし,反復的刈り取りのスナップから得られる利点を完全に無視するため,従来の刈り取りネットワーク再トレーニング手法(例えば,小さな固定学習率を用いた場合)は不十分である。 本研究は, 競合性能とネットワーク構造の変化を達成し, 繰り返し刈り込みのスナップショットから, 強いアンサンブルを構築することができることを示す。 さらに,大規模学習率の再開によってネットワークの強いアンサンブルを生成する,単純で汎用的で効果的なパイプラインを提案し,これらのアンサンブルを用いた知識蒸留を用いて,コンパクトモデルの予測能力を向上させる。 CIFARやTiny-Imagenetなどの標準画像分類ベンチマークでは、簡単なl1-normフィルタをパイプラインに組み込むことで、構造化プルーニングの最先端プルーニング比を推し進める。 具体的には、多数のResNetアーキテクチャの75-80%のパラメータと65-70%のMACを削減し、元のネットワークに比べて同等または優れた性能を持つ。 この論文に関連するコードはhttps://github.com/lehduong/kesi.comで公開されている。

Network pruning is one of the most dominant methods for reducing the heavy inference cost of deep neural networks. Existing methods often iteratively prune networks to attain high compression ratio without incurring significant loss in performance. However, we argue that conventional methods for retraining pruned networks (i.e., using small, fixed learning rate) are inadequate as they completely ignore the benefits from snapshots of iterative pruning. In this work, we show that strong ensembles can be constructed from snapshots of iterative pruning, which achieve competitive performance and vary in network structure. Furthermore, we present simple, general and effective pipeline that generates strong ensembles of networks during pruning with large learning rate restarting, and utilizes knowledge distillation with those ensembles to improve the predictive power of compact models. In standard image classification benchmarks such as CIFAR and Tiny-Imagenet, we advance state-of-the-art pruning ratio of structured pruning by integrating simple l1-norm filters pruning into our pipeline. Specifically, we reduce 75-80% of total parameters and 65-70% MACs of numerous variants of ResNet architectures while having comparable or better performance than that of original networks. Code associate with this paper is made publicly available at https://github.com/lehduong/kesi.
翻訳日:2022-11-18 22:30:50 公開日:2020-08-14
# 実世界のソーストレーニングデータを超える: 一般化された人物再同定のためのランダム3d文字

Surpassing Real-World Source Training Data: Random 3D Characters for Generalizable Person Re-Identification ( http://arxiv.org/abs/2006.12774v2 )

ライセンス: Link先を確認
Yanan Wang, Shengcai Liao, Ling Shao(参考訳) 人身元確認は近年大きく進歩している。 しかし、学習モデルが未知の対象領域に一般化する能力はまだ限られている。 このようなデータセットの手動ラベリングは非常に高価で、プライバシに敏感であるため、この理由の1つは、大規模で多様なソーストレーニングデータがないことだ。 そこで本研究では,実際の監視と同じような仮想環境で設定した大規模人物再識別データセットを自動で合成し,合成した人物画像を用いて一般化可能な人物再識別モデルを訓練する。 具体的には、多数のランダムなuvテクスチャマップを生成し、それらを用いて異なる3d衣料モデルを作成する方法を設計する。 そして、様々な衣服、人種、属性の異なる様々な3d文字をランダムに生成する自動コードを開発した。 次に、実際の監視システムと同様のカスタマイズされたカメラネットワークを備えたUnity3Dを用いて、多数の仮想環境をシミュレートし、同時に複数の3D文字をインポートし、カメラネットワークを介して異なる経路に沿って様々な動きやインタラクションを行う。 その結果,1,801,816人の身元が8,000の仮想データセットrandpersonが得られた。 これらの合成された人物画像の人体再識別モデルをトレーニングすることにより、仮想データでトレーニングされたモデルが、CUHK03、Market-1501、DukeMTMC-reID、MSMT17など、さまざまな実世界のデータセットでトレーニングされたモデルを上回る、見知らぬ対象画像にうまく一般化できることを初めて示す。 RandPersonのデータセットはhttps://github.com/VideoObjectSearch/RandPersonで公開されている。

Person re-identification has seen significant advancement in recent years. However, the ability of learned models to generalize to unknown target domains still remains limited. One possible reason for this is the lack of large-scale and diverse source training data, since manually labeling such a dataset is very expensive and privacy sensitive. To address this, we propose to automatically synthesize a large-scale person re-identification dataset following a set-up similar to real surveillance but with virtual environments, and then use the synthesized person images to train a generalizable person re-identification model. Specifically, we design a method to generate a large number of random UV texture maps and use them to create different 3D clothing models. Then, an automatic code is developed to randomly generate various different 3D characters with diverse clothes, races and attributes. Next, we simulate a number of different virtual environments using Unity3D, with customized camera networks similar to real surveillance systems, and import multiple 3D characters at the same time, with various movements and interactions along different paths through the camera networks. As a result, we obtain a virtual dataset, called RandPerson, with 1,801,816 person images of 8,000 identities. By training person re-identification models on these synthesized person images, we demonstrate, for the first time, that models trained on virtual data can generalize well to unseen target images, surpassing the models trained on various real-world datasets, including CUHK03, Market-1501, DukeMTMC-reID, and almost MSMT17. The RandPerson dataset is available at https://github.com/VideoObjectSearch/RandPerson.
翻訳日:2022-11-17 23:09:04 公開日:2020-08-14
# 反復型過パラメータsgmoidオートエンコーダにおける連想記憶

Associative Memory in Iterated Overparameterized Sigmoid Autoencoders ( http://arxiv.org/abs/2006.16540v2 )

ライセンス: Link先を確認
Yibo Jiang, Cengiz Pehlevan(参考訳) 近年の研究では、ネットワークのトレーニングされた入出力ヤコビアンがその固有値ノルムを1以下に持つ場合、過パラメータオートエンコーダが反復写像を介して連想メモリを実装するように訓練できることが示されている。 本稿では,近年の深層学習理論,特に無限幅限界におけるニューラルネットワークの訓練と,神経接核(ntk)を用いたカーネル回帰の対応を利用して,sgmoidネットワークにおけるこの現象を理論的に解析する。 過パラメータ化されたシグモイドオートエンコーダは、特定の条件下での1つの例と複数例のトレーニングにおいて、NTK制限にアトラクタを持つことができる。 特に、複数のトレーニング例において、ジャコビアン固有値最大値のノルムは入力ノルムの増加とともに1より低下し、連想記憶に繋がる。

Recent work showed that overparameterized autoencoders can be trained to implement associative memory via iterative maps, when the trained input-output Jacobian of the network has all of its eigenvalue norms strictly below one. Here, we theoretically analyze this phenomenon for sigmoid networks by leveraging recent developments in deep learning theory, especially the correspondence between training neural networks in the infinite-width limit and performing kernel regression with the Neural Tangent Kernel (NTK). We find that overparameterized sigmoid autoencoders can have attractors in the NTK limit for both training with a single example and multiple examples under certain conditions. In particular, for multiple training examples, we find that the norm of the largest Jacobian eigenvalue drops below one with increasing input norm, leading to associative memory.
翻訳日:2022-11-15 04:45:28 公開日:2020-08-14
# 分権強化学習:地域経済取引によるグローバル意思決定

Decentralized Reinforcement Learning: Global Decision-Making via Local Economic Transactions ( http://arxiv.org/abs/2007.02382v2 )

ライセンス: Link先を確認
Michael Chang, Sidhant Kaushik, S. Matthew Weinberg, Thomas L. Griffiths, Sergey Levine(参考訳) 本稿では,従来モノリシックな単一エージェントのシーケンシャルな意思決定問題として扱われてきた課題を解決するために,単純で専門的で自己関心のエージェントの社会を指導する枠組みを確立することを目的とする。 中央目標を集合的に最適化するために分散的アプローチを使うことが難しいのは、非協調ゲームの均衡戦略プロファイルを特徴づけることの難しさである。 この課題を克服するため,我々は,各エージェントの学習環境を定義するためのメカニズムを設計した。このメカニズムは,グローバル目標の最適解が,それぞれの局所目標を最適化するエージェントのnash平衡戦略プロファイルと一致することを認識している。 社会は、信用譲渡プロセス自体を学習するエージェントの経済として機能し、相互に購入して販売し、環境状態において運用する権利を有する。 我々は,標準的な強化学習だけでなく,半MDPや動的計算グラフの選択肢の選択にも広く適用可能な分散強化学習アルゴリズムのクラスを導出する。 最後に,より効率的な転校学習を実現するために,社会固有のモジュラー構造の潜在的利点を示す。

This paper seeks to establish a framework for directing a society of simple, specialized, self-interested agents to solve what traditionally are posed as monolithic single-agent sequential decision problems. What makes it challenging to use a decentralized approach to collectively optimize a central objective is the difficulty in characterizing the equilibrium strategy profile of non-cooperative games. To overcome this challenge, we design a mechanism for defining the learning environment of each agent for which we know that the optimal solution for the global objective coincides with a Nash equilibrium strategy profile of the agents optimizing their own local objectives. The society functions as an economy of agents that learn the credit assignment process itself by buying and selling to each other the right to operate on the environment state. We derive a class of decentralized reinforcement learning algorithms that are broadly applicable not only to standard reinforcement learning but also for selecting options in semi-MDPs and dynamically composing computation graphs. Lastly, we demonstrate the potential advantages of a society's inherent modular structure for more efficient transfer learning.
翻訳日:2022-11-13 07:47:29 公開日:2020-08-14
# ソーシャルメディアからの偽ニュース検出のための連続学習型グラフニューラルネットワーク

Graph Neural Networks with Continual Learning for Fake News Detection from Social Media ( http://arxiv.org/abs/2007.03316v2 )

ライセンス: Link先を確認
Yi Han, Shanika Karunasekera, Christopher Leckie(参考訳) 事実確認には多大な努力が払われているが、ソーシャルメディア上でのフェイクニュースの普及は、正義、公的な信頼、社会に大きな影響を与えている。 本研究では,偽ニュースと実際のニュースがオンライン上で異なる広がりを見せた最近の研究から,伝播に基づく偽ニュースの検出に注目する。 具体的には、非ユークリッドデータを扱うグラフニューラルネットワーク(GNN)の機能を考慮すると、ソーシャルメディア上の偽ニュースと実ニュースの伝播パターンを区別するために、GNNを使用する。 特に、(1)ツイートの内容、返信、ユーザー記述など、テキスト情報に頼らずに、GNNが偽ニュースを正確に特定できるかどうかという2つの質問に焦点をあてる。 機械学習モデルは敵の攻撃に弱いことが知られており、テキストベースの機能への依存を避けることで、先進的なフェイクニュースファブリケータの操作の影響を受けにくくなる。 (2)新しい目に見えないデータを扱うには? 言い換えれば、与えられたデータセットでトレーニングされたGNNは、新しい、潜在的に非常に異なるデータセットでどのように機能するのでしょうか? 不十分なパフォーマンスを達成した場合、データをスクラッチから再トレーニングすることなく、どうやって問題を解決するのか? その結果,(1)GNNはテキスト情報や最先端の手法を使わずに,同等あるいは優れた性能を達成できることがわかった。 2) 与えられたデータセットでトレーニングされたGNNは、新しい、目に見えないデータに対してパフォーマンスが悪く、直接インクリメンタルトレーニングでは解決できない可能性がある。 そこで本研究では,既存のデータセットと新しいデータセットの両方で,連続学習から段階的にgnnを訓練する手法を用いて,バランスのとれた性能を実現する手法を提案する。

Although significant effort has been applied to fact-checking, the prevalence of fake news over social media, which has profound impact on justice, public trust and our society, remains a serious problem. In this work, we focus on propagation-based fake news detection, as recent studies have demonstrated that fake news and real news spread differently online. Specifically, considering the capability of graph neural networks (GNNs) in dealing with non-Euclidean data, we use GNNs to differentiate between the propagation patterns of fake and real news on social media. In particular, we concentrate on two questions: (1) Without relying on any text information, e.g., tweet content, replies and user descriptions, how accurately can GNNs identify fake news? Machine learning models are known to be vulnerable to adversarial attacks, and avoiding the dependence on text-based features can make the model less susceptible to the manipulation of advanced fake news fabricators. (2) How to deal with new, unseen data? In other words, how does a GNN trained on a given dataset perform on a new and potentially vastly different dataset? If it achieves unsatisfactory performance, how do we solve the problem without re-training the model on the entire data from scratch? We study the above questions on two datasets with thousands of labelled news items, and our results show that: (1) GNNs can achieve comparable or superior performance without any text information to state-of-the-art methods. (2) GNNs trained on a given dataset may perform poorly on new, unseen data, and direct incremental training cannot solve the problem---this issue has not been addressed in the previous work that applies GNNs for fake news detection. In order to solve the problem, we propose a method that achieves balanced performance on both existing and new datasets, by using techniques from continual learning to train GNNs incrementally.
翻訳日:2022-11-12 20:36:32 公開日:2020-08-14
# マルチエージェントルーティング値イテレーションネットワーク

Multi-Agent Routing Value Iteration Network ( http://arxiv.org/abs/2007.05096v2 )

ライセンス: Link先を確認
Quinlan Sykora, Mengye Ren, Raquel Urtasun(参考訳) 本稿では,複数のエージェントを協調的にルーティングする問題に取り組む。 これは複雑な問題であり、ロボット群からのマッピングやライドシェアリングなど、共通の目標を達成するためにフリート管理に幅広く応用されている。 従来の手法は通常、hichは疎結合なグラフと未知のトラフィックを含む現実的な環境向けに設計されていない。 これとは対照的に,交通条件が動的に変化する疎結合グラフにおいて,学習値の反復に基づくマルチエージェントルーティングを実現できるグラフニューラルネットワークモデルを提案する。 さらに,学習したコミュニケーションモジュールにより,エージェントがオンラインでコーディネートし,変更をより効果的に適応できる。 私たちは、未知のエッジカバレッジとトラフィック条件を持つ自動運転車が行う現実的なマッピングを模倣するシミュレーション環境を作成しました。 また,25ノード以上のグラフ上の2つのエージェントでトレーニングしたモデルでは,より多くのエージェントやノードの状況に容易に一般化できることを示した。

In this paper we tackle the problem of routing multiple agents in a coordinated manner. This is a complex problem that has a wide range of applications in fleet management to achieve a common goal, such as mapping from a swarm of robots and ride sharing. Traditional methods are typically not designed for realistic environments hich contain sparsely connected graphs and unknown traffic, and are often too slow in runtime to be practical. In contrast, we propose a graph neural network based model that is able to perform multi-agent routing based on learned value iteration in a sparsely connected graph with dynamically changing traffic conditions. Moreover, our learned communication module enables the agents to coordinate online and adapt to changes more effectively. We created a simulated environment to mimic realistic mapping performed by autonomous vehicles with unknown minimum edge coverage and traffic conditions; our approach significantly outperforms traditional solvers both in terms of total cost and runtime. We also show that our model trained with only two agents on graphs with a maximum of 25 nodes can easily generalize to situations with more agents and/or nodes.
翻訳日:2022-11-12 03:13:05 公開日:2020-08-14
# 数量化器付き2変数フラグメントにおける重み付き一階モデルカウント

Weighted First-Order Model Counting in the Two-Variable Fragment With Counting Quantifiers ( http://arxiv.org/abs/2007.05619v3 )

ライセンス: Link先を確認
Ondrej Kuzelka(参考訳) これはVan den Broeckら(KR, 2014)の業績から知られており、一階論理の2変数の断片における一階モデルカウント(WFOMC)の重み付けは、ドメイン要素の数で時間多項式で解くことができる。 本稿では,この結果を数量化器を用いて2変数のフラグメントに拡張する。

It is known due to the work of Van den Broeck et al [KR, 2014] that weighted first-order model counting (WFOMC) in the two-variable fragment of first-order logic can be solved in time polynomial in the number of domain elements. In this paper we extend this result to the two-variable fragment with counting quantifiers.
翻訳日:2022-11-11 22:26:43 公開日:2020-08-14
# ビジュアル・慣性SLAMによる深度推定

Deep Depth Estimation from Visual-Inertial SLAM ( http://arxiv.org/abs/2008.00092v2 )

ライセンス: Link先を確認
Kourosh Sartipi, Tien Do, Tong Ke, Khiem Vuong, Stergios I. Roumeliotis(参考訳) 本稿では,屋内シーンの疎度点と画像からシーンの深度を学習する際の課題について述べる。 具体的には,vi-slam (visual-inertial concurrent localization and mapping) システムを用いて,スパース深さを計算した。 結果として生じる点雲は密度が低く、ノイズがあり、LiDARやKinectのようなアクティブな深度センサーからの入力と比較して一様でない空間分布を持つ。 vi-slamはテクスチャ領域にのみ点雲を発生させるため、平面構造と重要な中間表現である表面正規性を利用して低テクスチャ表面の欠落深さを補償する。 しかし、事前訓練された表面正規ネットワークは、訓練されたものと比べ、テスト画像の視方向(特にロール角)に有意な差がある場合、大きな性能劣化を被る。 この制限に対処するために、VI-SLAMから得られる重力推定値を用いて、トレーニングデータセットで一般的な向きに入力画像をワープする。 これにより, 表面の正規分布推定において顕著な性能向上が達成され, その結果, 密度深度推定が実現された。 最後に、本手法はトレーニング(ScanNetとNYUv2)とテスト(Azure Kinectでコンパイル)の両方において、他の最先端アプローチよりも優れていることを示す。

This paper addresses the problem of learning to complete a scene's depth from sparse depth points and images of indoor scenes. Specifically, we study the case in which the sparse depth is computed from a visual-inertial simultaneous localization and mapping (VI-SLAM) system. The resulting point cloud has low density, it is noisy, and has non-uniform spatial distribution, as compared to the input from active depth sensors, e.g., LiDAR or Kinect. Since the VI-SLAM produces point clouds only over textured areas, we compensate for the missing depth of the low-texture surfaces by leveraging their planar structures and their surface normals which is an important intermediate representation. The pre-trained surface normal network, however, suffers from large performance degradation when there is a significant difference in the viewing direction (especially the roll angle) of the test image as compared to the trained ones. To address this limitation, we use the available gravity estimate from the VI-SLAM to warp the input image to the orientation prevailing in the training dataset. This results in a significant performance gain for the surface normal estimate, and thus the dense depth estimates. Finally, we show that our method outperforms other state-of-the-art approaches both on training (ScanNet and NYUv2) and testing (collected with Azure Kinect) datasets.
翻訳日:2022-11-04 06:47:31 公開日:2020-08-14
# 画像超解像のためのマルチスケール特徴伝搬と通信の探索

Exploring Multi-Scale Feature Propagation and Communication for Image Super Resolution ( http://arxiv.org/abs/2008.00239v2 )

ライセンス: Link先を確認
Ruicheng Feng, Weipeng Guan, Yu Qiao, Chao Dong(参考訳) マルチスケール技術は、幅広いコンピュータビジョンタスクで大きな成功を収めてきた。 しかし、この手法は既存の作品に取り入れられているが、画像超解像におけるマルチスケール畳み込みの変種に関する包括的調査はいまだに欠けている。 本研究では,広義のマルチスケール構造に対する統一的な定式化を提案する。 このフレームワークでは,機能伝播とクロススケール通信という,マルチスケールの畳み込みの2つの要因を体系的に検討する。 本研究では,汎用的かつ効率的なマルチスケール畳み込みユニット -- マルチスケールクロススケール共有重み付け畳み込み (ms$^3$-conv) を提案する。 拡張実験により、提案したMS$^3$-Convは、より少ないパラメータと計算コストで標準の畳み込みよりも優れたSR性能が得られることを示した。 定量的解析の他に,MS$^3$-Convが高頻度の細部を回復する上で,より優れた振る舞いを示す視覚的品質を包括的に研究する。

Multi-scale techniques have achieved great success in a wide range of computer vision tasks. However, while this technique is incorporated in existing works, there still lacks a comprehensive investigation on variants of multi-scale convolution in image super resolution. In this work, we present a unified formulation over widely-used multi-scale structures. With this framework, we systematically explore the two factors of multi-scale convolution -- feature propagation and cross-scale communication. Based on the investigation, we propose a generic and efficient multi-scale convolution unit -- Multi-Scale cross-Scale Share-weights convolution (MS$^3$-Conv). Extensive experiments demonstrate that the proposed MS$^3$-Conv can achieve better SR performance than the standard convolution with less parameters and computational cost. Beyond quantitative analysis, we comprehensively study the visual quality, which shows that MS$^3$-Conv behave better to recover high-frequency details.
翻訳日:2022-11-04 01:04:03 公開日:2020-08-14
# ワッサースタイン距離による分節解析とキューパラメータの回復 : 慢性閉塞性肺疾患患者の管理データの検討

Segmentation analysis and the recovery of queuing parameters via the Wasserstein distance: a study of administrative data for patients with chronic obstructive pulmonary disease ( http://arxiv.org/abs/2008.04295v3 )

ライセンス: Link先を確認
Henry Wilde and Vincent Knight and Jonathan Gillard and Kendal Smith(参考訳) この研究は、慢性閉塞性肺疾患(COPD)患者のリソース要求がどのように変化するかをデータ駆動で分析し、それらの変化が患者が相互作用する病院システムに与える影響を定量化する。 このアプローチは、セグメンテーション、運用キュー理論、不完全データからのパラメータの回復という、しばしば異なる分析様式の新たな組み合わせで構成されている。 これらの手法を組み合わせることで,細粒度データの可用性に関する潜在的な制限を克服できることを実証する。 したがって、管理データのみを使用しながらも、有用な運用結果を見つける。 論文は、パラメータ化とワッサーシュタイン距離を通じてデータからパラメータを回収するマルチクラスM/M/cモデルにフィードするこの粒度のデータから、人口の有用なクラスタリングを見つけることから始まる。 このモデルを用いて、基礎となるキューシステムと、研究中の人口のニーズについて、いくつかのシナリオを通して情報分析を行う。 このモデルの形成と研究に使われた分析は、事実上、あらゆる種類の患者が到着し、それらのタイプがシステムに与える影響を考察している。 そこで本研究では, COPD患者がシステムに与える影響を減らし, システムにキャパシティを付加するなど, 迅速な解決方法がないことがわかった。 本分析では, COPD提示者によるストレスを軽減するための効果的な介入は, 病院に着く前に, COPD人口の健康を直接的に改善する外部政策を実施することである。

This work uses a data-driven approach to analyse how the resource requirements of patients with chronic obstructive pulmonary disease (COPD) may change, quantifying how those changes impact the hospital system with which the patients interact. This approach is composed of a novel combination of often distinct modes of analysis: segmentation, operational queuing theory, and the recovery of parameters from incomplete data. By combining these methods as presented here, this work demonstrates that potential limitations around the availability of fine-grained data can be overcome. Thus, finding useful operational results despite using only administrative data. The paper begins by finding a useful clustering of the population from this granular data that feeds into a multi-class M/M/c model, whose parameters are recovered from the data via parameterisation and the Wasserstein distance. This model is then used to conduct an informative analysis of the underlying queuing system and the needs of the population under study through several what-if scenarios. The analyses used to form and study this model consider, in effect, all types of patient arrivals and how those types impact the system. With that, this study finds that there are no quick solutions to reduce the impact of COPD patients on the system, including adding capacity to the system. In this analysis, the only effective intervention to reduce the strain caused by those presenting with COPD is to enact external policies which directly improve the overall health of the COPD population before they arrive at the hospital.
翻訳日:2022-10-31 23:23:44 公開日:2020-08-14
# パラメータ化マルチエージェントシステムのSMTによる安全性検証

SMT-based Safety Verification of Parameterised Multi-Agent Systems ( http://arxiv.org/abs/2008.04774v2 )

ライセンス: Link先を確認
Paolo Felli and Alessandro Gianola and Marco Montali(参考訳) 本稿では,パラメータ化マルチエージェントシステム(MAS)の検証について検討し,特に,与えられた状態式として特徴付けられた不必要な状態が,所定のMAS,すなわち,MASが安全でないか否かの検証を行う。 MASはパラメータ化され、モデルは可能なエージェントテンプレートの有限セットのみを記述する。 これにより状態空間は無限になる。 安全性は当然、システム内のエージェントインスタンス数に依存するため、検証結果はそのような数に関係なく正しくなければならない。 我々は、配列ベースシステムの理論に依拠して、無限状態モデルチェック(smt)によってこの問題を解決する:我々は、並列およびインターリーブと呼ばれるmasの実行セマンティクスの下で、特定の配列ベースのシステムとしてパラメータ化された質量を示す。 我々は,これらの仮定に基づいて決定可能性の証明を行い,実験により評価した第三者モデルチェッカーMCMTに基づくSAFE: the Swarm Safety Detectorと呼ばれる実装手法について述べる。 最後に、本手法が文献における最先端のソリューションを超えて、よりリッチなパラメータ化とデータ対応のMAS設定にどのように貢献するかについて議論する。

In this paper we study the verification of parameterised multi-agent systems (MASs), and in particular the task of verifying whether unwanted states, characterised as a given state formula, are reachable in a given MAS, i.e., whether the MAS is unsafe. The MAS is parameterised and the model only describes the finite set of possible agent templates, while the actual number of concrete agent instances for each template is unbounded and cannot be foreseen. This makes the state-space infinite. As safety may of course depend on the number of agent instances in the system, the verification result must be correct irrespective of such number. We solve this problem via infinite-state model checking based on satisfiability modulo theories (SMT), relying on the theory of array-based systems: we present parameterised MASs as particular array-based systems, under two execution semantics for the MAS, which we call concurrent and interleaved. We prove our decidability results under these assumptions and illustrate our implementation approach, called SAFE: the Swarm Safety Detector, based on the third-party model checker MCMT, which we evaluate experimentally. Finally, we discuss how this approach lends itself to richer parameterised and data-aware MAS settings beyond the state-of-the-art solutions in the literature, which we leave as future work.
翻訳日:2022-10-31 12:02:24 公開日:2020-08-14
# 人間活動予測のための逆生成文法

Adversarial Generative Grammars for Human Activity Prediction ( http://arxiv.org/abs/2008.04888v2 )

ライセンス: Link先を確認
AJ Piergiovanni, Anelia Angelova, Alexander Toshev, Michael S. Ryoo(参考訳) 本稿では,将来予測のための逆生成文法モデルを提案する。 目的は、時間依存を明示的に捉え、複数の異なる将来のアクティビティを予測する機能を提供するモデルを学ぶことである。 私たちの逆文法は、潜在的な非終端表現と共同で、データ分布から確率的生産規則を学習できるように設計されています。 推論中に複数の生産ルールを選択できるため、予測結果が異なるため、多くの妥当な未来を効率的にモデル化できる。 逆生成文法は、チャレード、マルチトゥモス、ヒューマン3.6mおよび50サラダデータセットおよび2つのアクティビティ予測タスク(将来の3次元ポーズ予測と将来のアクティビティ予測)で評価される。 提案されたadversarial grammarは最先端のアプローチよりも優れており、以前の仕事よりもずっと正確に将来予測することができる。

In this paper we propose an adversarial generative grammar model for future prediction. The objective is to learn a model that explicitly captures temporal dependencies, providing a capability to forecast multiple, distinct future activities. Our adversarial grammar is designed so that it can learn stochastic production rules from the data distribution, jointly with its latent non-terminal representations. Being able to select multiple production rules during inference leads to different predicted outcomes, thus efficiently modeling many plausible futures. The adversarial generative grammar is evaluated on the Charades, MultiTHUMOS, Human3.6M, and 50 Salads datasets and on two activity prediction tasks: future 3D human pose prediction and future activity prediction. The proposed adversarial grammar outperforms the state-of-the-art approaches, being able to predict much more accurately and further in the future, than prior work.
翻訳日:2022-10-31 11:53:00 公開日:2020-08-14
# 英国バイオバンクにおける腸腰筋量に関する大規模解析

Large-Scale Analysis of Iliopsoas Muscle Volumes in the UK Biobank ( http://arxiv.org/abs/2008.05217v2 )

ライセンス: Link先を確認
Julie Fitzpatrick, Nicolas Basty, Madeleine Cule, Yi Liu, Jimmy D. Bell, E. Louise Thomas, Brandon Whitcher(参考訳) 腰筋の計測は、しばしばサルコペンタニアのマーカーや健康の予測因子として用いられる。 手動測定された断面積が最も多く用いられるが、測定位置に関して一貫性が欠如しており、大規模な研究には手動アノテーションは実用的ではない。 本研究では,畳み込みニューラルネットワークを用いて,腸腰筋量(腸腰筋と腸骨筋)の完全自動計測法を開発した。 磁気共鳴画像は、英国バイオバンクから男性5000人、女性5000人を対象に、年齢、性別、BMIのバランスを取って得られた。 モデルトレーニングと検証には9つの手動アノテーションが利用可能だった。 このモデルではサンプル外データに対して優れた性能を示した(スコア係数 0.912 +/- 0.018)。 腸腰筋容積は5000名全員で正常に測定できた。 男性ではイリオプソアスの容積が女性に比べて大きかった。 左右の腸腰筋量との間には小さいが有意な非対称性があった。 また,イリオポアス量は身長,BMI,年齢と有意な相関がみられ,成人男性では筋量減少が加速していた。 本手法は,大きなコホートに適用可能な腸腰筋量を測定するためのロバストな手法を提供する。

Psoas muscle measurements are frequently used as markers of sarcopenia and predictors of health. Manually measured cross-sectional areas are most commonly used, but there is a lack of consistency regarding the position of the measurementand manual annotations are not practical for large population studies. We have developed a fully automated method to measure iliopsoas muscle volume (comprised of the psoas and iliacus muscles) using a convolutional neural network. Magnetic resonance images were obtained from the UK Biobank for 5,000 male and female participants, balanced for age, gender and BMI. Ninety manual annotations were available for model training and validation. The model showed excellent performance against out-of-sample data (dice score coefficient of 0.912 +/- 0.018). Iliopsoas muscle volumes were successfully measured in all 5,000 participants. Iliopsoas volume was greater in male compared with female subjects. There was a small but significant asymmetry between left and right iliopsoas muscle volumes. We also found that iliopsoas volume was significantly related to height, BMI and age, and that there was an acceleration in muscle volume decrease in men with age. Our method provides a robust technique for measuring iliopsoas muscle volume that can be applied to large cohorts.
翻訳日:2022-10-31 06:16:17 公開日:2020-08-14
# 音声からのマスク検出と呼吸監視:データ拡張,特徴表現,モデリングについて

Mask Detection and Breath Monitoring from Speech: on Data Augmentation, Feature Representation and Modeling ( http://arxiv.org/abs/2008.05175v2 )

ライセンス: Link先を確認
Haiwei Wu, Lin Zhang, Lin Yang, Xuyang Wang, Junjie Wang, Dong Zhang, Ming Li(参考訳) 本稿では,Interspeech COMPARE Challenge 2020におけるMask and Breathing Sub-Challengeについて紹介する。 マスク検出タスクでは,フィルタバンクエネルギー,性別認識機能,話者認識機能を備えた深層畳み込みニューラルネットワークを訓練する。 Support Vector Machinesは、抽出したディープ埋め込みのバイナリ予測のためのバックエンド分類器として従う。 トレーニングデータの量を増やし、速度摂動、SpecAugment、ランダム消去など、モデルの堅牢性を改善するために、いくつかのデータ拡張スキームが使用されている。 音声呼吸監視タスクでは,Bi-LSTM構造に基づく異なるボトルネック特徴について検討する。 実験の結果,提案手法はベースラインよりも優れ,Breathing と Mask の評価セットでそれぞれ 0.746 PCC と 78.8% UAR を達成した。

This paper introduces our approaches for the Mask and Breathing Sub-Challenge in the Interspeech COMPARE Challenge 2020. For the mask detection task, we train deep convolutional neural networks with filter-bank energies, gender-aware features, and speaker-aware features. Support Vector Machines follows as the back-end classifiers for binary prediction on the extracted deep embeddings. Several data augmentation schemes are used to increase the quantity of training data and improve our models' robustness, including speed perturbation, SpecAugment, and random erasing. For the speech breath monitoring task, we investigate different bottleneck features based on the Bi-LSTM structure. Experimental results show that our proposed methods outperform the baselines and achieve 0.746 PCC and 78.8% UAR on the Breathing and Mask evaluation set, respectively.
翻訳日:2022-10-31 06:15:35 公開日:2020-08-14
# 手続き型都市林業

Procedural Urban Forestry ( http://arxiv.org/abs/2008.05567v2 )

ライセンス: Link先を確認
Till Niese, S\"oren Pirk, Matthias Albrecht, Bedrich Benes, Oliver Deussen(参考訳) 植生の配置は仮想シーンのリアリズムにおいて中心的な役割を果たす。 都市レイアウトにおける植生の手続き配置モデル(PPM)を提案する。 PPMは環境に敏感であり、都市レイアウトにおける構造的および機能的ゾーンに基づいて、可塑性植物の位置を特定することができる。 PPMはパラメータを定義することで直接使用できるか、衛星画像やランドレジスタデータから学ぶことができる。 建物や木を生産するためのアプローチとともに、複雑な3D植生で都市景観を人口化することができる。 本フレームワークの有効性は,大規模都市景観の例や,個別に成長した樹木モデルのクローズアップを通じて示される。

The placement of vegetation plays a central role in the realism of virtual scenes. We introduce procedural placement models (PPMs) for vegetation in urban layouts. PPMs are environmentally sensitive to city geometry and allow identifying plausible plant positions based on structural and functional zones in an urban layout. PPMs can either be directly used by defining their parameters or can be learned from satellite images and land register data. Together with approaches for generating buildings and trees, this allows us to populate urban landscapes with complex 3D vegetation. The effectiveness of our framework is shown through examples of large-scale city scenes and close-ups of individually grown tree models; we also validate it by a perceptual user study.
翻訳日:2022-10-31 05:12:32 公開日:2020-08-14
# テキスト分類によるモデルロバストネス:セマンティック保存敵攻撃

Model Robustness with Text Classification: Semantic-preserving adversarial attacks ( http://arxiv.org/abs/2008.05536v2 )

ライセンス: Link先を確認
Rahul Singh, Tarun Joshi, Vijayan N. Nair, and Agus Sudjianto(参考訳) テキスト分類問題におけるモデルロバスト性を評価するアルゴリズムを提案する。 オリジナルテキストのセマンティクスと構文を保存すると同時に、ホワイトボックスアタックとブラックボックスアタックを作成するために使用できる。 この攻撃はホワイトボックス設定でかなりの数のフリップを引き起こし、ブラックボックス設定で同じルールベースが使用できる。 ブラックボックスの設定では、生成された攻撃はトランスフォーマーベースのアーキテクチャの決定をリバースすることができる。

We propose algorithms to create adversarial attacks to assess model robustness in text classification problems. They can be used to create white box attacks and black box attacks while at the same time preserving the semantics and syntax of the original text. The attacks cause significant number of flips in white-box setting and same rule based can be used in black-box setting. In a black-box setting, the attacks created are able to reverse decisions of transformer based architectures.
翻訳日:2022-10-31 04:35:57 公開日:2020-08-14
# スタックドステートレスおよびステートフルGated Recurrent Unitモデルを用いた総合予測に基づく解析

Comprehensive forecasting based analysis using stacked stateless and stateful Gated Recurrent Unit models ( http://arxiv.org/abs/2008.05575v2 )

ライセンス: Link先を確認
Swayamjit Saha, Niladri Majumder and Devansh Sangani(参考訳) 太陽光発電は再生可能エネルギー源であり、産業でよく使われている。 経済的に苦しむ国では、他の再生不可能な資源が既に枯渇しているため、電気エネルギーの潜在的な源になり得る。 現在、研究に先立って領域に太陽電池を設置しても、その領域を走らせるのに必要な所望のエネルギーを供給できない可能性がある。 したがって、幾何座標、ghiのような太陽パラメータ、温度や風速などの気象パラメータなどを考慮して、特定の領域からの出力を導き出す予測が必要となる。 本稿は、西ベンガルの3つの地域とGRU(Gated Recurrent Unit)モデルを用いた外部の4つの地域での太陽放射の予測について検討する。 ステートフルなスタックゲートリカレントユニットモデルによって予測精度が大幅に向上していることを確認した。

Photovoltaic power is a renewable source of energy which is highly used in industries. In economically struggling countries it can be a potential source of electric energy as other non-renewable resources are already exhausting. Now if installation of a photovoltaic cell in a region is done prior to research, it may not provide the desired energy output required for running that region. Hence forecasting is required which can elicit the output from a particular region considering its geometrical coordinates, solar parameter like GHI and weather parameters like temperature and wind speed etc. Our paper explores forecasting of solar irradiance on four such regions, out of which three is in West Bengal and one outside to depict with using stacked Gated Recurrent Unit (GRU) models. We have checked that stateful stacked gated recurrent unit model improves the prediction accuracy significantly.
翻訳日:2022-10-31 04:26:25 公開日:2020-08-14
# 共同作業による再帰核融合による音声・視覚イベントの定位

Audio-Visual Event Localization via Recursive Fusion by Joint Co-Attention ( http://arxiv.org/abs/2008.06581v1 )

ライセンス: Link先を確認
Bin Duan, Hao Tang, Wei Wang, Ziliang Zong, Guowei Yang, Yan Yan(参考訳) オーディオとビジュアルのイベントローカライゼーションタスクにおける大きな課題は、情報を複数のモダリティから効果的に融合する方法である。 近年の研究では、注意のメカニズムが融合プロセスに有益であることが示されている。 本稿では,音声・視覚イベントの局所化のためのマルチモーダル融合手法を用いた新しい共同注意機構を提案する。 特に,複数のモダリティから協調的に表現を効果的に学習する簡潔で有効なアーキテクチャを提案する。 当初、視覚特徴は聴覚特徴と結合し、関節表現へと変換される。 次に,共同表現を用いて視覚的特徴と聴覚的特徴に対応する。 この共同作業の助けを借りて、新たな視覚的特徴と聴覚的特徴が生み出され、両者が相互に改善された利益を享受することができる。 なお, 共同認識ユニットは, より優れた関節表現を得るために, 複数回行うことができるという意味で再帰的である点に注意が必要である。 AVEデータセットの大規模な実験により,提案手法は最先端の手法よりもはるかに優れた結果が得られることが示された。

The major challenge in audio-visual event localization task lies in how to fuse information from multiple modalities effectively. Recent works have shown that attention mechanism is beneficial to the fusion process. In this paper, we propose a novel joint attention mechanism with multimodal fusion methods for audio-visual event localization. Particularly, we present a concise yet valid architecture that effectively learns representations from multiple modalities in a joint manner. Initially, visual features are combined with auditory features and then turned into joint representations. Next, we make use of the joint representations to attend to visual features and auditory features, respectively. With the help of this joint co-attention, new visual and auditory features are produced, and thus both features can enjoy the mutually improved benefits from each other. It is worth noting that the joint co-attention unit is recursive meaning that it can be performed multiple times for obtaining better joint representations progressively. Extensive experiments on the public AVE dataset have shown that the proposed method achieves significantly better results than the state-of-the-art methods.
翻訳日:2022-10-30 18:02:33 公開日:2020-08-14
# レーベルノイズが楽曲タガーに及ぼす影響

The Impact of Label Noise on a Music Tagger ( http://arxiv.org/abs/2008.06273v1 )

ライセンス: Link先を確認
Katharina Prinz, Arthur Flexer and Gerhard Widmer(参考訳) オーディオ音楽のタグ付けにおいて,ノイズの多いラベルからどの程度学習できるかを検討する。 実験の結果,注意深いアノテートラベルが有益であることがわかったが,高頻度のノイズラベルでさえ,学習を成功させるために十分な情報を含んでいることがわかった。 キュレートされたデータの人工的な破損により、ノイズラベルのこの寄与を定量化できます。

We explore how much can be learned from noisy labels in audio music tagging. Our experiments show that carefully annotated labels result in highest figures of merit, but even high amounts of noisy labels contain enough information for successful learning. Artificial corruption of curated data allows us to quantize this contribution of noisy labels.
翻訳日:2022-10-30 18:01:55 公開日:2020-08-14
# 不均質なベクトルエッジネットワークにおける計算負荷:オンラインおよびオフラインバンドソリューション

Computation Offloading in Heterogeneous Vehicular Edge Networks: On-line and Off-policy Bandit Solutions ( http://arxiv.org/abs/2008.06302v1 )

ライセンス: Link先を確認
Arash Bozorgchenani, Setareh Maghsudi, Daniele Tarchi, Ekram Hossain(参考訳) 車両通信とインテリジェントトランスポートシステムの技術の急速な進歩により、車両ネットワークシナリオにおけるタスクオフロードは、モバイルエッジコンピューティングにおける有望だが挑戦的なパラダイムとして現れつつある。 本稿では,ネットワークの負荷が異なる異種車両エッジコンピューティング(vec)シナリオにおいて,移動体/ユーザからの計算オフロード問題,具体的にはネットワークと基地局の選択問題について検討する。 高速変動車両環境では、ネットワークの混雑(例えば、エッジコンピューティングサーバと基地局が同じ位置にある)によって発生する計算オフロードの遅延が重要なパフォーマンス指標である。 しかし、そのような環境の非定常性のため、ネットワーク混雑の予測は関連するタスクである。 この課題に対処するために,バンド理論に基づくオンラインアルゴリズムと非政治学習アルゴリズムを提案する。 これらのアルゴリズムは、オフロード履歴から、断片的な定常環境において最も混雑の少ないネットワークを動的に選択するために、オフロードされたタスクが経験するレイテンシを学習する。 また,車両の移動性によるタスク損失を最小限に抑えるため,選択したネットワーク上での基地局選択と中継機構を車両の所要時間に基づいて開発する。 大規模な数値解析により,提案手法がネットワークのトラフィック変化に適応することを示す。 さらに,提案手法では,オフロードタスクのレイテンシが向上する。

With the rapid advancement in vehicular communications and intelligent transportation systems technologies, task offloading in vehicular networking scenarios is emerging as a promising, yet challenging, paradigm in mobile edge computing. In this paper, we study the computation offloading problem from mobile vehicles/users, more specifically, the network- and base station selection problem, in a heterogeneous Vehicular Edge Computing (VEC) scenario, where networks have different traffic loads. In a fast-varying vehicular environment, the latency in computation offloading that arises as a result of network congestion (e.g. at the edge computing servers co-located with the base stations) is a key performance metric. However, due to the non-stationary property of such environments, predicting network congestion is an involved task. To address this challenge, we propose an on-line algorithm and an off-policy learning algorithm based on bandit theory. To dynamically select the least congested network in a piece-wise stationary environment, from the offloading history, these algorithms learn the latency that the offloaded tasks experience. In addition, to minimize the task loss due to the mobility of the vehicles, we develop a method for base station selection and a relaying mechanism in the chosen network based on the sojourn time of the vehicles. Through extensive numerical analysis, we demonstrate that the proposed learning-based solutions adapt to the traffic changes of the network by selecting the least congested network. Moreover, the proposed approaches improve the latency of offloaded tasks.
翻訳日:2022-10-30 18:01:50 公開日:2020-08-14
# 物質特性予測のための軌道グラフ畳み込みニューラルネットワーク

Orbital Graph Convolutional Neural Network for Material Property Prediction ( http://arxiv.org/abs/2008.06415v1 )

ライセンス: Link先を確認
Mohammadreza Karamad, Rishikesh Magar, Yuting Shi, Samira Siahrostami, Ian D. Gates and Amir Barati Farimani(参考訳) 機械学習モデルと互換性のある材料表現は、特性予測に高い精度を示すモデルを開発する上で重要な役割を果たす。 原子軌道相互作用は、原子の局所的な化学環境が推測される結晶物質の特性を制御する重要な要素の1つである。 したがって、材料特性予測のための頑健な機械学習モデルを開発するには、このような化学特性を表す特徴を含むことが不可欠である。 本稿では,原子間相互作用機能を備えた結晶グラフ畳み込みニューラルネットワークフレームワークであるOrbital Graph Convolutional Neural Network (OGCNN)を提案する。 さらに,OGCNNにエンコーダ・デコーダネットワークを組み込んで,基本原子(元素的特徴),軌道-軌道相互作用,トポロジ的特徴などの重要な特徴を学習できるようにした。 本モデルの性能を幅広い結晶材料データを用いて検討し, 異なる特性を予測した。 我々はOGCNNモデルのパフォーマンスを次のようにベンチマークした。 1) 結晶グラフ畳み込みニューラルネットワーク(cgcnn) 2)多体テンソル表現(MBTR)や原子位置の平滑なオーバーラップ(SOAP)などの材料表現に関する他の最先端記述子 3) 従来の回帰機械学習アルゴリズムでは, 異なる結晶加工法が用いられている。 OGCNNはそれらを著しく上回っている。 予測精度の高いOGCNNモデルは、材料の巨大相と複合空間の間の新しい材料を発見するために使用できる

Material representations that are compatible with machine learning models play a key role in developing models that exhibit high accuracy for property prediction. Atomic orbital interactions are one of the important factors that govern the properties of crystalline materials, from which the local chemical environments of atoms is inferred. Therefore, to develop robust machine learningmodels for material properties prediction, it is imperative to include features representing such chemical attributes. Here, we propose the Orbital Graph Convolutional Neural Network (OGCNN), a crystal graph convolutional neural network framework that includes atomic orbital interaction features that learns material properties in a robust way. In addition, we embedded an encoder-decoder network into the OGCNN enabling it to learn important features among basic atomic (elemental features), orbital-orbital interactions, and topological features. We examined the performance of this model on a broad range of crystalline material data to predict different properties. We benchmarked the performance of the OGCNN model with that of: 1) the crystal graph convolutional neural network (CGCNN), 2) other state-of-the-art descriptors for material representations including Many-body Tensor Representation (MBTR) and the Smooth Overlap of Atomic Positions (SOAP), and 3) other conventional regression machine learning algorithms where different crystal featurization methods have been used. We find that OGCNN significantly outperforms them. The OGCNN model with high predictive accuracy can be used to discover new materials among the immense phase and compound spaces of materials
翻訳日:2022-10-30 18:01:27 公開日:2020-08-14
# 深層学習に基づくMR画像再構成パイプラインの性能評価

Performance characterization of a novel deep learning-based MR image reconstruction pipeline ( http://arxiv.org/abs/2008.06559v1 )

ライセンス: Link先を確認
R. Marc Lebel(参考訳) ディープラーニングに基づく新しい磁気共鳴画像再構成パイプラインは,高解像度低ノイズMR画像を提供するため,従来の画像の画質限界に対処するために設計された。 このパイプラインのユニークな目的は、トランザクションアーティファクトを画像のシャープさを向上させると同時に、画像の画質を改善することであった。 この新しいアプローチは、現在AIR Recon DL(GE Healthcare, Waukesha, WI)で市販されており、生データの再構築を支援するために深層畳み込みニューラルネットワーク(CNN)を含んでいる。 ここでは、このパイプラインとそのcnnの重要な特徴を説明し、デジタル参照オブジェクト、ファントム、インビボでの性能を特徴付け、スキャン時間を短縮するために画質改善を利用するサンプル画像およびプロトコル最適化戦略を提案する。 この新しいディープラーニングベースの再構築パイプラインは、MRIスキャナの診断と操作性を向上させる強力な新しいツールである。

A novel deep learning-based magnetic resonance imaging reconstruction pipeline was designed to address fundamental image quality limitations of conventional reconstruction to provide high-resolution, low-noise MR images. This pipeline's unique aims were to convert truncation artifact into improved image sharpness while jointly denoising images to improve image quality. This new approach, now commercially available at AIR Recon DL (GE Healthcare, Waukesha, WI), includes a deep convolutional neural network (CNN) to aid in the reconstruction of raw data, ultimately producing clean, sharp images. Here we describe key features of this pipeline and its CNN, characterize its performance in digital reference objects, phantoms, and in-vivo, and present sample images and protocol optimization strategies that leverage image quality improvement for reduced scan time. This new deep learning-based reconstruction pipeline represents a powerful new tool to increase the diagnostic and operational performance of an MRI scanner.
翻訳日:2022-10-30 17:58:31 公開日:2020-08-14
# ツリーベースモデルにおける垂直フェデレーション学習のプライバシ保護

Privacy Preserving Vertical Federated Learning for Tree-based Models ( http://arxiv.org/abs/2008.06170v1 )

ライセンス: Link先を確認
Yuncheng Wu, Shaofeng Cai, Xiaokui Xiao, Gang Chen, Beng Chin Ooi(参考訳) フェデレートラーニング(FL)は、複数の組織が互いにプライベートデータを公開せずに、共同でモデルをトレーニングできる、新たなパラダイムである。 本稿では,「垂直」連帯学習について考察する。 (i)協力する組織は、同一のユーザ集合のデータを所有するが、非協力的な特徴を有する。 (ii)ラベルを持つ組織は1社のみである。 本稿では,垂直決定木学習と予測をプライバシに保存する新しいソリューションであるPivotを提案し,クライアントがリリースに合意したもの以外の中間情報が開示されないようにする(最終木モデルと予測出力)。 Pivotは信頼できるサードパーティに頼らず、$m-1$のクライアントから$m-1$を妥協する半正直な敵に対して保護を提供する。 さらに,トレーニングされた決定木モデルがプレーンテキストでリリースされた場合の2つのプライバシリークを識別し,それらを軽減するための拡張プロトコルを提案する。 提案手法は, ランダム林 (RF) や勾配増進決定木 (GBDT) などの樹木アンサンブルモデルにも拡張可能であり, 単一決定木をビルディングブロックとして扱うことができる。 理論的および実験的分析は、Pivotが達成したプライバシーに対して効率的であることを示唆している。

Federated learning (FL) is an emerging paradigm that enables multiple organizations to jointly train a model without revealing their private data to each other. This paper studies {\it vertical} federated learning, which tackles the scenarios where (i) collaborating organizations own data of the same set of users but with disjoint features, and (ii) only one organization holds the labels. We propose Pivot, a novel solution for privacy preserving vertical decision tree training and prediction, ensuring that no intermediate information is disclosed other than those the clients have agreed to release (i.e., the final tree model and the prediction output). Pivot does not rely on any trusted third party and provides protection against a semi-honest adversary that may compromise $m-1$ out of $m$ clients. We further identify two privacy leakages when the trained decision tree model is released in plaintext and propose an enhanced protocol to mitigate them. The proposed solution can also be extended to tree ensemble models, e.g., random forest (RF) and gradient boosting decision tree (GBDT) by treating single decision trees as building blocks. Theoretical and experimental analysis suggest that Pivot is efficient for the privacy achieved.
翻訳日:2022-10-30 17:57:17 公開日:2020-08-14
# 単一ステップの定量的サセプティビリティマッピングのための弱教師付き学習

Weakly-supervised Learning for Single-step Quantitative Susceptibility Mapping ( http://arxiv.org/abs/2008.06187v1 )

ライセンス: Link先を確認
Juan Liu and Kevin M Koch(参考訳) 定量的感受性マッピング(QSM)はMRIの位相情報を用いて組織磁気感受性を推定する。 QSMの生成には、不適切なバックグラウンドフィールド除去(BFR)とフィールドからソースへのインバージョン問題を解決する必要がある。 現在のQSM技術は、臨床現場で信頼性の高いQSMを生成するのに苦労しているため、QSMの臨床翻訳は著しく妨げられている。 近年,QSM再建のためのディープラーニング (DL) アプローチが注目されている。 これらのDL手法は、本質的な非存在的基盤構造のため、マルチオリエンテーションサンプリング(COSMOS)マップによる感受性の計算や、COSMOSマップの可用性と精度や、トレーニングデータとテストデータが異なるドメインを持つ場合のドメインシフトによって制約されるトレーニングのための合成データを利用する。 これらの制約に対処するため、BFRを使わずにQSMを全フィールドから直接再構成する、弱制御された単一ステップQSM再構成法(wTFI)を提案する。 wtfiは、局所組織とqsmのマルチタスク学習を行うために、bfr法resharpローカルフィールドを監督として使用し、再シャープで侵食された脳の縁付近で磁化率推定を回収し、全脳のqsm推定を実現する。 定量的および質的評価は、wTFIが様々な神経画像の文脈で高品質な局所場と感受性マップを生成できることを示している。

Quantitative susceptibility mapping (QSM) utilizes MRI phase information to estimate tissue magnetic susceptibility. The generation of QSM requires solving ill-posed background field removal (BFR) and field-to-source inversion problems. Because current QSM techniques struggle to generate reliable QSM in clinical contexts, QSM clinical translation is greatly hindered. Recently, deep learning (DL) approaches for QSM reconstruction have shown impressive performance. Due to inherent non-existent ground-truth, these DL techniques use either calculation of susceptibility through multiple orientation sampling (COSMOS) maps or synthetic data for training, which are constrained by the availability and accuracy of COSMOS maps or domain shift when training data and testing data have different domains. To address these limitations, we propose a weakly-supervised single-step QSM reconstruction method, denoted as wTFI, to directly reconstruct QSM from the total field without BFR. wTFI uses the BFR method RESHARP local fields as supervision to perform a multi-task learning of local tissue fields and QSM, and is capable of recovering magnetic susceptibility estimates near the edges of the brain where are eroded in RESHARP and realize whole brain QSM estimation. Quantitative and qualitative evaluation shows that wTFI can generate high-quality local field and susceptibility maps in a variety of neuroimaging contexts.
翻訳日:2022-10-30 17:56:36 公開日:2020-08-14
# WRF予測改善のための深部畳み込みニューラルネットワークモデル

A Deep Convolutional Neural Network Model for improving WRF Forecasts ( http://arxiv.org/abs/2008.06489v1 )

ライセンス: Link先を確認
Alqamah Sayeed, Yunsoo Choi, Jia Jung, Yannic Lops, Ebrahim Eslami, Ahmed Khan Salman(参考訳) 数値天気予報モデルの進歩が加速し、気象と関連する計算資源のダイナミクスに関連する物理現象のより包括的な理解が促進された。 これらの進歩にもかかわらず、これらのモデルは予測精度を低下させる微分方程式のパラメータ化と線形化による固有のバイアスを含む。 本研究では,計算効率の高い深層学習手法である畳み込みニューラルネットワーク(cnn)を,メソスケール気象・研究予測(wrf)1日(時間分解能1時間)の出力を改善する事後処理手法として利用することを検討する。 CNNアーキテクチャを用いて、2018年の全期間、WRFモデルによって計算されたいくつかの気象パラメータをバイアス補正する。 風速, 風向, 降水量, 相対湿度, 表面圧力, 露点温度, 表面温度の予測において, WRFバイアスのパターンを調べるために, 4年間にわたるCNNモデル(2014-2017)を訓練した。 WRFデータの空間分解能は27kmで、韓国をカバーしている。 我々は,93箇所の気象観測所ネットワークから地上観測を行った。 その結果,全駅におけるwrf予測の大幅な改善が示された。 表層風, 降水, 表面圧力, 温度, 露点温度, 相対湿度の年平均値は, それぞれ 0.85 (wrf:0.67), 0.62 (wrf:0.56), 0.91 (wrf:0.69), 0.99 (wrf:0.98), 0.98 (wrf:0.98), 0.92 (wrf:0.87) である。 本研究は韓国に焦点をあてるが,提案手法は任意の場所における気象パラメータに適用できる。

Advancements in numerical weather prediction models have accelerated, fostering a more comprehensive understanding of physical phenomena pertaining to the dynamics of weather and related computing resources. Despite these advancements, these models contain inherent biases due to parameterization and linearization of the differential equations that reduce forecasting accuracy. In this work, we investigate the use of a computationally efficient deep learning method, the Convolutional Neural Network (CNN), as a post-processing technique that improves mesoscale Weather and Research Forecasting (WRF) one day forecast (with a one-hour temporal resolution) outputs. Using the CNN architecture, we bias-correct several meteorological parameters calculated by the WRF model for all of 2018. We train the CNN model with a four-year history (2014-2017) to investigate the patterns in WRF biases and then reduce these biases in forecasts for surface wind speed and direction, precipitation, relative humidity, surface pressure, dewpoint temperature, and surface temperature. The WRF data, with a spatial resolution of 27 km, covers South Korea. We obtain ground observations from the Korean Meteorological Administration station network for 93 weather station locations. The results indicate a noticeable improvement in WRF forecasts in all station locations. The average of annual index of agreement for surface wind, precipitation, surface pressure, temperature, dewpoint temperature and relative humidity of all stations are 0.85 (WRF:0.67), 0.62 (WRF:0.56), 0.91 (WRF:0.69), 0.99 (WRF:0.98), 0.98 (WRF:0.98), and 0.92 (WRF:0.87), respectively. While this study focuses on South Korea, the proposed approach can be applied for any measured weather parameters at any location.
翻訳日:2022-10-30 17:55:40 公開日:2020-08-14
# 畳み込みニューラルネットワークを用いた心臓磁気共鳴画像のランドマーク検出

Landmark detection in Cardiac Magnetic Resonance Imaging Using A Convolutional Neural Network ( http://arxiv.org/abs/2008.06142v1 )

ライセンス: Link先を確認
Hui Xue, Jessica Artico, Marianna Fontana, James C Moon, Rhodri H Davies, Peter Kellman(参考訳) 目的: 心臓MRI画像におけるロバストなランドマーク検出のための畳み込みニューラルネットワーク(CNN)ソリューションを開発すること。 方法: この振り返り調査では, 2つの病院のcine, LGE, T1 マッピングスキャンを行った。 トレーニングセットには2,329人の患者と34,019枚の画像が含まれていた。 531人の患者と723人の画像が含まれていた。 CNNモデルは2つの僧帽弁面と長軸画像上の尖点を検出するために開発された。 短軸(sax)像では前後のrv挿入点とlv中心が検出された。 モデル出力を2つの演算子による手動ラベルと比較し, 統計的に有意なt検定を行った。 訓練されたモデルはMRスキャナーにデプロイされた。 結果: LAX画像では,シネが99.8%,LGEが99.4%であった。 SAXでは、成功率は96.6%、97.6%、シネ、LGE、T1マッピングの98.9%であった。 モデルラベルとマニュアルラベルの間のl2距離は2~3.5mmであり、モデルランドマークとマニュアルラベルの密接な一致を示している。 前方rv挿入角度とlv長には,全視野像と撮像像で有意な差は認められなかった。 MRスキャナーのモデル推論は、典型的な心臓のシネシリーズではGPU/CPUで610ms/5.6sであった。 結論: 本研究は, シネ, LGE, T1マッピングシーケンスの長軸CMR画像と短軸CMR画像の両方において, 頑健なランドマーク検出のためのCNNソリューションを開発し, 検証し, 展開した。

Purpose: To develop a convolutional neural network (CNN) solution for robust landmark detection in cardiac MR images. Methods: This retrospective study included cine, LGE and T1 mapping scans from two hospitals. The training set included 2,329 patients and 34,019 images. A hold-out test set included 531 patients and 7,723 images. CNN models were developed to detect two mitral valve plane and apical points on long-axis (LAX) images. On short-axis (SAX) images, anterior and posterior RV insertion points and LV center were detected. Model outputs were compared to manual labels by two operators for accuracy with a t-test for statistical significance. The trained model was deployed to MR scanners. Results: For the LAX images, success detection was 99.8% for cine, 99.4% for LGE. For the SAX, success rate was 96.6%, 97.6% and 98.9% for cine, LGE and T1-mapping. The L2 distances between model and manual labels were 2 to 3.5 mm, indicating close agreement between model landmarks to manual labels. No significant differences were found for the anterior RV insertion angle and LV length by the models and operators for all views and imaging sequences. Model inference on MR scanner took 610ms/5.6s on GPU/CPU, respectively, for a typical cardiac cine series. Conclusions: This study developed, validated and deployed a CNN solution for robust landmark detection in both long and short-axis CMR images for cine, LGE and T1 mapping sequences, with the accuracy comparable to the inter-operator variation.
翻訳日:2022-10-30 17:55:07 公開日:2020-08-14
# 動的システムの局所的不確かさ定量化のためのデータインフォームド分解法

Data-Informed Decomposition for Localized Uncertainty Quantification of Dynamical Systems ( http://arxiv.org/abs/2008.06556v1 )

ライセンス: Link先を確認
Waad Subber, Sayan Ghosh, Piyush Pandita, Yiming Zhang, Liping Wang(参考訳) 産業力学系は、物質的不均一性、運用条件、複雑な環境負荷によるマルチスケールの応答を示すことが多い。 このような問題では、システム力学の最小長スケールが、埋め込み物理学を効果的に解くために必要な数値分解能を制御している。 しかし、実際には、高速な力学や局所的な物質変動が示されるシステムの限られた領域でのみ高い数値分解能が要求されるが、残りの部分では粗い離散化が十分である。 この目的のために、不確実性定量化のための一様時空間分解能を持つ統一計算スキームは非常に計算的に要求される。 複雑な力学系を局所化力学と物質変動性に基づくより解き易い問題に分割することで、全体の計算コストを削減できる。 しかしながら、高分解能かつ集中的な不確実性定量化のための関心領域の特定は、問題に依存する可能性がある。 興味領域は、溶液の局在特性、ユーザの興味、およびランダム素材特性の相関長に基づいて特定することができる。 興味のある領域が明確でない問題に対して、ベイズ推論は実現可能な解を与えることができる。 本研究では,測定値とシステム応答を用いた局所化領域に関する事前知識を更新するため,ベイズフレームワークを用いた。 ベイズ推定の計算コストに対処するため、フォワードモデルに対してガウス過程を代用する。 興味のある局所化領域が特定されると、多項式カオス展開を用いて局所化の不確かさを伝播する。 三次元エラストダイナミック問題に関する数値実験により,我々の枠組みを実証する。

Industrial dynamical systems often exhibit multi-scale response due to material heterogeneities, operation conditions and complex environmental loadings. In such problems, it is the case that the smallest length-scale of the systems dynamics controls the numerical resolution required to effectively resolve the embedded physics. In practice however, high numerical resolutions is only required in a confined region of the system where fast dynamics or localized material variability are exhibited, whereas a coarser discretization can be sufficient in the rest majority of the system. To this end, a unified computational scheme with uniform spatio-temporal resolutions for uncertainty quantification can be very computationally demanding. Partitioning the complex dynamical system into smaller easier-to-solve problems based of the localized dynamics and material variability can reduce the overall computational cost. However, identifying the region of interest for high-resolution and intensive uncertainty quantification can be a problem dependent. The region of interest can be specified based on the localization features of the solution, user interest, and correlation length of the random material properties. For problems where a region of interest is not evident, Bayesian inference can provide a feasible solution. In this work, we employ a Bayesian framework to update our prior knowledge on the localized region of interest using measurements and system response. To address the computational cost of the Bayesian inference, we construct a Gaussian process surrogate for the forward model. Once, the localized region of interest is identified, we use polynomial chaos expansion to propagate the localization uncertainty. We demonstrate our framework through numerical experiments on a three-dimensional elastodynamic problem.
翻訳日:2022-10-30 17:47:50 公開日:2020-08-14
# テキスト独立話者検証のためのエンドツーエンド学習型自己認識型浅層ネットワーク

End-to-End Trainable Self-Attentive Shallow Network for Text-Independent Speaker Verification ( http://arxiv.org/abs/2008.06146v1 )

ライセンス: Link先を確認
Hyeonmook Park, Jungbae Park, Sang Wan Lee(参考訳) 汎用エンド・ツー・エンド(GE2E)モデルは、特定の言語によらず拡張性と一般化性のため、話者検証(SV)分野で広く利用されている。 しかし、GE2Eに基づく長期記憶(LSTM)には2つの制限がある。 第二に、発話は適切な固定次元ベクトルとして表現されない。 本稿では,この課題を克服するために,発話埋め込みフェーズにおいて,自己注意型xベクトルシステムに基づく時間遅延ニューラルネットワーク(TDNN)と自己注意型プール機構を組み込んだ,終末から終末までの訓練可能な浅層ネットワーク(SASN)の新たなフレームワークを提案する。 提案モデルは非常に効率的で,GE2Eよりも精度の高い話者検証を提供する。 VCTKデータセットでは,GE2Eの約63%,67%,EERの85%,DCF(検出コスト関数),AUC(曲線下Area)に対して,GE2Eの約半分以下で大きな性能向上を示した。 特に、入力長が長くなると、提案したモデルのDCFスコアはGE2Eの約17倍になる。

Generalized end-to-end (GE2E) model is widely used in speaker verification (SV) fields due to its expandability and generality regardless of specific languages. However, the long-short term memory (LSTM) based on GE2E has two limitations: First, the embedding of GE2E suffers from vanishing gradient, which leads to performance degradation for very long input sequences. Secondly, utterances are not represented as a properly fixed dimensional vector. In this paper, to overcome issues mentioned above, we propose a novel framework for SV, end-to-end trainable self-attentive shallow network (SASN), incorporating a time-delay neural network (TDNN) and a self-attentive pooling mechanism based on the self-attentive x-vector system during an utterance embedding phase. We demonstrate that the proposed model is highly efficient, and provides more accurate speaker verification than GE2E. For VCTK dataset, with just less than half the size of GE2E, the proposed model showed significant performance improvement over GE2E of about 63%, 67%, and 85% in EER (Equal error rate), DCF (Detection cost function), and AUC (Area under the curve), respectively. Notably, when the input length becomes longer, the DCF score improvement of the proposed model is about 17 times greater than that of GE2E.
翻訳日:2022-10-30 17:47:28 公開日:2020-08-14
# 部分順序、緩和、一階線形論理

Partial Orders, Residuation, and First-Order Linear Logic ( http://arxiv.org/abs/2008.06351v1 )

ライセンス: Link先を確認
Richard Moot(参考訳) 一階線形論理の証明論的および言語的側面について検討する。 各シークエントが、シークエントの先行公式上で一意な線型次数を定義するように、部分次数制約を加えることで、多くの有用な論理演算子を定義することができることを示す。 さらに,部分順序制約により証明探索の効率が向上する。

We will investigate proof-theoretic and linguistic aspects of first-order linear logic. We will show that adding partial order constraints in such a way that each sequent defines a unique linear order on the antecedent formulas of a sequent allows us to define many useful logical operators. In addition, the partial order constraints improve the efficiency of proof search.
翻訳日:2022-10-30 17:46:52 公開日:2020-08-14
# eコマース製品分類のためのマルチモーダルレイトフュージョンモデル

A Multimodal Late Fusion Model for E-Commerce Product Classification ( http://arxiv.org/abs/2008.06179v1 )

ライセンス: Link先を確認
Ye Bi, Shuo Wang, Zhongrui Fan(参考訳) 製品リストのカタログ化は、ほとんどのeコマースプラットフォームにとって根本的な問題である。 単調な手法で得られた有望な結果にもかかわらず、多モーダル製品情報を考慮することにより、さらなる性能向上が期待できる。 本研究では,テキストと画像のモダリティに基づくマルチモーダルレイトフュージョン手法を用いて,楽天上でのeコマース商品の分類を行った。 具体的には、各入力モーダルに対してモーダル特有のディープニューラルネットワークを開発し、それを決定レベルで融合させた。 sigir 2020 e-commerce workshop data challengeにおけるマルチモーダル製品分類タスクの実験結果は、ユニモーダルや他のマルチモーダル手法と比較して提案手法の優劣と有効性を示している。 pa_curisという名前のチームが、最終リーダーボードで0.9144のマクロF1で優勝しました。

The cataloging of product listings is a fundamental problem for most e-commerce platforms. Despite promising results obtained by unimodal-based methods, it can be expected that their performance can be further boosted by the consideration of multimodal product information. In this study, we investigated a multimodal late fusion approach based on text and image modalities to categorize e-commerce products on Rakuten. Specifically, we developed modal specific state-of-the-art deep neural networks for each input modal, and then fused them at the decision level. Experimental results on Multimodal Product Classification Task of SIGIR 2020 E-Commerce Workshop Data Challenge demonstrate the superiority and effectiveness of our proposed method compared with unimodal and other multimodal methods. Our team named pa_curis won the 1st place with a macro-F1 of 0.9144 on the final leaderboard.
翻訳日:2022-10-30 17:46:38 公開日:2020-08-14
# 学習に基づくアーティファクト回避のためのc-armコーンビームct音源軌跡のオンライン調整法

A Learning-based Method for Online Adjustment of C-arm Cone-Beam CT Source Trajectories for Artifact Avoidance ( http://arxiv.org/abs/2008.06262v1 )

ライセンス: Link先を確認
Mareike Thies, Jan-Nico Z\"ach, Cong Gao, Russell Taylor, Nassir Navab, Andreas Maier, Mathias Unberath(参考訳) 脊椎固定術中、スクリューは極めて正確なスクリュー配置の必要性を示唆する臨界神経の近くに置かれる。 高品質断層撮影におけるスクリュー配置の検証は不可欠である。 C-arm Cone-beam CT (CBCT) は術中3Dトモグラフィーで、即時診断が可能で、必要に応じて再検査が可能である。 しかし, 市販のcbct装置で実現可能な復元品質は, ペディクルスクリューの存在下では金属アーチファクトが厳しいため, ほとんどが不十分である。 これらのアーティファクトは、画像形成の真の物理と、再構成時に想定される理想化されたモデルとのミスマッチから生じる。 このミスマッチに最も影響を受けない解剖学の視点を先進的に得ることで、再建の質を向上させることができる。 そこで本研究では,C-arm CBCTソースの軌跡をスキャン中に調整し,あるタスク,すなわちスクリュー配置の検証に関する復元品質を最適化することを提案する。 調整は畳み込みニューラルネットワークを用いてオンザフライで行われ、現在のX線画像から、可能な次のビューに対する品質指標を回帰する。 推奨されたビューを取得するためにcbct軌道を調整すると、貧弱な画像を避ける非円形のソース軌道となり、したがってデータ不整合が生じる。 リアルにシミュレートされたデータに基づいてトレーニングされた畳み込みニューラルネットワークは、CBCTソース軌跡のシーン特異的な調整を可能にする品質指標を予測することができることを示す。 半共形ファントムの現実的なシミュレーションデータと実際のcbct取得の両方を用いて、得られたシーン特異的cbct取得の断層画像再構成により、特に金属人工物の観点から画像品質が向上することを示す。 最適化の目的はニューラルネットワークに暗黙的にエンコードされるため、提案手法は実行時に3d情報の必要性を克服する。

During spinal fusion surgery, screws are placed close to critical nerves suggesting the need for highly accurate screw placement. Verifying screw placement on high-quality tomographic imaging is essential. C-arm Cone-beam CT (CBCT) provides intraoperative 3D tomographic imaging which would allow for immediate verification and, if needed, revision. However, the reconstruction quality attainable with commercial CBCT devices is insufficient, predominantly due to severe metal artifacts in the presence of pedicle screws. These artifacts arise from a mismatch between the true physics of image formation and an idealized model thereof assumed during reconstruction. Prospectively acquiring views onto anatomy that are least affected by this mismatch can, therefore, improve reconstruction quality. We propose to adjust the C-arm CBCT source trajectory during the scan to optimize reconstruction quality with respect to a certain task, i.e. verification of screw placement. Adjustments are performed on-the-fly using a convolutional neural network that regresses a quality index for possible next views given the current x-ray image. Adjusting the CBCT trajectory to acquire the recommended views results in non-circular source orbits that avoid poor images, and thus, data inconsistencies. We demonstrate that convolutional neural networks trained on realistically simulated data are capable of predicting quality metrics that enable scene-specific adjustments of the CBCT source trajectory. Using both realistically simulated data and real CBCT acquisitions of a semi-anthropomorphic phantom, we show that tomographic reconstructions of the resulting scene-specific CBCT acquisitions exhibit improved image quality particularly in terms of metal artifacts. Since the optimization objective is implicitly encoded in a neural network, the proposed approach overcomes the need for 3D information at run-time.
翻訳日:2022-10-30 17:46:26 公開日:2020-08-14
# 最適輸送を用いた弱教師付きクロスドメインアライメント

Weakly supervised cross-domain alignment with optimal transport ( http://arxiv.org/abs/2008.06597v1 )

ライセンス: Link先を確認
Siyang Yuan, Ke Bai, Liqun Chen, Yizhe Zhang, Chenyang Tao, Chunyuan Li, Guoyin Wang, Ricardo Henao, Lawrence Carin(参考訳) 画像オブジェクトとテキストシーケンス間のクロスドメインアライメントは多くの視覚言語タスクの鍵であり、コンピュータビジョンと自然言語処理の両方に根本的な課題をもたらす。 本稿では,画像とテキストとの微粒度の類似性を,弱い教師付き設定下で識別・最適化し,最先端ソリューションの性能を向上させるための新しい手法について検討する。 提案手法は, ドメイン間マッチング問題を原理的に解くため, 最適輸送法(OT)の最近の進歩に基づいている。 ドロップイン正規化器として定式化され、提案したOTソリューションは、他の既存手法と組み合わせて効率的に計算および利用することができる。 提案手法の有効性を示す実証的なエビデンスを提示し,より単純なモデルアーキテクチャが様々な視覚言語タスクにおいて,より洗練された設計に勝るか,あるいは同等かを示す。

Cross-domain alignment between image objects and text sequences is key to many visual-language tasks, and it poses a fundamental challenge to both computer vision and natural language processing. This paper investigates a novel approach for the identification and optimization of fine-grained semantic similarities between image and text entities, under a weakly-supervised setup, improving performance over state-of-the-art solutions. Our method builds upon recent advances in optimal transport (OT) to resolve the cross-domain matching problem in a principled manner. Formulated as a drop-in regularizer, the proposed OT solution can be efficiently computed and used in combination with other existing approaches. We present empirical evidence to demonstrate the effectiveness of our approach, showing how it enables simpler model architectures to outperform or be comparable with more sophisticated designs on a range of vision-language tasks.
翻訳日:2022-10-30 17:39:08 公開日:2020-08-14
# 超音波の自己教師付きコントラスト映像表現学習

Self-supervised Contrastive Video-Speech Representation Learning for Ultrasound ( http://arxiv.org/abs/2008.06607v1 )

ライセンス: Link先を確認
Jianbo Jiao, Yifan Cai, Mohammad Alsharid, Lior Drukker, Aris T.Papageorghiou, and J. Alison Noble(参考訳) 医用画像では手動のアノテーションは高価であり、アクセスできない場合もあるため、従来のディープラーニングベースのモデルでは拡張が困難である。 結果として、手動のアノテーションを必要とせずに、有用な表現を生のデータから引き出すことができれば有益である。 本稿では,マルチモーダル超音波映像合成生データを用いた自己教師あり表現学習の問題に対処する。 この場合、超音波映像とそれに対応するソノグラフィーの物語音声との間には高い相関関係があることを仮定する。 有意義な表現を学ぶために、モデルはそのような相関を識別すると同時に、基礎となる解剖学的特徴を理解する必要がある。 人間のアノテーションを使わずにビデオと音声の対応をモデル化するフレームワークを設計した。 本フレームワークでは,相関モデルを強化するために,クロスモーダルコントラスト学習と親和性を考慮した自己対応学習方式を導入する。 マルチモーダル超音波映像と音声による実験結果から, 提案手法は強い表現を学習し, 標準平面検出および視線予測の下流タスクによく対応できることが示された。

In medical imaging, manual annotations can be expensive to acquire and sometimes infeasible to access, making conventional deep learning-based models difficult to scale. As a result, it would be beneficial if useful representations could be derived from raw data without the need for manual annotations. In this paper, we propose to address the problem of self-supervised representation learning with multi-modal ultrasound video-speech raw data. For this case, we assume that there is a high correlation between the ultrasound video and the corresponding narrative speech audio of the sonographer. In order to learn meaningful representations, the model needs to identify such correlation and at the same time understand the underlying anatomical features. We designed a framework to model the correspondence between video and audio without any kind of human annotations. Within this framework, we introduce cross-modal contrastive learning and an affinity-aware self-paced learning scheme to enhance correlation modelling. Experimental evaluations on multi-modal fetal ultrasound video and audio show that the proposed approach is able to learn strong representations and transfers well to downstream tasks of standard plane detection and eye-gaze prediction.
翻訳日:2022-10-30 17:38:53 公開日:2020-08-14
# セマンティックスへの音声:オールニューラルインタフェースによるASRとNLUの併用改善

Speech To Semantics: Improve ASR and NLU Jointly via All-Neural Interfaces ( http://arxiv.org/abs/2008.06173v1 )

ライセンス: Link先を確認
Milind Rao, Anirudh Raju, Pranav Dheram, Bach Bui, Ariya Rastrow(参考訳) 音声アシスタントを主眼とする音声から自然言語の意図や関連するスロット引数や名前付きエンティティを抽出する言語理解(SLU)の問題について考察する。 このようなシステムは、音声認識(ASR)と自然言語理解(NLU)の両方を仮定する。 エンドツーエンドのジョイントSLUモデルを構築することで、音声アシスタントをオフラインで動作させるデバイスなど、ハードウェア制約のあるシナリオにデプロイする機会を確保できると同時に、サーバコストを削減できる。 まず、中間テキスト出力なしで音声から直接発話意図を抽出するモデルを提案する。 次に,リスナースペルasrシステムを用いて書き起こしを生成し,ニューラルnluモデルを用いて解釈を抽出する合成モデルを提案する。 最後に、これらの手法を、テキストの代わりにニューラルネットワークベースのインタフェースで接続されたASRとNLUサブシステムからなる、共同で訓練されたエンドツーエンドのSLUモデルと対比し、NLUの解釈と書き起こしを生成する。 共同学習モデルでは,NLUからの意味情報を取り入れたASRの改良や,隠蔽層に符号化されたASRの混乱に露呈することでNLUの改善が示されている。

We consider the problem of spoken language understanding (SLU) of extracting natural language intents and associated slot arguments or named entities from speech that is primarily directed at voice assistants. Such a system subsumes both automatic speech recognition (ASR) as well as natural language understanding (NLU). An end-to-end joint SLU model can be built to a required specification opening up the opportunity to deploy on hardware constrained scenarios like devices enabling voice assistants to work offline, in a privacy preserving manner, whilst also reducing server costs. We first present models that extract utterance intent directly from speech without intermediate text output. We then present a compositional model, which generates the transcript using the Listen Attend Spell ASR system and then extracts interpretation using a neural NLU model. Finally, we contrast these methods to a jointly trained end-to-end joint SLU model, consisting of ASR and NLU subsystems which are connected by a neural network based interface instead of text, that produces transcripts as well as NLU interpretation. We show that the jointly trained model shows improvements to ASR incorporating semantic information from NLU and also improves NLU by exposing it to ASR confusion encoded in the hidden layer.
翻訳日:2022-10-30 17:38:35 公開日:2020-08-14
# Twitter上での感情GIFカテゴリ予測のためのハイブリッドBERTとLightGBMに基づくモデル

A Hybrid BERT and LightGBM based Model for Predicting Emotion GIF Categories on Twitter ( http://arxiv.org/abs/2008.06176v1 )

ライセンス: Link先を確認
Ye Bi, Shuo Wang, Zhongrui Fan(参考訳) アニメーションのグラフィカル・インターチェンジ・フォーマット(GIF)画像は、直感的な表現感情の方法としてソーシャルメディアで広く使われている。 彼らの表現力を考えると、GIFは感情を伝えるためのより微妙で正確な方法を提供する。 本稿では,SocialNLP 2020の共通課題であるEmotionGIF 2020チャレンジに対する解決策を提案する。 ラベルのないツイートに対してGIFカテゴリを推奨するために、この問題を一種のマッチングタスクとみなし、双方向エンコーダ表現(BERT)とLightGBMに基づくランク付けフレームワークを提案する。 私たちのチームは、ラウンド1のリーダーボードで平均精度@6(MAP@6)スコア0.5394で4位を獲得しました。

The animated Graphical Interchange Format (GIF) images have been widely used on social media as an intuitive way of expression emotion. Given their expressiveness, GIFs offer a more nuanced and precise way to convey emotions. In this paper, we present our solution for the EmotionGIF 2020 challenge, the shared task of SocialNLP 2020. To recommend GIF categories for unlabeled tweets, we regarded this problem as a kind of matching tasks and proposed a learning to rank framework based on Bidirectional Encoder Representations from Transformer (BERT) and LightGBM. Our team won the 4th place with a Mean Average Precision @ 6 (MAP@6) score of 0.5394 on the round 1 leaderboard.
翻訳日:2022-10-30 17:38:11 公開日:2020-08-14
# ヘイトスピーチの注釈:MaNeCoコーパスと批判的談話分析からの入力

Annotating for Hate Speech: The MaNeCo Corpus and Some Input from Critical Discourse Analysis ( http://arxiv.org/abs/2008.06222v1 )

ライセンス: Link先を確認
Stavros Assimakopoulos, Rebecca Vella Muskat, Lonneke van der Plas, Albert Gatt(参考訳) 本稿では,Web 2.0コメンタリーのコーパスにおけるヘイトスピーチアノテーションの新しい手法を提案する。 提案手法は、地中海の移民危機やマルタのLGBTIQ+問題に関するニュース報道に反応して行われたポストの批判的分析に動機づけられ、EUが出資したC.O.N.T.A.C.T.プロジェクトの後援のもとに実施された。 ヘイトスピーチはそもそも明確なカテゴリーではなく、差別的な言説の連続体に属しており、間接的な言語的手段を用いることでしばしば実現されるという認識に基づいて、その検出のためのアノテーションスキームは「ヘイトスピーチ」というラベルを直接含まないべきであると論じられている。 そこで本研究では,二分詞+/-ヘイト音声分類に対してパイロットテストを行い,より高いアノテータ間合意を導出する多層アノテーション方式を提案する。 提案手法の仮定を動機づけて,最終的に使用される予定のmanecoコーパス,すなわち10年間にわたるオンライン新聞コメントの実質的なコーパスを提示する。

This paper presents a novel scheme for the annotation of hate speech in corpora of Web 2.0 commentary. The proposed scheme is motivated by the critical analysis of posts made in reaction to news reports on the Mediterranean migration crisis and LGBTIQ+ matters in Malta, which was conducted under the auspices of the EU-funded C.O.N.T.A.C.T. project. Based on the realization that hate speech is not a clear-cut category to begin with, appears to belong to a continuum of discriminatory discourse and is often realized through the use of indirect linguistic means, it is argued that annotation schemes for its detection should refrain from directly including the label 'hate speech,' as different annotators might have different thresholds as to what constitutes hate speech and what not. In view of this, we suggest a multi-layer annotation scheme, which is pilot-tested against a binary +/- hate speech classification and appears to yield higher inter-annotator agreement. Motivating the postulation of our scheme, we then present the MaNeCo corpus on which it will eventually be used; a substantial corpus of on-line newspaper comments spanning 10 years.
翻訳日:2022-10-30 17:38:00 公開日:2020-08-14
# リアクティブシステムの学習ベーステストのための効率的なモデル推論アルゴリズム

An Efficient Model Inference Algorithm for Learning-based Testing of Reactive Systems ( http://arxiv.org/abs/2008.06268v1 )

ライセンス: Link先を確認
Muddassar A. Sindhu(参考訳) 学習ベースのテスト(lbt)は、ソフトウェアシステムの反復的なブラックボックス要求テストを自動化する新しい手法である。 この手法はモデル推論とモデル検査技術を組み合わせることを含む。 しかしながら,大規模システムでスケーラブルなテストを実現するためには,モデル推論に関するさまざまな最適化が必要である。 本稿では,決定論的クリプキ構造のための逐次学習アルゴリズムであるIKL学習アルゴリズムについて述べる。 IKLの正しさを正式に証明する。 テストのスケーラビリティを実現するための最適化について論じる。 また, ikl学習の収束に基づくテスト終了のためのブラックボックスヒューリスティックの評価を行った。

Learning-based testing (LBT) is an emerging methodology to automate iterative black-box requirements testing of software systems. The methodology involves combining model inference with model checking techniques. However, a variety of optimisations on model inference are necessary in order to achieve scalable testing for large systems. In this paper we describe the IKL learning algorithm which is an active incremental learning algorithm for deterministic Kripke structures. We formally prove the correctness of IKL. We discuss the optimisations it incorporates to achieve scalability of testing. We also evaluate a black box heuristic for test termination based on convergence of IKL learning.
翻訳日:2022-10-30 17:37:37 公開日:2020-08-14
# オープン政府データとナレッジグラフにおける組織情報リンクの課題

Challenges of Linking Organizational Information in Open Government Data to Knowledge Graphs ( http://arxiv.org/abs/2008.06232v1 )

ライセンス: Link先を確認
Jan Portisch, Omaima Fallatah, Sebastian Neumaier, Mohamad Yaser Jaradeh, Axel Polleres(参考訳) Open Government Data (OGD)は、世界中の公共機関によって公開されている。 OGDデータカタログのメタデータ内において、出版機関(1)は、独自かつ明白に識別可能ではなく、さらに悪いことに、行政単位の合併や再編成によって、経時的に変化している。 OGDポータルからWikidataやDBpediaなどの公開知識グラフ(KGs)にリンクすることで、オープン政府データのパブリッシングレベルの詳細な分析や検索を可能にすることは、明らかな解決策のように思える。 それでも、このポジションの論文で示すように、利用可能なメタデータ(ポートレート)とデータ品質と完全性の観点からのkgsの両方において、組織リンクは重大な課題に直面している。 本稿では,(1)組織とポータルメタデータの時間的変化,(2)組織構造と公共知識グラフの変化を記述するための基盤オントロジーの欠如,(3)メタデータとkgデータ品質,(4)多言語性,(5)公共部門組織を曖昧にする,という5つの課題を強調する。 Open Data Portal Watchの利用可能なOGDポータルメタデータに基づいて、これらの問題を詳細に分析し、それに取り組むための具体的な出発点と、これらのオープンな課題に共同で取り組むコミュニティへの呼びかけを提案します。

Open Government Data (OGD) is being published by various public administration organizations around the globe. Within the metadata of OGD data catalogs, the publishing organizations (1) are not uniquely and unambiguously identifiable and, even worse, (2) change over time, by public administration units being merged or restructured. In order to enable fine-grained analyses or searches on Open Government Data on the level of publishing organizations, linking those from OGD portals to publicly available knowledge graphs (KGs) such as Wikidata and DBpedia seems like an obvious solution. Still, as we show in this position paper, organization linking faces significant challenges, both in terms of available (portal) metadata and KGs in terms of data quality and completeness. We herein specifically highlight five main challenges, namely regarding (1) temporal changes in organizations and in the portal metadata, (2) lack of a base ontology for describing organizational structures and changes in public knowledge graphs, (3) metadata and KG data quality, (4) multilinguality, and (5) disambiguating public sector organizations. Based on available OGD portal metadata from the Open Data Portal Watch, we provide an in-depth analysis of these issues, make suggestions for concrete starting points on how to tackle them along with a call to the community to jointly work on these open challenges.
翻訳日:2022-10-30 17:37:29 公開日:2020-08-14
# 安定性と外部妥当性の解消と因果正規化

Deconfounding and Causal Regularization for Stability and External Validity ( http://arxiv.org/abs/2008.06234v1 )

ライセンス: Link先を確認
Peter B\"uhlmann, Domagoj \'Cevid(参考訳) 統一的な視点から隠れた推論と因果正則化を取り除くための最近の研究を概観する。 不均一なデータの安定性, 複製性, 分散ロバスト性の向上について述べる。 この意味で、データ生成の分布が変化しているときに、Efron (2020) によって提起されたコンセプトドリフト問題にさらなる考え方を提供する。

We review some recent work on removing hidden confounding and causal regularization from a unified viewpoint. We describe how simple and user-friendly techniques improve stability, replicability and distributional robustness in heterogeneous data. In this sense, we provide additional thoughts to the issue on concept drift, raised by Efron (2020), when the data generating distribution is changing.
翻訳日:2022-10-30 17:36:47 公開日:2020-08-14
# BriNet: ワンショットセグメンテーションにおけるクラス内ギャップとクラス間ギャップのブリッジを目指して

BriNet: Towards Bridging the Intra-class and Inter-class Gaps in One-Shot Segmentation ( http://arxiv.org/abs/2008.06226v1 )

ライセンス: Link先を確認
Xianghui Yang, Bairun Wang, Kaige Chen, Xinchi Zhou, Shuai Yi, Wanli Ouyang, Luping Zhou(参考訳) 少数ショットのセグメンテーションは、限られたトレーニングサンプルで見えないオブジェクトインスタンスをセグメンテーションするためのモデルの一般化に焦点を当てている。 大幅な改善が達成されているが、既存の方法には2つの要因がある。 1)クエリとサポート画像間の情報相互作用は不十分であり,クラス内ギャップが残る。 (2) トレーニングと推論の段階でのオブジェクトのカテゴリは重複せず、クラス間ギャップが残る。 そこで我々は,これらのギャップを埋めるためのフレームワーク BriNet を提案する。 まず、クエリの抽出した特徴とサポートイメージ、すなわち、共通オブジェクトを強調するためにインフォメーション・エクスチェンジ・モジュールを使用するイメージの間により多くの情報相互作用が奨励される。 さらに、クエリオブジェクトを正確にローカライズするために、サポート機能表現をよりよく活用できるマルチパスきめ細かな戦略を設計する。 第2に,クエリの役割とサポートイメージを推論段階で切り換えることで,トレーニングしたモデルを未取得のクラスに適応させるための,新たなオンラインリファインメント戦略を提案する。 本フレームワークの有効性は,他の競合手法よりも優れ,PASCAL VOCおよびMSCOCOデータセット上での新たな最先端化につながる実験結果によって実証された。

Few-shot segmentation focuses on the generalization of models to segment unseen object instances with limited training samples. Although tremendous improvements have been achieved, existing methods are still constrained by two factors. (1) The information interaction between query and support images is not adequate, leaving intra-class gap. (2) The object categories at the training and inference stages have no overlap, leaving the inter-class gap. Thus, we propose a framework, BriNet, to bridge these gaps. First, more information interactions are encouraged between the extracted features of the query and support images, i.e., using an Information Exchange Module to emphasize the common objects. Furthermore, to precisely localize the query objects, we design a multi-path fine-grained strategy which is able to make better use of the support feature representations. Second, a new online refinement strategy is proposed to help the trained model adapt to unseen classes, achieved by switching the roles of the query and the support images at the inference stage. The effectiveness of our framework is demonstrated by experimental results, which outperforms other competitive methods and leads to a new state-of-the-art on both PASCAL VOC and MSCOCO dataset.
翻訳日:2022-10-30 17:30:44 公開日:2020-08-14
# GeoLayout: 平面の深さマップに基づく幾何駆動型ルームレイアウト推定

GeoLayout: Geometry Driven Room Layout Estimation Based on Depth Maps of Planes ( http://arxiv.org/abs/2008.06286v1 )

ライセンス: Link先を確認
Weidong Zhang, Wei Zhang and Yinda Zhang(参考訳) 部屋のレイアウト推定のタスクは、壁床、壁壁、壁壁の境界を見つけることである。 最近の手法では、エッジ/キーポイント検出やセマンティックセグメンテーションに基づいてこの問題を解決する。 しかし、これらのアプローチは支配的な平面の幾何学とそれらの間の交叉に限定的な関心を示しており、部屋のレイアウトに大きな影響を与えている。 本研究では,レイアウト推定のための幾何学的推論を深層学習に組み込むことを提案する。 本手法では,画素レベルの表面パラメータを予測することにより,シーン内の支配面の深度マップを推定し,深度マップの交叉によってレイアウトを生成する。 さらに,支配平面の画素レベル深度アノテーションを用いた新しいデータセットを提案する。 既存のデータセットよりも大きく、立方体室と非立方体室の両方を含んでいる。 実験結果から,本手法は2次元データセットと3次元データセットの両方でかなりの性能向上を示した。

The task of room layout estimation is to locate the wall-floor, wall-ceiling, and wall-wall boundaries. Most recent methods solve this problem based on edge/keypoint detection or semantic segmentation. However, these approaches have shown limited attention on the geometry of the dominant planes and the intersection between them, which has significant impact on room layout. In this work, we propose to incorporate geometric reasoning to deep learning for layout estimation. Our approach learns to infer the depth maps of the dominant planes in the scene by predicting the pixel-level surface parameters, and the layout can be generated by the intersection of the depth maps. Moreover, we present a new dataset with pixel-level depth annotation of dominant planes. It is larger than the existing datasets and contains both cuboid and non-cuboid rooms. Experimental results show that our approach produces considerable performance gains on both 2D and 3D datasets.
翻訳日:2022-10-30 17:29:22 公開日:2020-08-14
# PointMixup: Point Cloudsの拡張

PointMixup: Augmentation for Point Clouds ( http://arxiv.org/abs/2008.06374v1 )

ライセンス: Link先を確認
Yunlu Chen, Vincent Tao Hu, Efstratios Gavves, Thomas Mensink, Pascal Mettes, Pengwan Yang and Cees G.M. Snoek(参考訳) 本稿では,実例間の補間による点雲のデータ増大について述べる。 補間によるデータ拡張は、画像領域においてシンプルで効果的なアプローチであることが示されている。 しかし、このような混合は2つの異なる対象の点の間に1対1の対応がないため、点雲に直接移動はできない。 本稿では,点雲間のデータ増大を最短経路線形補間として定義する。 そこで本研究では,2点間の経路関数を最適に割り当てることで,新しい例を生成する補間手法であるPointMixupを紹介する。 点混合は二つの点雲の間の最短経路を見つけ、補間が代入不変かつ線型であることを証明する。 補間の定義により、pointmixupは、mixup や manifold mixupのような強力な補間ベースの正則化子をpoint cloudドメインに導入できる。 実験では, 点群分類における点混合の可能性, 特に例が少ない場合, 雑音に対する頑健性, 点への幾何学的変換の増大を示す。 PointMixupのコードと実験の詳細は公開されている。

This paper introduces data augmentation for point clouds by interpolation between examples. Data augmentation by interpolation has shown to be a simple and effective approach in the image domain. Such a mixup is however not directly transferable to point clouds, as we do not have a one-to-one correspondence between the points of two different objects. In this paper, we define data augmentation between point clouds as a shortest path linear interpolation. To that end, we introduce PointMixup, an interpolation method that generates new examples through an optimal assignment of the path function between two point clouds. We prove that our PointMixup finds the shortest path between two point clouds and that the interpolation is assignment invariant and linear. With the definition of interpolation, PointMixup allows to introduce strong interpolation-based regularizers such as mixup and manifold mixup to the point cloud domain. Experimentally, we show the potential of PointMixup for point cloud classification, especially when examples are scarce, as well as increased robustness to noise and geometric transformations to points. The code for PointMixup and the experimental details are publicly available.
翻訳日:2022-10-30 17:28:36 公開日:2020-08-14
# 細胞画像分割のためのフィードバック注意

Feedback Attention for Cell Image Segmentation ( http://arxiv.org/abs/2008.06474v1 )

ライセンス: Link先を確認
Hiroki Tsuda, Eisuke Shibuya and Kazuhiro Hotta(参考訳) 本稿では,フィードバック処理などのフィードバック注目機構によるセル画像分割タスクについて述べる。 フィードフォワード処理の従来のニューラルネットワークモデルとは異なり、我々は人間の脳のフィードバック処理に注目し、深い層から浅い層に特徴マップを接続することで、ネットワークが人間のように学習すると考えた。 本稿では,人間の脳を模倣し,出力層の特徴マップを入力層に近づけるフィードバック・アテンションを提案する。 フィードバック注目のu-netはフィードフォワード処理のみを用いた従来の手法よりも優れた結果を示した。

In this paper, we address cell image segmentation task by Feedback Attention mechanism like feedback processing. Unlike conventional neural network models of feedforward processing, we focused on the feedback processing in human brain and assumed that the network learns like a human by connecting feature maps from deep layers to shallow layers. We propose some Feedback Attentions which imitate human brain and feeds back the feature maps of output layer to close layer to the input. U-Net with Feedback Attention showed better result than the conventional methods using only feedforward processing.
翻訳日:2022-10-30 17:28:00 公開日:2020-08-14
# MatryODShka:マルチ球画像を用いたリアルタイム6DoFビデオビュー合成

MatryODShka: Real-time 6DoF Video View Synthesis using Multi-Sphere Images ( http://arxiv.org/abs/2008.06534v1 )

ライセンス: Link先を確認
Benjamin Attal, Selena Ling, Aaron Gokaslan, Christian Richardt, and James Tompkin(参考訳) ステレオ360{\deg}(全方位ステレオ)画像を6自由度(6DoF)レンダリングのための層状多球面画像表現に変換する手法を提案する。 Stereo 360{\deg}画像はバーチャルリアリティー(VR)用のマルチカメラシステムから撮影できるが、動きパララックスや全方向差の補正がない。 同時に、コンテンツを見るときにVRの病気につながる可能性がある。 1つの解決策は、深さの推定のような6dofレンダリングに適したフォーマットを作成しようとすることである。 しかし、これは動的シーンにおける不明瞭な領域の扱い方に関する疑問を提起する。 本手法は,多次元画像表現による奥行きと分離を同時に学習し,vrで正確な6次元不一致と運動視差でレンダリングする。 これにより、ビューアの快適性が大幅に向上し、最新のGPUハードウェア上でリアルタイムで推論およびレンダリングを行うことができる。 これにより、VRビデオがより快適な没入型メディアになる。

We introduce a method to convert stereo 360{\deg} (omnidirectional stereo) imagery into a layered, multi-sphere image representation for six degree-of-freedom (6DoF) rendering. Stereo 360{\deg} imagery can be captured from multi-camera systems for virtual reality (VR), but lacks motion parallax and correct-in-all-directions disparity cues. Together, these can quickly lead to VR sickness when viewing content. One solution is to try and generate a format suitable for 6DoF rendering, such as by estimating depth. However, this raises questions as to how to handle disoccluded regions in dynamic scenes. Our approach is to simultaneously learn depth and disocclusions via a multi-sphere image representation, which can be rendered with correct 6DoF disparity and motion parallax in VR. This significantly improves comfort for the viewer, and can be inferred and rendered in real time on modern GPU hardware. Together, these move towards making VR video a more comfortable immersive medium.
翻訳日:2022-10-30 17:27:49 公開日:2020-08-14
# AntiDote: ニューラルネットワーク実行効率のための注意に基づく動的最適化

AntiDote: Attention-based Dynamic Optimization for Neural Network Runtime Efficiency ( http://arxiv.org/abs/2008.06543v1 )

ライセンス: Link先を確認
Fuxun Yu, Chenchen Liu, Di Wang, Yanzhi Wang, Xiang Chen(参考訳) 畳み込みニューラルネットワーク(cnns)は、かなりの計算負荷を犠牲にして大きな認知性能を達成した。 計算負荷を軽減するため,重み空間やフィルタプルーニングなどの重要なモデル成分を同定・除去することで,モデルの冗長性を低減させる最適化作業が数多く行われている。 しかし、これらはモデルコンポーネントの静的な重要性を内部パラメータ情報でのみ評価し、外部入力との動的相互作用を無視している。 入力毎の機能アクティベーションによって、モデルコンポーネントの重要度は動的に変化し、静的メソッドは準最適結果しか得られない。 そこで本研究では,動的CNN最適化フレームワークを提案する。 ニューラルネットワークの注意機構に基づいて,(1)テストフェーズチャネルとカラム特徴マップのプルーニング,(2)ターゲットドロップアウトによるトレーニングフェーズ最適化を含む,包括的な動的最適化フレームワークを提案する。 このような動的最適化フレームワークには,(1)モデル・インプット・インタラクションを考慮したモデル・インプット・インタラクションを考慮したモデル・インプット毎の特徴の冗長性を正確に識別し,積極的に除去する,(2)マルチディメンジョン・フレキシビリティによる特徴マップの冗長性を最大に除去する,(3)トレーニング・テスト・コプティマイゼーションは動的プルーニングを好んで,高機能プルーニング比のモデル精度の維持を支援する,といったメリットがある。 広範な実験により、様々なテストネットワーク上で37.4%から54.5%のフロップ削減が可能となった。

Convolutional Neural Networks (CNNs) achieved great cognitive performance at the expense of considerable computation load. To relieve the computation load, many optimization works are developed to reduce the model redundancy by identifying and removing insignificant model components, such as weight sparsity and filter pruning. However, these works only evaluate model components' static significance with internal parameter information, ignoring their dynamic interaction with external inputs. With per-input feature activation, the model component significance can dynamically change, and thus the static methods can only achieve sub-optimal results. Therefore, we propose a dynamic CNN optimization framework in this work. Based on the neural network attention mechanism, we propose a comprehensive dynamic optimization framework including (1) testing-phase channel and column feature map pruning, as well as (2) training-phase optimization by targeted dropout. Such a dynamic optimization framework has several benefits: (1) First, it can accurately identify and aggressively remove per-input feature redundancy with considering the model-input interaction; (2) Meanwhile, it can maximally remove the feature map redundancy in various dimensions thanks to the multi-dimension flexibility; (3) The training-testing co-optimization favors the dynamic pruning and helps maintain the model accuracy even with very high feature pruning ratio. Extensive experiments show that our method could bring 37.4% to 54.5% FLOPs reduction with negligible accuracy drop on various of test networks.
翻訳日:2022-10-30 17:22:13 公開日:2020-08-14
# 自然画像におけるスケッチ誘導物体定位

Sketch-Guided Object Localization in Natural Images ( http://arxiv.org/abs/2008.06551v1 )

ライセンス: Link先を確認
Aditay Tripathi, Rajath R Dani, Anand Mishra, Anirban Chakraborty(参考訳) スケッチクエリによって,オブジェクトのすべてのインスタンス(トレーニング中はseenまたはunseen)を自然なイメージにローカライズするという,新たな問題を導入する。 この問題をsketch-guided object localizationと呼ぶ。 この問題は、ギャラリーセットが1つのオブジェクトのみを含むことが多い従来のスケッチベースの画像検索タスクとは異なる。 スケッチ誘導オブジェクトのローカライゼーションは、次のように考えると、より難しいことが証明されます。 (i)クエリーとして使用するスケッチは、オブジェクトの形状や健全な属性に関する情報がほとんどない抽象表現である。 (二)筆跡は多種多様な非訓練被写体によって手描きされているため、大きな変動がある。 (iii)非常に異なるデータ分布からサンプリングされたスケッチクエリと対象自然画像の間にはドメインギャップが存在する。 スケッチ誘導型オブジェクトローカライゼーションの課題に対処するため、スケッチクエリに関連するオブジェクトプロポーザルを生成するために、地域提案ネットワーク(RPN)をガイドする新しいクロスモーダルアテンションスキームを提案する。 これらのオブジェクト提案は、最終的なローカライゼーションを得るためにクエリに対してスコア付けされる。 我々の手法は1つのスケッチクエリで有効である。 さらに、トレーニング中に見えないオブジェクトカテゴリにうまく一般化し、画像に存在する複数のオブジェクトインスタンスをローカライズするのに有効である。 さらに,本論文で紹介した新しい特徴融合戦略と注意融合戦略を用いて,マルチクエリ設定に拡張する。 ローカライゼーション性能は、公開されているオブジェクト検出ベンチマーク(viz)で評価される。 ms-cocoとpascal-voc、'quick, draw!'から得られたスケッチクエリ。 提案手法は,シングルクエリおよびマルチクエリのローカライズタスクにおいて,関連するベースラインを著しく上回っている。

We introduce the novel problem of localizing all the instances of an object (seen or unseen during training) in a natural image via sketch query. We refer to this problem as sketch-guided object localization. This problem is distinctively different from the traditional sketch-based image retrieval task where the gallery set often contains images with only one object. The sketch-guided object localization proves to be more challenging when we consider the following: (i) the sketches used as queries are abstract representations with little information on the shape and salient attributes of the object, (ii) the sketches have significant variability as they are hand-drawn by a diverse set of untrained human subjects, and (iii) there exists a domain gap between sketch queries and target natural images as these are sampled from very different data distributions. To address the problem of sketch-guided object localization, we propose a novel cross-modal attention scheme that guides the region proposal network (RPN) to generate object proposals relevant to the sketch query. These object proposals are later scored against the query to obtain final localization. Our method is effective with as little as a single sketch query. Moreover, it also generalizes well to object categories not seen during training and is effective in localizing multiple object instances present in the image. Furthermore, we extend our framework to a multi-query setting using novel feature fusion and attention fusion strategies introduced in this paper. The localization performance is evaluated on publicly available object detection benchmarks, viz. MS-COCO and PASCAL-VOC, with sketch queries obtained from `Quick, Draw!'. The proposed method significantly outperforms related baselines on both single-query and multi-query localization tasks.
翻訳日:2022-10-30 17:21:45 公開日:2020-08-14
# ディープニューラルネットを用いた短単誘導心電図信号の分類における各種雑音強度とデータ拡張の影響

The Effect of Various Strengths of Noises and Data Augmentations on Classification of Short Single-Lead ECG Signals Using Deep Neural Networks ( http://arxiv.org/abs/2009.01192v1 )

ライセンス: Link先を確認
Faezeh Nejati Hatamian, AmirAbbas Davari, Andreas Maier(参考訳) 信号取得中に複数の欠陥があるため、心電図(ECG)データセットは典型的には塩や唐辛子、ベースラインドリフトなどの様々な種類のノイズで汚染される。 これらのデータセットは、様々な種類のノイズ [1] を持つ異なる記録を含んでいるため、最も簡単なタスクではないかもしれない。 さらに、通常、ラベル付きバイオシグナールの数は適切な分類タスクのために非常に制限されている。

Due to the multiple imperfections during the signal acquisition, Electrocardiogram (ECG) datasets are typically contaminated with numerous types of noise, like salt and pepper and baseline drift. These datasets may contain different recordings with various types of noise [1] and thus, denoising may not be the easiest task. Furthermore, usually, the number of labeled bio-signals is very limited for a proper classification task.
翻訳日:2022-10-30 17:21:22 公開日:2020-08-14
# Wikidata on MARS (英語)

Wikidata on MARS ( http://arxiv.org/abs/2008.06599v1 )

ライセンス: Link先を確認
Peter F. Patel-Schneider and David Martin(参考訳) 一般化されたプロパティグラフの形式データモデルとして多分散関係構造 (MARS) が提案され、プロパティグラフ上の推論ルールを記述するための有用なルールベースの論理として多分散規則ベースの述語論理 (MARPL) が提案されている。 Wikidataは、Wikidataのデータ型を追加する拡張MARSでモデル化することができる。 Wikidataオントロジーの推論規則はMARPLオントロジーとしてモデル化することができ、Wikidataデータ型とこれらのデータ型上の関数を扱うための拡張がある。 多くのwikidata qualifiersはwikidataのほとんどの推論ルールに参加するべきであるため、このモデリングを有効にするためには、修飾子ごとに修飾子値を暗黙的に扱う方法が必要である。 Wikidataの意味は、これらのルールをWikidataデータモデル上で実行することの停止である拡張MARSである。 Wikidataの制約は、マルチ属性述語論理(MAPL)公式としてモデル化され、データ型で拡張され、この拡張MARSで評価される。 その結果はWikidataを、いくつかの大きな問題を修正する方法でモデル化した。

Multi-attributed relational structures (MARSs) have been proposed as a formal data model for generalized property graphs, along with multi-attributed rule-based predicate logic (MARPL) as a useful rule-based logic in which to write inference rules over property graphs. Wikidata can be modelled in an extended MARS that adds the (imprecise) datatypes of Wikidata. The rules of inference for the Wikidata ontology can be modelled as a MARPL ontology, with extensions to handle the Wikidata datatypes and functions over these datatypes. Because many Wikidata qualifiers should participate in most inference rules in Wikidata a method of implicitly handling qualifier values on a per-qualifier basis is needed to make this modelling useful. The meaning of Wikidata is then the extended MARS that is the closure of running these rules on the Wikidata data model. Wikidata constraints can be modelled as multi-attributed predicate logic (MAPL) formulae, again extended with datatypes, that are evaluated over this extended MARS. The result models Wikidata in a way that fixes several of its major problems.
翻訳日:2022-10-30 17:20:17 公開日:2020-08-14
# 動的視覚センサを用いた車線マーカー抽出のための構造認識ネットワーク

Structure-Aware Network for Lane Marker Extraction with Dynamic Vision Sensor ( http://arxiv.org/abs/2008.06204v1 )

ライセンス: Link先を確認
Wensheng Cheng, Hao Luo, Wen Yang, Lei Yu, Wei Li(参考訳) レーンマーカーの抽出は、自動運転に必要な基本的なタスクである。 過去数年間、ディープラーニングモデルによるレーンマーカー抽出の大きな進歩が見られたが、いずれもフレームベースのカメラによって生成された通常のRGBイメージを目標としている。 この問題に対処するために,車線マーカー抽出タスクのためのイベントベースセンサの一種であるダイナミックビジョンセンサ(DVS)を導入し,車線マーカー抽出のための高分解能DVSデータセットを構築した。 生のイベントデータを集めて、5,424dvs画像を生成し、解像度は180$\times$800で、現在利用可能なすべてのdvsデータセットの中で最高です。 すべての画像はマルチクラスセマンティクスセグメンテーション形式でアノテートされている。 DVS画像におけるレーンマーカー抽出のための構造認識ネットワークを提案する。 多方向スライス畳み込みにより、総合的な方向情報を捉えることができる。 提案するネットワークを,このデータセット上の他の最先端レーンマーカー抽出モデルを用いて評価する。 実験の結果,本手法は他の競争相手よりも優れていた。 データセットは、生のイベントデータ、蓄積された画像、ラベルなど、一般公開されている。

Lane marker extraction is a basic yet necessary task for autonomous driving. Although past years have witnessed major advances in lane marker extraction with deep learning models, they all aim at ordinary RGB images generated by frame-based cameras, which limits their performance in extreme cases, like huge illumination change. To tackle this problem, we introduce Dynamic Vision Sensor (DVS), a type of event-based sensor to lane marker extraction task and build a high-resolution DVS dataset for lane marker extraction. We collect the raw event data and generate 5,424 DVS images with a resolution of 1280$\times$800 pixels, the highest one among all DVS datasets available now. All images are annotated with multi-class semantic segmentation format. We then propose a structure-aware network for lane marker extraction in DVS images. It can capture directional information comprehensively with multidirectional slice convolution. We evaluate our proposed network with other state-of-the-art lane marker extraction models on this dataset. Experimental results demonstrate that our method outperforms other competitors. The dataset is made publicly available, including the raw event data, accumulated images and labels.
翻訳日:2022-10-30 17:19:32 公開日:2020-08-14
# 高次元最小二乗推定器におけるさらなるデータ処理

Provable More Data Hurt in High Dimensional Least Squares Estimator ( http://arxiv.org/abs/2008.06296v1 )

ライセンス: Link先を確認
Zeng Li, Chuanlong Xie, Qinwen Wang(参考訳) 本稿では,高次元最小二乗推定器の有限サンプル予測リスクについて検討する。 標本サイズと特徴数の両方が無限になる傾向がある場合の予測リスクに対する中央極限定理を導出する。 さらに、予測リスクの有限サンプル分布と信頼区間が提供される。 その結果, 予測リスクの非単調性が実証され, 「より多くのデータ損傷」 現象が確認された。

This paper investigates the finite-sample prediction risk of the high-dimensional least squares estimator. We derive the central limit theorem for the prediction risk when both the sample size and the number of features tend to infinity. Furthermore, the finite-sample distribution and the confidence interval of the prediction risk are provided. Our theoretical results demonstrate the sample-wise nonmonotonicity of the prediction risk and confirm "more data hurt" phenomenon.
翻訳日:2022-10-30 17:12:17 公開日:2020-08-14
# 実時間計画のためのサンプル効率クロスエントロピー法

Sample-efficient Cross-Entropy Method for Real-time Planning ( http://arxiv.org/abs/2008.06389v1 )

ライセンス: Link先を確認
Cristina Pinneri, Shambhuraj Sawant, Sebastian Blaes, Jan Achterhold, Joerg Stueckler, Michal Rolinek and Georg Martius(参考訳) クロスエントロピー法(cem)のようなモデルに基づく強化学習のための軌道最適化器は、高次元制御タスクやスパースワード環境においても説得力のある結果が得られる。 しかし、サンプリングの非効率さは、リアルタイムの計画と制御に使用できない。 高速計画のためのcemアルゴリズムの改良版を提案し,時間対応動作やメモリの追加,2.7~22倍のサンプル削減,高次元制御問題における1.2~10倍の性能向上などを行った。

Trajectory optimizers for model-based reinforcement learning, such as the Cross-Entropy Method (CEM), can yield compelling results even in high-dimensional control tasks and sparse-reward environments. However, their sampling inefficiency prevents them from being used for real-time planning and control. We propose an improved version of the CEM algorithm for fast planning, with novel additions including temporally-correlated actions and memory, requiring 2.7-22x less samples and yielding a performance increase of 1.2-10x in high-dimensional control problems.
翻訳日:2022-10-30 17:12:10 公開日:2020-08-14
# チ二乗微分に基づくPAC-Bayesian境界の最適後装とKL分割に基づく最適後装とクロスバリデーション法の比較

Optimal Posteriors for Chi-squared Divergence based PAC-Bayesian Bounds and Comparison with KL-divergence based Optimal Posteriors and Cross-Validation Procedure ( http://arxiv.org/abs/2008.07330v1 )

ライセンス: Link先を確認
Puja Sahu and Nandyala Hemachandra(参考訳) 本稿では,最近導入されたChi-squared divergence を用いた PAC-Bayesian bounds の分布特性,計算のスケーラビリティ,テストセットの性能について検討する。 有限分類器集合に対して、KL-発散、線型および平方距離の3つの距離関数の境界を導出する。 最適後重みは経験的リスクの偏差に比例し、通常は部分的な支持を伴う。 均一な事前の場合、これらのリスクによって順序付けられた分類器部分集合の後方を探索するのに十分である。 線形距離に対する境界最小化を凸プログラムとして示し,その最適後方に対する閉形式式を得る。 2乗距離のプログラムは特定の条件下で準凸プログラムであり、kl-divergenceのプログラムは非凸最適化(凸関数の違い)である。 このような最適後方を計算するために、高速収束固定点(FP)方程式を導出する。 これらの手法を有限個のSVM正規化パラメータ値に適用し,厳密な境界を持つ確率的SVMを生成する。 各種UCIデータセットを用いて, 最適後部と既知のKL偏差に基づく後方部との総合的な性能比較を行い, リスク値のばらつき等について検討した。 chi-squared divergence based posteriorsは、より弱い境界とより悪いテストエラーを有し、kl-divergence based posteriorsによる基盤となる規則化を示唆している。 PAC-Bayesian分類器の性能に及ぼす発散関数の影響について検討した。 確率的分類器とクロスバリデーションに基づく決定論的分類器を比較する。 後者はテストエラーがより優れているが、我々のサンプルはより堅牢で、定量化の保証があり、より高速である。

We investigate optimal posteriors for recently introduced \cite{begin2016pac} chi-squared divergence based PAC-Bayesian bounds in terms of nature of their distribution, scalability of computations, and test set performance. For a finite classifier set, we deduce bounds for three distance functions: KL-divergence, linear and squared distances. Optimal posterior weights are proportional to deviations of empirical risks, usually with subset support. For uniform prior, it is sufficient to search among posteriors on classifier subsets ordered by these risks. We show the bound minimization for linear distance as a convex program and obtain a closed-form expression for its optimal posterior. Whereas that for squared distance is a quasi-convex program under a specific condition, and the one for KL-divergence is non-convex optimization (a difference of convex functions). To compute such optimal posteriors, we derive fast converging fixed point (FP) equations. We apply these approaches to a finite set of SVM regularization parameter values to yield stochastic SVMs with tight bounds. We perform a comprehensive performance comparison between our optimal posteriors and known KL-divergence based posteriors on a variety of UCI datasets with varying ranges and variances in risk values, etc. Chi-squared divergence based posteriors have weaker bounds and worse test errors, hinting at an underlying regularization by KL-divergence based posteriors. Our study highlights the impact of divergence function on the performance of PAC-Bayesian classifiers. We compare our stochastic classifiers with cross-validation based deterministic classifier. The latter has better test errors, but ours is more sample robust, has quantifiable generalization guarantees, and is computationally much faster.
翻訳日:2022-10-30 17:12:00 公開日:2020-08-14
# 患者レベルの予測にはどの程度のデータが必要か?

How little data do we need for patient-level prediction? ( http://arxiv.org/abs/2008.07361v1 )

ライセンス: Link先を確認
Luis H. John, Jan A. Kors, Jenna M. Reps, Patrick B. Ryan, Peter R. Rijnbeek(参考訳) 目的: 適切なサンプルサイズを実証的に確立し,モデル性能の向上とモデル複雑性の低減と計算要件のバランスをとることにより,予測モデル開発のためのサンプルサイズ考慮に関するガイダンスを提供する。 材料と方法:3つの大規模観測健康データベースにおける81の予測問題に対する学習曲線を生成し、17,248の予測モデルのトレーニングを要し,サンプルサイズが予測性能とモデル複雑性に及ぼす影響を実証的に評価した。 適切なサンプルサイズは,モデルの性能が最大モデル性能と等しく,しきい値が小さくなるサンプルサイズとして定義した。 結果: 適切な試料サイズは、0.001から0.02の閾値に対して、9.5%から78.5%までの観測数の中央値の減少を達成する。 適切なサンプルサイズでのモデルにおける予測値の中央値の減少は、それぞれ8.6%と68.3%であった。 考察:本研究の結果から,今後の予測作業において,サンプルサイズとモデル複雑性の保守的かつ重要な削減が期待できる。 しかし、研究者が学習曲線を生成しようとすると、結果に依存した大きな変数によって示唆されるように、モデルの複雑さが大幅に減少する可能性がある。 結論: 結論: ほとんどの場合, 利用可能なデータのほんの一部が, 完全なデータセット上で開発されたモデルに近い性能のモデルを作成するのに十分であるが, モデルの複雑さは大幅に減少している。

Objective: Provide guidance on sample size considerations for developing predictive models by empirically establishing the adequate sample size, which balances the competing objectives of improving model performance and reducing model complexity as well as computational requirements. Materials and Methods: We empirically assess the effect of sample size on prediction performance and model complexity by generating learning curves for 81 prediction problems in three large observational health databases, requiring training of 17,248 prediction models. The adequate sample size was defined as the sample size for which the performance of a model equalled the maximum model performance minus a small threshold value. Results: The adequate sample size achieves a median reduction of the number of observations between 9.5% and 78.5% for threshold values between 0.001 and 0.02. The median reduction of the number of predictors in the models at the adequate sample size varied between 8.6% and 68.3%, respectively. Discussion: Based on our results a conservative, yet significant, reduction in sample size and model complexity can be estimated for future prediction work. Though, if a researcher is willing to generate a learning curve a much larger reduction of the model complexity may be possible as suggested by a large outcome-dependent variability. Conclusion: Our results suggest that in most cases only a fraction of the available data was sufficient to produce a model close to the performance of one developed on the full data set, but with a substantially reduced model complexity.
翻訳日:2022-10-30 17:11:31 公開日:2020-08-14
# 隠れマルコフモデルを用いたCOVID-19パンデミックのサーベイランス

Surveillance of COVID-19 Pandemic using Hidden Markov Model ( http://arxiv.org/abs/2008.07609v1 )

ライセンス: Link先を確認
Shreekanth M. Prabhu and Natarajan Subramaniam(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、ここ数カ月で世界中で停滞している。 特にパンデミックが拡大するペースは、全員を警戒から遠ざけてきた。 世界中の政府は、ロックダウンの実施、旅行の停止と制限、社会的距離の強制などに対応している。 正の面では、活動的な症例、回復状況、死亡状況に関する情報が地域ごとに幅広く収集されている。 しかし、特に困難なのは、スーパースプレッダーと呼ばれる無症状キャリアによる病気の拡散を追跡することである。 本稿では,拡散の程度をよりよく評価するために隠れマルコフモデルを適用することを検討する。 このような分析の結果は、政府が必要な介入/応答を校正的に設計するのに有用である。 私たちが分析に選んだデータはインドのシナリオに関するものです。

COVID-19 pandemic has brought the whole world to a stand-still over the last few months. In particular the pace at which pandemic has spread has taken everybody off-guard. The Governments across the world have responded by imposing lock-downs, stopping/restricting travel and mandating social distancing. On the positive side there is wide availability of information on active cases, recoveries and deaths collected daily across regions. However, what has been particularly challenging is to track the spread of the disease by asymptomatic carriers termed as super-spreaders. In this paper we look at applying Hidden Markov Model to get a better assessment of extent of spread. The outcome of such analysis can be useful to Governments to design the required interventions/responses in a calibrated manner. The data we have chosen to analyze pertains to Indian scenario.
翻訳日:2022-10-30 17:11:09 公開日:2020-08-14
# 無人航空機を用いた深部畳み込みニューラルネットワークによる自律走行検査方式の改良

An Improved Deep Convolutional Neural Network-Based Autonomous Road Inspection Scheme Using Unmanned Aerial Vehicles ( http://arxiv.org/abs/2008.06189v1 )

ライセンス: Link先を確認
Syed Ali Hassan, Tariq Rahim, Soo Young Shin(参考訳) 人工知能(AI)の進歩は、自律的なデバイスを開発する素晴らしい機会を提供する。 この研究の貢献は、改良された畳み込みニューラルネットワーク(cnn)モデルとその道路のひび割れ、ポットホール、イエローレーンの検出のための実装である。 黄色の車線検出・追跡の目的は、WIFIまたは5G媒体を介して道路の亀裂や穴を検知・報告しながら、黄色い車線を追従して無人航空機(UAV)の自律航法を実現することである。 独自のデータセットの作成は、複雑で時間のかかる作業である。 データセットは、デフォルトと改良されたモデルを使用して作成、ラベル付け、トレーニングされる。 これらのモデルの性能は、精度、平均平均精度(mAP)、検出時間に関してベンチマークされる。 実験では, 精度およびmAPに関して, 改良モデルの性能が良好であることが確認された。 改良されたモデルは、UAVフロントカメラによる道路の穴や亀裂をリアルタイムで検出するロボットオペレーティングシステムを用いて、UAVで実装されている。

Advancements in artificial intelligence (AI) gives a great opportunity to develop an autonomous devices. The contribution of this work is an improved convolutional neural network (CNN) model and its implementation for the detection of road cracks, potholes, and yellow lane in the road. The purpose of yellow lane detection and tracking is to realize autonomous navigation of unmanned aerial vehicle (UAV) by following yellow lane while detecting and reporting the road cracks and potholes to the server through WIFI or 5G medium. The fabrication of own data set is a hectic and time-consuming task. The data set is created, labeled and trained using default and an improved model. The performance of both these models is benchmarked with respect to accuracy, mean average precision (mAP) and detection time. In the testing phase, it was observed that the performance of the improved model is better in respect of accuracy and mAP. The improved model is implemented in UAV using the robot operating system for the autonomous detection of potholes and cracks in roads via UAV front camera vision in real-time.
翻訳日:2022-10-30 17:10:38 公開日:2020-08-14
# Rb-PaStaNet:ルールと状態に基づく簡単な人-物間相互作用検出

Rb-PaStaNet: A Few-Shot Human-Object Interaction Detection Based on Rules and Part States ( http://arxiv.org/abs/2008.06285v1 )

ライセンス: Link先を確認
Shenyu Zhang, Zichen Zhu, Qingquan Bao(参考訳) 既存のhuman-object interaction (hoi)検出アプローチは非rareクラスにおいて大きな進歩を遂げているが、希少なhoiクラスはまだ検出されていない。 本稿では,既存の作業に人間の事前知識を適用することを目的とする。 そこで我々は、PAStaNetに人間ラベル付きルールを追加し、レアHOIクラス検出の改善を目的としたRb-PaStaNetを提案する。 その結果,レアクラスは一定の改善が見られたが,非レアクラスと全体的な改善はより顕著である。

Existing Human-Object Interaction (HOI) Detection approaches have achieved great progress on nonrare classes while rare HOI classes are still not well-detected. In this paper, we intend to apply human prior knowledge into the existing work. So we add human-labeled rules to PaStaNet and propose Rb-PaStaNet aimed at improving rare HOI classes detection. Our results show a certain improvement of the rare classes, while the non-rare classes and the overall improvement is more considerable.
翻訳日:2022-10-30 17:10:21 公開日:2020-08-14
# デジタル病理学におけるXAI調査

Survey of XAI in digital pathology ( http://arxiv.org/abs/2008.06353v1 )

ライセンス: Link先を確認
Milda Pocevi\v{c}i\=ut\.e and Gabriel Eilertsen and Claes Lundstr\"om(参考訳) 人工知能(AI)は、診断画像アセスメントに非常に有望である。 しかし、臨床ルーチンにおける医療診断支援のためのAIの適用には、多くの課題が伴う。 アルゴリズムは高い予測精度を持つが、透明で理解しやすく信頼性も高い。 したがって、この領域には説明可能な人工知能(XAI)が深く関係している。 本稿では,デジタル病理学におけるXAIについて,特定の特徴とニーズを持つ医用画像のサブディシプリネであるXAIについて紹介する。 レビューにはいくつかのコントリビューションが含まれている。 まず,病理画像学における深層学習手法に関する現在のXAI技術の概要を概説し,これらを3つの異なる側面から分類する。 そこで我々は,XAIランドスケープの不可欠な部分として不確実性推定手法を取り入れた。 また,デジタル病理学における特定の前提条件と技術手法を結びつけ,今後の研究の方向性を示す。 この調査は、技術研究者と医療専門家の両方を対象としており、分野横断的な議論の共通基盤を確立することを目的としている。

Artificial intelligence (AI) has shown great promise for diagnostic imaging assessments. However, the application of AI to support medical diagnostics in clinical routine comes with many challenges. The algorithms should have high prediction accuracy but also be transparent, understandable and reliable. Thus, explainable artificial intelligence (XAI) is highly relevant for this domain. We present a survey on XAI within digital pathology, a medical imaging sub-discipline with particular characteristics and needs. The review includes several contributions. Firstly, we give a thorough overview of current XAI techniques of potential relevance for deep learning methods in pathology imaging, and categorise them from three different aspects. In doing so, we incorporate uncertainty estimation methods as an integral part of the XAI landscape. We also connect the technical methods to the specific prerequisites in digital pathology and present findings to guide future research efforts. The survey is intended for both technical researchers and medical professionals, one of the objectives being to establish a common ground for cross-disciplinary discussions.
翻訳日:2022-10-30 17:10:11 公開日:2020-08-14
# インスタンス変動コストによる二元化回帰:衝撃曲線による評価

Binarised Regression with Instance-Varying Costs: Evaluation using Impact Curves ( http://arxiv.org/abs/2008.07349v1 )

ライセンス: Link先を確認
Matthew Dirks, David Poole(参考訳) それぞれ特定の予測タスクに対して多くの評価方法が存在し、分類や回帰を含む一般的な予測タスクが多数存在する。 双項回帰では、二項決定は学習された回帰モデル(または実値依存変数)から生成される。 例えば、鉱業では、価値ある岩石と廃岩の境界は、時間によって異なる様々な金属の市場価格に依存する。 本稿では,2値化回帰をインスタンス変動コストで評価するための衝撃曲線を提案する。例えば,中級の銅鉱石よりも高品位の金岩を捨てる方がずっと悪い例もある。 医療、鉱業、エンターテイメントなど、さまざまな分野のインパクトカーブを構築する方法について説明する。 影響曲線は、選択されたユーティリティ関数のすべてのユーティリティでバイナリ決定を最適化し、あるモデルが他のモデルよりも好まれる条件を特定し、競合モデル間の改善を定量的に評価する。

Many evaluation methods exist, each for a particular prediction task, and there are a number of prediction tasks commonly performed including classification and regression. In binarised regression, binary decisions are generated from a learned regression model (or real-valued dependent variable), which is useful when the division between instances that should be predicted positive or negative depends on the utility. For example, in mining, the boundary between a valuable rock and a waste rock depends on the market price of various metals, which varies with time. This paper proposes impact curves to evaluate binarised regression with instance-varying costs, where some instances are much worse to be classified as positive (or negative) than other instances; e.g., it is much worse to throw away a high-grade gold rock than a medium-grade copper-ore rock, even if the mine wishes to keep both because both are profitable. We show how to construct an impact curve for a variety of domains, including examples from healthcare, mining, and entertainment. Impact curves optimize binary decisions across all utilities of the chosen utility function, identify the conditions where one model may be favoured over another, and quantitatively assess improvement between competing models.
翻訳日:2022-10-30 17:03:52 公開日:2020-08-14
# 音声と画像のマルチモーダルワンショットマッチングのための教師なし対転送学習

Unsupervised vs. transfer learning for multimodal one-shot matching of speech and images ( http://arxiv.org/abs/2008.06258v1 )

ライセンス: Link先を確認
Leanne Nortje, Herman Kamper(参考訳) マルチモーダルワンショット音声画像マッチングの課題について考察する。 エージェントは、画像中のオブジェクト、例えばクッキー、ブロッコリー、アイスクリームを記述する言葉とともに、画像を表示する。 クラス毎に1対の音声画像例を観察した後、目に見えない新しい画像のセットを示し、"ice-cream"を選択するように求めた。 教師付きモデルは、ワンショットクラスを含まないラベル付きバックグラウンドデータに基づいてトレーニングされます。 ここでは、ドメイン内データに基づいて訓練された教師なしモデルと比較する。 ペア化された音声と視覚の桁のデータセットでは、教師なしオートエンコーダのようなモデルと教師付き分類器とシームズニューラルネットワークを比較した。 ユニモーダルとマルチモーダルのマイトショットマッチング実験では、トランスファー学習が教師なしのトレーニングよりも優れていることが分かりました。 また,この2つの手法を組み合わせる実験を行ったが,トランスファー学習はいまだに最良であることがわかった(教師なし学習の利点を示す理想的実験は存在するが)。

We consider the task of multimodal one-shot speech-image matching. An agent is shown a picture along with a spoken word describing the object in the picture, e.g. cookie, broccoli and ice-cream. After observing one paired speech-image example per class, it is shown a new set of unseen pictures, and asked to pick the "ice-cream". Previous work attempted to tackle this problem using transfer learning: supervised models are trained on labelled background data not containing any of the one-shot classes. Here we compare transfer learning to unsupervised models trained on unlabelled in-domain data. On a dataset of paired isolated spoken and visual digits, we specifically compare unsupervised autoencoder-like models to supervised classifier and Siamese neural networks. In both unimodal and multimodal few-shot matching experiments, we find that transfer learning outperforms unsupervised training. We also present experiments towards combining the two methodologies, but find that transfer learning still performs best (despite idealised experiments showing the benefits of unsupervised learning).
翻訳日:2022-10-30 17:03:24 公開日:2020-08-14
# RODEO:オンラインオブジェクト検出のためのリプレイ

RODEO: Replay for Online Object Detection ( http://arxiv.org/abs/2008.06439v1 )

ライセンス: Link先を確認
Manoj Acharya, Tyler L. Hayes, Christopher Kanan(参考訳) 人間が新しい視覚検出タスクを段階的に学習することは、今日のコンピュータビジョンシステムにとって大きな課題だ。 本稿では、オブジェクト検出のためのオンラインストリーミング学習の先駆者であり、エージェントは厳しい記憶と計算上の制約を伴って、一度に1つの例を学習しなければならない。 オブジェクト検出では、システムは正しいラベルを持つ画像のすべてのバウンディングボックスを出力する必要がある。 従来とは違って,本論文で紹介したシステムでは,時間とともに新たなクラスが導入された上で,このタスクをオンラインで学習することができる。 シーン全体を効率よく再生する新しいメモリ再生機構を使用することで、この機能を実現する。 PASCAL VOC 2007 と MS COCO の両データセットから最先端の成果を得た。

Humans can incrementally learn to do new visual detection tasks, which is a huge challenge for today's computer vision systems. Incrementally trained deep learning models lack backwards transfer to previously seen classes and suffer from a phenomenon known as $"catastrophic forgetting."$ In this paper, we pioneer online streaming learning for object detection, where an agent must learn examples one at a time with severe memory and computational constraints. In object detection, a system must output all bounding boxes for an image with the correct label. Unlike earlier work, the system described in this paper can learn this task in an online manner with new classes being introduced over time. We achieve this capability by using a novel memory replay mechanism that efficiently replays entire scenes. We achieve state-of-the-art results on both the PASCAL VOC 2007 and MS COCO datasets.
翻訳日:2022-10-30 17:03:08 公開日:2020-08-14
# シミュレーションによる連続最適化ベンチマーク

Continuous Optimization Benchmarks by Simulation ( http://arxiv.org/abs/2008.06249v1 )

ライセンス: Link先を確認
Martin Zaefferer and Frederik Rehbach(参考訳) 最適化アルゴリズムのテスト、比較、チューニング、理解にはベンチマーク実験が必要である。 理想的には、ベンチマーク問題は現実世界の問題行動に密接に反映される。 しかし、実際の問題は必ずしもベンチマークで簡単に利用できない。 例えば、評価コストが高すぎる場合や、リソースが使用できない場合(ソフトウェアや機器など)もあります。 ソリューションとして、以前の評価から得られたデータは、その後ベンチマークに使用されるサロゲートモデルのトレーニングに使用できる。 目標は、アルゴリズムのパフォーマンスが実世界の目的関数と類似しているテスト関数を生成することである。 しかし、データ駆動モデルからの予測は、トレーニングデータが導出される地上構造よりも滑らかである傾向にある。 トレーニングデータがスパースになった場合、これは特に問題となる。 結果として得られたベンチマークは、地平線の景観的特徴を反映していないかもしれないし、簡単すぎるし、バイアスのある結論につながるかもしれない。 これを解決するために,推定(あるいは予測)の代わりにガウス過程のシミュレーションを用いる。 これはモデルトレーニング中に推定される共分散特性を保持する。 従来の研究は,小型離散問題に対する分解に基づくアプローチを提案してきたが,スペクトルシミュレーションにより連続最適化問題に対するシミュレーションが可能であった。 人工地盤を用いた一連の実験で、これは単にガウス過程モデルで予測するよりも正確なベンチマークが得られることを証明した。

Benchmark experiments are required to test, compare, tune, and understand optimization algorithms. Ideally, benchmark problems closely reflect real-world problem behavior. Yet, real-world problems are not always readily available for benchmarking. For example, evaluation costs may be too high, or resources are unavailable (e.g., software or equipment). As a solution, data from previous evaluations can be used to train surrogate models which are then used for benchmarking. The goal is to generate test functions on which the performance of an algorithm is similar to that on the real-world objective function. However, predictions from data-driven models tend to be smoother than the ground-truth from which the training data is derived. This is especially problematic when the training data becomes sparse. The resulting benchmarks may not reflect the landscape features of the ground-truth, are too easy, and may lead to biased conclusions. To resolve this, we use simulation of Gaussian processes instead of estimation (or prediction). This retains the covariance properties estimated during model training. While previous research suggested a decomposition-based approach for a small-scale, discrete problem, we show that the spectral simulation method enables simulation for continuous optimization problems. In a set of experiments with an artificial ground-truth, we demonstrate that this yields more accurate benchmarks than simply predicting with the Gaussian process model.
翻訳日:2022-10-30 17:02:09 公開日:2020-08-14
# LiFT: MLアプリケーションの公正性を測定するためのスケーラブルなフレームワーク

LiFT: A Scalable Framework for Measuring Fairness in ML Applications ( http://arxiv.org/abs/2008.07433v1 )

ライセンス: Link先を確認
Sriram Vasudevan, Krishnaram Kenthapadi(参考訳) 多くのインターネットアプリケーションは、通常、暗黙的/明示的なユーザーフィードバック信号または人間の判断によって得られるラベル付きデータセットで訓練される機械学習モデルで駆動される。 このようなデータセットの生成には社会的偏見が存在する可能性があるため、訓練されたモデルに偏見を与えることが可能であり、それによって潜在的な差別や不利なグループに害を与える可能性がある。 WebスケールのMLシステムにおけるアルゴリズムバイアスの理解と対処の必要性と既存のフェアネスツールキットの限界により、我々は大規模なMLシステムの一部としてのフェアネスメトリクスのスケーラブルな計算フレームワークであるLinkedIn Fairness Toolkit(LiFT)を紹介した。 デプロイ設定における重要な要件を強調し、公正度測定システムの設計を提示する。 フェアネスツールを実際に導入する際の課題と、LinkedInでのデプロイメント中に学んだ教訓について論じる。 最後に,実践経験に基づくオープンな問題を提案する。

Many internet applications are powered by machine learned models, which are usually trained on labeled datasets obtained through either implicit / explicit user feedback signals or human judgments. Since societal biases may be present in the generation of such datasets, it is possible for the trained models to be biased, thereby resulting in potential discrimination and harms for disadvantaged groups. Motivated by the need for understanding and addressing algorithmic bias in web-scale ML systems and the limitations of existing fairness toolkits, we present the LinkedIn Fairness Toolkit (LiFT), a framework for scalable computation of fairness metrics as part of large ML systems. We highlight the key requirements in deployed settings, and present the design of our fairness measurement system. We discuss the challenges encountered in incorporating fairness tools in practice and the lessons learned during deployment at LinkedIn. Finally, we provide open problems based on practical experience.
翻訳日:2022-10-30 17:01:34 公開日:2020-08-14
# 協調型マルチエージェント帯域のカーネル法

Kernel Methods for Cooperative Multi-Agent Contextual Bandits ( http://arxiv.org/abs/2008.06220v1 )

ライセンス: Link先を確認
Abhimanyu Dubey and Alex Pentland(参考訳) 協調マルチエージェント意思決定は、遅延のあるネットワーク上で通信しながら学習問題を協調的に解決するエージェントのグループを含む。 本稿では,エージェントが得る報酬は関連する再現核ヒルベルト空間 (rkhs) における文脈のイメージの任意の線形関数であり,エージェント群はそれらの特異な決定問題を解くために協力しなければならない,カーネル化された文脈バンディット問題を考える。 そこで本研究では,一人あたりの後悔に最適に近い境界を与えるアルゴリズムである \textsc{coop-kernelucb} を提案する。 協調問題の特別の場合、我々はまた最適な一人称後悔を与える \textsc{coop-kernelucb} の変種も提供する。 さらに,本アルゴリズムは,マルチエージェント帯域設定において既存のいくつかの結果を一般化する。 最後に,人工的および実世界のマルチエージェントネットワークベンチマークにおいて,本アルゴリズムが既存のベンチマークを大幅に上回っていることを示す。

Cooperative multi-agent decision making involves a group of agents cooperatively solving learning problems while communicating over a network with delays. In this paper, we consider the kernelised contextual bandit problem, where the reward obtained by an agent is an arbitrary linear function of the contexts' images in the related reproducing kernel Hilbert space (RKHS), and a group of agents must cooperate to collectively solve their unique decision problems. For this problem, we propose \textsc{Coop-KernelUCB}, an algorithm that provides near-optimal bounds on the per-agent regret, and is both computationally and communicatively efficient. For special cases of the cooperative problem, we also provide variants of \textsc{Coop-KernelUCB} that provides optimal per-agent regret. In addition, our algorithm generalizes several existing results in the multi-agent bandit setting. Finally, on a series of both synthetic and real-world multi-agent network benchmarks, we demonstrate that our algorithm significantly outperforms existing benchmarks.
翻訳日:2022-10-30 17:01:19 公開日:2020-08-14
# 重機を用いた多エージェントバンド

Cooperative Multi-Agent Bandits with Heavy Tails ( http://arxiv.org/abs/2008.06244v1 )

ライセンス: Link先を確認
Abhimanyu Dubey and Alex Pentland(参考訳) エージェント群が共通のバンディット問題と相互作用する協調マルチエージェント設定において,遅延のあるネットワーク上で通信しながらヘビーテールの確率バンディット問題を検討した。 この設定における確率的バンドイットの既存のアルゴリズムは、--\textit{running consensus}として知られる平均ベースの通信プロトコルから生じる信頼区間を利用する。 我々は,メッセージパッシングプロトコルにロバスト推定を組み込んだ協調確率バンディットのための分散マルチエージェントアルゴリズムである \textsc{mp-ucb} を提案する。 いくつかの問題設定に対して \textsc{MP-UCB} に対する最適後悔境界を証明し、既存の手法よりも優れていることを示す。 さらに,位置情報のロバストなバンディット推定のための効率的なアルゴリズムを提供するとともに,協調バンディット問題の第一下限を確立する。

We study the heavy-tailed stochastic bandit problem in the cooperative multi-agent setting, where a group of agents interact with a common bandit problem, while communicating on a network with delays. Existing algorithms for the stochastic bandit in this setting utilize confidence intervals arising from an averaging-based communication protocol known as~\textit{running consensus}, that does not lend itself to robust estimation for heavy-tailed settings. We propose \textsc{MP-UCB}, a decentralized multi-agent algorithm for the cooperative stochastic bandit that incorporates robust estimation with a message-passing protocol. We prove optimal regret bounds for \textsc{MP-UCB} for several problem settings, and also demonstrate its superiority to existing methods. Furthermore, we establish the first lower bounds for the cooperative bandit problem, in addition to providing efficient algorithms for robust bandit estimation of location.
翻訳日:2022-10-30 17:01:02 公開日:2020-08-14
# マルチモーダル臨床データ解析のための動的ディープニューラルネットワーク

A Dynamic Deep Neural Network For Multimodal Clinical Data Analysis ( http://arxiv.org/abs/2008.06294v1 )

ライセンス: Link先を確認
Maria H\"ugle, Gabriel Kalweit, Thomas Huegle and Joschka Boedecker(参考訳) 電子カルテ、登録、治験からの臨床データは、新しい疾患の表現型の発見や個別の疾患予測などにより、精密な医学を育むために機械学習手法を適用するための大量の情報を提供する。 しかしながら,臨床データのディープラーニング手法を最大限に活用するには,アーキテクチャが必要である。 1)欠落値と誤値に関して頑健であり、 2) 個々の診断,処置,測定,服薬処方の長期的依存関係や,高度に変動したリストを扱うことができる。 本稿では,この文脈において,完全接続型ニューラルネットワークと古典的機械学習手法の制約を詳述するとともに,前述の制約を緩和し,異なる事象の複数のリストを処理可能な,新しいリカレントニューラルネットワークアーキテクチャであるadaptivenetを提案する。 スイス臨床品質管理登録簿(swiss clinical quality management registry)を用いて,関節リウマチの疾患進行予測の課題として,10万人以上の患者と65万人以上の患者を登録した。 提案手法はよりコンパクトな表現をもたらし、古典的ベースラインより優れる。

Clinical data from electronic medical records, registries or trials provide a large source of information to apply machine learning methods in order to foster precision medicine, e.g. by finding new disease phenotypes or performing individual disease prediction. However, to take full advantage of deep learning methods on clinical data, architectures are necessary that 1) are robust with respect to missing and wrong values, and 2) can deal with highly variable-sized lists and long-term dependencies of individual diagnosis, procedures, measurements and medication prescriptions. In this work, we elaborate limitations of fully-connected neural networks and classical machine learning methods in this context and propose AdaptiveNet, a novel recurrent neural network architecture, which can deal with multiple lists of different events, alleviating the aforementioned limitations. We employ the architecture to the problem of disease progression prediction in rheumatoid arthritis using the Swiss Clinical Quality Management registry, which contains over 10.000 patients and more than 65.000 patient visits. Our proposed approach leads to more compact representations and outperforms the classical baselines.
翻訳日:2022-10-30 16:54:39 公開日:2020-08-14
# PAC-Bayes境界最小化による高パラメータ最適化

Efficient hyperparameter optimization by way of PAC-Bayes bound minimization ( http://arxiv.org/abs/2008.06431v1 )

ライセンス: Link先を確認
John J. Cherian, Andrew G. Taube, Robert T. McGibbon, Panagiotis Angelikopoulos, Guy Blanc, Michael Snarski, Daniel D. Richman, John L. Klepeis, David E. Shaw(参考訳) ハイパーパラメータの高次元集合に対する最適値の同定は、ニューラルネットワーク探索のような大規模機械学習アプリケーションの重要性から、注目を集めている問題である。 最近開発された最適化手法は数千から数百万のハイパーパラメータを選択できる。 しかし、そのような手法はしばしば過剰フィットモデルをもたらすため、見当たらないデータでは性能が低下する。 このオーバーフィッティングは、標準のハイパーパラメータ最適化目的関数を使用することによって得られると我々は主張する。 ここでは,期待外誤差に依存する確率的近似ベイズ(PAC-Bayes)と等価な別の目的を示す。 提案手法は他の勾配に基づくハイパーパラメータ最適化法と同等かそれ以上かそれ以上の漸近的空間と時間複雑性を有する。 本手法は,過度に適合しがちな過度パラメータ最適化問題に適用した場合,サンプル外誤差を著しく低減することを示す。

Identifying optimal values for a high-dimensional set of hyperparameters is a problem that has received growing attention given its importance to large-scale machine learning applications such as neural architecture search. Recently developed optimization methods can be used to select thousands or even millions of hyperparameters. Such methods often yield overfit models, however, leading to poor performance on unseen data. We argue that this overfitting results from using the standard hyperparameter optimization objective function. Here we present an alternative objective that is equivalent to a Probably Approximately Correct-Bayes (PAC-Bayes) bound on the expected out-of-sample error. We then devise an efficient gradient-based algorithm to minimize this objective; the proposed method has asymptotic space and time complexity equal to or better than other gradient-based hyperparameter optimization methods. We show that this new method significantly reduces out-of-sample error when applied to hyperparameter optimization problems known to be prone to overfitting.
翻訳日:2022-10-30 16:53:37 公開日:2020-08-14
# 投影的信念ネットワーククラスファイアー : 生成的・判別的

The Projected Belief Network Classfier : both Generative and Discriminative ( http://arxiv.org/abs/2008.06434v1 )

ライセンス: Link先を確認
Paul M Baggenstoss(参考訳) 予測信頼ネットワーク(PBN)は、求心性のある層状生成ネットワークであり、フィードフォワードニューラルネットワーク(FF-NN)に基づいている。 したがって、識別分類器と具体化を共有でき、両方のタイプのネットワークの最良の性質を継承することができる。 本稿では,完全識別と完全生成の両方が可能な畳み込み型PBNを構築し,音声コマンドのスペクトル上で検証する。 ネットワークは差別的あるいは生成的な視点から優れた品質を示す。 低次元隠れ変数からのランダムデータ合成と可視データ再構成を示し、分類器の性能は正規化判別ネットワークにアプローチする。 従来の識別型CNNと組み合わせることも示す。

The projected belief network (PBN) is a layered generative network with tractable likelihood function, and is based on a feed-forward neural network (FF-NN). It can therefore share an embodiment with a discriminative classifier and can inherit the best qualities of both types of network. In this paper, a convolutional PBN is constructed that is both fully discriminative and fully generative and is tested on spectrograms of spoken commands. It is shown that the network displays excellent qualities from either the discriminative or generative viewpoint. Random data synthesis and visible data reconstruction from low-dimensional hidden variables are shown, while classifier performance approaches that of a regularized discriminative network. Combination with a conventional discriminative CNN is also demonstrated.
翻訳日:2022-10-30 16:53:24 公開日:2020-08-14
# 指導率に基づくカリキュラム学習

Mastering Rate based Curriculum Learning ( http://arxiv.org/abs/2008.06456v1 )

ライセンス: Link先を確認
Lucas Willems, Salem Lahlou, Yoshua Bengio(参考訳) 最近の自動カリキュラム学習アルゴリズム、特にTeacher-Studentアルゴリズムは、学習の進行という概念に依存しており、次の良いタスクは学習者が最速の進歩または進歩を成し遂げるものであると仮定している。 そこで本研究では,まずこれらのアルゴリズムの簡易化と改良版を提案する。 次に,学習の進行という概念には,学習者のサンプル効率の低下につながるいくつかの欠点があることを論じる。 そこで我々は,学習進歩に基づくアルゴリズムを著しく上回る,マスタリング率の概念に基づく新しいアルゴリズムを提案する。

Recent automatic curriculum learning algorithms, and in particular Teacher-Student algorithms, rely on the notion of learning progress, making the assumption that the good next tasks are the ones on which the learner is making the fastest progress or digress. In this work, we first propose a simpler and improved version of these algorithms. We then argue that the notion of learning progress itself has several shortcomings that lead to a low sample efficiency for the learner. We finally propose a new algorithm, based on the notion of mastering rate, that significantly outperforms learning progress-based algorithms.
翻訳日:2022-10-30 16:53:11 公開日:2020-08-14
# プール型アクティブ分類と偽発見制御の新しい展望

A New Perspective on Pool-Based Active Classification and False-Discovery Control ( http://arxiv.org/abs/2008.06555v1 )

ライセンス: Link先を確認
Lalit Jain, Kevin Jamieson(参考訳) 多くの科学的環境では、偽の発見率(すなわち誤報)の低い条件下でできる限り多くの真の正を含む探索空間の領域を特定する過程を導くための適応的な実験設計が必要である。 探索空間のそのような領域は、0/1エラーを最小限に抑える予測セットとは大きく異なり、正確な識別には全く異なるサンプリング戦略が必要になる。 バイナリ分類のためのアクティブラーニングのように、この実験的な設計は事前選択を最適に行うことはできない。 しかし、0/1エラーの分類とは異なり、正の正の値と偽の発見率(FDR)の低い集合を見つけるためにデータを適応的に収集することはよく理解されていない。 本稿では,本問題に対する最初の有効サンプル適応アルゴリズムを提案する。 その過程で私たちは,分類とコンビネートバンド,fdrコントロールの相互貢献関係を強調する。

In many scientific settings there is a need for adaptive experimental design to guide the process of identifying regions of the search space that contain as many true positives as possible subject to a low rate of false discoveries (i.e. false alarms). Such regions of the search space could differ drastically from a predicted set that minimizes 0/1 error and accurate identification could require very different sampling strategies. Like active learning for binary classification, this experimental design cannot be optimally chosen a priori, but rather the data must be taken sequentially and adaptively. However, unlike classification with 0/1 error, collecting data adaptively to find a set with high true positive rate and low false discovery rate (FDR) is not as well understood. In this paper we provide the first provably sample efficient adaptive algorithm for this problem. Along the way we highlight connections between classification, combinatorial bandits, and FDR control making contributions to each.
翻訳日:2022-10-30 16:52:37 公開日:2020-08-14
# アフィン-ReLU関数の局所リプシッツ定数に関する解析的境界

Analytical bounds on the local Lipschitz constants of affine-ReLU functions ( http://arxiv.org/abs/2008.06141v1 )

ライセンス: Link先を確認
Trevor Avant, Kristi A. Morgansen(参考訳) 本稿では,正則線形単位(ReLUs)からなるアフィン関数の局所リプシッツ定数に関する解析的境界を決定する。 アフィン-ReLU関数は、畳み込み、完全連結、正規化関数がすべてアフィンであり、ReLUアクティベーション関数が続くため、ディープニューラルネットワークにおいて広く使われている層を表している。 解析的手法を用いて,アフィン-ReLU関数の局所リプシッツ定数の上界を数学的に決定し,これらの境界を結合してネットワーク全体の境界を決定する方法を示し,より大きな層やネットワークに対しても,その境界を効率的に計算する方法について議論する。 我々は、この結果をAlexNetに適用し、MNISTとCIFAR-10データセットに基づくいくつかの小さなネットワークを例示する。 その結果,本手法は標準の保守的境界(特に小さな摂動に対して,各層の線形行列のスペクトルノルムの積)よりも厳密な境界を生成することがわかった。

In this paper, we determine analytical bounds on the local Lipschitz constants of of affine functions composed with rectified linear units (ReLUs). Affine-ReLU functions represent a widely used layer in deep neural networks, due to the fact that convolution, fully-connected, and normalization functions are all affine, and are often followed by a ReLU activation function. Using an analytical approach, we mathematically determine upper bounds on the local Lipschitz constant of an affine-ReLU function, show how these bounds can be combined to determine a bound on an entire network, and discuss how the bounds can be efficiently computed, even for larger layers and networks. We show several examples by applying our results to AlexNet, as well as several smaller networks based on the MNIST and CIFAR-10 datasets. The results show that our method produces tighter bounds than the standard conservative bound (i.e. the product of the spectral norms of the layers' linear matrices), especially for small perturbations.
翻訳日:2022-10-30 16:45:55 公開日:2020-08-14
# 垂直分割データに対するフェデレーション2倍確率カーネル学習

Federated Doubly Stochastic Kernel Learning for Vertically Partitioned Data ( http://arxiv.org/abs/2008.06197v1 )

ライセンス: Link先を確認
Bin Gu, Zhiyuan Dang, Xiang Li, Heng Huang(参考訳) 多くの実世界のデータマイニングや機械学習アプリケーションでは、データは複数のプロバイダによって提供され、それぞれが共通のエンティティに関するさまざまな機能セットのプライベートレコードを保持する。 従来のデータマイニングや機械学習アルゴリズムのデータプライバシを維持しながら、垂直分割されたデータを効率的かつ効率的にトレーニングすることは難しい。 本稿では,カーネルを用いた非線形学習に着目し,垂直分割データに対するFDSKL(Federated Duubly Stochastic kernel Learning)アルゴリズムを提案する。 具体的には、ランダムな特徴を用いてカーネルマッピング関数を近似し、二重確率勾配を用いて解を更新する。 重要なことは、FDSKLがサブ線形収束率を持ち、半正直な仮定の下でデータセキュリティを保証できることである。 各種ベンチマークデータセットの大規模な実験結果から、FDSKLはカーネルを扱う際の最先端のフェデレーション学習手法よりも大幅に高速であり、同様の一般化性能を維持していることがわかった。

In a lot of real-world data mining and machine learning applications, data are provided by multiple providers and each maintains private records of different feature sets about common entities. It is challenging to train these vertically partitioned data effectively and efficiently while keeping data privacy for traditional data mining and machine learning algorithms. In this paper, we focus on nonlinear learning with kernels, and propose a federated doubly stochastic kernel learning (FDSKL) algorithm for vertically partitioned data. Specifically, we use random features to approximate the kernel mapping function and use doubly stochastic gradients to update the solutions, which are all computed federatedly without the disclosure of data. Importantly, we prove that FDSKL has a sublinear convergence rate, and can guarantee the data security under the semi-honest assumption. Extensive experimental results on a variety of benchmark datasets show that FDSKL is significantly faster than state-of-the-art federated learning methods when dealing with kernels, while retaining the similar generalization performance.
翻訳日:2022-10-30 16:45:36 公開日:2020-08-14
# ノイズラベル分類のどの戦略が重要か? 損失と不確実性への洞察

Which Strategies Matter for Noisy Label Classification? Insight into Loss and Uncertainty ( http://arxiv.org/abs/2008.06218v1 )

ライセンス: Link先を確認
Wonyoung Shin, Jung-Woo Ha, Shengzhe Li, Yongwoo Cho, Hoyean Song, Sunyoung Kwon(参考訳) ラベルノイズは、ディープニューラルネットワークの一般化性能を低下させる重要な要因であり、現実世界の問題で深刻な問題を引き起こす。 既存の研究では、ノイズラベルに対処するために損失または不確実性に基づく戦略を採用しており、皮肉なことにいくつかの戦略は互いに矛盾している。 対立する戦略がモデル性能を向上し,ノイズラベルによるトレーニングに対する洞察を提供するために,トレーニングプロセスを通じてサンプルの損失と不確実性値がどのように変化するか分析結果を示す。 詳細な分析から,損失と不確実性の両方を用いてノイズの影響を最小限に抑えつつ,クリーンで情報的なサンプルを強調する新しい堅牢なトレーニング手法を設計する。 各種深層学習モデルのための合成および実世界のデータセットに関する広範な実験により,本手法の有効性を実証する。 その結果,本手法は他の最先端手法を大幅に上回っており,ニューラルネットワークアーキテクチャによらず一般に利用可能であることがわかった。

Label noise is a critical factor that degrades the generalization performance of deep neural networks, thus leading to severe issues in real-world problems. Existing studies have employed strategies based on either loss or uncertainty to address noisy labels, and ironically some strategies contradict each other: emphasizing or discarding uncertain samples or concentrating on high or low loss samples. To elucidate how opposing strategies can enhance model performance and offer insights into training with noisy labels, we present analytical results on how loss and uncertainty values of samples change throughout the training process. From the in-depth analysis, we design a new robust training method that emphasizes clean and informative samples, while minimizing the influence of noise using both loss and uncertainty. We demonstrate the effectiveness of our method with extensive experiments on synthetic and real-world datasets for various deep learning models. The results show that our method significantly outperforms other state-of-the-art methods and can be used generally regardless of neural network architectures.
翻訳日:2022-10-30 16:44:18 公開日:2020-08-14
# 多人数垂直協調学習のためのプライバシー保護型非同期フェデレーション学習アルゴリズム

Privacy-Preserving Asynchronous Federated Learning Algorithms for Multi-Party Vertically Collaborative Learning ( http://arxiv.org/abs/2008.06233v1 )

ライセンス: Link先を確認
Bin Gu, An Xu, Zhouyuan Huo, Cheng Deng, Heng Huang(参考訳) 垂直に分割されたデータに対するプライバシー保護フェデレーション学習は、データ保持者(政府部門、プライベートファイナンス、e-ビジネス会社など)がデータを保持するために信頼できる第三者に頼るのではなく、学習プロセス全体を通して協力する、新たなマルチパーティ共同モデリングアプリケーションのソリューションとして有望な結果を示している。 しかし、垂直分割データに対する既存のフェデレーション学習アルゴリズムは同期計算に限られている。 フェデレーション学習システムでは,非バランスな計算/通信資源が当事者間で共通している場合,データのプライバシーを維持しつつ,垂直に分割する非同期トレーニングアルゴリズムを開発することが不可欠である。 本稿では,非同期フェデレーションSGD(AFSGD-VP)アルゴリズムとその垂直分割データ上でのSVRGおよびSAGA変種を提案する。 さらに,強い凸性条件下でのAFSGD-VPとそのSVRGおよびSAGAの収束解析について述べる。 また,モデルプライバシ,データプライバシ,計算複雑性,通信コストについても論じる。 我々の知る限り、AFSGD-VPとそのSVRGおよびSAGAの変種は、垂直分割データのための最初の非同期フェデレーション学習アルゴリズムである。 AFSGD-VPとそのSVRGとSAGAの変種の理論結果を検証するだけでなく、我々のアルゴリズムは対応する同期アルゴリズムよりもはるかに高い効率を示す。

The privacy-preserving federated learning for vertically partitioned data has shown promising results as the solution of the emerging multi-party joint modeling application, in which the data holders (such as government branches, private finance and e-business companies) collaborate throughout the learning process rather than relying on a trusted third party to hold data. However, existing federated learning algorithms for vertically partitioned data are limited to synchronous computation. To improve the efficiency when the unbalanced computation/communication resources are common among the parties in the federated learning system, it is essential to develop asynchronous training algorithms for vertically partitioned data while keeping the data privacy. In this paper, we propose an asynchronous federated SGD (AFSGD-VP) algorithm and its SVRG and SAGA variants on the vertically partitioned data. Moreover, we provide the convergence analyses of AFSGD-VP and its SVRG and SAGA variants under the condition of strong convexity. We also discuss their model privacy, data privacy, computational complexities and communication costs. To the best of our knowledge, AFSGD-VP and its SVRG and SAGA variants are the first asynchronous federated learning algorithms for vertically partitioned data. Extensive experimental results on a variety of vertically partitioned datasets not only verify the theoretical results of AFSGD-VP and its SVRG and SAGA variants, but also show that our algorithms have much higher efficiency than the corresponding synchronous algorithms.
翻訳日:2022-10-30 16:44:01 公開日:2020-08-14
# 領域適応のための局所離散性について

On Localized Discrepancy for Domain Adaptation ( http://arxiv.org/abs/2008.06242v1 )

ライセンス: Link先を確認
Yuchen Zhang, Mingsheng Long, Jianmin Wang, Michael I. Jordan(参考訳) 教師なし領域適応のための不一致に基づく一般化理論を提案する。 以前の理論は、完備仮説空間上の超越として定義される分布の不一致を導入した。 仮説空間は、リスクバウンドの不要な過大評価につながる仮説を含むかもしれない。 本稿では,局所化後の仮説空間上で定義される局所的不一致について検討する。 まず,これらの差異が望ましい特性を持つことを示す。 過度の不一致よりもはるかに小さい可能性がある。 2つの領域を交換するとそれらの値が異なるため、非対称な移動困難が明らかになる。 次に、これらの相違による一般化境界の改善を導出する。 以上の結果から,試料の複雑度に差が及ぼす可能性が示唆された。 最後に、スーパートランスファーを達成するための局所的な不一致をさらに拡張し、ソースドメインでさらにサンプル効率のよい一般化境界を導出します。

We propose the discrepancy-based generalization theories for unsupervised domain adaptation. Previous theories introduced distribution discrepancies defined as the supremum over complete hypothesis space. The hypothesis space may contain hypotheses that lead to unnecessary overestimation of the risk bound. This paper studies the localized discrepancies defined on the hypothesis space after localization. First, we show that these discrepancies have desirable properties. They could be significantly smaller than the pervious discrepancies. Their values will be different if we exchange the two domains, thus can reveal asymmetric transfer difficulties. Next, we derive improved generalization bounds with these discrepancies. We show that the discrepancies could influence the rate of the sample complexity. Finally, we further extend the localized discrepancies for achieving super transfer and derive generalization bounds that could be even more sample-efficient on source domain.
翻訳日:2022-10-30 16:43:37 公開日:2020-08-14
# Graph Polish: 分子最適化のための新しいグラフ生成パラダイム

Graph Polish: A Novel Graph Generation Paradigm for Molecular Optimization ( http://arxiv.org/abs/2008.06246v1 )

ライセンス: Link先を確認
Chaojie Ji, Yijia Zheng, Ruxin Wang, Yunpeng Cai and Hongyan Wu(参考訳) 特定の入力分子 x を望ましい性質で別の y に変換する分子最適化は、分子薬物の発見に必須である。 従来の翻訳手法では、いくつかの部分構造を1個ずつ加えることで分子グラフをスクラッチから生成し、最終的なターゲットに対して多数のステップで候補部分構造が多数存在するため、誤りを犯しやすい。 本研究では,従来の「二言語翻訳」タスクから「単言語研磨」タスクへ分子最適化を変換する新しい分子最適化パラダイムであるグラフポーランドを提案する。 この最適化パラダイムの鍵は、周囲の保存領域を最大化し、その後に削除され追加される領域を最小化すべきという条件に基づく最適化センターを見つけることである。 次に、最適化ステップにおける長期的依存関係を捉えるために、効果的で効率的な学習フレームワークT&S法を提案する。 T成分は最適化中心と分子の一部の保存、除去、付加を自動的に同定し、S成分はこれらの挙動を学習し、これらの作用を新しい分子に適用する。 さらに,提案手法は各分子最適化結果に対する直観的な解釈を提供することができる。 複数の最適化タスクによる実験は、4つのベンチマークデータセットで実施される。 提案したT&S研磨法は,全タスクにおける5つの最先端のベースライン法に対して大きな優位性が得られる。 さらに, 新たな最適化パラダイムの有効性, 説明可能性, 時間節約に関する広範な研究を行った。

Molecular optimization, which transforms a given input molecule X into another Y with desirable properties, is essential in molecular drug discovery. The traditional translating approaches, generating the molecular graphs from scratch by adding some substructures piece by piece, prone to error because of the large set of candidate substructures in a large number of steps to the final target. In this study, we present a novel molecular optimization paradigm, Graph Polish, which changes molecular optimization from the traditional "two-language translating" task into a "single-language polishing" task. The key to this optimization paradigm is to find an optimization center subject to the conditions that the preserved areas around it ought to be maximized and thereafter the removed and added regions should be minimized. We then propose an effective and efficient learning framework T&S polish to capture the long-term dependencies in the optimization steps. The T component automatically identifies and annotates the optimization centers and the preservation, removal and addition of some parts of the molecule, and the S component learns these behaviors and applies these actions to a new molecule. Furthermore, the proposed paradigm can offer an intuitive interpretation for each molecular optimization result. Experiments with multiple optimization tasks are conducted on four benchmark datasets. The proposed T&S polish approach achieves significant advantage over the five state-of-the-art baseline methods on all the tasks. In addition, extensive studies are conducted to validate the effectiveness, explainability and time saving of the novel optimization paradigm.
翻訳日:2022-10-30 16:43:27 公開日:2020-08-14
# 時間アンカーの統一表現から誘導されるサブレベル時間関係の分類による事象時間予測

Predicting Event Time by Classifying Sub-Level Temporal Relations Induced from a Unified Representation of Time Anchors ( http://arxiv.org/abs/2008.06452v1 )

ライセンス: Link先を確認
Fei Cheng and Yusuke Miyao(参考訳) ニュース記事からイベント時間を抽出するのは難しいが魅力的な作業だ。 最も既存の対方向の時間リンクアノテーションとは対照的に、reimers et al。 (2016)は各イベントの時刻アンカー(正確な時刻)に注釈を付けることを提案した。 彼らの作品は、シングルデイ/マルチデイおよび特定/未確認の離散表現を持つタイムアンカーを表している。 これにより、2つの時間アンカー間の時間関係のモデル化の複雑さが増し、アレンの区間代数の関係には分類できない(allen, 1990)。 本稿では,このような複雑な時間関係を,1日・マルチデイと不確実な時間アンカーに統一された四重項表現を導入することによって,下位関係に分解する有効な方法を提案する。 時間関係分類器は多ラベル分類方式で訓練される。 我々のアプローチのシステム構造は、複数のノード分類器で構成される既存の決定木モデル(reimers et al., 2018)よりもはるかに単純である。 この研究のもう1つの貢献は、既存のイベントタイムコーパス(36ニュースドキュメント)のデータ不足を克服するために、合理的なアノテーション間合意(iaa)を持つより大きなイベントタイムコーパス(256ニュースドキュメント)を構築することである。 実験の結果,本手法は最先端決定木モデルより優れ,データサイズの増加により性能が大幅に向上した。

Extracting event time from news articles is a challenging but attractive task. In contrast to the most existing pair-wised temporal link annotation, Reimers et al.(2016) proposed to annotate the time anchor (a.k.a. the exact time) of each event. Their work represents time anchors with discrete representations of Single-Day/Multi-Day and Certain/Uncertain. This increases the complexity of modeling the temporal relations between two time anchors, which cannot be categorized into the relations of Allen's interval algebra (Allen, 1990). In this paper, we propose an effective method to decompose such complex temporal relations into sub-level relations by introducing a unified quadruple representation for both Single-Day/Multi-Day and Certain/Uncertain time anchors. The temporal relation classifiers are trained in a multi-label classification manner. The system structure of our approach is much simpler than the existing decision tree model (Reimers et al., 2018), which is composed by a dozen of node classifiers. Another contribution of this work is to construct a larger event time corpus (256 news documents) with a reasonable Inter-Annotator Agreement (IAA), for the purpose of overcoming the data shortage of the existing event time corpus (36 news documents). The empirical results show our approach outperforms the state-of-the-art decision tree model and the increase of data size obtained a significant improvement of performance.
翻訳日:2022-10-30 16:34:31 公開日:2020-08-14