このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200817となっている論文です。

PDF登録状況(公開日: 20200817)

TitleAuthorsAbstract論文公表日・翻訳日
# i-flow: 正規化フローによる高次元統合とサンプリング

i-flow: High-dimensional Integration and Sampling with Normalizing Flows ( http://arxiv.org/abs/2001.05486v2 )

ライセンス: Link先を確認
Christina Gao, Joshua Isaacson, and Claudius Krause(参考訳) 多くの科学分野では、高次元の積分が必要である。 これらの複素積分を数値的に評価する手法が開発されている。 正規化フローを利用した高次元数値積分を行うピソンパッケージであるコードi-flowを紹介する。 正規化フローは2つの分布間の機械学習された単射写像である。 i-フローは高次元の複雑な分布に従ってランダムな点をサンプリングするのにも用いられる。 我々は,i-flowを高次元数値積分法と比較し,i-flowが高次元相関積分法よりも優れていることを示す。 i-flowコードはgitlabのhttps://gitlab.com/i-flow/i-flowで公開されている。

In many fields of science, high-dimensional integration is required. Numerical methods have been developed to evaluate these complex integrals. We introduce the code i-flow, a python package that performs high-dimensional numerical integration utilizing normalizing flows. Normalizing flows are machine-learned, bijective mappings between two distributions. i-flow can also be used to sample random points according to complicated distributions in high dimensions. We compare i-flow to other algorithms for high-dimensional numerical integration and show that i-flow outperforms them for high dimensional correlated integrals. The i-flow code is publicly available on gitlab at https://gitlab.com/i-flow/i-flow.
翻訳日:2023-01-11 06:15:12 公開日:2020-08-17
# マルコフサンプリングによるadam型強化学習アルゴリズムの非漸近収束

Non-asymptotic Convergence of Adam-type Reinforcement Learning Algorithms under Markovian Sampling ( http://arxiv.org/abs/2002.06286v2 )

ライセンス: Link先を確認
Huaqing Xiong, Tengyu Xu, Yingbin Liang, Wei Zhang(参考訳) 強化学習(RL)におけるアダムの幅広い応用にもかかわらず、アダム型RLアルゴリズムの理論的収束は確立されていない。 本稿では,AMSGrad更新(理論解析におけるAdamの標準代替品)を組み込んだ政策勾配(PG)と時間差(TD)学習の2つの基本RLアルゴリズムに対して,それぞれPG-AMSGradおよびTD-AMSGradと呼ばれる最初の収束解析を行う。 さらに,両アルゴリズムのマルコフサンプリングに着目した分析を行った。 一般的な非線形関数近似の下では、定数ステップを持つ pg-amsgrad は $\mathcal{o}(1/t)$ の率で定常点の近傍に収束し(ここで $t$ は反復数を表す)、減少ステップ化は $\mathcal{o}(\log^2 t/\sqrt{t})$ の速度で定常点に正確に収束する。 さらに、線型関数近似の下では、定数のステップを持つtd-amsgradは、$\mathcal{o}(1/t)$の率で大域的最適の近傍に収束し、減少するステップでは$\mathcal{o}(\log t/\sqrt{t})$の速度で大域的最適に収束する。 本研究では,マルコフサンプリングに基づくAdam型RLアルゴリズムの新たな解析手法を開発した。

Despite the wide applications of Adam in reinforcement learning (RL), the theoretical convergence of Adam-type RL algorithms has not been established. This paper provides the first such convergence analysis for two fundamental RL algorithms of policy gradient (PG) and temporal difference (TD) learning that incorporate AMSGrad updates (a standard alternative of Adam in theoretical analysis), referred to as PG-AMSGrad and TD-AMSGrad, respectively. Moreover, our analysis focuses on Markovian sampling for both algorithms. We show that under general nonlinear function approximation, PG-AMSGrad with a constant stepsize converges to a neighborhood of a stationary point at the rate of $\mathcal{O}(1/T)$ (where $T$ denotes the number of iterations), and with a diminishing stepsize converges exactly to a stationary point at the rate of $\mathcal{O}(\log^2 T/\sqrt{T})$. Furthermore, under linear function approximation, TD-AMSGrad with a constant stepsize converges to a neighborhood of the global optimum at the rate of $\mathcal{O}(1/T)$, and with a diminishing stepsize converges exactly to the global optimum at the rate of $\mathcal{O}(\log T/\sqrt{T})$. Our study develops new techniques for analyzing the Adam-type RL algorithms under Markovian sampling.
翻訳日:2022-12-31 23:01:27 公開日:2020-08-17
# ディープニューラルネットワークを用いたSARS-CoV-2阻害剤の大規模リガンドによる仮想スクリーニング

Large-scale ligand-based virtual screening for SARS-CoV-2 inhibitors using deep neural networks ( http://arxiv.org/abs/2004.00979v3 )

ライセンス: Link先を確認
Markus Hofmarcher, Andreas Mayr, Elisabeth Rumetshofer, Peter Ruch, Philipp Renz, Johannes Schimunek, Philipp Seidl, Andreu Vall, Michael Widrich, Sepp Hochreiter, G\"unter Klambauer(参考訳) 現在の重症急性呼吸器症候群ウイルス2(SARS-CoV-2)のパンデミックのため、新しい治療法や薬物が緊急に必要である。 我々はCoV-2阻害物質である小分子の大規模仮想スクリーニングを行った。 そこで我々は,3つの薬品発見データベースから3.6mの分子にまたがる220m以上のデータポイントで学習された深層ニューラルネットワーク「chemai」を用いた。 我々はChemAIを用いて、CoV-2に対する好ましい効果のために、ZINCデータベースから10億の分子をスクリーニングし、ランク付けした。 結果は、ZINCデータベースを介して容易にアクセス可能で購入可能な3万種のトップランク化合物に還元した。 さらに私たちは、ChemAIを使って薬物再服用を可能にするため、薬物バンクをスクリーニングしました。 我々は,ZINC および DrugBank の上位化合物を https://github.com/ml-jku/sars-cov-inhibitors-chemai

Due to the current severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) pandemic, there is an urgent need for novel therapies and drugs. We conducted a large-scale virtual screening for small molecules that are potential CoV-2 inhibitors. To this end, we utilized "ChemAI", a deep neural network trained on more than 220M data points across 3.6M molecules from three public drug-discovery databases. With ChemAI, we screened and ranked one billion molecules from the ZINC database for favourable effects against CoV-2. We then reduced the result to the 30,000 top-ranked compounds, which are readily accessible and purchasable via the ZINC database. Additionally, we screened the DrugBank using ChemAI to allow for drug repurposing, which would be a fast way towards a therapy. We provide these top-ranked compounds of ZINC and DrugBank as a library for further screening with bioassays at https://github.com/ml-jku/sars-cov-inhibitors-chemai.
翻訳日:2022-12-20 03:15:26 公開日:2020-08-17
# 部分観測可能マルチエージェント強化学習における情報状態埋め込み

Information State Embedding in Partially Observable Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2004.01098v3 )

ライセンス: Link先を確認
Weichao Mao, Kaiqing Zhang, Erik Miehling, Tamer Ba\c{s}ar(参考訳) 部分観測可能性下でのマルチエージェント強化学習(MARL)は、主に各エージェントが他のエージェントの局所的履歴(一般的に時間とともに指数関数的に成長する領域)に対する信念を維持する必要があるため、長い間難しいと考えられてきた。 本研究では,エージェントが協調する部分観測可能なmarl問題について検討する。 移動可能なアルゴリズムの開発を可能にするために,エージェントの履歴圧縮に役立つ情報状態埋め込みの概念を導入する。 圧縮誤差が分散制御における結果値関数に与える影響を定量化する。 さらに,リカレントニューラルネットワーク(recurrent neural networks:rnns)に基づく組込みの例を提案する。 埋め込みは近似情報状態として使用され、任意のMARLアルゴリズムに入力することができる。 提案されているembed-then-learnパイプラインは、既存の(部分的に可観測な)marlアルゴリズムのブラックボックスを開き、いくつかの理論的保証(値関数のエラー境界)を確立できると同時に、多くのエンドツーエンドアプローチで競争力の高いパフォーマンスを実現します。

Multi-agent reinforcement learning (MARL) under partial observability has long been considered challenging, primarily due to the requirement for each agent to maintain a belief over all other agents' local histories -- a domain that generally grows exponentially over time. In this work, we investigate a partially observable MARL problem in which agents are cooperative. To enable the development of tractable algorithms, we introduce the concept of an information state embedding that serves to compress agents' histories. We quantify how the compression error influences the resulting value functions for decentralized control. Furthermore, we propose an instance of the embedding based on recurrent neural networks (RNNs). The embedding is then used as an approximate information state, and can be fed into any MARL algorithm. The proposed embed-then-learn pipeline opens the black-box of existing (partially observable) MARL algorithms, allowing us to establish some theoretical guarantees (error bounds of value functions) while still achieving competitive performance with many end-to-end approaches.
翻訳日:2022-12-17 09:55:48 公開日:2020-08-17
# MRQy:MRイメージングデータの品質管理のためのオープンソースツール

MRQy: An Open-Source Tool for Quality Control of MR Imaging Data ( http://arxiv.org/abs/2004.04871v3 )

ライセンス: Link先を確認
Amir Reza Sadri, Andrew Janowczyk, Ren Zou, Ruchika Verma, Niha Beig, Jacob Antunes, Anant Madabhushi, Pallavi Tiwari, Satish E. Viswanath(参考訳) 我々は,大規模なMRI画像コホート(例えば,The Cancer Imaging Archive(TCIA))の内および間におけるMRIボリュームの相対的差を迅速に判定する定量的ツールの開発を試みた。 このツールは、存在を定量化するのに役立つ (a)画像解像度、視野又は画像コントラストのサイト又はスキャナ固有のバリエーション (b)ノイズ、動き、不均一性、リンギング、エイリアスなどの画像アーティファクトは、データコホート間の相対的画像品質に悪影響を及ぼす可能性がある。 オープンソースの新しい品質管理ツールMRQyを紹介します。 (a)現場・機器による相違点をMRIコホートに問う、 b)MRIアーチファクトが相対的な画像品質に与える影響を定量化する。 MRQyは、ノイズ比、変動指標、エントロピー、エネルギー基準など)とMR画像メタデータ(ボクセル解像度、画像次元など)を、リアルタイムフィルタリングとトレンド視覚化のために設計されたHTML5ベースのフロントエンドを通じて抽出する。 MRQy は (a)TCIA(7部位)からのn=133脳MRI、および (b)n=104直腸MRI(3部位)。 MRQy測定では両コホートに有意な部位特異的な変動がみられた。 特定のMRQy測定値の違いは、一般的なMRイメージングアーティファクトの修正が必要な、より低いMRIデータセットを特定することもできた。 MRQyはスタンドアロンで教師なしのツールとして設計されており、標準デスクトップコンピュータ上で効率的に実行できる。 より広いコミュニティ利用とフィードバックのために、 \url{http://github.com/ccipd/MRQy}で自由にアクセスできるようになった。

We sought to develop a quantitative tool to quickly determine relative differences in MRI volumes both within and between large MR imaging cohorts (such as available in The Cancer Imaging Archive (TCIA)), in order to help determine the generalizability of radiomics and machine learning schemes to unseen datasets. The tool is intended to help quantify presence of (a) site- or scanner-specific variations in image resolution, field-of-view, or image contrast, or (b) imaging artifacts such as noise, motion, inhomogeneity, ringing, or aliasing; which can adversely affect relative image quality between data cohorts. We present MRQy, a new open-source quality control tool to (a) interrogate MRI cohorts for site- or equipment-based differences, and (b) quantify the impact of MRI artifacts on relative image quality; to help determine how to correct for these variations prior to model development. MRQy extracts a series of quality measures (e.g. noise ratios, variation metrics, entropy and energy criteria) and MR image metadata (e.g. voxel resolution, image dimensions) for subsequent interrogation via a specialized HTML5 based front-end designed for real-time filtering and trend visualization. MRQy was used to evaluate (a) n=133 brain MRIs from TCIA (7 sites), and (b) n=104 rectal MRIs (3 local sites). MRQy measures revealed significant site-specific variations in both cohorts, indicating potential batch effects. Marked differences in specific MRQy measures were also able to identify outlier MRI datasets that needed to be corrected for common MR imaging artifacts. MRQy is designed to be a standalone, unsupervised tool that can be efficiently run on a standard desktop computer. It has been made freely accessible at \url{http://github.com/ccipd/MRQy} for wider community use and feedback.
翻訳日:2022-12-14 20:54:55 公開日:2020-08-17
# オフトピック音声応答検出のためのゲート畳み込み2方向注意モデル

Gated Convolutional Bidirectional Attention-based Model for Off-topic Spoken Response Detection ( http://arxiv.org/abs/2004.09036v4 )

ライセンス: Link先を確認
Yefei Zha, Ruobing Li, Hui Lin(参考訳) 自動発話アセスメントシステムにおいて,応答が応答のオフトピー的かどうかを予測するタスクであるオフトピー音声応答検出が重要である。 実世界の多くの教育用アプリケーションでは、オフトピックの音声応答検出器は、見られるプロンプトだけでなく、トレーニング中に目に見えないプロンプトに対しても高いリコールを達成するために必要である。 本稿では,未発見のプロンプトに対して高いオフトピックリコールを伴う,オフトピック音声応答検出のための新しい手法を提案する。 Gated Convolutional Bidirectional Attention-based Model (GCBiA) と呼ばれる新しいモデルを導入し、応答のプロンプトとキーフレーズのトピックワードを抽出し、応答とプロンプトの関連性をよりよく表すために主要層間のゲートユニットと残余接続を導入する。 さらに,トレーニングデータを増やすために,新たなネガティブサンプリング手法を提案する。 実験の結果,本手法は,非常に高いオントピックリコールを伴うオフトピック応答の検出において,視認可能なプロンプトと未発見プロンプトの両方において有意な改善が得られた。

Off-topic spoken response detection, the task aiming at predicting whether a response is off-topic for the corresponding prompt, is important for an automated speaking assessment system. In many real-world educational applications, off-topic spoken response detectors are required to achieve high recall for off-topic responses not only on seen prompts but also on prompts that are unseen during training. In this paper, we propose a novel approach for off-topic spoken response detection with high off-topic recall on both seen and unseen prompts. We introduce a new model, Gated Convolutional Bidirectional Attention-based Model (GCBiA), which applies bi-attention mechanism and convolutions to extract topic words of prompts and key-phrases of responses, and introduces gated unit and residual connections between major layers to better represent the relevance of responses and prompts. Moreover, a new negative sampling method is proposed to augment training data. Experiment results demonstrate that our novel approach can achieve significant improvements in detecting off-topic responses with extremely high on-topic recall, for both seen and unseen prompts.
翻訳日:2022-12-11 18:01:34 公開日:2020-08-17
# ドメイン間の自己監督型学習の拡張と分析

Extending and Analyzing Self-Supervised Learning Across Domains ( http://arxiv.org/abs/2004.11992v2 )

ライセンス: Link先を確認
Bram Wallace, Bharath Hariharan(参考訳) 自己教師付き表現学習は近年、imagenetや他の大規模インターネット画像データセットで実験を行い、印象的な成果を上げている。 他の小さな領域(衛星、テクストラル、生物画像など)では、これらの手法がほとんど、あるいは全く使われていない。 我々は前例のない様々な領域でいくつかの一般的な手法を試す。 我々は、Rotationがはるかに意味のあるタスクであり、Jigsawとインスタンス識別のパフォーマンスは、意味論的理解よりも誘導された分散の性質に起因していることを発見した。 さらに、細粒度分類など、すべてのタスクがパフォーマンスの悪い領域もいくつかある。 我々は,前文一般化,ランダムラベリング,暗黙的次元に関する新しい実験を通じて,これらの失敗と成功の理由を定量的に定性的に診断する。 コードとモデルはhttps://github.com/BramSW/Extending_SSRL_Across_Domains/で公開されている。

Self-supervised representation learning has achieved impressive results in recent years, with experiments primarily coming on ImageNet or other similarly large internet imagery datasets. There has been little to no work with these methods on other smaller domains, such as satellite, textural, or biological imagery. We experiment with several popular methods on an unprecedented variety of domains. We discover, among other findings, that Rotation is by far the most semantically meaningful task, with much of the performance of Jigsaw and Instance Discrimination being attributable to the nature of their induced distribution rather than semantic understanding. Additionally, there are several areas, such as fine-grain classification, where all tasks underperform. We quantitatively and qualitatively diagnose the reasons for these failures and successes via novel experiments studying pretext generalization, random labelings, and implicit dimensionality. Code and models are available at https://github.com/BramSW/Extending_SSRL_Across_Domains/.
翻訳日:2022-12-10 02:48:52 公開日:2020-08-17
# Buchbergerアルゴリズムにおける学習選択戦略

Learning selection strategies in Buchberger's algorithm ( http://arxiv.org/abs/2005.01917v3 )

ライセンス: Link先を確認
Dylan Peifer, Michael Stillman, Daniel Halpern-Leistner(参考訳) 多項式方程式の系の厳密解の集合の研究は、ブッチベルガーのアルゴリズムとして知られる1つの反復アルゴリズムに大きく依存する。 このアルゴリズムの最適化版は、多くの計算機代数学システム(例えば、mathematica, maple, sage)にとって重要である。 本稿では,強化学習エージェントを用いてSペア選択を行うBuchbergerのアルゴリズムに新たなアプローチを導入する。 次に、問題の難易度は、ほとんど知られていない多項式の領域の選択と分布に依存するかを研究する。 最後に、近似ポリシ最適化(PPO)を用いてポリシーモデルをトレーニングし、二項方程式のランダムシステムに対するSペア選択戦略を学習する。 特定の領域において、トレーニングされたモデルは、実行された多項式加算の総数において最先端の選択ヒューリスティックよりも優れており、近年の機械学習の発展は、シンボリック計算におけるアルゴリズムの性能を向上させる可能性があるという概念実証を提供する。

Studying the set of exact solutions of a system of polynomial equations largely depends on a single iterative algorithm, known as Buchberger's algorithm. Optimized versions of this algorithm are crucial for many computer algebra systems (e.g., Mathematica, Maple, Sage). We introduce a new approach to Buchberger's algorithm that uses reinforcement learning agents to perform S-pair selection, a key step in the algorithm. We then study how the difficulty of the problem depends on the choices of domain and distribution of polynomials, about which little is known. Finally, we train a policy model using proximal policy optimization (PPO) to learn S-pair selection strategies for random systems of binomial equations. In certain domains, the trained model outperforms state-of-the-art selection heuristics in total number of polynomial additions performed, which provides a proof-of-concept that recent developments in machine learning have the potential to improve performance of algorithms in symbolic computation.
翻訳日:2022-12-06 13:59:24 公開日:2020-08-17
# 奇抜な階層的アクター・クリティカル強化学習

Curious Hierarchical Actor-Critic Reinforcement Learning ( http://arxiv.org/abs/2005.03420v3 )

ライセンス: Link先を確認
Frank R\"oder, Manfred Eppe, Phuong D.H. Nguyen and Stefan Wermter(参考訳) 階層的抽象化と好奇心を駆使した探索は、現在の強化学習アプローチにおいて、難しい問題を単純な問題列に分割し、報酬の幅を克服する2つの共通のパラダイムである。 しかし、これらのパラダイムを結合するアプローチが欠如しており、キュリオシティが階層的な抽象化を実行するのに役立つかどうかは現在不明である。 新しくて科学的な貢献として,この問題に取り組み,階層的強化学習と好奇心を組み合わせる手法を開発した。 ここでは,現代的階層的アクター批判的アプローチをフォワードモデルで拡張し,好奇心の階層的概念を開発する。 我々は、好奇心が学習性能と成功率を2倍以上にできるいくつかの連続空間環境において、調査されたベンチマーク問題の大部分について示す。 ソースコードと補足ビデオも提供しています。

Hierarchical abstraction and curiosity-driven exploration are two common paradigms in current reinforcement learning approaches to break down difficult problems into a sequence of simpler ones and to overcome reward sparsity. However, there is a lack of approaches that combine these paradigms, and it is currently unknown whether curiosity also helps to perform the hierarchical abstraction. As a novelty and scientific contribution, we tackle this issue and develop a method that combines hierarchical reinforcement learning with curiosity. Herein, we extend a contemporary hierarchical actor-critic approach with a forward model to develop a hierarchical notion of curiosity. We demonstrate in several continuous-space environments that curiosity can more than double the learning performance and success rates for most of the investigated benchmarking problems. We also provide our source code and a supplementary video.
翻訳日:2022-12-05 23:08:16 公開日:2020-08-17
# cone-align: 近接保存ノード埋め込みによる一貫性のあるネットワークアライメント

CONE-Align: Consistent Network Alignment with Proximity-Preserving Node Embedding ( http://arxiv.org/abs/2005.04725v2 )

ライセンス: Link先を確認
Xiyuan Chen, Mark Heimann, Fatemeh Vahedian, Danai Koutra(参考訳) ネットワークアライメントは、異なるグラフのノード間の対応を見つけるプロセスであり、多くの科学的、産業的な応用がある。 既存の教師なしネットワークアライメント手法では、ノード近傍を分割する準最適アライメントを見つける。 そこで本研究では,ネットワーク内近接をノード埋め込みとモデル化し,それらをネットワーク間のノードマッチングに用いたconan-alignを提案する。 多様な挑戦的なデータセットの実験では、CONE-Alignは堅牢であり、非常にノイズの多い環境で最高のパフォーマンスのグラフアライメントアルゴリズムよりも平均19.25%高い精度が得られる。

Network alignment, the process of finding correspondences between nodes in different graphs, has many scientific and industrial applications. Existing unsupervised network alignment methods find suboptimal alignments that break up node neighborhoods, i.e. do not preserve matched neighborhood consistency. To improve this, we propose CONE-Align, which models intra-network proximity with node embeddings and uses them to match nodes across networks after aligning the embedding subspaces. Experiments on diverse, challenging datasets show that CONE-Align is robust and obtains 19.25% greater accuracy on average than the best-performing state-of-the-art graph alignment algorithm in highly noisy settings.
翻訳日:2022-12-05 02:14:15 公開日:2020-08-17
# 単語予測のためのフェデレーションテキストモデルの事前学習

Pretraining Federated Text Models for Next Word Prediction ( http://arxiv.org/abs/2005.04828v3 )

ライセンス: Link先を確認
Joel Stremmel and Arjun Singh(参考訳) フェデレーション学習(federated learning)は、分散デバイス上でモデルをトレーニングするための、分散的なアプローチである。ローカルな変更を要約し、データそのものではなく、ローカルモデルからクラウドに集約パラメータを送信する。 本研究では、次の単語予測(NWP)のためのフェデレーショントレーニングへのトランスファーラーニングの考え方を採用し、フェデレーションNWPモデルが成功した現在のベースラインの強化を示す実験を多数実施する。 具体的には、ランダムに初期化されたモデルからのフェデレーショントレーニングベースラインと、事前トレーニングされた単語埋め込みやモデル全体の事前トレーニングを含む、さまざまな事前トレーニングアプローチの組み合わせを比較し、スタックオーバーフローポストのデータセット上でnwpのフェデレーション微調整を行う。 必要なトレーニングラウンド数やメモリフットプリントを悪化させることなく,事前学習した組込みによるパフォーマンス向上を実現している。 また、特に使用するデータセットに応じて、集中的に事前訓練されたネットワークを用いて顕著な差異を観察する。 私たちの研究は、フェデレーションnwpを効果的だが安価に改善し、フェデレーション学習のための転校学習技術のより厳密な実験への道を開きます。

Federated learning is a decentralized approach for training models on distributed devices, by summarizing local changes and sending aggregate parameters from local models to the cloud rather than the data itself. In this research we employ the idea of transfer learning to federated training for next word prediction (NWP) and conduct a number of experiments demonstrating enhancements to current baselines for which federated NWP models have been successful. Specifically, we compare federated training baselines from randomly initialized models to various combinations of pretraining approaches including pretrained word embeddings and whole model pretraining followed by federated fine tuning for NWP on a dataset of Stack Overflow posts. We realize lift in performance using pretrained embeddings without exacerbating the number of required training rounds or memory footprint. We also observe notable differences using centrally pretrained networks, especially depending on the datasets used. Our research offers effective, yet inexpensive, improvements to federated NWP and paves the way for more rigorous experimentation of transfer learning techniques for federated learning.
翻訳日:2022-12-04 19:35:43 公開日:2020-08-17
# モバイルデバイスにおけるDeep Metric Learningを用いた行動バイオメトリック認証のためのフレームワーク

A Framework for Behavioral Biometric Authentication using Deep Metric Learning on Mobile Devices ( http://arxiv.org/abs/2005.12901v2 )

ライセンス: Link先を確認
Cong Wang, Yanru Xiao, Xing Gao, Li Li, Jun Wang(参考訳) 行動バイオメトリックスを用いたモバイル認証は活発な研究分野である。 既存の研究は、個人のユニークなパターンを認識する機械学習分類器の構築に依存している。 しかし、これらの分類器は識別的特徴を学ぶほど強力ではない。 モバイルデバイスに実装されると、振る舞いのダイナミクス、データのプライバシ、サイドチャネルリークといった新たな課題に直面する。 これらの課題に対処するために,我々は,バッテリ駆動のモバイルデバイスにトレーニングを組み込むための新しいフレームワークを提案する。 分類問題を深度検定学習に再フォーマットし,識別能力を向上させるとともに,センサ信号にノイズシグネチャを埋め込むことにより,ユーザビリティを損なうことなく,サイドチャネルリークを阻止する効果的な対策を設計する。 実験では、3つの公開データセットで95%以上の認証精度を示す。データの少ないマルチクラス分類による15%以上の向上と、それぞれ99%と90%の成功率を持つブルートフォース攻撃とサイドチャネル攻撃に対する堅牢性を示す。 モバイルCPUによるトレーニングの実現可能性を示す。100エポックのトレーニングは10分未満で,機能移行によって3~5倍に向上する。 最後に、メモリ、エネルギー、計算オーバーヘッドをプロファイリングする。 その結果,トレーニングはビデオ視聴よりも低エネルギーを消費し,ゲームよりも若干エネルギーを消費することがわかった。

Mobile authentication using behavioral biometrics has been an active area of research. Existing research relies on building machine learning classifiers to recognize an individual's unique patterns. However, these classifiers are not powerful enough to learn the discriminative features. When implemented on the mobile devices, they face new challenges from the behavioral dynamics, data privacy and side-channel leaks. To address these challenges, we present a new framework to incorporate training on battery-powered mobile devices, so private data never leaves the device and training can be flexibly scheduled to adapt the behavioral patterns at runtime. We re-formulate the classification problem into deep metric learning to improve the discriminative power and design an effective countermeasure to thwart side-channel leaks by embedding a noise signature in the sensing signals without sacrificing too much usability. The experiments demonstrate authentication accuracy over 95% on three public datasets, a sheer 15% gain from multi-class classification with less data and robustness against brute-force and side-channel attacks with 99% and 90% success, respectively. We show the feasibility of training with mobile CPUs, where training 100 epochs takes less than 10 mins and can be boosted 3-5 times with feature transfer. Finally, we profile memory, energy and computational overhead. Our results indicate that training consumes lower energy than watching videos and slightly higher energy than playing games.
翻訳日:2022-11-28 23:40:06 公開日:2020-08-17
# 何か食べさせる:常識知識による表現理解を参照すること

Give Me Something to Eat: Referring Expression Comprehension with Commonsense Knowledge ( http://arxiv.org/abs/2006.01629v2 )

ライセンス: Link先を確認
Peng Wang, Dongyang Liu, Hui Li and Qi Wu(参考訳) 従来の参照表現理解(REF)では、視覚的外観や空間的位置を記述して画像から何かをクエリすることを前提としていますが、実際には、特に正確なターゲットを持たない場合には、その可視性や他の非視覚的属性を記述することで、オブジェクトを要求します。 例えば「何か食べるものをくれ」と言うこともある。 この場合、イメージ内のオブジェクトを識別するためにcommonsenseの知識を使用する必要があります。 残念ながら、これらは、この要件を反映した既存の参照式データセットではない。 本稿では,16k画像上に43k表現を含む新しい参照表現データセットkb-refを収集する。 kb-refでは、各式に答える(式で参照される対象オブジェクトを検出する)には、少なくとも1つの常識知識が必要である。 次に、kb-refで最先端(sota)refモデルをテストし、一般的なrefデータセットでの優れたパフォーマンスと比較すると、これらすべてが大きな低下を示した。 また、相関画像領域と常識知識事実から情報を抽出する表現条件付き画像・事実注意ネットワーク(ECIFA)を提案する。 提案手法はSoTA REFモデルよりも大幅に改善されているが,この強力なベースラインと人的性能の間にはまだ差がある。 データセットとベースラインモデルがリリースされる。

Conventional referring expression comprehension (REF) assumes people to query something from an image by describing its visual appearance and spatial location, but in practice, we often ask for an object by describing its affordance or other non-visual attributes, especially when we do not have a precise target. For example, sometimes we say 'Give me something to eat'. In this case, we need to use commonsense knowledge to identify the objects in the image. Unfortunately, these is no existing referring expression dataset reflecting this requirement, not to mention a model to tackle this challenge. In this paper, we collect a new referring expression dataset, called KB-Ref, containing 43k expressions on 16k images. In KB-Ref, to answer each expression (detect the target object referred by the expression), at least one piece of commonsense knowledge must be required. We then test state-of-the-art (SoTA) REF models on KB-Ref, finding that all of them present a large drop compared to their outstanding performance on general REF datasets. We also present an expression conditioned image and fact attention (ECIFA) network that extract information from correlated image regions and commonsense knowledge facts. Our method leads to a significant improvement over SoTA REF models, although there is still a gap between this strong baseline and human performance. The dataset and baseline models will be released.
翻訳日:2022-11-26 00:37:40 公開日:2020-08-17
# FakePolisher:DeepFakesを浅部再建でより高機能に

FakePolisher: Making DeepFakes More Detection-Evasive by Shallow Reconstruction ( http://arxiv.org/abs/2006.07533v3 )

ライセンス: Link先を確認
Yihao Huang, Felix Juefei-Xu, Run Wang, Qing Guo, Lei Ma, Xiaofei Xie, Jianwen Li, Weikai Miao, Yang Liu, Geguang Pu(参考訳) 現在、ganベースの画像生成手法はまだ不完全であり、そのアップサンプリング設計は合成された画像にいくつかのアーティファクトパターンを残すことに制限がある。 このようなアーティファクトパターンは、実画像とGAN合成画像の差分検出に(最近の方法で)容易に利用することができる。 しかし,既存の検出手法では,アーティファクトパターンに重点が置かれており,そのようなアーティファクトパターンが小さくなれば無駄になる可能性がある。 本稿では,合成画像のアーティファクトの削減に向けて,学習線形辞書を通じて偽画像の浅い再構成を行う,単純かつ強力な手法である偽polisherを考案し,画像合成中に導入されたアーティファクトを効果的かつ効率的に削減することを目的としている。 本手法は,ganベースの偽画像生成技術16により生成された3段階のディープフェイク検出手法と偽画像の包括的評価を行い,本手法の有効性を実証し,アーティファクトパターンの低減により,最先端の偽画像検出手法である平均47%,最悪の場合には最大93%の精度を著しく低減した。

At this moment, GAN-based image generation methods are still imperfect, whose upsampling design has limitations in leaving some certain artifact patterns in the synthesized image. Such artifact patterns can be easily exploited (by recent methods) for difference detection of real and GAN-synthesized images. However, the existing detection methods put much emphasis on the artifact patterns, which can become futile if such artifact patterns were reduced. Towards reducing the artifacts in the synthesized images, in this paper, we devise a simple yet powerful approach termed FakePolisher that performs shallow reconstruction of fake images through a learned linear dictionary, intending to effectively and efficiently reduce the artifacts introduced during image synthesis. The comprehensive evaluation on 3 state-of-the-art DeepFake detection methods and fake images generated by 16 popular GAN-based fake image generation techniques, demonstrates the effectiveness of our technique.Overall, through reducing artifact patterns, our technique significantly reduces the accuracy of the 3 state-of-the-art fake image detection methods, i.e., 47% on average and up to 93% in the worst case.
翻訳日:2022-11-21 21:00:12 公開日:2020-08-17
# 一貫性誘導シーンフロー推定

Consistency Guided Scene Flow Estimation ( http://arxiv.org/abs/2006.11242v2 )

ライセンス: Link先を確認
Yuhua Chen, Luc Van Gool, Cordelia Schmid, Cristian Sminchisescu(参考訳) Consistency Guided Scene Flow Estimation (CGSF) は立体映像からの3次元シーン構造と動きの同時再構成のための自己教師型フレームワークである。 このモデルは2つの時間的ステレオペアを入力として取り、格差とシーンフローを予測する。 モデルは、反復的に予測を精錬することで、テスト時に自己適応する。 立体的および時間的フォトコンシステンシーと、不一致と3次元運動を結合する幾何学的用語を組み合わせた一貫性損失によって、精細化プロセスが導かれる。 一貫性損失(例えばランベルトの仮定)における固有なモデリング誤差に対処し、より一般化するために、学習された出力改善ネットワークを導入し、初期予測、損失、勾配を入力として取り、相関した出力更新を効率的に予測する。 アブレーション研究を含む複数の実験において, 提案手法は, 課題画像における相違やシーンフローを確実に予測し, 最先端技術よりも優れた一般化を実現し, 未確認領域に迅速かつ堅牢に適応できることを示す。

Consistency Guided Scene Flow Estimation (CGSF) is a self-supervised framework for the joint reconstruction of 3D scene structure and motion from stereo video. The model takes two temporal stereo pairs as input, and predicts disparity and scene flow. The model self-adapts at test time by iteratively refining its predictions. The refinement process is guided by a consistency loss, which combines stereo and temporal photo-consistency with a geometric term that couples disparity and 3D motion. To handle inherent modeling error in the consistency loss (e.g. Lambertian assumptions) and for better generalization, we further introduce a learned, output refinement network, which takes the initial predictions, the loss, and the gradient as input, and efficiently predicts a correlated output update. In multiple experiments, including ablation studies, we show that the proposed model can reliably predict disparity and scene flow in challenging imagery, achieves better generalization than the state-of-the-art, and adapts quickly and robustly to unseen domains.
翻訳日:2022-11-19 04:49:57 公開日:2020-08-17
# 自動運転車の3次元物体検出における性能向上と説明不能性向上に向けて

Towards Better Performance and More Explainable Uncertainty for 3D Object Detection of Autonomous Vehicles ( http://arxiv.org/abs/2006.12015v2 )

ライセンス: Link先を確認
Hujie Pan, Zining Wang, Wei Zhan, Masayoshi Tomizuka(参考訳) 本論文では,lidarに基づく3次元物体検出の性能を向上し,より説明可能かつ説得力に富む予測不確実性を得るための損失関数の新たな形式を提案する。 損失関数はコーナー変換と不確実性モデリングを用いて設計した。 新しい損失関数により,KITTIデータセットのval分割における本手法の性能は,単純なL1損失を用いたベースラインと比較して平均精度(AP)において最大15%向上した。 予測された不確実性の特性の研究において、一般により正確な境界ボックスの予測は、通常より低い不確実性を伴う。 コーナーの不確実性の分布は、境界箱内の点雲の分布に一致するため、より密接な観測点を持つコーナーの不確実性は低い。 さらに, 不確実性予測において, 境界箱の立方体形状から制約を学習する。 最後に,有界箱の元のパラメータの不確かさを回復する効率的なベイズ更新手法を提案する。

In this paper, we propose a novel form of the loss function to increase the performance of LiDAR-based 3d object detection and obtain more explainable and convincing uncertainty for the prediction. The loss function was designed using corner transformation and uncertainty modeling. With the new loss function, the performance of our method on the val split of KITTI dataset shows up to a 15% increase in terms of Average Precision (AP) comparing with the baseline using simple L1 Loss. In the study of the characteristics of predicted uncertainties, we find that generally more accurate prediction of the bounding box is usually accompanied by lower uncertainty. The distribution of corner uncertainties agrees on the distribution of the point cloud in the bounding box, which means the corner with denser observed points has lower uncertainty. Moreover, our method also learns the constraint from the cuboid geometry of the bounding box in uncertainty prediction. Finally, we propose an efficient Bayesian updating method to recover the uncertainty for the original parameters of the bounding boxes which can help to provide probabilistic results for the planning module.
翻訳日:2022-11-18 05:57:36 公開日:2020-08-17
# アテンション誘導双方向LSTMを用いた複雑な背景における視覚に基づく転倒事象検出

Vision-Based Fall Event Detection in Complex Background Using Attention Guided Bi-directional LSTM ( http://arxiv.org/abs/2007.07773v2 )

ライセンス: Link先を確認
Yong Chen, Lu Wang, Jiajia Hu, Mingbin Ye(参考訳) 高齢者にとって最大のリスクの一つである秋の事象検出は,近年,孤独な場面でホットな研究課題となっている。 それにもかかわらず、複雑な背景における秋の事象検出に関する研究はほとんどない。 背景モデリングに依存する従来の背景減算法とは異なり、深層学習技術に基づくマスクr-cnn法はノイズ背景における移動物体を明瞭に抽出することができる。 さらに,最終秋事象検出のための注目誘導双方向LSTMモデルを提案する。 効率性を示すために,提案手法は,公開データセットと自己構築データセットで検証される。 他の最先端手法との比較によるアルゴリズム性能の評価は,提案手法が正確かつ堅牢であることを示し,複雑な状況下での落下事象検出に適していることを示す。

Fall event detection, as one of the greatest risks to the elderly, has been a hot research issue in the solitary scene in recent years. Nevertheless, there are few researches on the fall event detection in complex background. Different from most conventional background subtraction methods which depend on background modeling, Mask R-CNN method based on deep learning technique can clearly extract the moving object in noise background. We further propose an attention guided Bi-directional LSTM model for the final fall event detection. To demonstrate the efficiency, the proposed method is verified in the public dataset and self-build dataset. Evaluation of the algorithm performances in comparison with other state-of-the-art methods indicates that the proposed design is accurate and robust, which means it is suitable for the task of fall event detection in complex situation.
翻訳日:2022-11-17 13:07:58 公開日:2020-08-17
# 時間によるニューラルデータログ:論理仕様による情報時間モデリング

Neural Datalog Through Time: Informed Temporal Modeling via Logical Specification ( http://arxiv.org/abs/2006.16723v2 )

ライセンス: Link先を確認
Hongyuan Mei and Guanghui Qin and Minjie Xu and Jason Eisner(参考訳) 可能なイベントタイプのセットが大きい場合、過去のイベントパターンから将来のイベントを予測する方法を学ぶのは難しい。 制限のないニューラルモデルのトレーニングは、スプリアスパターンに過剰に適合する可能性がある。 過去の出来事がイベントの現在の確率にどのように影響するかというドメイン固有の知識を活用するために、時間とともに構造化された事実を追跡するために時間的推論データベースを提案する。 ルールは他の事実や過去の出来事から事実を証明するのに役立つ。 それぞれの事象には時間変化のある状態がある - トポロジが事実の証明によって決定されるニューラルネットによって計算されるベクトルで、過去の出来事の経験を含む。 可能なイベントの型は特別な事実によって与えられ、その確率はその状態とともに神経的にモデル化される。 合成ドメインと実世界のドメインの両方において、簡潔なデータログプログラムから派生したニューラル確率モデルは、アーキテクチャにおいて適切なドメイン知識を符号化することで予測を改善することを示す。

Learning how to predict future events from patterns of past events is difficult when the set of possible event types is large. Training an unrestricted neural model might overfit to spurious patterns. To exploit domain-specific knowledge of how past events might affect an event's present probability, we propose using a temporal deductive database to track structured facts over time. Rules serve to prove facts from other facts and from past events. Each fact has a time-varying state---a vector computed by a neural net whose topology is determined by the fact's provenance, including its experience of past events. The possible event types at any time are given by special facts, whose probabilities are neurally modeled alongside their states. In both synthetic and real-world domains, we show that neural probabilistic models derived from concise Datalog programs improve prediction by encoding appropriate domain knowledge in their architecture.
翻訳日:2022-11-15 04:37:30 公開日:2020-08-17
# Go Wide, Then Narrow: ディープシンネットワークの効率的なトレーニング

Go Wide, Then Narrow: Efficient Training of Deep Thin Networks ( http://arxiv.org/abs/2007.00811v2 )

ライセンス: Link先を確認
Denny Zhou, Mao Ye, Chen Chen, Tianjian Meng, Mingxing Tan, Xiaodan Song, Quoc Le, Qiang Liu, and Dale Schuurmans(参考訳) プロダクションにディープラーニングモデルをデプロイするには、レイテンシとメモリの制約を満たすために、正確かつコンパクトであることが必要です。 これは通常、深い(性能を保証するために)そして薄い(計算効率を改善するために)ネットワークをもたらす。 本稿では,理論的な保証により,より薄いネットワークを効率的に学習する手法を提案する。 本手法はモデル圧縮によって動機づけられる。 3つの段階からなる。 まず、深層ネットワークを十分に広くし、収束するまでトレーニングする。 次に、このよく訓練されたディープワイドネットワークを使用して、元のディープシンネットワークをウォームアップ(または初期化)します。 これは、層毎の模倣、すなわち薄いネットワークが層から層に至るまでの幅の広いネットワークの中間出力を模倣することによって達成される。 最後に、私たちはこの十分に初期化されたディープシンネットワークをさらに微調整します。 理論的保証は神経平均場解析を用いて確立される。 これは、バックプロパゲーションに対するレイヤーワイドな模倣アプローチの利点を示しています。 また,提案手法を検証するために,大規模実験を行った。 この方法でトレーニングすることで、resnet50はresnet101を上回ることができ、bert baseは、文献のように標準のトレーニング手順の下でresnet101とbert largeをトレーニングする場合、bert largeに匹敵することができる。

For deploying a deep learning model into production, it needs to be both accurate and compact to meet the latency and memory constraints. This usually results in a network that is deep (to ensure performance) and yet thin (to improve computational efficiency). In this paper, we propose an efficient method to train a deep thin network with a theoretic guarantee. Our method is motivated by model compression. It consists of three stages. First, we sufficiently widen the deep thin network and train it until convergence. Then, we use this well-trained deep wide network to warm up (or initialize) the original deep thin network. This is achieved by layerwise imitation, that is, forcing the thin network to mimic the intermediate outputs of the wide network from layer to layer. Finally, we further fine tune this already well-initialized deep thin network. The theoretical guarantee is established by using the neural mean field analysis. It demonstrates the advantage of our layerwise imitation approach over backpropagation. We also conduct large-scale empirical experiments to validate the proposed method. By training with our method, ResNet50 can outperform ResNet101, and BERT Base can be comparable with BERT Large, when ResNet101 and BERT Large are trained under the standard training procedures as in the literature.
翻訳日:2022-11-14 22:16:40 公開日:2020-08-17
# ルーカス粗大化を用いた階層的・教師なしグラフ表現学習

Hierarchical and Unsupervised Graph Representation Learning with Loukas's Coarsening ( http://arxiv.org/abs/2007.03373v2 )

ライセンス: Link先を確認
Louis B\'ethune, Yacouba Kaloga, Pierre Borgnat, Aur\'elien Garivier, Amaury Habrard(参考訳) 有意グラフを用いた教師なしグラフ表現学習のための新しいアルゴリズムを提案する。 文学の現在の限界に対処する3つの利点が組み合わさっている。 i) モデルは帰納的であり,新しいデータの存在下で再訓練することなく,新たなグラフを埋め込むことができる。 二 属性グラフを異なるスケールで見ることにより、ミクロ構造とマクロ構造の両方を考慮すること。 三 モデルはエンドツーエンドの差別化が可能で、深層学習パイプラインにプラグインし、バックプロパゲーションを可能にするビルディングブロックである。 高い理論保証を有する粗さ化法と相互情報最大化十分度を組み合わせることで,高品質な埋め込みを実現する。 文献の共通ベンチマークを用いて分類タスクの評価を行った。 本アルゴリズムは教師なしグラフ表現学習手法の最先端技術と競合することを示す。

We propose a novel algorithm for unsupervised graph representation learning with attributed graphs. It combines three advantages addressing some current limitations of the literature: i) The model is inductive: it can embed new graphs without re-training in the presence of new data; ii) The method takes into account both micro-structures and macro-structures by looking at the attributed graphs at different scales; iii) The model is end-to-end differentiable: it is a building block that can be plugged into deep learning pipelines and allows for back-propagation. We show that combining a coarsening method having strong theoretical guarantees with mutual information maximization suffices to produce high quality embeddings. We evaluate them on classification tasks with common benchmarks of the literature. We show that our algorithm is competitive with state of the art among unsupervised graph representation learning methods.
翻訳日:2022-11-12 18:30:15 公開日:2020-08-17
# テクスチャ解析のためのランダムニューラルネットワークを用いた局所的複雑特徴の学習

Learning Local Complex Features using Randomized Neural Networks for Texture Analysis ( http://arxiv.org/abs/2007.05643v2 )

ライセンス: Link先を確認
Lucas C. Ribas, Leonardo F. S. Scabini, Jarbas Joaci de Mesquita S\'a Junior and Odemir M. Bruno(参考訳) テクスチャは画像解析の多くの問題で主に使用される視覚特性である。 現在, テクスチャ識別のための学習手法が多数提案されており, 従来の手工法よりも性能が向上している。 本稿では,テクスチャ解析のための学習手法と複雑ネットワーク(CN)理論を組み合わせた新しい手法を提案する。 この方法は、CNの表現能力を利用してテクスチャイメージを有向ネットワークとしてモデル化し、頂点の位相情報を用いてランダム化されたニューラルネットワークを訓練する。 このニューラルネットワークは、単一の隠れ層を持ち、テクスチャキャラクタリゼーションのためにローカルcnパターンを学習できる高速学習アルゴリズムを使用する。 したがって、訓練されたニューラルネットワークの重みを使って特徴ベクトルを構成する。 これらの特徴ベクトルは、4つの広く使われている画像データベースの分類実験で評価される。 実験の結果,提案手法は他の手法と比較して高い分類性能を示し,多くの画像解析問題において本手法が有効であることを示す。

Texture is a visual attribute largely used in many problems of image analysis. Currently, many methods that use learning techniques have been proposed for texture discrimination, achieving improved performance over previous handcrafted methods. In this paper, we present a new approach that combines a learning technique and the Complex Network (CN) theory for texture analysis. This method takes advantage of the representation capacity of CN to model a texture image as a directed network and uses the topological information of vertices to train a randomized neural network. This neural network has a single hidden layer and uses a fast learning algorithm, which is able to learn local CN patterns for texture characterization. Thus, we use the weighs of the trained neural network to compose a feature vector. These feature vectors are evaluated in a classification experiment in four widely used image databases. Experimental results show a high classification performance of the proposed method when compared to other methods, indicating that our approach can be used in many image analysis problems.
翻訳日:2022-11-11 22:17:18 公開日:2020-08-17
# 境界条件を持つ高次元楕円型pdesのディープニューラルネットワーク近似

Deep neural network approximation for high-dimensional elliptic PDEs with boundary conditions ( http://arxiv.org/abs/2007.05384v2 )

ライセンス: Link先を確認
Philipp Grohs and Lukas Herrmann(参考訳) 近年の研究では、深層ニューラルネットワークは次元の呪いを伴わずに多くの放物型偏微分方程式の解を近似できることが確立されている。 しかしながら、これらの研究はすべてユークリッド領域全体の問題に制限されている。 一方、工学や科学におけるほとんどの問題は有限領域に定式化され、境界条件に従わなければならない。 本稿では、ディリクレ境界条件下での領域$D\subset \mathbb{R}^d$上のポアソン方程式という重要なモデル問題を考える。 深層ニューラルネットワークは,次元の呪いを伴わずに,その問題の解を表現できることを示した。 証明はポアソン方程式に対する解の確率的表現と適切なサンプリング法に基づいている。

In recent work it has been established that deep neural networks are capable of approximating solutions to a large class of parabolic partial differential equations without incurring the curse of dimension. However, all this work has been restricted to problems formulated on the whole Euclidean domain. On the other hand, most problems in engineering and the sciences are formulated on finite domains and subjected to boundary conditions. The present paper considers an important such model problem, namely the Poisson equation on a domain $D\subset \mathbb{R}^d$ subject to Dirichlet boundary conditions. It is shown that deep neural networks are capable of representing solutions of that problem without incurring the curse of dimension. The proofs are based on a probabilistic representation of the solution to the Poisson equation as well as a suitable sampling method.
翻訳日:2022-11-11 21:31:48 公開日:2020-08-17
# 反復近似逆数からの微分目標伝播の導出

Deriving Differential Target Propagation from Iterating Approximate Inverses ( http://arxiv.org/abs/2007.15139v2 )

ライセンス: Link先を確認
Yoshua Bengio(参考訳) ターゲット伝搬の特定の形態、すなわち、各層の学習された逆数に依存すること、すなわち、前方伝播の小さな摂動である場合、大きな行列の操作や反転を必要とせず、近似したガウス-ニュートン勾配に基づく最適化に対応する更新規則が生じることを示す。 興味深いのは、これはバックプロパゲーションよりも生物学的に可能であるが、暗黙的により強力な最適化手順を提供する可能性があることだ。 差分目標伝搬を拡張して,各層における局所的自己エンコーダに基づく反復計算を,より正確な目標伝搬のためのより正確な逆変換を実現するために検討し,自己エンコーダ関数が1よりも小さいリプシッツ定数を持つ場合,これらの反復処理が指数関数的に高速に収束することを示す。 また,各レイヤの変化を正規化し,各レイヤの出力に対する相対的影響を考慮し,勾配降下を伴う通常のバックプロパゲーションのように,より影響力のあるレイヤに対してより大きな重み変化を行う方法を提案する。

We show that a particular form of target propagation, i.e., relying on learned inverses of each layer, which is differential, i.e., where the target is a small perturbation of the forward propagation, gives rise to an update rule which corresponds to an approximate Gauss-Newton gradient-based optimization, without requiring the manipulation or inversion of large matrices. What is interesting is that this is more biologically plausible than back-propagation yet may turn out to implicitly provide a stronger optimization procedure. Extending difference target propagation, we consider several iterative calculations based on local auto-encoders at each layer in order to achieve more precise inversions for more accurate target propagation and we show that these iterative procedures converge exponentially fast if the auto-encoding function minus the identity function has a Lipschitz constant smaller than one, i.e., the auto-encoder is coarsely succeeding at performing an inversion. We also propose a way to normalize the changes at each layer to take into account the relative influence of each layer on the output, so that larger weight changes are done on more influential layers, like would happen in ordinary back-propagation with gradient descent.
翻訳日:2022-11-05 19:53:48 公開日:2020-08-17
# COLD:次世代プレランキングシステムを目指して

COLD: Towards the Next Generation of Pre-Ranking System ( http://arxiv.org/abs/2007.16122v2 )

ライセンス: Link先を確認
Zhe Wang, Liqin Zhao, Biye Jiang, Guorui Zhou, Xiaoqiang Zhu, Kun Gai(参考訳) マルチステージカスケードアーキテクチャは、レコメンデーションシステムやオンライン広告など、多くの産業システムにおいて広く存在し、マッチング、事前ランク付け、ランキングなどの逐次モジュールで構成されることが多い。 長い間、事前ランク付けは単にランキングモジュールの簡易版であると考えられており、候補セットのより大きなサイズがランク付けされるのを考慮に入れている。 したがって,オンライン推論における計算能力の爆発的増加に対処するため,ランキングモデルを簡素化する努力が主である。 本稿では,アルゴリズム-システム共設計の観点から,事前評価システムの課題を再考する。 本稿では,モデル性能の低下を引き起こすモデルアーキテクチャの制約を伴って,計算力を節約する代わりに,プレグレードモデルとコストの計算能力の両面を最適化して,新しいプレグレードシステムを設計する。 これをcold(電力コスト対応のオンラインシステムと軽量のディーププレグレードシステム)と名付けます。 COLDはSOTAを3倍に上回る。 i) 制御可能な計算電力コストの制約の下で, COLD にクロス特徴を持つ任意の深部モデルを適用することができる。 (ii) 推論加速度の最適化手法を適用することにより、計算電力コストを明示的に削減する。 これにより、さらに複雑な深層モデルを適用するためのcoldのスペースが向上し、パフォーマンスが向上する。 (三)COLDモデルはオンライン学習と厳密な方法で機能し、データ分散シフトの課題に対処する能力に優れたものである。 一方、完全なオンラインプレランクシステムであるcoldは、効率的な新しいモデルの開発とオンラインa/bテストをサポートする柔軟なインフラストラクチャを提供する。2019年以来、coldはalibabaのディスプレイ広告システムにおけるプレランクモジュールを含むほぼすべての製品にデプロイされ、大幅に改善されている。

Multi-stage cascade architecture exists widely in many industrial systems such as recommender systems and online advertising, which often consists of sequential modules including matching, pre-ranking, ranking, etc. For a long time, it is believed pre-ranking is just a simplified version of the ranking module, considering the larger size of the candidate set to be ranked. Thus, efforts are made mostly on simplifying ranking model to handle the explosion of computing power for online inference. In this paper, we rethink the challenge of the pre-ranking system from an algorithm-system co-design view. Instead of saving computing power with restriction of model architecture which causes loss of model performance, here we design a new pre-ranking system by joint optimization of both the pre-ranking model and the computing power it costs. We name it COLD (Computing power cost-aware Online and Lightweight Deep pre-ranking system). COLD beats SOTA in three folds: (i) an arbitrary deep model with cross features can be applied in COLD under a constraint of controllable computing power cost. (ii) computing power cost is explicitly reduced by applying optimization tricks for inference acceleration. This further brings space for COLD to apply more complex deep models to reach better performance. (iii) COLD model works in an online learning and severing manner, bringing it excellent ability to handle the challenge of the data distribution shift. Meanwhile, the fully online pre-ranking system of COLD provides us with a flexible infrastructure that supports efficient new model developing and online A/B testing.Since 2019, COLD has been deployed in almost all products involving the pre-ranking module in the display advertising system in Alibaba, bringing significant improvements.
翻訳日:2022-11-04 06:13:09 公開日:2020-08-17
# コントラストネットワーク分析のためのビジュアル分析フレームワーク

A Visual Analytics Framework for Contrastive Network Analysis ( http://arxiv.org/abs/2008.00151v2 )

ライセンス: Link先を確認
Takanori Fujiwara, Jian Zhao, Francine Chen, Kwan-Liu Ma(参考訳) 共通ネットワーク分析タスクは、2つのネットワークの比較であり、一方のネットワークが他方に対してユニークな特徴を識別する。 例えば、正常組織と癌組織に由来するタンパク質相互作用ネットワークを比較する場合、必須の課題は癌組織に特有のタンパク質とタンパク質の相互作用を発見することである。 しかし、ネットワークが複雑な構造的(および意味的)関係を持つ場合、このタスクは困難である。 この問題を解決するために,ネットワークのユニークな特徴を明らかにするための機械学習のパワーと,その特異性を理解するための可視化の有効性の両方を活用したビジュアル分析フレームワークcontranaを設計した。 contranaの基礎はcnrlであり、ネットワーク表現学習(nrl)とコントラスト学習(cl)という2つの機械学習スキームを統合し、あるネットワークが他と比較して一意性を示す低次元埋め込みを生成する。 ContraNAはインタラクティブな可視化インターフェースを提供し、埋め込み結果とネットワーク構造を関連付け、cNRLで学習した特徴を説明することで、ユニークさを分析する。 実世界のデータセットを用いた2つのケーススタディでContraNAの有用性を示す。 また,ネットワーク比較タスクの参加者12名を対象に,制御型ユーザスタディによる評価を行った。 その結果, 参加者は複雑なネットワークから特徴を効果的に同定し, cNRLの結果を解釈することができた。

A common network analysis task is comparison of two networks to identify unique characteristics in one network with respect to the other. For example, when comparing protein interaction networks derived from normal and cancer tissues, one essential task is to discover protein-protein interactions unique to cancer tissues. However, this task is challenging when the networks contain complex structural (and semantic) relations. To address this problem, we design ContraNA, a visual analytics framework leveraging both the power of machine learning for uncovering unique characteristics in networks and also the effectiveness of visualization for understanding such uniqueness. The basis of ContraNA is cNRL, which integrates two machine learning schemes, network representation learning (NRL) and contrastive learning (CL), to generate a low-dimensional embedding that reveals the uniqueness of one network when compared to another. ContraNA provides an interactive visualization interface to help analyze the uniqueness by relating embedding results and network structures as well as explaining the learned features by cNRL. We demonstrate the usefulness of ContraNA with two case studies using real-world datasets. We also evaluate through a controlled user study with 12 participants on network comparison tasks. The results show that participants were able to both effectively identify unique characteristics from complex networks and interpret the results obtained from cNRL.
翻訳日:2022-11-04 01:12:57 公開日:2020-08-17
# CrowDEA: 群衆によるマルチビューの理想の優先順位付け

CrowDEA: Multi-view Idea Prioritization with Crowds ( http://arxiv.org/abs/2008.02354v2 )

ライセンス: Link先を確認
Yukino Baba, Jiyi Li, Hisashi Kashima(参考訳) オープンエンドの質問に関して,集団から収集したアイデアの集合を考えると,集団評価者による選好比較に基づく選好事項を決定するために,どのように整理・優先順位付けできるのか。 アイデアの価値には様々な潜在的な基準があるため、複数のアイデアは「最良の」と見なすことができる。 さらに、評価者は異なる選好基準を持つことができ、それらの比較結果はしばしば一致しない。 本稿では,少なくとも1つの潜在評価基準の観点から,フロンティア概念(frontier ideas)と呼ばれるアイデアのサブセットを得るための分析手法を提案する。 提案手法はCrowDEA(CrowDEA)と呼ばれる手法で,複数基準の選好空間におけるアイデアの埋め込み,各アイデアに対する最良の視点,各評価者に対する選好基準を推定し,フロンティアのアイデアの集合を得る。 多数のアイデアやデザインを含む実際のデータセットを用いた実験結果から,提案手法は複数の視点からアイデアを効果的に優先順位付けし,フロンティアのアイデアを検出する。 提案手法で学んだアイデアの埋め込みは、フロンティア思想の観察を容易にする可視化を提供する。 さらに,提案手法は,多様な視点からアイデアを優先するが,ベースラインは同じ視点で使用する傾向があり,また,限られた数の評価者やラベルしか利用できない状況においても,さまざまな視点を処理し,アイデアを優先することができる。

Given a set of ideas collected from crowds with regard to an open-ended question, how can we organize and prioritize them in order to determine the preferred ones based on preference comparisons by crowd evaluators? As there are diverse latent criteria for the value of an idea, multiple ideas can be considered as "the best". In addition, evaluators can have different preference criteria, and their comparison results often disagree. In this paper, we propose an analysis method for obtaining a subset of ideas, which we call frontier ideas, that are the best in terms of at least one latent evaluation criterion. We propose an approach, called CrowDEA, which estimates the embeddings of the ideas in the multiple-criteria preference space, the best viewpoint for each idea, and preference criterion for each evaluator, to obtain a set of frontier ideas. Experimental results using real datasets containing numerous ideas or designs demonstrate that the proposed approach can effectively prioritize ideas from multiple viewpoints, thereby detecting frontier ideas. The embeddings of ideas learned by the proposed approach provide a visualization that facilitates observation of the frontier ideas. In addition, the proposed approach prioritizes ideas from a wider variety of viewpoints, whereas the baselines tend to use to the same viewpoints; it can also handle various viewpoints and prioritize ideas in situations where only a limited number of evaluators or labels are available.
翻訳日:2022-11-04 00:28:55 公開日:2020-08-17
# ティンブレラテント空間 : 探索と創造的側面

Timbre latent space: exploration and creative aspects ( http://arxiv.org/abs/2008.01370v2 )

ライセンス: Link先を確認
Antoine Caillon, Adrien Bitton, Brice Gatinet, Philippe Esling(参考訳) 最近の研究では、教師なしモデルがオートエンコーダを使って可逆オーディオ表現を学習する能力が示されている。 高品質な音合成を可能にするが、潜在空間が音色特性を歪めないため、限定的な制御が可能である。 可変オートエンコーダ (VAE) において, アンタングル表現の出現について検討し, 音声に適用した。 追加の知覚正規化を用いることで、そのような潜在表現を以前に確立された多次元音色空間と整合させ、連続的な推論と合成を可能にする。 あるいは、特定の音響特性を制御変数として学習することができるが、教師なし次元は残りの特徴を考慮に入れている。 音色操作の新たな可能性は、生成的ニューラルネットワークによって実現されているが、その表現の探索と創造的利用はほとんど残っていない。 以下の実験は、2人の作曲家と協力し、特にデザインされたインタフェース(Max/MSP、Pure Data)や記述子ベースの合成のためのマッピングを用いて、音楽音の潜在音合成を探索するための新しい創造的方向を提案する。

Recent studies show the ability of unsupervised models to learn invertible audio representations using Auto-Encoders. They enable high-quality sound synthesis but a limited control since the latent spaces do not disentangle timbre properties. The emergence of disentangled representations was studied in Variational Auto-Encoders (VAEs), and has been applied to audio. Using an additional perceptual regularization can align such latent representation with the previously established multi-dimensional timbre spaces, while allowing continuous inference and synthesis. Alternatively, some specific sound attributes can be learned as control variables while unsupervised dimensions account for the remaining features. New possibilities for timbre manipulations are enabled with generative neural networks, although the exploration and the creative use of their representations remain little. The following experiments are led in cooperation with two composers and propose new creative directions to explore latent sound synthesis of musical timbres, using specifically designed interfaces (Max/MSP, Pure Data) or mappings for descriptor-based synthesis.
翻訳日:2022-11-03 01:16:31 公開日:2020-08-17
# MPIを用いた分散テラスケール類似度探索:単一距離計算のない数十億以上の効率的な類似度探索

Distributed Tera-Scale Similarity Search with MPI: Provably Efficient Similarity Search over billions without a Single Distance Computation ( http://arxiv.org/abs/2008.03260v2 )

ライセンス: Link先を確認
Nicholas Meisburger, Anshumali Shrivastava(参考訳) 本稿では、テラバイト規模のデータセット上での類似性探索を近似するためのMPIベースの分散システムSLASH(Sketched LocAlity Sensitive Hashing)を提案する。 slashは、一般的なlsh(locality sensitive hashing)アルゴリズムのマルチノード実装を提供する。 我々は,LSHアルゴリズムにヘビーヒットタスケッチを付加して,単一距離計算なしで(高い)類似性探索問題を確実に解く方法を示す。 数学的には、現実的なデータ仮定の下では、与えられたクエリのすぐ隣にある$q$ in sub-linear($ \ll O(n)$)の単純なスケッチアグリゲーション操作のみを識別できる。 このようなシステムを実用化するために,機械間通信のオーバーヘッドを指数的に低減する新しい設計・スケッチソリューションを提案する。 競合するハードウェアを直接比較すると、SLASHはPySparkの一般的なLSHパッケージよりも10000倍以上高速である。 PySparkは大規模なデータセットのためのLSHアルゴリズムの広く採用されている分散実装で、商用プラットフォームにデプロイされている。 最後に、我々のシステムが40億以上のサンプルでテラスケールのCriteoデータセットにスケールする方法を示す。 slashはこの2.3テラバイトデータを1時間以内に20ノードにインデックスし、クエリ時間はほんの数ミリ秒である。 私たちの知る限りでは、コモディティクラスタでcriteo上で類似性検索をインデックス化および実行できるオープンソースシステムは存在しません。

We present SLASH (Sketched LocAlity Sensitive Hashing), an MPI (Message Passing Interface) based distributed system for approximate similarity search over terabyte scale datasets. SLASH provides a multi-node implementation of the popular LSH (locality sensitive hashing) algorithm, which is generally implemented on a single machine. We show how we can append the LSH algorithm with heavy hitters sketches to provably solve the (high) similarity search problem without a single distance computation. Overall, we mathematically show that, under realistic data assumptions, we can identify the near-neighbor of a given query $q$ in sub-linear ($ \ll O(n)$) number of simple sketch aggregation operations only. To make such a system practical, we offer a novel design and sketching solution to reduce the inter-machine communication overheads exponentially. In a direct comparison on comparable hardware, SLASH is more than 10000x faster than the popular LSH package in PySpark. PySpark is a widely-adopted distributed implementation of the LSH algorithm for large datasets and is deployed in commercial platforms. In the end, we show how our system scale to Tera-scale Criteo dataset with more than 4 billion samples. SLASH can index this 2.3 terabyte data over 20 nodes in under an hour, with query times in a fraction of milliseconds. To the best of our knowledge, there is no open-source system that can index and perform a similarity search on Criteo with a commodity cluster.
翻訳日:2022-11-02 19:04:46 公開日:2020-08-17
# モダリティ不均衡問題への対処によるマルチスペクトル歩行者検出の改善

Improving Multispectral Pedestrian Detection by Addressing Modality Imbalance Problems ( http://arxiv.org/abs/2008.03043v2 )

ライセンス: Link先を確認
Kailai Zhou, Linsen Chen, Xun Cao(参考訳) 多スペクトル歩行者検出は、色熱的モダリティを利用して、照明条件の不足に適応することができる。 一方で、この2つのモダリティを効果的に融合する方法に関する深い洞察が依然として欠けている。 従来の歩行者検出と比較すると,マルチスペクトル歩行者検出ではモダリティ不均衡問題が発生し,デュアルモダリティネットワークの最適化プロセスが阻害され,検出器の性能が低下する。 この観測に触発されて、より柔軟でバランスの取れた最適化プロセスを容易にするモダリティバランスネットワーク(MBNet)を提案する。 まず, 2つのモダリティを相互補完するために,新しい微分モダリティ認識融合(dmaf)モジュールを設計する。 次に、照明意識特徴アライメントモジュールは、照明条件に応じて相補的特徴を選択し、2つのモード特徴を適応的に調整する。 MBNetは、精度と計算効率の観点から、挑戦的なKAISTとCVC-14多スペクトル歩行者データセットの両方において、最先端技術よりも優れていることを示す。 コードはhttps://github.com/calayzhou/mbnetで入手できる。

Multispectral pedestrian detection is capable of adapting to insufficient illumination conditions by leveraging color-thermal modalities. On the other hand, it is still lacking of in-depth insights on how to fuse the two modalities effectively. Compared with traditional pedestrian detection, we find multispectral pedestrian detection suffers from modality imbalance problems which will hinder the optimization process of dual-modality network and depress the performance of detector. Inspired by this observation, we propose Modality Balance Network (MBNet) which facilitates the optimization process in a much more flexible and balanced manner. Firstly, we design a novel Differential Modality Aware Fusion (DMAF) module to make the two modalities complement each other. Secondly, an illumination aware feature alignment module selects complementary features according to the illumination conditions and aligns the two modality features adaptively. Extensive experimental results demonstrate MBNet outperforms the state-of-the-arts on both the challenging KAIST and CVC-14 multispectral pedestrian datasets in terms of the accuracy and the computational efficiency. Code is available at https://github.com/CalayZhou/MBNet.
翻訳日:2022-11-02 01:29:08 公開日:2020-08-17
# 不確実性定量化のための無限混合の最大可能性に基づくトレーニングの検討

Investigating maximum likelihood based training of infinite mixtures for uncertainty quantification ( http://arxiv.org/abs/2008.03209v2 )

ライセンス: Link先を確認
Sina D\"aubener and Asja Fischer(参考訳) ニューラルネットワークにおける不確かさの定量化は、近年多くの注目を集めている。 最も一般的なアプローチ、ベイジアンニューラルネットワーク(bnns)、モンテカルロドロップアウト、ディープアンサンブルには、ひとつ共通点があります。 BNNは無限混合モデルを構築し、変分推論によって導出する一方、後者の2つは最大極大法で訓練された有限混合を構築している。 本研究は,変分推論の代わりに最大極大法を用いて無限混合分布を訓練する効果について検討する。 提案手法は, 予測分散が増大する確率的ネットワークにつながり, 不確実性に基づく敵の攻撃に対するミス分類とロバスト性が, 等価ネットワーク構造を持つ標準bnnと比較して向上することを示す。 この新しいモデルは、アウトオブディストリビューションデータに対して高いエントロピーを表示する。

Uncertainty quantification in neural networks gained a lot of attention in the past years. The most popular approaches, Bayesian neural networks (BNNs), Monte Carlo dropout, and deep ensembles have one thing in common: they are all based on some kind of mixture model. While the BNNs build infinite mixture models and are derived via variational inference, the latter two build finite mixtures trained with the maximum likelihood method. In this work we investigate the effect of training an infinite mixture distribution with the maximum likelihood method instead of variational inference. We find that the proposed objective leads to stochastic networks with an increased predictive variance, which improves uncertainty based identification of miss-classification and robustness against adversarial attacks in comparison to a standard BNN with equivalent network structure. The new model also displays higher entropy on out-of-distribution data.
翻訳日:2022-11-02 00:27:06 公開日:2020-08-17
# Wikidata Constraints on MARS (Extended Technical Report)

Wikidata Constraints on MARS (Extended Technical Report) ( http://arxiv.org/abs/2008.03900v2 )

ライセンス: Link先を確認
David L. Martin, Peter F. Patel-Schneider(参考訳) Wikidataの制約は便利だが、不完全なアドホックな方法で表現され、処理される。 制約宣言はその意味を完全に表現していないため、制約仕様の正確で曖昧な基礎や制約チェック実装の論理的基盤を提供していない。 以前の研究では、マルチアトリビュートリレーショナル構造(mars)と関連する論理言語に基づいて、wikidata全体の論理フレームワークを提案しました。 本稿では,提案フレームワークにおいて制約がどのように扱われるかを説明し,wikidataの既存のプロパティ制約のほとんどが自然かつ経済的な方法で完全に特徴付けられることを示す。 また、提案したいくつかのプロパティ制約のキャラクタリゼーションを行い、同じフレームワークで様々な非プロパティ制約を処理可能であることを示す。

Wikidata constraints, albeit useful, are represented and processed in an incomplete, ad hoc fashion. Constraint declarations do not fully express their meaning, and thus do not provide a precise, unambiguous basis for constraint specification, or a logical foundation for constraint-checking implementations. In prior work we have proposed a logical framework for Wikidata as a whole, based on multi-attributed relational structures (MARS) and related logical languages. In this paper we explain how constraints are handled in the proposed framework, and show that nearly all of Wikidata's existing property constraints can be completely characterized in it, in a natural and economical fashion. We also give characterizations for several proposed property constraints, and show that a variety of non-property constraints can be handled in the same framework.
翻訳日:2022-10-31 22:56:53 公開日:2020-08-17
# エンドツーエンド音声認識システムにおける転送学習手法

Transfer Learning Approaches for Streaming End-to-End Speech Recognition System ( http://arxiv.org/abs/2008.05086v2 )

ライセンス: Link先を確認
Vikas Joshi, Rui Zhao, Rupesh R. Mehta, Kshitiz Kumar, Jinyu Li(参考訳) 伝達学習(TL)は、従来のハイブリッド音声認識(ASR)システムにおいて、知識をソースからターゲット言語に伝達するために広く用いられている。 リカレントニューラルネットワークトランスデューサ(rnn-t)モデルのようなエンドツーエンド(e2e)asrシステムでは、ターゲット言語のエンコーダおよび/または予測ネットワークを、ソース言語から事前学習したモデルで初期化することでtlを適用できる。 ハイブリッドasrシステムでは、転送学習は通常、対象言語音響モデル(am)をソース言語amで初期化することによって行われる。 RNN-Tフレームワークの場合、エンコーダと予測ネットワークの初期化モデルの選択に応じて、いくつかの転送学習戦略が存在する。 本稿では,RNN-Tフレームワークに対する4種類のTL手法の比較検討を行う。 ランダム初期化rnn-tモデルに対するtl法の違いによる単語誤り率の17%削減を示した。 また,学習データ量が50時間から1000時間に変化した場合のTLの影響について検討し,学習データが少ない言語に対するTLの有効性を示した。

Transfer learning (TL) is widely used in conventional hybrid automatic speech recognition (ASR) system, to transfer the knowledge from source to target language. TL can be applied to end-to-end (E2E) ASR system such as recurrent neural network transducer (RNN-T) models, by initializing the encoder and/or prediction network of the target language with the pre-trained models from source language. In the hybrid ASR system, transfer learning is typically done by initializing the target language acoustic model (AM) with source language AM. Several transfer learning strategies exist in the case of the RNN-T framework, depending upon the choice of the initialization model for encoder and prediction networks. This paper presents a comparative study of four different TL methods for RNN-T framework. We show 17% relative word error rate reduction with different TL methods over randomly initialized RNN-T model. We also study the impact of TL with varying amount of training data ranging from 50 hours to 1000 hours and show the efficacy of TL for languages with small amount of training data.
翻訳日:2022-10-31 04:54:33 公開日:2020-08-17
# ニューラルネットワークを用いたマルチエージェント深部強化学習による計算資源配分の実現

Multi-Agent Deep Reinforcement Learning enabled Computation Resource Allocation in a Vehicular Cloud Network ( http://arxiv.org/abs/2008.06464v2 )

ライセンス: Link先を確認
Shilin Xu, Caili Guo, Rose Qingyang Hu and Yi Qian(参考訳) 本稿では,分散アドホックな車載ネットワークにおいて,集中型インフラストラクチャを含まない計算資源割当問題について検討する。 このような車載ネットワークにおける計算ニーズの増大を支援するため,周辺車両間のオフロードによる計算資源共有方式を基礎として,分散仮想クラウドネットワーク(VCN)を構築した。 VCNにおける時間変化計算資源の観点から、計算資源の統計分布特性を詳細に分析する。 そこで,資源を考慮した組合せ最適化目標機構を提案する。 典型的にはVCNのマルチエージェント環境による非定常環境を緩和するために,集中的なトレーニングと分散実行フレームワークを採用する。 さらに、目的最適化問題に対して、マルコフゲームとしてモデル化し、DRLに基づくマルチエージェント深層決定性強化学習(MADDPG)アルゴリズムを提案する。 興味深いことに、VCNに真の中央制御ユニットがないというジレンマを克服するために、このアロケーションは分散的に実際に車両上で完了する。 本手法の有効性を示すためにシミュレーション結果を示す。

In this paper, we investigate the computational resource allocation problem in a distributed Ad-Hoc vehicular network with no centralized infrastructure support. To support the ever increasing computational needs in such a vehicular network, the distributed virtual cloud network (VCN) is formed, based on which a computational resource sharing scheme through offloading among nearby vehicles is proposed. In view of the time-varying computational resource in VCN, the statistical distribution characteristics for computational resource are analyzed in detail. Thereby, a resource-aware combinatorial optimization objective mechanism is proposed. To alleviate the non-stationary environment caused by the typically multi-agent environment in VCN, we adopt a centralized training and decentralized execution framework. In addition, for the objective optimization problem, we model it as a Markov game and propose a DRL based multi-agent deep deterministic reinforcement learning (MADDPG) algorithm to solve it. Interestingly, to overcome the dilemma of lacking a real central control unit in VCN, the allocation is actually completed on the vehicles in a distributed manner. The simulation results are presented to demonstrate our scheme's effectiveness.
翻訳日:2022-10-30 17:37:05 公開日:2020-08-17
# Not 3D Re-ID:ロバストビデオ再識別のための単純なシングルストリーム2D畳み込み

Not 3D Re-ID: a Simple Single Stream 2D Convolution for Robust Video Re-identification ( http://arxiv.org/abs/2008.06318v2 )

ライセンス: Link先を確認
Toby P. Breckon and Aishah Alsehaim(参考訳) 近年,監視ビデオ解析において重要な役割を担っている映像ベースの人物再同定が注目されている。 ビデオベースのRe-IDは、人物ごとに複数の画像フレームを介してビデオから特徴を学習することで、以前の画像ベースの再識別方法の拡張である。 現代のビデオRe-ID手法では、複雑なCNNベースのネットワークアーキテクチャを3D畳み込みやマルチブランチネットワークを用いて時空間映像の特徴を抽出する。 本稿では,resnet50-ibnアーキテクチャを用いた単純な単一ストリーム2次元畳み込みネットワークによるフレームレベルの特徴抽出と,クリップレベルの特徴に対する時間的注意による性能改善について述べる。 これらのクリップレベルの機能は、追加のコストなしで平均化することでビデオレベルの機能を抽出するために一般化することができる。 提案手法は,MARS,PRID2011,iLIDS-VIDデータセットの89:62%,97:75%,97:33%のランク-1精度,84:61%のmAPをMARSの複雑な3D畳み込みやマルチストリームネットワークアーキテクチャに頼らずに,データセット間の最良のビデオ再ID実践とデータ転送学習を用いて実現した。 逆に,2次元畳み込みネットワークによって抽出されたグローバル機能は,映像のロバストな状態に対する十分な表現であることを示す。

Video-based person re-identification has received increasing attention recently, as it plays an important role within surveillance video analysis. Video-based Re-ID is an expansion of earlier image-based re-identification methods by learning features from a video via multiple image frames for each person. Most contemporary video Re-ID methods utilise complex CNNbased network architectures using 3D convolution or multibranch networks to extract spatial-temporal video features. By contrast, in this paper, we illustrate superior performance from a simple single stream 2D convolution network leveraging the ResNet50-IBN architecture to extract frame-level features followed by temporal attention for clip level features. These clip level features can be generalised to extract video level features by averaging without any significant additional cost. Our approach uses best video Re-ID practice and transfer learning between datasets to outperform existing state-of-the-art approaches on the MARS, PRID2011 and iLIDS-VID datasets with 89:62%, 97:75%, 97:33% rank-1 accuracy respectively and with 84:61% mAP for MARS, without reliance on complex and memory intensive 3D convolutions or multi-stream networks architectures as found in other contemporary work. Conversely, our work shows that global features extracted by the 2D convolution network are a sufficient representation for robust state of the art video Re-ID.
翻訳日:2022-10-30 17:29:06 公開日:2020-08-17
# アパレル変化者再同定のためのアパレル不変特徴学習

Apparel-invariant Feature Learning for Apparel-changed Person Re-identification ( http://arxiv.org/abs/2008.06181v2 )

ライセンス: Link先を確認
Zhengxu Yu, Yilun Zhao, Bin Hong, Zhongming Jin, Jianqiang Huang, Deng Cai, Xiaofei He, Xian-Sheng Hua(参考訳) ディープラーニング手法の出現に伴い、多くの公開データセットにおいて、人物再識別(ReID)のパフォーマンスが大幅に向上した。 しかし、ほとんどの公開ReIDデータセットは、人の外観がほとんど変化しない短時間のウィンドウで収集される。 ショッピングモールのような現実世界の応用では、同じ人の服が変化し、異なる人が同様の服を着ることができる。 これらのケースはすべて矛盾したReIDパフォーマンスをもたらし、現在のReIDモデルは人のアパレルに大きく依存している重要な問題を明らかにする。 そのため、着替えなどの場合にアパレル不変な人物表現や、同様の服を着ている複数の人物を学習することが重要である。 本研究では,不変特徴表現学習の観点からこの問題に取り組む。 この作品の主な貢献は以下の通りである。 1) 半教師付きアパレル不変特徴学習(aifl)フレームワークを提案し, 異なる服装の同一人物の画像を用いてアパレル不変歩行者表現を学習する。 2) 異なる服を着ている同一人物の画像を得るために, 対象の布を埋め込んだ布を合成するための無監督アパレルシミュレーションGAN(AS-GAN)を提案する。 reidタスクで使われる画像は、実世界の低品質cctvビデオから切り抜かれたので、布を変える画像の合成がより難しくなっています。 複数のベースラインと比較し,複数のデータセットについて広範な実験を行った。 実験の結果,本提案手法はベースラインモデルのreid性能を向上させることができた。

With the rise of deep learning methods, person Re-Identification (ReID) performance has been improved tremendously in many public datasets. However, most public ReID datasets are collected in a short time window in which persons' appearance rarely changes. In real-world applications such as in a shopping mall, the same person's clothing may change, and different persons may wearing similar clothes. All these cases can result in an inconsistent ReID performance, revealing a critical problem that current ReID models heavily rely on person's apparels. Therefore, it is critical to learn an apparel-invariant person representation under cases like cloth changing or several persons wearing similar clothes. In this work, we tackle this problem from the viewpoint of invariant feature representation learning. The main contributions of this work are as follows. (1) We propose the semi-supervised Apparel-invariant Feature Learning (AIFL) framework to learn an apparel-invariant pedestrian representation using images of the same person wearing different clothes. (2) To obtain images of the same person wearing different clothes, we propose an unsupervised apparel-simulation GAN (AS-GAN) to synthesize cloth changing images according to the target cloth embedding. It's worth noting that the images used in ReID tasks were cropped from real-world low-quality CCTV videos, making it more challenging to synthesize cloth changing images. We conduct extensive experiments on several datasets comparing with several baselines. Experimental results demonstrate that our proposal can improve the ReID performance of the baseline models.
翻訳日:2022-10-30 17:19:57 公開日:2020-08-17
# フリーランチ! ROI制約内における動的促進勧告のためのふりかえり昇降モデリング

Free Lunch! Retrospective Uplift Modeling for Dynamic Promotions Recommendation within ROI Constraints ( http://arxiv.org/abs/2008.06293v2 )

ライセンス: Link先を確認
Dmitri Goldenberg, Javier Albert, Lucas Bernardi and Pablo Estevez(参考訳) プロモーションと割引は、現代のeコマースプラットフォームの重要な要素となっている。 オンライン旅行プラットフォーム(OTP)では、部屋のアップグレード、無料食事、輸送サービスなどが人気である。 これらのプロモーションを提供することで、顧客は自分のお金に対してより多くの価値を得ることができる一方、OPPとその旅行パートナーは忠実な顧客ベースを成長させることができる。 しかし、通常、プロモーションは、制御不能な場合、持続不可能となるコストを発生させる。 したがって、プロモーションが実行可能となるためには、その関連するコストは、一定の財政的制約内でのインクリメンタルな収入によってバランスをとらなければならない。 パーソナライズされた治療割り当ては、そのような制約を満たすために使用できる。 本稿では,要求される投資収益(ROI)制約に基づく漸進的処理結果を動的に最適化する,Knapsack Problem の定式化による新しいアップリフトモデリング手法を提案する。 このテクニックは、ポジティブな結果の例からのデータのみに依存するモデリングアプローチであるふりかえり見積もりを活用する。 この方法は、トレーニングデータバイアス、長期効果、およびオンライン・ダイナミック・キャリブレーションによる季節問題にも対処する。 このアプローチはオフライン実験とオンラインランダム化制御試験を通じてテストされた。 結果として、必要な金銭的制約内に留まり、他のアプローチよりも優れたパフォーマンスを保ちながら、目標とする結果が大幅に増加します。

Promotions and discounts have become key components of modern e-commerce platforms. For online travel platforms (OTPs), popular promotions include room upgrades, free meals and transportation services. By offering these promotions, customers can get more value for their money, while both the OTP and its travel partners may grow their loyal customer base. However, the promotions usually incur a cost that, if uncontrolled, can become unsustainable. Consequently, for a promotion to be viable, its associated costs must be balanced by incremental revenue within set financial constraints. Personalized treatment assignment can be used to satisfy such constraints. This paper introduces a novel uplift modeling technique, relying on the Knapsack Problem formulation, that dynamically optimizes the incremental treatment outcome subject to the required Return on Investment (ROI) constraints. The technique leverages Retrospective Estimation, a modeling approach that relies solely on data from positive outcome examples. The method also addresses training data bias, long term effects, and seasonality challenges via online-dynamic calibration. This approach was tested via offline experiments and online randomized controlled trials at Booking .com - a leading OTP with millions of customers worldwide, resulting in a significant increase in the target outcome while staying within the required financial constraints and outperforming other approaches.
翻訳日:2022-10-30 16:54:58 公開日:2020-08-17
# ランダム林におけるコスト制約型分類の特徴選択手法

Feature Selection Methods for Cost-Constrained Classification in Random Forests ( http://arxiv.org/abs/2008.06298v2 )

ライセンス: Link先を確認
Rudolf Jagdhuber, Michel Lang and J\"org Rahnenf\"uhrer(参考訳) コストに敏感な特徴選択は、機能選択の問題であり、モデルに含める個々のコストを上昇させる。 これらのコストは、例えば測定装置としての失敗率や患者の危害といった不利な特徴をモデル選択プロセスに組み込むことができる。 ランダムフォレストは、特徴が一般に複数の木々のアンサンブルに絡み合っているため、特徴の選択において特に難しい問題を定義している。 したがって、特徴選択法は単純な事前フィルタリング法にフォーカスするか、あるいは最適化経路に沿って多くのランダムフォレスト評価が必要となり、計算の複雑さが劇的に増大する。 両問題を解決するために,小木構造から特徴を抽出する新しい高速多変量特徴選択法であるShallow Tree Selectionを提案する。 さらに,各手法に高パラメータ制御利得率基準(bcr)を導入することで,コスト感応学習のための3つの標準特徴選択アルゴリズムを適用した。 シミュレーション実験により,提案手法を4つの人工データ設定と7つの実世界のデータ設定に基づいて,複数の性能ベースライン代替品と比較した。 高パラメータ化BCR基準を用いたすべての手法がベースラインの代替よりも優れていることを示す。 提案手法の直接比較では,各手法は特定の条件下での強度を示すが,一様解は存在しない。 グローバル平均では、BCRベースの方法の中から好適な選択を特定できる。 それにもかかわらず、実用分析は単一のメソッドのみに頼るべきではないが、最良の結果を得るために常に異なるアプローチを比較するべきであると結論づける。

Cost-sensitive feature selection describes a feature selection problem, where features raise individual costs for inclusion in a model. These costs allow to incorporate disfavored aspects of features, e.g. failure rates of as measuring device, or patient harm, in the model selection process. Random Forests define a particularly challenging problem for feature selection, as features are generally entangled in an ensemble of multiple trees, which makes a post hoc removal of features infeasible. Feature selection methods therefore often either focus on simple pre-filtering methods, or require many Random Forest evaluations along their optimization path, which drastically increases the computational complexity. To solve both issues, we propose Shallow Tree Selection, a novel fast and multivariate feature selection method that selects features from small tree structures. Additionally, we also adapt three standard feature selection algorithms for cost-sensitive learning by introducing a hyperparameter-controlled benefit-cost ratio criterion (BCR) for each method. In an extensive simulation study, we assess this criterion, and compare the proposed methods to multiple performance-based baseline alternatives on four artificial data settings and seven real-world data settings. We show that all methods using a hyperparameterized BCR criterion outperform the baseline alternatives. In a direct comparison between the proposed methods, each method indicates strengths in certain settings, but no one-fits-all solution exists. On a global average, we could identify preferable choices among our BCR based methods. Nevertheless, we conclude that a practical analysis should never rely on a single method only, but always compare different approaches to obtain the best results.
翻訳日:2022-10-30 16:54:21 公開日:2020-08-17
# POP909:音楽アレンジメント生成のためのポップソングデータセット

POP909: A Pop-song Dataset for Music Arrangement Generation ( http://arxiv.org/abs/2008.07142v1 )

ライセンス: Link先を確認
Ziyu Wang, Ke Chen, Junyan Jiang, Yiyi Zhang, Maoran Xu, Shuqi Dai, Xianbin Gu, Gus Xia(参考訳) 楽曲配置生成は、新しい作曲技法による楽曲の再構成と再概念化を含む自動音楽生成のサブタスクである。 このような生成プロセスは、必然的に元のメロディ、コード進行、その他の構造情報からの参照を必要とする。 いくつかの有望なアレンジメントモデルにもかかわらず、より良い評価とより実用的な結果を達成するためのより洗練されたデータがない。 本稿では,プロのミュージシャンが作成した909曲のピアノアレンジメントの複数バージョンを含むデータセットであるPOP909を提案する。 データセットの本体は、音声メロディ、リード楽器メロディ、および元のオーディオファイルに整列したMIDIフォーマットで各曲のピアノ伴奏を含む。 さらに,テンポ,ビート,キー,コードなどのアノテーションを提供し,テンポ曲線を手作業でラベル付けし,その他をMIRアルゴリズムで行う。 最後に、このデータセットについて、標準のディープミュージック生成アルゴリズムを用いて、いくつかのベースライン実験を行う。

Music arrangement generation is a subtask of automatic music generation, which involves reconstructing and re-conceptualizing a piece with new compositional techniques. Such a generation process inevitably requires reference from the original melody, chord progression, or other structural information. Despite some promising models for arrangement, they lack more refined data to achieve better evaluations and more practical results. In this paper, we propose POP909, a dataset which contains multiple versions of the piano arrangements of 909 popular songs created by professional musicians. The main body of the dataset contains the vocal melody, the lead instrument melody, and the piano accompaniment for each song in MIDI format, which are aligned to the original audio files. Furthermore, we provide the annotations of tempo, beat, key, and chords, where the tempo curves are hand-labeled and others are done by MIR algorithms. Finally, we conduct several baseline experiments with this dataset using standard deep music generation algorithms.
翻訳日:2022-10-28 04:38:36 公開日:2020-08-17
# StoRIR:音声データ拡張のための確率室インパルス応答生成

StoRIR: Stochastic Room Impulse Response Generation for Audio Data Augmentation ( http://arxiv.org/abs/2008.07231v1 )

ライセンス: Link先を確認
Piotr Masztalski, Mateusz Matuszewski, Karol Piaskowski, Micha{\l} Romaniuk(参考訳) 本稿では,機械学習アプリケーションにおける音声データ拡張専用の確率室インパルス応答生成手法であるStoRIRを紹介する。 この手法は、画像ソースやレイトレーシングのような幾何学的手法とは対照的に、部屋の幾何学、吸収係数、マイクロホン、音源配置の事前定義を必要とせず、部屋の音響パラメータにのみ依存する。 この方法は直感的で実装が容易で、非常に複雑な囲いを持つIRを生成することができる。 音声強調タスクにおける音声データ拡張に使用されるStoRIRは,従来の画像ソース法よりも広い範囲において,ディープラーニングモデルによりより優れた結果が得られ,その多くを5%以上効果的に改善できることを示す。 我々はStoRIRのPython実装をオンラインで公開する

In this paper we introduce StoRIR - a stochastic room impulse response generation method dedicated to audio data augmentation in machine learning applications. This technique, in contrary to geometrical methods like image-source or ray tracing, does not require prior definition of room geometry, absorption coefficients or microphone and source placement and is dependent solely on the acoustic parameters of the room. The method is intuitive, easy to implement and allows to generate RIRs of very complicated enclosures. We show that StoRIR, when used for audio data augmentation in a speech enhancement task, allows deep learning models to achieve better results on a wide range of metrics than when using the conventional image-source method, effectively improving many of them by more than 5 %. We publish a Python implementation of StoRIR online
翻訳日:2022-10-28 04:38:03 公開日:2020-08-17
# 自律表面車両の衝突フリートラッキング制御のためのモデル参照強化学習

Model-Reference Reinforcement Learning for Collision-Free Tracking Control of Autonomous Surface Vehicles ( http://arxiv.org/abs/2008.07240v1 )

ライセンス: Link先を確認
Qingrui Zhang and Wei Pan and Vasso Reppa(参考訳) 本稿では,衝突回避を考慮した自律走行車両のインテリジェントトラッキング制御のためのモデル参照強化学習アルゴリズムを提案する。 提案する制御アルゴリズムは,従来の制御手法と強化学習を組み合わせることで,制御精度と知性を向上させる。 提案した制御設計では,従来の制御手法を用いたベースライントラッキングコントローラの設計に対して,名目システムを考慮した。 名目システムはまた、障害物のない環境での不確定な表面車両の所望の挙動を定義している。 強化学習により、全体的なトラッキングコントローラは、モデル不確実性を補償し、障害物のある環境で同時に衝突回避を達成することができる。 従来の深層強化学習法と比較して,本提案手法は安定性を保証し,サンプル効率を向上する。 本稿では,自律型表面車両の例を用いて,新しいアルゴリズムの性能を示す。

This paper presents a novel model-reference reinforcement learning algorithm for the intelligent tracking control of uncertain autonomous surface vehicles with collision avoidance. The proposed control algorithm combines a conventional control method with reinforcement learning to enhance control accuracy and intelligence. In the proposed control design, a nominal system is considered for the design of a baseline tracking controller using a conventional control approach. The nominal system also defines the desired behaviour of uncertain autonomous surface vehicles in an obstacle-free environment. Thanks to reinforcement learning, the overall tracking controller is capable of compensating for model uncertainties and achieving collision avoidance at the same time in environments with obstacles. In comparison to traditional deep reinforcement learning methods, our proposed learning-based control can provide stability guarantees and better sample efficiency. We demonstrate the performance of the new algorithm using an example of autonomous surface vehicles.
翻訳日:2022-10-28 04:37:50 公開日:2020-08-17
# 深層学習に基づくオープンセット音響シーン分類

Deep Learning Based Open Set Acoustic Scene Classification ( http://arxiv.org/abs/2008.07247v1 )

ライセンス: Link先を確認
Zuzanna Kwiatkowska, Beniamin Kalinowski, Micha{\l} Ko\'smider, Krzysztof Rykaczewski(参考訳) 本研究では,オープンセット音響シーン分類(ASC)における3つの選択手法の性能を比較した。 現在ascで採用されている最も一般的な手法である深層ネットワーク分類器のソフトマックス出力のしきい値化をテストする。 さらに,コンピュータビジョン分野から派生したOpenmax分類器との比較を行った。 第3のモデルとして、C2AEと呼ばれる別のコンピュータビジョン関連技術のバリエーションであるAdapted Class-Conditioned Autoencoder(Adapted C2AE)を用いる。 適応型c2aeは、与えられた実験をより公平に比較し、元の推論手順を単純化し、実際のシナリオでより適用できるようにします。 未知のクラスに関する追加の知識がないことと、未知のクラスからのサンプルの限られたサブセットが利用できるという2つのトレーニングシナリオも分析しています。 このc2aeベースの手法はしきい値とopenmaxよりも優れており、受信者の動作特性曲線(auroc)の下で85.5\%$領域と、音響シーンとイベントチャレンジ2019タスク1cの検出と分類に使用されるデータに対して6,6\%$のオープンセット精度が得られる。

In this work, we compare the performance of three selected techniques in open set acoustic scenes classification (ASC). We test thresholding of the softmax output of a deep network classifier, which is the most popular technique nowadays employed in ASC. Further we compare the results with the Openmax classifier which is derived from the computer vision field. As the third model, we use the Adapted Class-Conditioned Autoencoder (Adapted C2AE) which is our variation of another computer vision related technique called C2AE. Adapted C2AE encompasses a more fair comparison of the given experiments and simplifies the original inference procedure, making it more applicable in the real-life scenarios. We also analyse two training scenarios: without additional knowledge of unknown classes and another where a limited subset of examples from the unknown classes is available. We find that the C2AE based method outperforms the thresholding and Openmax, obtaining $85.5\%$ Area Under the Receiver Operating Characteristic curve (AUROC) and $66\%$ of open set accuracy on data used in Detection and Classification of Acoustic Scenes and Events Challenge 2019 Task 1C.
翻訳日:2022-10-28 04:37:40 公開日:2020-08-17
# 深層学習に基づく音源分離の合唱団への適用

Deep Learning Based Source Separation Applied To Choir Ensembles ( http://arxiv.org/abs/2008.07645v1 )

ライセンス: Link先を確認
Darius Petermann, Pritish Chandna, Helena Cuesta, Jordi Bonada, Emilia Gomez(参考訳) 合唱の歌唱は広く実践されているアンサンブルの歌唱形式であり、グループではポリフォニック・ハーモニーで同時に歌う。 最も一般的な合唱曲の舞台はソプラノ、アルト、テノール、バス(SATB)の4つの部分で構成され、それぞれに独自の基本周波数(F$0$s)がある。 このコーラル設定のソース分離のタスクは、SATB混合物を構成部品に分離する必要がある。 音楽ミックスの音源分離はよく研究されており,多くの深層学習手法が提案されている。 しかし、ほとんどの研究は、発声、パーカッション、ベース源を混合物から分離する典型的なケースに焦点を当てており、それぞれが異なるスペクトル構造を持っている。 対照的に、アンサンブル歌唱の同時的かつ調和的な性質は、コーラルミックス中の音源のスペクトル成分間の高い構造的類似性と重なり合いをもたらし、合唱の音源分離が典型よりも難しい課題となる。 これにより、適切な統合データセットの欠如とともに、これまでこの分野における研究の波及につながった。 本稿では,SATB合唱団において,最近開発された音源分離手法がいかに優れているかを評価する。 そこで本研究では,歌唱グループの基本周波数パターンを用いた音源分離のためのu-netアーキテクチャを条件付けする新しいドメイン固有適応法を提案し,提案手法がドメイン非依存アーキテクチャの結果を上回ることを示す。

Choral singing is a widely practiced form of ensemble singing wherein a group of people sing simultaneously in polyphonic harmony. The most commonly practiced setting for choir ensembles consists of four parts; Soprano, Alto, Tenor and Bass (SATB), each with its own range of fundamental frequencies (F$0$s). The task of source separation for this choral setting entails separating the SATB mixture into the constituent parts. Source separation for musical mixtures is well studied and many deep learning based methodologies have been proposed for the same. However, most of the research has been focused on a typical case which consists in separating vocal, percussion and bass sources from a mixture, each of which has a distinct spectral structure. In contrast, the simultaneous and harmonic nature of ensemble singing leads to high structural similarity and overlap between the spectral components of the sources in a choral mixture, making source separation for choirs a harder task than the typical case. This, along with the lack of an appropriate consolidated dataset has led to a dearth of research in the field so far. In this paper we first assess how well some of the recently developed methodologies for musical source separation perform for the case of SATB choirs. We then propose a novel domain-specific adaptation for conditioning the recently proposed U-Net architecture for musical source separation using the fundamental frequency contour of each of the singing groups and demonstrate that our proposed approach surpasses results from domain-agnostic architectures.
翻訳日:2022-10-28 04:36:32 公開日:2020-08-17
# 機械学習によるインドにおけるcovid-19症例の解析

Analysis of COVID-19 cases in India through Machine Learning: A Study of Intervention ( http://arxiv.org/abs/2008.10450v1 )

ライセンス: Link先を確認
Hanuman Verma, Akshansh Gupta and Utkarsh Niranjan(参考訳) 新型コロナウイルス(COVID-19)のパンデミックと闘うため、世界は予防接種、プラズマ療法、予防接種、疫学的な介入をほとんど選択肢がない。 新型コロナウイルス(COVID-19)ワクチンの開発が進行中であり、ワクチンの開発にはかなりの時間がかかる可能性がある。 集団免疫は、小規模国でcovid-19と闘うための有効な選択肢になり得る。 しかし、インドのような巨大な人口を抱える国では、集団免疫を取得するには、約67%がCOVID-19感染から回復する必要があるため、強制免疫は有効な選択肢ではない。 このように疫学的介入(完全ロックダウン、部分ロックダウン、隔離、隔離、社会的距離、等)は、ワクチン開発まで新型コロナウイルスの感染拡大を遅らせるためにインドで適切な戦略である。 本研究では,従来のSIRモデルにおける疫学的介入を取り入れた介入を伴うSIRモデルを提案する。 介入の効果をモデル化するため,介入パラメータとして \r{ho} を導入した。 \r{ho} はすべての種類の介入をカバーする累積量である。 また、インドとインドの一部州におけるCOVID-19データの普及を介し、SIRモデルの送信率(\b{eta})を推定する教師付き機械学習手法についても検討した。 本モデルを検証するために,本モデルとモデルで予測したcovid-19患者数の比較を行った。 本モデルを用いて、2020年9月30日までにインド全域とインドの一部州で、活動的および回復した新型コロナウイルスの感染者数を予測し、予測された感染者の95%と99%の信頼区間を推定した。

To combat the coronavirus disease 2019 (COVID-19) pandemic, the world has vaccination, plasma therapy, herd immunity, and epidemiological interventions as few possible options. The COVID-19 vaccine development is underway and it may take a significant amount of time to develop the vaccine and after development, it will take time to vaccinate the entire population, and plasma therapy has some limitations. Herd immunity can be a plausible option to fight COVID-19 for small countries. But for a country with huge population like India, herd immunity is not a plausible option, because to acquire herd immunity approximately 67% of the population has to be recovered from COVID-19 infection, which will put an extra burden on medical system of the country and will result in a huge loss of human life. Thus epidemiological interventions (complete lockdown, partial lockdown, quarantine, isolation, social distancing, etc.) are some suitable strategies in India to slow down the COVID-19 spread until the vaccine development. In this work, we have suggested the SIR model with intervention, which incorporates the epidemiological interventions in the classical SIR model. To model the effect of the interventions, we have introduced \r{ho} as the intervention parameter. \r{ho} is a cumulative quantity which covers all type of intervention. We have also discussed the supervised machine learning approach to estimate the transmission rate (\b{eta}) for the SIR model with intervention from the prevalence of COVID-19 data in India and some states of India. To validate our model, we present a comparison between the actual and model-predicted number of COVID-19 cases. Using our model, we also present predicted numbers of active and recovered COVID-19 cases till Sept 30, 2020, for entire India and some states of India and also estimate the 95% and 99% confidence interval for the predicted cases.
翻訳日:2022-10-28 04:36:06 公開日:2020-08-17
# sf-grass:ソルバフリーグラフのスペクトルスパーシフィケーション

SF-GRASS: Solver-Free Graph Spectral Sparsification ( http://arxiv.org/abs/2008.07633v1 )

ライセンス: Link先を確認
Ying Zhang, Zhiqiang Zhao, Zhuo Feng(参考訳) 最近のスペクトルグラフスパーシフィケーション技術は、大きなスパース行列の解法、無向グラフのスペクトル分割法、電力/熱グリッドのベクトル無し検証、大グラフの表現学習など、多くの数値およびグラフアルゴリズムの高速化において有望な性能を示している。 しかしながら、事前のスペクトルグラフスパーシフィケーション法は、通常は実装が難しい高速ラプラシアン行列ソルバに依存している。 この研究は、新たに出現するスペクトルグラフ粗さ化とグラフ信号処理(gsp)技術を活用して、スペクトルグラフスパーシフィケーションのためのソルバフリーアプローチ(sf-grass)を導入した。 本稿では,グラフのスペクトル特性保存の鍵となるスペクトル臨界エッジを効率的に同定するための局所スペクトル埋め込みスキームについて紹介する。 SF-GRASSの核関数はスパース行列ベクトル乗算(SpMV)を用いて効率的に実装できるため、提案手法は実装が簡単で、本質的に並列性が高い。 提案手法は,従来のスペクトル法と比較して,実世界,大規模グラフ,回路ネットワークにおいてほぼ線形の時間内に高品質のスペクトルスパルサライザを階層的に生成できることを示す。

Recent spectral graph sparsification techniques have shown promising performance in accelerating many numerical and graph algorithms, such as iterative methods for solving large sparse matrices, spectral partitioning of undirected graphs, vectorless verification of power/thermal grids, representation learning of large graphs, etc. However, prior spectral graph sparsification methods rely on fast Laplacian matrix solvers that are usually challenging to implement in practice. This work, for the first time, introduces a solver-free approach (SF-GRASS) for spectral graph sparsification by leveraging emerging spectral graph coarsening and graph signal processing (GSP) techniques. We introduce a local spectral embedding scheme for efficiently identifying spectrally-critical edges that are key to preserving graph spectral properties, such as the first few Laplacian eigenvalues and eigenvectors. Since the key kernel functions in SF-GRASS can be efficiently implemented using sparse-matrix-vector-multiplications (SpMVs), the proposed spectral approach is simple to implement and inherently parallel friendly. Our extensive experimental results show that the proposed method can produce a hierarchy of high-quality spectral sparsifiers in nearly-linear time for a variety of real-world, large-scale graphs and circuit networks when compared with the prior state-of-the-art spectral method.
翻訳日:2022-10-28 04:35:35 公開日:2020-08-17
# オブザーバの目を通してのモーメント・ツー・モーメントエンゲージメント予測:Twitch上のPUBGストリーミング

Moment-to-moment Engagement Prediction through the Eyes of the Observer: PUBG Streaming on Twitch ( http://arxiv.org/abs/2008.07207v1 )

ライセンス: Link先を確認
David Melhart, Daniele Gravina, Georgios N. Yannakakis(参考訳) ゲームテレメトリのみに基づくモーメント間ゲームプレイエンゲージメントの予測は可能か? ゲームの視聴者の振る舞いを観察することで、ゲームプレイのエンゲージメントな瞬間を明らかにすることができるだろうか? 本稿では,ゲームプレイのエンゲージメントの定義を再構築し,その代わりに,ゲームの生のオーディエンスの目を通して見る。 twitchのストリーミングサービスから得られた人気バトルロイヤルゲームプレイヤーのバトルグラウンドから収集したデータに基づいて、視聴者のエンゲージメントの予測モデルを構築した。 特に5つの人気ストリーマー(10万以上のゲームイベントを含む)の数百のマッチから視聴者のチャットログとゲーム内テレメトリデータを収集し、小さなニューラルネットワークアーキテクチャを用いてプレイ中のゲームプレイと視聴者のチャット頻度のマッピングを学ぶ。 私たちの重要な発見は、40のゲームプレイ機能のみをトレーニングしたエンゲージメントモデルが、平均で80%、最高で84%の精度に達することを示しています。 私たちのモデルはスケーラブルで汎用性があり、ストリーム内およびストリーム間、およびストリーマーのプレイスタイルで同等に機能します。

Is it possible to predict moment-to-moment gameplay engagement based solely on game telemetry? Can we reveal engaging moments of gameplay by observing the way the viewers of the game behave? To address these questions in this paper, we reframe the way gameplay engagement is defined and we view it, instead, through the eyes of a game's live audience. We build prediction models for viewers' engagement based on data collected from the popular battle royale game PlayerUnknown's Battlegrounds as obtained from the Twitch streaming service. In particular, we collect viewers' chat logs and in-game telemetry data from several hundred matches of five popular streamers (containing over 100,000 game events) and machine learn the mapping between gameplay and viewer chat frequency during play, using small neural network architectures. Our key findings showcase that engagement models trained solely on 40 gameplay features can reach accuracies of up to 80% on average and 84% at best. Our models are scalable and generalisable as they perform equally well within- and across-streamers, as well as across streamer play styles.
翻訳日:2022-10-28 04:28:48 公開日:2020-08-17
# 6Gテレコムエコシステムのためのプライバシ保護分散学習フレームワーク

Privacy-Preserving Distributed Learning Framework for 6G Telecom Ecosystems ( http://arxiv.org/abs/2008.07225v1 )

ライセンス: Link先を確認
Pooyan Safari, Behnam Shariati, Johannes Karl Fischer(参考訳) 我々は,データ所有者のプライバシを保護しつつ,MLモデルの共有オーナシップとガバナンスのビジョンを可能にする,6G時代における通信エコシステムのためのプライバシ保護分散学習フレームワークを提案する。 本稿では,マルチドメイン・マルチベンダ光ネットワークにおけるqot(quality of transmission)推定に適用することで,ネットワーク管理システム(nms)と個々のドメインのデータを共有することなくそのメリットを実証する。

We present a privacy-preserving distributed learning framework for telecom ecosystems in the 6G-era that enables the vision of shared ownership and governance of ML models, while protecting the privacy of the data owners. We demonstrate its benefits by applying it to the use-case of Quality of Transmission (QoT) estimation in multi-domain multi-vendor optical networks, where no data of individual domains is shared with the network management system (NMS).
翻訳日:2022-10-28 04:28:16 公開日:2020-08-17
# エッジネットワークにおけるデータキャッシュの深層学習に関する調査

A Survey of Deep Learning for Data Caching in Edge Network ( http://arxiv.org/abs/2008.07235v1 )

ライセンス: Link先を確認
Yantong Wang, Vasilis Friderikos(参考訳) 新興の5gネットワークとbeyond mobileネットワークにおけるエッジキャッシングプロビジョニングの概念は、コアネットワークの渋滞問題と人気コンテンツへのアクセス遅延の低減の両方に対処する有望な方法である。 したがって、ユーザに近いネットワークエッジ、すなわちネットワークエッジに積極的にキャッシュすることで、人気コンテンツに対するエンドユーザの要求を満たすことができる。 モデルベースのキャッシングスキームに加えて、最近、学習ベースのエッジキャッシングの最適化が注目され、これからの目標は、モデルベースとデータ駆動技術の両方の、積極的なキャッシングの分野での最近の進歩を捉えることである。 本稿では,エッジネットワークにおけるデータキャッシュにおけるディープラーニングの利用について要約する。 まず、コンテンツキャッシングにおける典型的な研究トピックを概説し、ネットワーク階層構造に基づく分類を定式化する。 そして、教師付き学習から教師なし学習、強化学習まで、いくつかの重要なディープラーニングアルゴリズムが提示される。 さらに,キャッシングトピックとディープラーニング手法の観点から,最先端文献の比較を行った。 最後に,キャッシュにディープラーニングを適用する研究課題と今後の方向性について論じる。

The concept of edge caching provision in emerging 5G and beyond mobile networks is a promising method to deal both with the traffic congestion problem in the core network as well as reducing latency to access popular content. In that respect end user demand for popular content can be satisfied by proactively caching it at the network edge, i.e, at close proximity to the users. In addition to model based caching schemes learning-based edge caching optimizations has recently attracted significant attention and the aim hereafter is to capture these recent advances for both model based and data driven techniques in the area of proactive caching. This paper summarizes the utilization of deep learning for data caching in edge network. We first outline the typical research topics in content caching and formulate a taxonomy based on network hierarchical structure. Then, a number of key types of deep learning algorithms are presented, ranging from supervised learning to unsupervised learning as well as reinforcement learning. Furthermore, a comparison of state-of-the-art literature is provided from the aspects of caching topics and deep learning methods. Finally, we discuss research challenges and future directions of applying deep learning for caching
翻訳日:2022-10-28 04:27:47 公開日:2020-08-17
# 特徴選択法の音声画像BCIデータセットへの適用再検討

Revisiting the Application of Feature Selection Methods to Speech Imagery BCI Datasets ( http://arxiv.org/abs/2008.07660v1 )

ライセンス: Link先を確認
Javad Rahimipour Anaraki, Jae Moon, Tom Chau(参考訳) 脳コンピュータインタフェース(BCI)は、人間とコンピュータの相互作用を確立し改善することを目的としている。 湿式脳波(EEG)や機能的近赤外分光(fNIRS)デバイスなど、様々な技術を通じて脳信号の収集を容易にする新しいハードウェアデバイスの設計への関心が高まっている。 機械学習手法の有望な結果が研究者を惹きつけ、これらの手法をデータに適用した。 しかし、一部のメソッドは、特定のデータセットに対する性能が劣っているため、単に見過ごせる。 本稿では,音声画像データセットに対して,比較的単純かつ強力な特徴選択/ランク付け手法が適用可能であることを示す。 そこで本稿では,水平と垂直の2つの手法を導入し,特徴選択とランキング手法を用いてBCIデータセットの音声化を行う。 我々の第一の目的は、サポートベクターマシン、$k$-nearest近辺、決定木、線形判別分析、長期記憶リカレントニューラルネットワーク分類器から得られる分類精度を改善することである。 実験の結果,チャネルの小さなサブセットを使用すれば,ほとんどの場合,分類器によらず,その結果の分類精度を向上できることがわかった。

Brain-computer interface (BCI) aims to establish and improve human and computer interactions. There has been an increasing interest in designing new hardware devices to facilitate the collection of brain signals through various technologies, such as wet and dry electroencephalogram (EEG) and functional near-infrared spectroscopy (fNIRS) devices. The promising results of machine learning methods have attracted researchers to apply these methods to their data. However, some methods can be overlooked simply due to their inferior performance against a particular dataset. This paper shows how relatively simple yet powerful feature selection/ranking methods can be applied to speech imagery datasets and generate significant results. To do so, we introduce two approaches, horizontal and vertical settings, to use any feature selection and ranking methods to speech imagery BCI datasets. Our primary goal is to improve the resulting classification accuracies from support vector machines, $k$-nearest neighbour, decision tree, linear discriminant analysis and long short-term memory recurrent neural network classifiers. Our experimental results show that using a small subset of channels, we can retain and, in most cases, improve the resulting classification accuracies regardless of the classifier.
翻訳日:2022-10-28 04:27:17 公開日:2020-08-17
# プライバシ保護機能選択:新しいプロトコルの集合に関する調査と提案

Privacy-preserving feature selection: A survey and proposing a new set of protocols ( http://arxiv.org/abs/2008.07664v1 )

ライセンス: Link先を確認
Javad Rahimipour Anaraki, Saeed Samet(参考訳) 特徴選択(英: Feature selection)とは、情報的特徴と冗長で無関係な特徴を分離する特徴を抽出する過程である。 このプロセスは、機械学習、データマイニング、バイオインフォマティクスにおいて重要な役割を果たす。 しかし、従来の特徴選択手法は集中型データセットのみを処理でき、今日の分散データ処理のニーズを満たすことができない。 これらのニーズは、プライバシ保存機能選択と呼ばれる新しいデータ処理アルゴリズムのカテゴリを必要としており、中間処理でも最終結果でも、データのいかなる部分も明らかにしないことによって、ユーザのデータを保護している。 これは医療データセットのような個人のデータを含むデータセットにとって不可欠である。 したがって、既存のアルゴリズムを変更したり、分散データセットに適用できる能力を導入するだけでなく、プライバシ保護によってユーザのデータを扱うことに責任を負うような新しいアルゴリズムを提案することは合理的である。 本稿では,プライバシ保護機能選択手法を3つ検討し,ギャップが特定された場合にその性能を改善するための提案を行う。 また,大まかな設定特徴選択に基づくプライバシ保護機能選択手法を提案する。 提案手法は,水平および垂直に分割されたデータセットを,二部・多部シナリオで処理できる。

Feature selection is the process of sieving features, in which informative features are separated from the redundant and irrelevant ones. This process plays an important role in machine learning, data mining and bioinformatics. However, traditional feature selection methods are only capable of processing centralized datasets and are not able to satisfy today's distributed data processing needs. These needs require a new category of data processing algorithms called privacy-preserving feature selection, which protects users' data by not revealing any part of the data neither in the intermediate processing nor in the final results. This is vital for the datasets which contain individuals' data, such as medical datasets. Therefore, it is rational to either modify the existing algorithms or propose new ones to not only introduce the capability of being applied to distributed datasets, but also act responsibly in handling users' data by protecting their privacy. In this paper, we will review three privacy-preserving feature selection methods and provide suggestions to improve their performance when any gap is identified. We will also propose a privacy-preserving feature selection method based on the rough set feature selection. The proposed method is capable of processing both horizontally and vertically partitioned datasets in two- and multi-parties scenarios.
翻訳日:2022-10-28 04:26:56 公開日:2020-08-17
# リフォーム:社会ロボットのF-formation認識

REFORM: Recognizing F-formations for Social Robots ( http://arxiv.org/abs/2008.07668v1 )

ライセンス: Link先を確認
Hooman Hedayati, Annika Muehlbradt, Daniel J. Szafir, Sean Andrist(参考訳) 会話型グループ(f-formations)の認識と理解は、人間と相互作用するように設計されたエージェントにとって重要なタスクである。 F-formationsは複雑な構造やダイナミクスを含むが、日々の対面会話で直感的に使用される。 F型鑑定の方法を探る以前の研究は、人間によって使われるリッチな動的な振る舞いを捉えないヒューリスティックなアルゴリズムに大きく依存していた。 本稿では、人間とエージェントの位置と向きをデータ駆動で検出するREFORM(Recognite F-Formations with Machine Learning)を提案する。 改革はシーンを全ての可能なペアに分解し、投票ベースのスキームでf-フォーメーションを再構築する。 我々は、SALSAデータセット、新たに収集された人間のみのデータセット、新しい行動可能な人間ロボットシナリオの3つのデータセットにまたがってアプローチを評価し、ReFORMが最先端のFフォーム検出アルゴリズムよりも精度が向上していることを発見した。 また、F型を特徴づける定量的尺度として対称性と強靭性を導入する。 補足ビデオ:https://youtu.be/Fp7ETdkKvdA , Dataset available at: github.com/cu-ironlab/Babble

Recognizing and understanding conversational groups, or F-formations, is a critical task for situated agents designed to interact with humans. F-formations contain complex structures and dynamics, yet are used intuitively by people in everyday face-to-face conversations. Prior research exploring ways of identifying F-formations has largely relied on heuristic algorithms that may not capture the rich dynamic behaviors employed by humans. We introduce REFORM (REcognize F-FORmations with Machine learning), a data-driven approach for detecting F-formations given human and agent positions and orientations. REFORM decomposes the scene into all possible pairs and then reconstructs F-formations with a voting-based scheme. We evaluated our approach across three datasets: the SALSA dataset, a newly collected human-only dataset, and a new set of acted human-robot scenarios, and found that REFORM yielded improved accuracy over a state-of-the-art F-formation detection algorithm. We also introduce symmetry and tightness as quantitative measures to characterize F-formations. Supplementary video: https://youtu.be/Fp7ETdkKvdA , Dataset available at: github.com/cu-ironlab/Babble
翻訳日:2022-10-28 04:26:22 公開日:2020-08-17
# シングルビューRGB画像からのカテゴリレベル3次元非デジタルレジストレーション

Category-Level 3D Non-Rigid Registration from Single-View RGB Images ( http://arxiv.org/abs/2008.07203v1 )

ライセンス: Link先を確認
Diego Rodriguez, Florian Huber, Sven Behnke(参考訳) 本稿では,畳み込みニューラルネットワーク(cnns)を用いたrgb画像からの3次元非剛性登録問題を解決する新しい手法を提案する。 我々の目的は、与えられた3D標準モデルを1ビューのRGB画像で観察された新しいインスタンスにワープする変形場(典型的には、インスタンス間の知識伝達に使用される)を見つけることである。 これは、標準モデルの可視部分の変形場を推定するcnnを訓練し、オクルードされた部分の変形を推定する学習形状(相対)空間を使用することによって行われる。 登録の結果、観測されたモデルを再構築する。 我々の手法は深度情報を必要としないため、例えば透明または光沢のある表面を持つRGB-Dセンサーで知覚しにくい物体を登録することができる。 深度データがない場合でも、評価対象カテゴリに対するコヒーレントポイントドリフト (CPD) の登録方法よりも優れている。

In this paper, we propose a novel approach to solve the 3D non-rigid registration problem from RGB images using Convolutional Neural Networks (CNNs). Our objective is to find a deformation field (typically used for transferring knowledge between instances, e.g., grasping skills) that warps a given 3D canonical model into a novel instance observed by a single-view RGB image. This is done by training a CNN that infers a deformation field for the visible parts of the canonical model and by employing a learned shape (latent) space for inferring the deformations of the occluded parts. As result of the registration, the observed model is reconstructed. Because our method does not need depth information, it can register objects that are typically hard to perceive with RGB-D sensors, e.g. with transparent or shiny surfaces. Even without depth data, our approach outperforms the Coherent Point Drift (CPD) registration method for the evaluated object categories.
翻訳日:2022-10-28 04:20:31 公開日:2020-08-17
# SoftPoolNet: ポイントクラウド補完と分類のための形状記述子

SoftPoolNet: Shape Descriptor for Point Cloud Completion and Classification ( http://arxiv.org/abs/2008.07358v1 )

ライセンス: Link先を確認
Yida Wang, David Joseph Tan, Nassir Navab, Federico Tombari(参考訳) ポイントクラウドは、ボリュームデータよりも柔軟性と効率性を示すため、多くのアプリケーションでデフォルトの選択肢であることが多い。 それにもかかわらず、その非組織的な性質 -- ポイントは順序付けされていない方法で保存される -- は、ディープラーニングパイプラインで処理されるのに適さない。 本稿では,点群に基づく3次元物体の完成と分類を行う手法を提案する。 我々は,抽出した特徴をアクティベーションに基づいて整理する新しい手法を導入し,ソフトプールと呼ぶ。 本稿では,グローバルアクティベーションエントロピーを最大化するための新しい演算子である地域畳み込みを提案する。 さらに,ポイント・コンプリート・ネットワーク(pcn)における局所精錬手順に触発されて,ポイント・クラウドの分解操作をシミュレートするパッチ・デフォーミング・オペレーションを提案する。 本稿では,AtlasNet や PCN などの多くのクラウドアーキテクチャにおいて,我々の地域活性化が組み込まれていることを示す。 我々は,物体の完成や分類,最先端の精度の達成など,異なる3次元タスクに対するアプローチを評価する。

Point clouds are often the default choice for many applications as they exhibit more flexibility and efficiency than volumetric data. Nevertheless, their unorganized nature -- points are stored in an unordered way -- makes them less suited to be processed by deep learning pipelines. In this paper, we propose a method for 3D object completion and classification based on point clouds. We introduce a new way of organizing the extracted features based on their activations, which we name soft pooling. For the decoder stage, we propose regional convolutions, a novel operator aimed at maximizing the global activation entropy. Furthermore, inspired by the local refining procedure in Point Completion Network (PCN), we also propose a patch-deforming operation to simulate deconvolutional operations for point clouds. This paper proves that our regional activation can be incorporated in many point cloud architectures like AtlasNet and PCN, leading to better performance for geometric completion. We evaluate our approach on different 3D tasks such as object completion and classification, achieving state-of-the-art accuracy.
翻訳日:2022-10-28 04:20:13 公開日:2020-08-17
# 解剖学を意識した心臓運動推定

Anatomy-Aware Cardiac Motion Estimation ( http://arxiv.org/abs/2008.07579v1 )

ライセンス: Link先を確認
Pingjun Chen, Xiao Chen, Eric Z. Chen, Hanchao Yu, Terrence Chen, Shanhui Sun(参考訳) 心機能評価には心臓運動推定が重要である。 心筋機能追跡(FT)は、特別なスキャン手順を必要としないシネMRIから直接心臓の動きを推定することができる。 しかし,現在の深層学習に基づくFT法では,非現実的な心筋形状が生じる可能性がある。 一方,地絡運動場がほとんど得られないため,学習による運動推定は困難である。 本研究では,貧弱な管理によって解剖を保存できる新しい心臓運動推定用アナトミー・アウェア・トラッカー (AATracker) を提案する。 畳み込み変分オートエンコーダ(VAE)はリアル心筋形状をカプセル化するために訓練される。 ベースライン高密度モーショントラッカーは、運動場を近似するために訓練され、次に改良され、VAEの弱い監督の下で解剖学的に認識された運動場を推定する。 提案手法は, 短軸より複雑な心筋の出現と運動を有する長軸心筋シンチグラフィについて検討した。 他の方法と比較すると、aatrackerは追跡性能を大幅に改善し、視覚的によりリアルな追跡結果を提供し、提案する心臓運動推定における弱スーパービジョンスキームの有効性を示している。

Cardiac motion estimation is critical to the assessment of cardiac function. Myocardium feature tracking (FT) can directly estimate cardiac motion from cine MRI, which requires no special scanning procedure. However, current deep learning-based FT methods may result in unrealistic myocardium shapes since the learning is solely guided by image intensities without considering anatomy. On the other hand, motion estimation through learning is challenging because ground-truth motion fields are almost impossible to obtain. In this study, we propose a novel Anatomy-Aware Tracker (AATracker) for cardiac motion estimation that preserves anatomy by weak supervision. A convolutional variational autoencoder (VAE) is trained to encapsulate realistic myocardium shapes. A baseline dense motion tracker is trained to approximate the motion fields and then refined to estimate anatomy-aware motion fields under the weak supervision from the VAE. We evaluate the proposed method on long-axis cardiac cine MRI, which has more complex myocardium appearances and motions than short-axis. Compared with other methods, AATracker significantly improves the tracking performance and provides visually more realistic tracking results, demonstrating the effectiveness of the proposed weakly-supervision scheme in cardiac motion estimation.
翻訳日:2022-10-28 04:19:18 公開日:2020-08-17
# 病理画像の統合登録と再構成のためのディープネットワーク

A Deep Network for Joint Registration and Reconstruction of Images with Pathologies ( http://arxiv.org/abs/2008.07628v1 )

ライセンス: Link先を確認
Xu Han, Zhengyang Shen, Zhenlin Xu, Spyridon Bakas, Hamed Akbari, Michel Bilello, Christos Davatzikos, Marc Niethammer(参考訳) 病理像の登録は組織外観の変化と病理像による対応の欠如により困難である。 さらに、脳腫瘍で観察される質量効果は組織を変位させ、健康な脳で観察されるものよりも時間とともに大きな変形を引き起こす可能性がある。 ディープラーニングモデルは、画像登録に成功して、劇的なスピードアップを提供し、トレーニング中に代理情報(例えばセグメンテーション)を使用することができる。 しかし、既存のアプローチでは、健康な患者の画像を用いた登録モデルの学習に重点を置いている。 そのため、脳腫瘍や外傷性脳損傷など、強い病理を持つ画像の登録のためには設計されていない。 本研究では,脳腫瘍の画像をアトラスに登録する深層学習手法について検討する。 本モデルでは,腫瘍のある画像からアトラスへの画像マッピングを学習し,同時にアトラス空間への変換を予測する。 分離されたデコーダを用いて、ネットワークは準正規画像の再構成から腫瘍の質量効果を解き放つ。 その結果,本手法はatlasへの登録に要するコスト関数マスクよりも優れており,再構成された準正常画像がより良好な縦断登録に利用できることがわかった。

Registration of images with pathologies is challenging due to tissue appearance changes and missing correspondences caused by the pathologies. Moreover, mass effects as observed for brain tumors may displace tissue, creating larger deformations over time than what is observed in a healthy brain. Deep learning models have successfully been applied to image registration to offer dramatic speed up and to use surrogate information (e.g., segmentations) during training. However, existing approaches focus on learning registration models using images from healthy patients. They are therefore not designed for the registration of images with strong pathologies for example in the context of brain tumors, and traumatic brain injuries. In this work, we explore a deep learning approach to register images with brain tumors to an atlas. Our model learns an appearance mapping from images with tumors to the atlas, while simultaneously predicting the transformation to atlas space. Using separate decoders, the network disentangles the tumor mass effect from the reconstruction of quasi-normal images. Results on both synthetic and real brain tumor scans show that our approach outperforms cost function masking for registration to the atlas and that reconstructed quasi-normal images can be used for better longitudinal registrations.
翻訳日:2022-10-28 04:19:01 公開日:2020-08-17
# 解剖学的特徴に基づくマンモグラムにおける胸筋の自動除去

Automatic elimination of the pectoral muscle in mammograms based on anatomical features ( http://arxiv.org/abs/2009.06357v1 )

ライセンス: Link先を確認
Jairo A. Ayala-Godoy, Rosa E. Lillo, Juan Romo(参考訳) デジタルマンモグラフィー検査は、ヒト乳癌組織の異常を早期に検出する最も一般的な手法である。 マンモグラムを計算法で解析すると,胸筋の存在が乳腺病変の検出結果に影響を及ぼす可能性がある。 この問題は、胸筋がマンモグラフィの大部分を占める中側斜視 (mediolateral oblique view, mlo) において特に顕著である。 したがって、胸筋の同定と除去は、乳房組織の自動識別を改善する上で必須のステップである。 本稿では,解剖学的特徴に基づくアプローチを提案し,この問題に対処する。 本手法は,(1)ラベル,マーカー,スクラッチ,ウェッジなどのノイズ要素を除去するプロセスと,(2)ベータ分布に基づく強度変換の適用の2段階からなる。 本手法は,マンモグラフィ画像解析協会 (mini-MIAS) データベースからの322個のデジタルマンモグラフィーと,領域正規化誤差を予め計算した84個のマンモグラフィーを用いて検証した。 その結果,本手法の性能は良好であった。

Digital mammogram inspection is the most popular technique for early detection of abnormalities in human breast tissue. When mammograms are analyzed through a computational method, the presence of the pectoral muscle might affect the results of breast lesions detection. This problem is particularly evident in the mediolateral oblique view (MLO), where pectoral muscle occupies a large part of the mammography. Therefore, identifying and eliminating the pectoral muscle are essential steps for improving the automatic discrimination of breast tissue. In this paper, we propose an approach based on anatomical features to tackle this problem. Our method consists of two steps: (1) a process to remove the noisy elements such as labels, markers, scratches and wedges, and (2) application of an intensity transformation based on the Beta distribution. The novel methodology is tested with 322 digital mammograms from the Mammographic Image Analysis Society (mini-MIAS) database and with a set of 84 mammograms for which the area normalized error was previously calculated. The results show a very good performance of the method.
翻訳日:2022-10-28 04:18:42 公開日:2020-08-17
# スマートハウスにおける行動計画の推定

Estimating action plans for smart poultry houses ( http://arxiv.org/abs/2008.07356v1 )

ライセンス: Link先を確認
Darlan Felipe Klotz and Richardson Ribeiro and Fabr\'icio Enembreck and Gustavo Denardin and Marco Barbosa and Dalcimar Casanova and Marcelo Teixeira(参考訳) 養鶏栽培において、周期的(t)行動計画の体系的な選択、更新、実施は、生産成功のための許容可能な指標である飼料転換率(fcr[t])を定義する。 適切なアクションプランはブロイラーに調整された資源を提供し、無駄や資源の欠如なしに、いわゆる熱快適ゾーン内で成長できる。 アクションプランの実装は自動的であるが、その構成は専門家の知識に依存し、効率が悪くエラーを起こしやすい傾向にあり、その結果、養鶏家ごとに異なるFCR[t]が生じる。 本稿では,コンピュータ・インテリジェンスによって,専門家の知覚をある程度再現できると主張している。 深層学習と遺伝的アルゴリズムの手法を組み合わせることで、これまでのよく成功した計画に基づいて、アクションプランが時間とともにパフォーマンスをどのように適応できるかを示す。 また,この手法を分散poultry house上で再現して,スマートで相互接続された適応制御を実現する分散ネットワークインフラストラクチャを実装した。 ユーザへのインターフェースとして監視システムを提供する。 実データを用いた実験により,本手法は最適FCR[t]に非常に近づき,最も生産性の高いスペシャリストのパフォーマンスを5%向上することが示された。

In poultry farming, the systematic choice, update, and implementation of periodic (t) action plans define the feed conversion rate (FCR[t]), which is an acceptable measure for successful production. Appropriate action plans provide tailored resources for broilers, allowing them to grow within the so-called thermal comfort zone, without wast or lack of resources. Although the implementation of an action plan is automatic, its configuration depends on the knowledge of the specialist, tending to be inefficient and error-prone, besides to result in different FCR[t] for each poultry house. In this article, we claim that the specialist's perception can be reproduced, to some extent, by computational intelligence. By combining deep learning and genetic algorithm techniques, we show how action plans can adapt their performance over the time, based on previous well succeeded plans. We also implement a distributed network infrastructure that allows to replicate our method over distributed poultry houses, for their smart, interconnected, and adaptive control. A supervision system is provided as interface to users. Experiments conducted over real data show that our method improves 5% on the performance of the most productive specialist, staying very close to the optimal FCR[t].
翻訳日:2022-10-28 04:18:24 公開日:2020-08-17
# デバイスフリーフィンガープリンティングのためのganを用いた半教師付き学習

Semi-Supervised Learning with GANs for Device-Free Fingerprinting Indoor Localization ( http://arxiv.org/abs/2008.07111v1 )

ライセンス: Link先を確認
Kevin M. Chen and Ronald Y. Chang(参考訳) デバイスフリーのワイヤレス屋内ローカライゼーションはIoT(Internet of Things)の鍵となる技術である。 指紋ベースの屋内定位技術は一般的なソリューションである。 本稿では,GANをベースとしたデバイスフリーフィンガープリント屋内位置推定システムを提案する。 提案方式では,少量のラベル付きデータと大量のラベル付きデータ(半教師付きデータなど)を用いて,費用のかかるデータラベリング作業を大幅に削減する。 実験結果から,提案した半教師付きシステムは,最先端の教師付きスキームと比較して,同等かつ十分なラベル付きデータと同等の性能と,高い制限のあるラベル付きデータとを比較検討した。 さらに,提案システムでは,ラベル付きデータの広範囲にわたる性能を維持している。 提案システムにおけるジェネレータ,識別器,分類器モデルの相互作用を視覚的に検討し,考察した。 また,提案方式の数学的記述について述べる。

Device-free wireless indoor localization is a key enabling technology for the Internet of Things (IoT). Fingerprint-based indoor localization techniques are a commonly used solution. This paper proposes a semi-supervised, generative adversarial network (GAN)-based device-free fingerprinting indoor localization system. The proposed system uses a small amount of labeled data and a large amount of unlabeled data (i.e., semi-supervised), thus considerably reducing the expensive data labeling effort. Experimental results show that, as compared to the state-of-the-art supervised scheme, the proposed semi-supervised system achieves comparable performance with equal, sufficient amount of labeled data, and significantly superior performance with equal, highly limited amount of labeled data. Besides, the proposed semi-supervised system retains its performance over a broad range of the amount of labeled data. The interactions between the generator, discriminator, and classifier models of the proposed GAN-based system are visually examined and discussed. A mathematical description of the proposed system is also presented.
翻訳日:2022-10-28 04:17:55 公開日:2020-08-17
# V2VNet:共同認識と予測のための車車間通信

V2VNet: Vehicle-to-Vehicle Communication for Joint Perception and Prediction ( http://arxiv.org/abs/2008.07519v1 )

ライセンス: Link先を確認
Tsun-Hsuan Wang, Sivabalan Manivasagam, Ming Liang, Bin Yang, Wenyuan Zeng, James Tu, Raquel Urtasun(参考訳) 本稿では、車両間通信(v2v)を用いて、自動運転車の知覚・運動予測性能を向上させることを検討する。 複数の車両から受信した情報をインテリジェントに集約することで、異なる視点から同じシーンを観察することができる。 これにより、オクルージョンを通して観察し、観察が極めて少ない、あるいは存在しない、長距離のアクターを検出することができます。 また,圧縮された深層特徴マップのアクティベーションは,通信帯域幅要件を満たしながら高い精度を実現していることを示す。

In this paper, we explore the use of vehicle-to-vehicle (V2V) communication to improve the perception and motion forecasting performance of self-driving vehicles. By intelligently aggregating the information received from multiple nearby vehicles, we can observe the same scene from different viewpoints. This allows us to see through occlusions and detect actors at long range, where the observations are very sparse or non-existent. We also show that our approach of sending compressed deep feature map activations achieves high accuracy while satisfying communication bandwidth requirements.
翻訳日:2022-10-28 04:10:46 公開日:2020-08-17
# スマートフォンを用いたリアルタイム乳幼児喉頭診断システム

A Smartphone-based System for Real-time Early Childhood Caries Diagnosis ( http://arxiv.org/abs/2008.07623v1 )

ライセンス: Link先を確認
Yipeng Zhang, Haofu Liao, Jin Xiao, Nisreen Al Jallad, Oriana Ly-Mapes, Jiebo Luo(参考訳) 6歳未満の小児では, 乳児期チャイナリー (ECC) が最も多いが予防可能な慢性疾患である。 重度のeccの治療は、社会経済的に不利な家族にとって非常に高価で耐え難い。 早期のECCの同定は通常、この分野の専門知識を必要とするため、しばしば両親によって無視される。 そのため,早期予防戦略や診断の容易化が望まれる。 本研究では,キャビティ検出のための多段階深層学習システムを提案する。 歯科医が手動でラベル付けしたRGB経口画像を含むデータセットを作成する。 次に、データセット上で異なるディープラーニングモデルの有効性を検討する。 さらに,ディープラーニングシステムをモバイルアプリケーションに統合し,早期からECCを診断し,トレーニングされていないユーザに対してリアルタイムな結果を提供する。

Early childhood caries (ECC) is the most common, yet preventable chronic disease in children under the age of 6. Treatments on severe ECC are extremely expensive and unaffordable for socioeconomically disadvantaged families. The identification of ECC in an early stage usually requires expertise in the field, and hence is often ignored by parents. Therefore, early prevention strategies and easy-to-adopt diagnosis techniques are desired. In this study, we propose a multistage deep learning-based system for cavity detection. We create a dataset containing RGB oral images labeled manually by dental practitioners. We then investigate the effectiveness of different deep learning models on the dataset. Furthermore, we integrate the deep learning system into an easy-to-use mobile application that can diagnose ECC from an early stage and provide real-time results to untrained users.
翻訳日:2022-10-28 04:10:36 公開日:2020-08-17
# ゼロショット学習における敵対的ロバストネスの深み

A Deep Dive into Adversarial Robustness in Zero-Shot Learning ( http://arxiv.org/abs/2008.07651v1 )

ライセンス: Link先を確認
Mehmet Kerim Yucel, Ramazan Gokberk Cinbis, Pinar Duygulu(参考訳) 機械学習(ML)システムは、高度に複雑なモデルの導入により、様々な分野で大きな進歩をもたらした。 その成功にもかかわらず、機械学習モデルは、その精度を著しく低下させる、知覚できない摂動の傾向が何度も示されてきた。 これまでの研究は主に、すべてのクラスにまたがる監督が利用できるモデルに焦点が当てられている。 コンストラストでは、ゼロショットラーニング(ZSL)と一般化ゼロショットラーニング(GZSL)タスクは、本質的にすべてのクラスに対する監督を欠いている。 本稿では,ZSLモデルとGZSLモデルの対角的ロバスト性の評価を目的とした研究を行う。 我々は、確立されたラベル埋め込みモデルを利用して、複数のデータセットにまたがって確立された敵対的攻撃と防御を行う。 ZSLモデルの逆ロバスト性に関する最初のベンチマークを作成することに加え、ZSLロバスト性の結果をよりよく解釈するために注意を要する重要な点について分析する。 これらのポイントが、ベンチマークとともに、研究者が先にある課題をより深く理解し、作業のガイドとなることを願っています。

Machine learning (ML) systems have introduced significant advances in various fields, due to the introduction of highly complex models. Despite their success, it has been shown multiple times that machine learning models are prone to imperceptible perturbations that can severely degrade their accuracy. So far, existing studies have primarily focused on models where supervision across all classes were available. In constrast, Zero-shot Learning (ZSL) and Generalized Zero-shot Learning (GZSL) tasks inherently lack supervision across all classes. In this paper, we present a study aimed on evaluating the adversarial robustness of ZSL and GZSL models. We leverage the well-established label embedding model and subject it to a set of established adversarial attacks and defenses across multiple datasets. In addition to creating possibly the first benchmark on adversarial robustness of ZSL models, we also present analyses on important points that require attention for better interpretation of ZSL robustness results. We hope these points, along with the benchmark, will help researchers establish a better understanding what challenges lie ahead and help guide their work.
翻訳日:2022-10-28 04:10:26 公開日:2020-08-17
# scikit-dyn2sel - データストリームのための動的選択フレームワーク

scikit-dyn2sel -- A Dynamic Selection Framework for Data Streams ( http://arxiv.org/abs/2008.08920v1 )

ライセンス: Link先を確認
Lucca Portes Cavalheiro, Jean Paul Barddal, Alceu de Souza Britto Jr, Laurent Heutte(参考訳) データストリームのマイニングは、それ自体が課題である。 膨大な量のデータと、コンセプトドリフトのようなバッチ機械学習に存在しない問題に対処する準備ができている必要があります。 したがって、分類器(DCS)の動的選択のようなバッチ設計技術を適用することも課題である。 ストリームを扱うアンサンブルの動的特性は、そのような分類器における従来のDCS技術の適用に障壁を与える。 scikit-dyn2selは、ストリーミングデータにおける動的選択技術に適したオープンソースのpythonライブラリである。 scikit-dyn2selの開発は、PEP8準拠やcodecov.io と circleci.com を使用した自動テストカバレッジなど、コード品質とテスト標準に従っている。 ソースコード、ドキュメント、サンプルはgithubのhttps://github.com/luccaportes/scikit-dyn2selで入手できる。

Mining data streams is a challenge per se. It must be ready to deal with an enormous amount of data and with problems not present in batch machine learning, such as concept drift. Therefore, applying a batch-designed technique, such as dynamic selection of classifiers (DCS) also presents a challenge. The dynamic characteristic of ensembles that deal with streams presents barriers to the application of traditional DCS techniques in such classifiers. scikit-dyn2sel is an open-source python library tailored for dynamic selection techniques in streaming data. scikit-dyn2sel's development follows code quality and testing standards, including PEP8 compliance and automated high test coverage using codecov.io and circleci.com. Source code, documentation, and examples are made available on GitHub at https://github.com/luccaportes/Scikit-DYN2SEL.
翻訳日:2022-10-28 04:10:07 公開日:2020-08-17
# 断熱量子最適化はクナプサック問題を解くことができない

Adiabatic Quantum Optimization Fails to Solve the Knapsack Problem ( http://arxiv.org/abs/2008.07456v1 )

ライセンス: Link先を確認
Lauren Pusey-Nazzaro, Prasanna Date(参考訳) 本研究では,D-Wave 2000Qアダイバティック量子コンピュータを用いて整数重み付きクナプサック問題を解く。 ナップサック問題(英: knapsack problem)は、経済学、ビジネス、金融など、コンピュータ科学においてよく知られたnp完全問題である。 我々は、最適解が知られている多くの小さなナップサック問題を解こうとする; 断熱量子最適化は、すべての問題において、ナップサックの最適充填に対応する解を作り出すことができない。 量子ハードウェア上で得られた結果と古典的アニーリングアルゴリズムとハイブリッド分岐結合アルゴリズムを用いた2つの解法との比較を行った。 シミュレートアニーリングアルゴリズムはまた、クナプサックの最適充填を生成するのに失敗するが、シミュレートアニーリングと量子アニーリングによって得られる解は、正しい解よりも互いに似ていない。 断熱的量子最適化の観測失敗の原因について考察する。

In this work, we attempt to solve the integer-weight knapsack problem using the D-Wave 2000Q adiabatic quantum computer. The knapsack problem is a well-known NP-complete problem in computer science, with applications in economics, business, finance, etc. We attempt to solve a number of small knapsack problems whose optimal solutions are known; we find that adiabatic quantum optimization fails to produce solutions corresponding to optimal filling of the knapsack in all problem instances. We compare results obtained on the quantum hardware to the classical simulated annealing algorithm and two solvers employing a hybrid branch-and-bound algorithm. The simulated annealing algorithm also fails to produce the optimal filling of the knapsack, though solutions obtained by simulated and quantum annealing are no more similar to each other than to the correct solution. We discuss potential causes for this observed failure of adiabatic quantum optimization.
翻訳日:2022-10-28 04:09:42 公開日:2020-08-17
# 周期反転:単眼蒸留による自己教師付き深層ステレオ

Reversing the cycle: self-supervised deep stereo through enhanced monocular distillation ( http://arxiv.org/abs/2008.07130v1 )

ライセンス: Link先を確認
Filippo Aleotti, Fabio Tosi, Li Zhang, Matteo Poggi, Stefano Mattoccia(参考訳) 多くの分野で、自己教師付き学習ソリューションは急速に進化し、教師付きアプローチでギャップを埋めている。 この事実は単眼またはステレオに基づく深さ推定において起こり、後者はしばしば前者に対して有効な自己スーパービジョンの源を提供する。 対照的に,典型的なステレオアーティファクトをソフト化するために,両者のリンクを逆転する新しい自己教師付きパラダイムを提案する。 目的,深層ステレオネットワークを訓練するために,単分子完全ネットワークを通じて知識を抽出する。 このアーキテクチャは、単一の画像の手がかりと、従来のステレオアルゴリズムによって導出されるスパースポイントを生かし、複数の推定に対するコンセンサス機構を用いて、密度が高く正確な不均等写像を推定する。 一般的なステレオデータセットを用いて、ステレオネットワークが既存の自己管理フレームワークより優れていることを示す、さまざまな監視信号の影響を徹底的に評価する。 最後に、ドメインシフト問題に対処する顕著な一般化機能を実現する。 https://github.com/FilippoAleotti/Reversingで公開されているコード

In many fields, self-supervised learning solutions are rapidly evolving and filling the gap with supervised approaches. This fact occurs for depth estimation based on either monocular or stereo, with the latter often providing a valid source of self-supervision for the former. In contrast, to soften typical stereo artefacts, we propose a novel self-supervised paradigm reversing the link between the two. Purposely, in order to train deep stereo networks, we distill knowledge through a monocular completion network. This architecture exploits single-image clues and few sparse points, sourced by traditional stereo algorithms, to estimate dense yet accurate disparity maps by means of a consensus mechanism over multiple estimations. We thoroughly evaluate with popular stereo datasets the impact of different supervisory signals showing how stereo networks trained with our paradigm outperform existing self-supervised frameworks. Finally, our proposal achieves notable generalization capabilities dealing with domain shift issues. Code available at https://github.com/FilippoAleotti/Reversing
翻訳日:2022-10-28 04:03:13 公開日:2020-08-17
# ゲームキャラクタ自動生成のための高速かつロバストな顔-パラメータ変換

Fast and Robust Face-to-Parameter Translation for Game Character Auto-Creation ( http://arxiv.org/abs/2008.07132v1 )

ライセンス: Link先を確認
Tianyang Shi (1), Zhengxia Zou (2), Yi Yuan (1), Changjie Fan (1) ((1) NetEase Fuxi AI Lab, (2) University of Michigan)(参考訳) ロールプレイングゲーム(rpg)の急速な発展に伴い、プレイヤーはデフォルトのテンプレートではなく、ゲーム内のキャラクターの顔の外観を好みで編集できるようになった。 本稿では,プレイヤーの入力顔写真に基づいてゲーム内キャラクタを生成するゲームキャラクタ自動生成フレームワークを提案する。 従来のニューラルスタイルトランスファーや単眼的3d顔再構成法と異なり, 自己教師付き学習パラダイムの下で, 物理的に有意味な顔パラメータの大規模な集合を予測することにより, 文字の自動生成過程を異なる視点で再計算する。 従来提案されていたレンダラーの入力端において, 顔パラメータを反復的に更新する代わりに, 顔埋め込みからパラメータへの単一の前方伝播により, 顔パラメータトランスレータを効率よく作成できるようにし, 計算速度を1000倍に向上させる。 高い効率にもかかわらず、対話性は当社の方法で保持されており、ユーザーは必要に応じて顔のパラメータを微調整することができる。 提案手法は従来手法よりも頑健性が向上し,特に頭部変位のある写真では頑健性が向上した。 7つの顔認証データセットの比較結果とアブレーション分析により,本手法の有効性が示唆された。

With the rapid development of Role-Playing Games (RPGs), players are now allowed to edit the facial appearance of their in-game characters with their preferences rather than using default templates. This paper proposes a game character auto-creation framework that generates in-game characters according to a player's input face photo. Different from the previous methods that are designed based on neural style transfer or monocular 3D face reconstruction, we re-formulate the character auto-creation process in a different point of view: by predicting a large set of physically meaningful facial parameters under a self-supervised learning paradigm. Instead of updating facial parameters iteratively at the input end of the renderer as suggested by previous methods, which are time-consuming, we introduce a facial parameter translator so that the creation can be done efficiently through a single forward propagation from the face embeddings to parameters, with a considerable 1000x computational speedup. Despite its high efficiency, the interactivity is preserved in our method where users are allowed to optionally fine-tune the facial parameters on our creation according to their needs. Our approach also shows better robustness than previous methods, especially for those photos with head-pose variance. Comparison results and ablation analysis on seven public face verification datasets suggest the effectiveness of our method.
翻訳日:2022-10-28 04:02:56 公開日:2020-08-17
# 重み付きデータセットからの重み付きモデルによる多臓器分離

Multi-organ Segmentation via Co-training Weight-averaged Models from Few-organ Datasets ( http://arxiv.org/abs/2008.07149v1 )

ライセンス: Link先を確認
Rui Huang, Yuanjie Zheng, Zhiqiang Hu, Shaoting Zhang, Hongsheng Li(参考訳) 多臓器セグメンテーションは多くの臨床応用に広く応用されている。 複数の臓器を分割することは、一般的に同じ画像上のすべての臓器の完全なアノテーションを集めることは困難であり、一部の医療センターは、自身の臨床実践のために臓器の一部に注釈を付けるだけである。 ほとんどのシナリオでは、あるトレーニングセットから1つまたは数個の臓器のアノテーションを取得し、別のトレーニングイメージから他の臓器のアノテーションを取得することができる。 既存のアプローチは主に、メモリ集約的で時間非効率な、臓器のサブセット毎に単一のモデルをトレーニングし、デプロイする。 本稿では,少数のデータセットから統一的なマルチ組織セグメンテーションネットワークを学習するための平均重み付きモデルを提案する。 共同で2つのネットワークをトレーニングし、結合されたネットワークが無注釈の臓器で互いに教え合うようにしました。 ネットワーク間の騒がしい指導監督を緩和するために、より信頼性の高いソフトラベルを生成するために、重み付け平均モデルを採用する。 さらに、新しい領域マスクを用いて、共同教育を必要とする無注釈臓器領域に一貫性のある制約を選択的に適用することにより、パフォーマンスをさらに向上させる。 公開されているLiTS,KiTS,Pancreas,およびMOBAによる手作業で構築した3つの単一臓器データセットに対する大規模な実験により,本手法は少数臓器データセットをより有効に活用でき,推論計算コストを低減して優れた性能が得られることが示された。

Multi-organ segmentation has extensive applications in many clinical applications. To segment multiple organs of interest, it is generally quite difficult to collect full annotations of all the organs on the same images, as some medical centers might only annotate a portion of the organs due to their own clinical practice. In most scenarios, one might obtain annotations of a single or a few organs from one training set, and obtain annotations of the the other organs from another set of training images. Existing approaches mostly train and deploy a single model for each subset of organs, which are memory intensive and also time inefficient. In this paper, we propose to co-train weight-averaged models for learning a unified multi-organ segmentation network from few-organ datasets. We collaboratively train two networks and let the coupled networks teach each other on un-annotated organs. To alleviate the noisy teaching supervisions between the networks, the weighted-averaged models are adopted to produce more reliable soft labels. In addition, a novel region mask is utilized to selectively apply the consistent constraint on the un-annotated organ regions that require collaborative teaching, which further boosts the performance. Extensive experiments on three public available single-organ datasets LiTS, KiTS, Pancreas and manually-constructed single-organ datasets from MOBA show that our method can better utilize the few-organ datasets and achieves superior performance with less inference computational cost.
翻訳日:2022-10-28 04:02:10 公開日:2020-08-17
# PokerFace-GANによるニュートラルフェイスゲームキャラクタ自動クリーション

Neutral Face Game Character Auto-Creation via PokerFace-GAN ( http://arxiv.org/abs/2008.07154v1 )

ライセンス: Link先を確認
Tianyang Shi (1), Zhengxia Zou (2), Xinhui Song (1), Zheng Song (1), Changjian Gu (1), Changjie Fan (1), Yi Yuan (1) ((1) NetEase Fuxi AI Lab, (2) University of Michigan)(参考訳) ゲームキャラクターのカスタマイズは、プレイヤーがゲームのキャラクターの外観を好みで編集できる、最近のロールプレイングゲーム(RPG)の中核的な特徴の1つである。 本稿では,ゲーム内キャラクタを1枚の写真で自動生成する問題について検討する。 この話題に関する最近の文献では、ニューラルネットワークがゲームエンジンを微分可能にし、自己教師付き学習が顔のカスタマイズパラメータの予測に使用される。 しかし、従来の手法では、表情パラメータと顔の識別パラメータは互いに強く結合しており、文字の固有の顔の特徴をモデル化することは困難である。 さらに、従来の方法で使用されるニューラルネットワークベースのレンダラーは、マルチビューレンダリングケースに拡張することも困難である。 本稿では,上記の問題を考慮し,ニュートラルフェイスゲームキャラクタ自動生成のための新しい手法である"PokerFace-GAN"を提案する。 まず、マルチビューレンダリングケースにおいて、従来のメソッドよりも柔軟である、微分可能な文字レンダラを構築した。 次に,相手の学習を活かして,表現パラメータを識別パラメータから効果的に切り離し,プレーヤが予測した中性面(表現なし)の文字を生成する。 本手法の全てのコンポーネントは微分可能であるため,マルチタスクの自己教師付き学習パラダイムの下で容易に学習することができる。 実験の結果,本手法は入力画像と非常に類似した,鮮明な中性面ゲームキャラクタを生成できることがわかった。 本手法の有効性は比較およびアブレーション実験により検証した。

Game character customization is one of the core features of many recent Role-Playing Games (RPGs), where players can edit the appearance of their in-game characters with their preferences. This paper studies the problem of automatically creating in-game characters with a single photo. In recent literature on this topic, neural networks are introduced to make game engine differentiable and the self-supervised learning is used to predict facial customization parameters. However, in previous methods, the expression parameters and facial identity parameters are highly coupled with each other, making it difficult to model the intrinsic facial features of the character. Besides, the neural network based renderer used in previous methods is also difficult to be extended to multi-view rendering cases. In this paper, considering the above problems, we propose a novel method named "PokerFace-GAN" for neutral face game character auto-creation. We first build a differentiable character renderer which is more flexible than the previous methods in multi-view rendering cases. We then take advantage of the adversarial training to effectively disentangle the expression parameters from the identity parameters and thus generate player-preferred neutral face (expression-less) characters. Since all components of our method are differentiable, our method can be easily trained under a multi-task self-supervised learning paradigm. Experiment results show that our method can generate vivid neutral face game characters that are highly similar to the input photos. The effectiveness of our method is verified by comparison results and ablation studies.
翻訳日:2022-10-28 04:01:43 公開日:2020-08-17
# DeepGIN: 極端画像のインペインティングのためのディープジェネレーション・インペインティング・ネットワーク

DeepGIN: Deep Generative Inpainting Network for Extreme Image Inpainting ( http://arxiv.org/abs/2008.07173v1 )

ライセンス: Link先を確認
Chu-Tak Li, Wan-Chi Siu, Zhi-Song Liu, Li-Wen Wang, and Daniel Pak-Kong Lun(参考訳) イメージインペインティングの難しさは、欠落している部分の種類やサイズに依存する。 既存の画像塗装アプローチは、ある特定のタイプの欠落パターン(マスク)を扱うか、マスクされた領域の形状や大きさを一方的に仮定するために訓練された視覚的および文脈的な結果で、野生の欠落部分を完成させる際の困難に直面する。 我々は,様々な種類のマスク画像を扱うために,deepgin という名のディープジェネレイティブ・インペインティングネットワークを提案する。 本研究では,空間ピラミッド拡張(SPD)ResNetブロックを設計し,遠隔地特徴の復元を可能にする。 また,マルチスケール自己認識(MSSA)機構とバックプロジェクション(BP)技術を用いて,着色効果を高める。 私たちのDeepGINは、2つの公開データセット(FFHQとOxford Buildings)を含む最先端のアプローチよりも、量的にも質的にも優れています。 また,本モデルでは,マスキング画像の野生化が可能であることも実証した。

The degree of difficulty in image inpainting depends on the types and sizes of the missing parts. Existing image inpainting approaches usually encounter difficulties in completing the missing parts in the wild with pleasing visual and contextual results as they are trained for either dealing with one specific type of missing patterns (mask) or unilaterally assuming the shapes and/or sizes of the masked areas. We propose a deep generative inpainting network, named DeepGIN, to handle various types of masked images. We design a Spatial Pyramid Dilation (SPD) ResNet block to enable the use of distant features for reconstruction. We also employ Multi-Scale Self-Attention (MSSA) mechanism and Back Projection (BP) technique to enhance our inpainting results. Our DeepGIN outperforms the state-of-the-art approaches generally, including two publicly available datasets (FFHQ and Oxford Buildings), both quantitatively and qualitatively. We also demonstrate that our model is capable of completing masked images in the wild.
翻訳日:2022-10-28 04:01:18 公開日:2020-08-17
# 航空画像からの単眼深度推定のための自己教師あり学習

Self-Supervised Learning for Monocular Depth Estimation from Aerial Imagery ( http://arxiv.org/abs/2008.07246v1 )

ライセンス: Link先を確認
Max Hermann, Boitumelo Ruf, Martin Weinmann, Stefan Hinz(参考訳) 単眼深度推定のための教師付き学習法は通常、大量の注釈付きトレーニングデータを必要とする。 航空画像の場合、この地上の真理は特に取得が困難である。 そこで本稿では,注釈付きトレーニングデータを必要としない空中画像から単眼深度推定のための自己教師型学習法を提案する。 このために,単一の移動カメラからの画像シーケンスのみを使用し,深度とポーズ情報を同時に推定することを学ぶ。 ポーズと深さ推定の重みを共有することで,リアルタイムアプリケーションを好む比較的小さなモデルを実現する。 提案手法を3つの多様なデータセット上で評価し,マルチビュー幾何に基づいて深度マップを推定する従来の手法と比較した。 我々は 93.5 % までの精度 {\delta}1.25 を達成する。 さらに、未知のデータに対する訓練されたモデルの一般化と、我々のアプローチの自己改善能力に特に注意を払っている。 本研究は, 単眼深度推定の結果が従来の手法よりも劣っているものの, 画像マッチングに依存する手法や, オーククラッド領域やテクスチャレス領域など, 画像マッチングが失敗する領域において, 適切な初期化を行うのに適していると結論づける。

Supervised learning based methods for monocular depth estimation usually require large amounts of extensively annotated training data. In the case of aerial imagery, this ground truth is particularly difficult to acquire. Therefore, in this paper, we present a method for self-supervised learning for monocular depth estimation from aerial imagery that does not require annotated training data. For this, we only use an image sequence from a single moving camera and learn to simultaneously estimate depth and pose information. By sharing the weights between pose and depth estimation, we achieve a relatively small model, which favors real-time application. We evaluate our approach on three diverse datasets and compare the results to conventional methods that estimate depth maps based on multi-view geometry. We achieve an accuracy {\delta}1.25 of up to 93.5 %. In addition, we have paid particular attention to the generalization of a trained model to unknown data and the self-improving capabilities of our approach. We conclude that, even though the results of monocular depth estimation are inferior to those achieved by conventional methods, they are well suited to provide a good initialization for methods that rely on image matching or to provide estimates in regions where image matching fails, e.g. occluded or texture-less regions.
翻訳日:2022-10-28 04:00:33 公開日:2020-08-17
# 群集シーンにおける群集カウントのための拡張畳み込みネットワークの改良

An Improved Dilated Convolutional Network for Herd Counting in Crowded Scenes ( http://arxiv.org/abs/2008.07254v1 )

ライセンス: Link先を確認
Soufien Hamrouni, Hakim Ghazzai, Hamid Menouar and Yahya Massoud(参考訳) コンピュータビジョンを利用する群衆管理技術は現代に広く普及している。 これらの手法にはセキュリティ関連の応用が多数存在するが、これは制限されない: 人々の流れを辿り、大規模な集まりを監視する。 本稿では,2つの畳み込み畳み込み深層学習アーキテクチャからなる正確なモニタリングシステムを提案する。 最初のパートであるFront-endは、二次元信号の変換と高レベルの機能の提供を担当している。 第2部はバックエンドと呼ばれ、プール層を置き換えるために使用される拡張畳み込みニューラルネットワーク(CNN)である。 ネットワーク全体の受容領域を拡大し、第1のネットワークによって提供される記述子を、高度に混雑した画像の人数を推定するために利用するサリエンシマップに変換する責任を負う。 また,バックエンドに最適化された拡張率構成を求めるために遺伝的アルゴリズムを提案する。 提案モデルでは,最先端手法よりも30倍早く収束することが示されている。 また,上海データ~セットに適用すると,20%下方平均絶対誤差(mae)が達成できることを示した。

Crowd management technologies that leverage computer vision are widespread in contemporary times. There exists many security-related applications of these methods, including, but not limited to: following the flow of an array of people and monitoring large gatherings. In this paper, we propose an accurate monitoring system composed of two concatenated convolutional deep learning architectures. The first part called Front-end, is responsible for converting bi-dimensional signals and delivering high-level features. The second part, called the Back-end, is a dilated Convolutional Neural Network (CNN) used to replace pooling layers. It is responsible for enlarging the receptive field of the whole network and converting the descriptors provided by the first network to a saliency map that will be utilized to estimate the number of people in highly congested images. We also propose to utilize a genetic algorithm in order to find an optimized dilation rate configuration in the back-end. The proposed model is shown to converge 30\% faster than state-of-the-art approaches. It is also shown that it achieves 20\% lower Mean Absolute Error (MAE) when applied to the Shanghai data~set.
翻訳日:2022-10-28 04:00:13 公開日:2020-08-17
# 高精度1段階物体検出のためのAP-Loss

AP-Loss for Accurate One-Stage Object Detection ( http://arxiv.org/abs/2008.07294v1 )

ライセンス: Link先を確認
Kean Chen, Weiyao Lin, Jianguo Li, John See, Ji Wang, Junni Zou(参考訳) 1段階の物体検出器は、分類損失と局在損失を同時に最適化することで訓練され、前者はアンカーの数が多ければ多いため、極度のフォアグラウンドバックグラウンドクラス不均衡に苦しむ。 本稿では,一段検出器の分類タスクをランキングタスクに置き換える新しい枠組みを提案し,平均精度損失(AP損失)をランキング問題に適用することによってこの問題を軽減する。 非微分性と非凸性のため、ap損失は直接最適化できない。 そこで本研究では,深層ネットワークにおけるパーセプトロン学習とバックプロパゲーションアルゴリズムの誤り駆動更新スキームをシームレスに組み合わせた新しい最適化アルゴリズムを開発した。 本稿では,提案アルゴリズムの収束特性と計算複雑性について,理論的および経験的に詳細に解析する。 実験の結果,既存のAPベース最適化アルゴリズムよりもオブジェクト検出における不均衡問題に対処する上で,顕著な改善が見られた。 各種標準ベンチマークの分類量を用いたAPロスオーバー検出器に基づく1段検出器において,最先端性能の向上が達成されている。 提案するフレームワークは、異なるネットワークアーキテクチャを収容する上でも非常に多用途である。 コードはhttps://github.com/cccorn/ap-lossで入手できる。

One-stage object detectors are trained by optimizing classification-loss and localization-loss simultaneously, with the former suffering much from extreme foreground-background class imbalance issue due to the large number of anchors. This paper alleviates this issue by proposing a novel framework to replace the classification task in one-stage detectors with a ranking task, and adopting the Average-Precision loss (AP-loss) for the ranking problem. Due to its non-differentiability and non-convexity, the AP-loss cannot be optimized directly. For this purpose, we develop a novel optimization algorithm, which seamlessly combines the error-driven update scheme in perceptron learning and backpropagation algorithm in deep networks. We provide in-depth analyses on the good convergence property and computational complexity of the proposed algorithm, both theoretically and empirically. Experimental results demonstrate notable improvement in addressing the imbalance issue in object detection over existing AP-based optimization algorithms. An improved state-of-the-art performance is achieved in one-stage detectors based on AP-loss over detectors using classification-losses on various standard benchmarks. The proposed framework is also highly versatile in accommodating different network architectures. Code is available at https://github.com/cccorn/AP-loss .
翻訳日:2022-10-28 03:59:57 公開日:2020-08-17
# 一時的DL-Liteにおける自動推論

Automated Reasoning in Temporal DL-Lite ( http://arxiv.org/abs/2008.07463v1 )

ライセンス: Link先を確認
Sabiha Tahrat, German Braun, Alessandro Artale, Marco Gario, and Ana Ozaki(参考訳) 本稿では,時間的DL-Lite(TDL-Lite)知識ベース(KB)に対する自動推論の実現可能性について検討する。 TDL-Lite KB の満足度を確認するために,既製の LTL 推論器を用いて実験を行った。 特に, TDL-Lite TBoxes と時間的 ABox を組み合わせた場合のロバスト性と拡張性を検証した。 我々は,TDL-Lite KBをランダムに生成し,実行時間と翻訳サイズを計測することにより,異なる推論器の性能を解析する様々な実験を行った。 さらに, tdl-lite kbs の使用を現実にしようとする試みとして, 設計のためのグラフィカルインタフェースを備えた本格的なツールを提案する。 私たちのインターフェースは概念モデリングの原則に基づいており、翻訳ツールや時間的推論と統合されています。

This paper investigates the feasibility of automated reasoning over temporal DL-Lite (TDL-Lite) knowledge bases (KBs). We test the usage of off-the-shelf LTL reasoners to check satisfiability of TDL-Lite KBs. In particular, we test the robustness and the scalability of reasoners when dealing with TDL-Lite TBoxes paired with a temporal ABox. We conduct various experiments to analyse the performance of different reasoners by randomly generating TDL-Lite KBs and then measuring the running time and the size of the translations. Furthermore, in an effort to make the usage of TDL-Lite KBs a reality, we present a fully fledged tool with a graphical interface to design them. Our interface is based on conceptual modelling principles and it is integrated with our translation tool and a temporal reasoner.
翻訳日:2022-10-28 03:54:12 公開日:2020-08-17
# 実行時安全誘導型政策修復

Runtime-Safety-Guided Policy Repair ( http://arxiv.org/abs/2008.07667v1 )

ライセンス: Link先を確認
Weichao Zhou, Ruihan Gao, BaekGyu Kim, Eunsuk Kang, Wenchao Li(参考訳) 安全クリティカルな環境での学習に基づく制御政策におけるポリシー修復の問題点について検討する。 高性能な学習ベースの制御ポリシ(ニューラルネットワークとしてトレーニングされたものなど)とモデルベースの安全コントローラを組み合わせるアーキテクチャを考える。 安全制御装置には、訓練されたポリシーがシステムを安全でない状態に導くかどうかを予測し、必要に応じて制御を引き継ぐ能力が付与される。 このアーキテクチャは、追加の安全保証を提供することができるが、トレーニングされたポリシーと安全コントローラとの断続的かつ頻繁な切り替えは、望ましくない振る舞いと性能の低下をもたらす。 そこで本稿では,セーフティコントローラが生成するランタイムデータに基づいて,トレーニング済みのポリシを「更新」することで,コントロールの切り替えを最小限に抑えることを提案する。 このアプローチの背景にある重要な考え方は、ポリシー更新と安全制約の併用推論を可能にする軌道最適化問題の定式化である。 実験の結果,安全制御装置のシステムモデルが未知で近似のみである場合においても,本手法は有効であることが示された。

We study the problem of policy repair for learning-based control policies in safety-critical settings. We consider an architecture where a high-performance learning-based control policy (e.g. one trained as a neural network) is paired with a model-based safety controller. The safety controller is endowed with the abilities to predict whether the trained policy will lead the system to an unsafe state, and take over control when necessary. While this architecture can provide added safety assurances, intermittent and frequent switching between the trained policy and the safety controller can result in undesirable behaviors and reduced performance. We propose to reduce or even eliminate control switching by `repairing' the trained policy based on runtime data produced by the safety controller in a way that deviates minimally from the original policy. The key idea behind our approach is the formulation of a trajectory optimization problem that allows the joint reasoning of policy update and safety constraints. Experimental results demonstrate that our approach is effective even when the system model in the safety controller is unknown and only approximated.
翻訳日:2022-10-28 03:53:58 公開日:2020-08-17
# スパースバウンディングボックスによるビデオ領域アノテーション

Video Region Annotation with Sparse Bounding Boxes ( http://arxiv.org/abs/2008.07049v1 )

ライセンス: Link先を確認
Yuzheng Xu, Yang Wu, Nur Sabrina binti Zuraimi, Shohei Nobuhara and Ko Nishino(参考訳) ビデオ分析はより詳細な解釈(例えばセグメンテーション)へと進み、進歩を奨励している。 しかし、これらのタスクは、空間と時間の両方において、密に注釈されたトレーニングデータに依存している。 このようなアノテーションは労働集約的であるため、詳細な領域境界を持つ濃密な注釈付きビデオデータはほとんど存在しない。 本研究の目的は、このジレンマを解決するために、ターゲット領域の少ない注釈付き境界ボックスから、ビデオのすべてのフレームの領域境界を自動的に生成することである。 本研究では,周辺外見と動きの時空間体積を用いて,領域境界上のキーポイントを反復的に見つけることを学習するVGCNを用いてこれを実現した。 VGCNのグローバルな最適化により、既存のソリューションよりも大幅に強く、一般化される。 アブレーション研究を含む2つの最新のデータセット(1つの実データと1つの合成データ)を用いて,本手法の有効性と優位性を実証した。

Video analysis has been moving towards more detailed interpretation (e.g. segmentation) with encouraging progresses. These tasks, however, increasingly rely on densely annotated training data both in space and time. Since such annotation is labour-intensive, few densely annotated video data with detailed region boundaries exist. This work aims to resolve this dilemma by learning to automatically generate region boundaries for all frames of a video from sparsely annotated bounding boxes of target regions. We achieve this with a Volumetric Graph Convolutional Network (VGCN), which learns to iteratively find keypoints on the region boundaries using the spatio-temporal volume of surrounding appearance and motion. The global optimization of VGCN makes it significantly stronger and generalize better than existing solutions. Experimental results using two latest datasets (one real and one synthetic), including ablation studies, demonstrate the effectiveness and superiority of our method.
翻訳日:2022-10-28 03:52:42 公開日:2020-08-17
# rgb-dサルエント物体検出のための漸進的改良ネットワーク

Progressively Guided Alternate Refinement Network for RGB-D Salient Object Detection ( http://arxiv.org/abs/2008.07064v1 )

ライセンス: Link先を確認
Shuhan Chen, Yun Fu(参考訳) 本稿では,複雑なシナリオにおける性能向上のために,深度画像が補完情報を提供するRGB-D有向物体検出のための,効率的でコンパクトなディープネットワークを開発することを目的とする。 マルチスケール残差ブロックによる粗い初期予測からスタートし、それを改良するための段階的にガイドされた代替精錬網を提案する。 imagenetプリトレーニングされたバックボーンネットワークを使う代わりに、私たちはまずスクラッチから学習することで軽量な深度ストリームを構築します。 そして, 既存の核融合法と異なり, RGB と深さ特性は相互劣化を低減するために, それぞれ交互に誘導残差 (GR) ブロックに供給される。 各サイドアウトプット内の積み重ねられたgrブロックにプログレッシブガイダンスを割り当てることで、誤った検出と欠落部分の解消が図れる。 7つのベンチマークデータセットに対する大規模な実験により、我々のモデルは既存の最先端アプローチよりも大きなマージンで優れており、効率(71 FPS)とモデルサイズ(64.9 MB)が優れていることが示された。

In this paper, we aim to develop an efficient and compact deep network for RGB-D salient object detection, where the depth image provides complementary information to boost performance in complex scenarios. Starting from a coarse initial prediction by a multi-scale residual block, we propose a progressively guided alternate refinement network to refine it. Instead of using ImageNet pre-trained backbone network, we first construct a lightweight depth stream by learning from scratch, which can extract complementary features more efficiently with less redundancy. Then, different from the existing fusion based methods, RGB and depth features are fed into proposed guided residual (GR) blocks alternately to reduce their mutual degradation. By assigning progressive guidance in the stacked GR blocks within each side-output, the false detection and missing parts can be well remedied. Extensive experiments on seven benchmark datasets demonstrate that our model outperforms existing state-of-the-art approaches by a large margin, and also shows superiority in efficiency (71 FPS) and model size (64.9 MB).
翻訳日:2022-10-28 03:52:28 公開日:2020-08-17
# Alpha Net: 分類空間におけるコンポジションによる適応

Alpha Net: Adaptation with Composition in Classifier Space ( http://arxiv.org/abs/2008.07073v1 )

ライセンス: Link先を確認
Nadine Chang, Jayanth Koushik, Michael J. Tarr, Martial Hebert, Yu-Xiong Wang(参考訳) ディープラーニングの分類モデルは通常、少数の例を持つクラスではあまり訓練されない。 この課題を解決する人間の能力に動機づけられ、多くの例を持つクラスから知識を移し、わずかな例でクラスを学ぶモデルが開発されている。 決定的に、これらのモデルの大半はモデル特徴空間内の知識を伝達する。 本研究では,分類空間内の知識の伝達がより効率的かつ効率的であることを実証する。 具体的には、強い近傍の分類器と弱い分類器を線形に組み合わせることで、より強い分類器を構成することができる。 ユニークなことに、我々のモデルは分類器層を含む既存の分類モデルの上に実装することができる。 そこでは,「尾」クラスと呼ばれるいくつかの例を持つクラスが,最もパフォーマンスに悩まされ,最も難易度の高いクラスである,長い尾の認識という課題において,我々のアプローチの成功を実証する。 分類器レベルの知識伝達を用いて、"テール"カテゴリーにおける最先端のパフォーマンスを、最大12.6%のマージンで劇的に向上させることができる。

Deep learning classification models typically train poorly on classes with small numbers of examples. Motivated by the human ability to solve this task, models have been developed that transfer knowledge from classes with many examples to learn classes with few examples. Critically, the majority of these models transfer knowledge within model feature space. In this work, we demonstrate that transferring knowledge within classified space is more effective and efficient. Specifically, by linearly combining strong nearest neighbor classifiers along with a weak classifier, we are able to compose a stronger classifier. Uniquely, our model can be implemented on top of any existing classification model that includes a classifier layer. We showcase the success of our approach in the task of long-tailed recognition, whereby the classes with few examples, otherwise known as the "tail" classes, suffer the most in performance and are the most challenging classes to learn. Using classifier-level knowledge transfer, we are able to drastically improve - by a margin as high as 12.6% - the state-of-the-art performance on the "tail" categories.
翻訳日:2022-10-28 03:52:08 公開日:2020-08-17
# MRI脳腫瘍分割のための深部畳み込みニューラルネットワークにおける球面座標変換前処理

Spherical coordinates transformation pre-processing in Deep Convolution Neural Networks for brain tumor segmentation in MRI ( http://arxiv.org/abs/2008.07090v1 )

ライセンス: Link先を確認
Carlo Russo, Sidong Liu, Antonio Di Ieva(参考訳) 磁気共鳴イメージング(MRI)は脳腫瘍の診断に日常的に用いられる。 いくつかの自動または半自動のセグメンテーションアルゴリズムは、脳腫瘍をセグメント化し、専門家のような精度を達成するために導入された。 ディープ畳み込みニューラルネットワーク(DCNN)は近年非常に有望な結果を示しているが、DCNNモデルは、主にモデルの一般化の欠如のために臨床的に有意義な結果を得るには程遠い。 DCNNモデルは、優れたパフォーマンスを達成するために、大きな注釈付きデータセットが必要です。 モデルはしばしば、トレーニングされたドメインデータセットに最適化され、同じモデルが異なる機関の異なるデータセットに適用された場合、タスクが失敗する。 理由の1つは、異なるモデルとMRマシンを調整するためのデータ標準化の欠如にある。 本研究では,3次元球面座標を前処理フェーズに変換することにより,DCNNモデルの精度を向上し,モデルが小型で異質なデータセットでトレーニングされ,異なる領域に変換された場合でも,より一般化可能な結果が得られることを仮定した。 実際、球面座標系は解像度や撮像設定とは独立に動作するため、いくつかの標準化の問題を回避する。 BraTS 2019データセットを使用して、同じネットワーク構造を持つ2つのDCNNモデルで、Cartesianボリュームとsphericalボリュームを評価した。 球状変換前処理インプットをトレーニングしたモデルは,腫瘍コアにおけるグリオーマのセグメンテーションの予測と腫瘍クラス(それぞれ0.011と0.014の増加)の強化において,Cartesian-Inputトレーニングモデルよりも優れた性能を示し,両者をマージして精度の向上を実現した。 さらに、球面変換は解像度に依存しず、異なる入力解像度で同じ結果が得られる。

Magnetic Resonance Imaging (MRI) is used in everyday clinical practice to assess brain tumors. Several automatic or semi-automatic segmentation algorithms have been introduced to segment brain tumors and achieve an expert-like accuracy. Deep Convolutional Neural Networks (DCNN) have recently shown very promising results, however, DCNN models are still far from achieving clinically meaningful results mainly because of the lack of generalization of the models. DCNN models need large annotated datasets to achieve good performance. Models are often optimized on the domain dataset on which they have been trained, and then fail the task when the same model is applied to different datasets from different institutions. One of the reasons is due to the lack of data standardization to adjust for different models and MR machines. In this work, a 3D Spherical coordinates transform during the pre-processing phase has been hypothesized to improve DCNN models' accuracy and to allow more generalizable results even when the model is trained on small and heterogeneous datasets and translated into different domains. Indeed, the spherical coordinate system avoids several standardization issues since it works independently of resolution and imaging settings. Both Cartesian and spherical volumes were evaluated in two DCNN models with the same network structure using the BraTS 2019 dataset. The model trained on spherical transform pre-processed inputs resulted in superior performance over the Cartesian-input trained model on predicting gliomas' segmentation on tumor core and enhancing tumor classes (increase of 0.011 and 0.014 respectively on the validation dataset), achieving a further improvement in accuracy by merging the two models together. Furthermore, the spherical transform is not resolution-dependent and achieve same results on different input resolution.
翻訳日:2022-10-28 03:51:43 公開日:2020-08-17
# WSRNet: 手書き単語の共同スポッティングと認識

WSRNet: Joint Spotting and Recognition of Handwritten Words ( http://arxiv.org/abs/2008.07109v1 )

ライセンス: Link先を確認
George Retsinas, Giorgos Sfikas, Petros Maragos(参考訳) 本稿では,同じネットワークアーキテクチャを用いてキーワードスポッティングと単語認識の両方を処理できる統一モデルを提案する。 提案するネットワークは、非リカレントctcブランチとseq2seqブランチで構成され、さらにオートエンコーディングモジュールによって拡張される。 関連した結合損失により認識性能が向上する一方、Seq2Seqブランチは効率的な単語表現を生成するために使用される。 キーワードスポッティングに適したコンパクトかつ高効率なディスクリプタを提供するために,バイナリ化と再トレーニングスキームを用いて,これらの表現をさらに処理する方法を示す。 提案手法はキーワードスポッティングにおける先行手法よりも優れているため,提案手法の有用性を検証し,単語認識の先駆的手法であるballparkで結果を提供する。

In this work, we present a unified model that can handle both Keyword Spotting and Word Recognition with the same network architecture. The proposed network is comprised of a non-recurrent CTC branch and a Seq2Seq branch that is further augmented with an Autoencoding module. The related joint loss leads to a boost in recognition performance, while the Seq2Seq branch is used to create efficient word representations. We show how to further process these representations with binarization and a retraining scheme to provide compact and highly efficient descriptors, suitable for keyword spotting. Numerical results validate the usefulness of the proposed architecture, as our method outperforms the previous state-of-the-art in keyword spotting, and provides results in the ballpark of the leading methods for word recognition.
翻訳日:2022-10-28 03:51:11 公開日:2020-08-17
# 論理的意味論, 対話論, テキスト・エンターメント

Logical Semantics, Dialogical Argumentation, and Textual Entailment ( http://arxiv.org/abs/2008.07138v1 )

ライセンス: Link先を確認
Davide Catta (TEXTE), Richard Moot (TEXTE, LIRMM, CNRS), Christian Retor\'e (LaBRI)(参考訳) 本章では、自然言語の議論に近い一階古典論理の新しいダイアログシステムを導入し、通常の古典的妥当性についてその完全性を証明する。 我々は,文が短文の結果であるか否かを判断するために,ダイアラルシステムと第2の著者によって開発された文法的・意味論的解析器を組み合わせる。 自然言語のセマンティクスと議論を対話論理と結びつけるこの作業は、自然言語セマンティクスの推論論的見解への一歩と見なすことができる。

In this chapter, we introduce a new dialogical system for first order classical logic which is close to natural language argumentation, and we prove its completeness with respect to usual classical validity. We combine our dialogical system with the Grail syntactic and semantic parser developed by the second author in order to address automated textual entailment, that is, we use it for deciding whether or not a sentence is a consequence of a short text. This work-which connects natural language semantics and argumentation with dialogical logic-can be viewed as a step towards an inferentialist view of natural language semantics.
翻訳日:2022-10-28 03:43:40 公開日:2020-08-17
# バイオメディカルテキストにおける構文解析の比較

Comparison of Syntactic Parsers on Biomedical Texts ( http://arxiv.org/abs/2008.07189v1 )

ライセンス: Link先を確認
Maria Biryukov(参考訳) 構文解析は情報抽出を目的とした自動テキスト解析において重要なステップである。 構文解析の品質は、テキストマイニング結果のリコールと精度を大幅に向上させる。 本稿では, バイオメディカルテキストマイニングへの応用を目的とした, 人気の構文解析器の性能評価を行う。

Syntactic parsing is an important step in the automated text analysis which aims at information extraction. Quality of the syntactic parsing determines to a large extent the recall and precision of the text mining results. In this paper we evaluate the performance of several popular syntactic parsers in application to the biomedical text mining.
翻訳日:2022-10-28 03:43:28 公開日:2020-08-17
# 物語の生成と理解のための物語補間

Narrative Interpolation for Generating and Understanding Stories ( http://arxiv.org/abs/2008.07466v1 )

ライセンス: Link先を確認
Su Wang, Greg Durrett, Katrin Erk(参考訳) 例えば,Jimはハイキングに行き,最後には救助が必要とされ,その過程で段階的にモデルが生成されることが望まれる。 本手法の核心はgpt-2に基づく補間モデルであり,前文と次文の条件をナラティブで満たし,そのギャップを埋める。 さらに、リランカは生成されたテキストのコヒーレンスを制御するのに役立つ。 人間の評価により,エンディングガイドの世代は,与えられたエンディングガイドに忠実で,過去のアプローチよりも人手による作業が少ない物語になることが示された。

We propose a method for controlled narrative/story generation where we are able to guide the model to produce coherent narratives with user-specified target endings by interpolation: for example, we are told that Jim went hiking and at the end Jim needed to be rescued, and we want the model to incrementally generate steps along the way. The core of our method is an interpolation model based on GPT-2 which conditions on a previous sentence and a next sentence in a narrative and fills in the gap. Additionally, a reranker helps control for coherence of the generated text. With human evaluation, we show that ending-guided generation results in narratives which are coherent, faithful to the given ending guide, and require less manual effort on the part of the human guide writer than past approaches.
翻訳日:2022-10-28 03:42:50 公開日:2020-08-17
# マルチタスク学習と単語ポラリティによる時間内ストックインデックス予測

Stock Index Prediction with Multi-task Learning and Word Polarity Over Time ( http://arxiv.org/abs/2008.07605v1 )

ライセンス: Link先を確認
Yue Zhou, Kerstin Voigt(参考訳) 感情に基づく株価予測システムは、オンラインコーパスからの感情やイベント信号を探索し、そのシグナルと株価の変動を関連付けようとする。 機能ベースとニューラルネットワークベースの両方のアプローチは、有望な結果をもたらした。 しかし、株価の微妙な変動は、価格パターンからテキストの感情を学ぶことを制限し、テキストから市場感情を学ぶことは、テキストが基盤となる市場と無関係であればバイアスとなる。 さらに、離散的な単語特徴を用いる場合、ある項の極性は異なる事象に応じて時間とともに変化する。 これらの問題に対処するために,市場動向に関する意見を抽出する感情抽出器と,現在の週におけるニュースの意見を踏まえて,次の週の索引動きの方向性を予測する要約器からなる2段階システムを提案する。 我々は,ニュースの価値を予測するマルチタスク学習のBERTを採用し,異なるイベント周期間での単語の極性抽出のためのPolarity-Over-Timeと呼ばれる指標を提案する。 Weekly-Monday予測フレームワークと10年間のReuters金融ニュースデータセットという新しいデータセットも提案されている。

Sentiment-based stock prediction systems aim to explore sentiment or event signals from online corpora and attempt to relate the signals to stock price variations. Both the feature-based and neural-networks-based approaches have delivered promising results. However, the frequently minor fluctuations of the stock prices restrict learning the sentiment of text from price patterns, and learning market sentiment from text can be biased if the text is irrelevant to the underlying market. In addition, when using discrete word features, the polarity of a certain term can change over time according to different events. To address these issues, we propose a two-stage system that consists of a sentiment extractor to extract the opinion on the market trend and a summarizer that predicts the direction of the index movement of following week given the opinions of the news over the current week. We adopt BERT with multitask learning which additionally predicts the worthiness of the news and propose a metric called Polarity-Over-Time to extract the word polarity among different event periods. A Weekly-Monday prediction framework and a new dataset, the 10-year Reuters financial news dataset, are also proposed.
翻訳日:2022-10-28 03:42:22 公開日:2020-08-17
# 深部拡散ニューラルネットワークのユニタリ学習

Unitary Learning for Deep Diffractive Neural Network ( http://arxiv.org/abs/2009.08935v1 )

ライセンス: Link先を確認
Yong-Liang Xiao(参考訳) 近年, コヒーレント回折による深層学習の実現が目覚ましい発展を遂げており, 行列乗算を光学的に並列に行うことができ, 消費電力も少なくなっている。 複素値実体の形で伝播するコヒーレント光学場は、統計的推論を伴うタスク指向の出力に操作することができる。 本稿では,コヒーレント回折の前の物理ユニタリを満たす,深層拡散型ニューラルネットワーク上のユニタリ学習プロトコルを提案する。 ユニタリ学習(unitary learning)は、ユークリッド空間とリーマン空間の間の勾配変換を通じてユニタリ重みを更新できるバックプロパゲーションである。 単元学習における時間空間の進化特性を定式化し解明する。 特に複素空間における非線形活性化の選択方法の相反する条件が明らかにされ、複素空間における基本シグモノイド、タン、準レリューをカプセル化する。 予備的な応用として、単位学習を伴う深層拡散ニューラルネットワークを2次元分類と検証タスクに仮実装する。

Realization of deep learning with coherent diffraction has achieved remarkable development nowadays, which benefits on the fact that matrix multiplication can be optically executed in parallel as well as with little power consumption. Coherent optical field propagated in the form of complex-value entity can be manipulated into a task-oriented output with statistical inference. In this paper, we present a unitary learning protocol on deep diffractive neural network, meeting the physical unitary prior in coherent diffraction. Unitary learning is a backpropagation serving to unitary weights update through the gradient translation between Euclidean and Riemannian space. The temporal-space evolution characteristic in unitary learning is formulated and elucidated. Particularly a compatible condition on how to select the nonlinear activations in complex space is unveiled, encapsulating the fundamental sigmoid, tanh and quasi-ReLu in complex space. As a preliminary application, deep diffractive neural network with unitary learning is tentatively implemented on the 2D classification and verification tasks.
翻訳日:2022-10-28 03:42:02 公開日:2020-08-17
# 暗黙的フィードバックによるリコメンデーションのためのジョイント変分オートエンコーダ

Joint Variational Autoencoders for Recommendation with Implicit Feedback ( http://arxiv.org/abs/2008.07577v1 )

ライセンス: Link先を確認
Bahare Askari, Jaroslaw Szlichta, Amirali Salehi-Abari(参考訳) 変分オートエンコーダ(VAE)は最近、暗黙のフィードバックを伴う協調フィルタリングにおいて有望な性能を示した。 これらの既存のレコメンデーションモデルは、ユーザの好みを再構築または予測するためにユーザ表現を学ぶ。 本稿では,ユーザとアイテムの両方の表現を共同で学習し,ユーザの好みを総合的に再構築し,予測する,2つのVAEのアンサンブルであるJoVAを紹介する。 この設計により、JoVAはユーザとアイテムの相関を同時にキャプチャできる。 ヒンジベースのペアワイズ損失関数(JoVA-Hinge)でJoVAの目的関数を拡張することにより、暗黙のフィードバックでトップkレコメンデーションに特化する。 いくつかの実世界のデータセットに対する広範な実験により、JoVA-Hingeは、様々な一般的なメトリクスの下で、最先端の協調フィルタリング手法の幅広いセットより優れていることが示された。 また,本実験の結果から,トレーニングデータ数に制限のあるコールドスタートユーザに対して,JoVA-Hingeの有効性を確認した。

Variational Autoencoders (VAEs) have recently shown promising performance in collaborative filtering with implicit feedback. These existing recommendation models learn user representations to reconstruct or predict user preferences. We introduce joint variational autoencoders (JoVA), an ensemble of two VAEs, in which VAEs jointly learn both user and item representations and collectively reconstruct and predict user preferences. This design allows JoVA to capture user-user and item-item correlations simultaneously. By extending the objective function of JoVA with a hinge-based pairwise loss function (JoVA-Hinge), we further specialize it for top-k recommendation with implicit feedback. Our extensive experiments on several real-world datasets show that JoVA-Hinge outperforms a broad set of state-of-the-art collaborative filtering methods, under a variety of commonly-used metrics. Our empirical results also confirm the outperformance of JoVA-Hinge over existing methods for cold-start users with a limited number of training data.
翻訳日:2022-10-28 03:35:49 公開日:2020-08-17
# 短期予測のためのディープラーニングフレームワークにおける非パラメトリック条件密度推定

Nonparametric Conditional Density Estimation In A Deep Learning Framework For Short-Term Forecasting ( http://arxiv.org/abs/2008.07653v1 )

ライセンス: Link先を確認
David B. Huberman, Brian J. Reich, and Howard D. Bondell(参考訳) 短期予測は環境プロセスを理解する上で重要なツールである。 本稿では,熱帯性サイクロン強度の予測を目的とした条件分布推定器に機械学習アルゴリズムを組み込む。 多くの機械学習技術は、ターゲット変数の条件分布を単一ポイントで予測するが、予測変数の完全な説明は得られない。 条件付分布推定は、意思決定と政策に影響を与える可能性のある予測応答行動に関する追加の洞察を与えることができる。 本研究では,条件分布全体を同時に推定し,柔軟に機械学習技術を組み込む技術を提案する。 対象変数と共変量の両方に滑らかなモデルが適合し、モデル出力層にロジスティック変換を適用して条件密度関数の式を生成する。 我々は,多項式回帰モデルと深層学習モデルという2つの機械学習モデルの例を示す。 計算効率を上げるために,条件分布に対するケース制御サンプリング近似を提案する。 4つの異なるデータ分布のシミュレーション研究は,他の機械学習による条件分布推定手法と比較して,本手法の有効性を強調した。 次に,大西洋岸の熱帯性サイクロンデータを用いた予測のためのアプローチの有用性を示す。 本稿では,提案手法の可能性を実証し,さらなる計算開発により,より複雑な予測などの応用における洞察を完全に解き放つことができることを示す。

Short-term forecasting is an important tool in understanding environmental processes. In this paper, we incorporate machine learning algorithms into a conditional distribution estimator for the purposes of forecasting tropical cyclone intensity. Many machine learning techniques give a single-point prediction of the conditional distribution of the target variable, which does not give a full accounting of the prediction variability. Conditional distribution estimation can provide extra insight on predicted response behavior, which could influence decision-making and policy. We propose a technique that simultaneously estimates the entire conditional distribution and flexibly allows for machine learning techniques to be incorporated. A smooth model is fit over both the target variable and covariates, and a logistic transformation is applied on the model output layer to produce an expression of the conditional density function. We provide two examples of machine learning models that can be used, polynomial regression and deep learning models. To achieve computational efficiency we propose a case-control sampling approximation to the conditional distribution. A simulation study for four different data distributions highlights the effectiveness of our method compared to other machine learning-based conditional distribution estimation techniques. We then demonstrate the utility of our approach for forecasting purposes using tropical cyclone data from the Atlantic Seaboard. This paper gives a proof of concept for the promise of our method, further computational developments can fully unlock its insights in more complex forecasting and other applications.
翻訳日:2022-10-28 03:35:32 公開日:2020-08-17
# エッジネットワークを用いた自律走行用リアルタイム物体検出フレームワーク

Edge Network-Assisted Real-Time Object Detection Framework for Autonomous Driving ( http://arxiv.org/abs/2008.07083v1 )

ライセンス: Link先を確認
Seung Wook Kim, Keunsoo Ko, Haneul Ko, Victor C. M. Leung(参考訳) 自律走行車(AV)は、高い計算力(例えばオブジェクト検出(OD))を必要とするタスクをエッジクラウドにオフロードすることで、短時間で望ましい結果を達成することができる。 しかし、エッジクラウドは利用されるが、動的チャネルの品質のため、リアルタイムODは保証されない。 この問題を軽減するため,我々は,エッジネットワーク支援リアルタイム od フレームワーク (eodf) を提案する。 avsはeodfにおいて、チャンネル品質がリアルタイムodをサポートするのに十分でない場合、撮像画像の関心領域〜(rois)を抽出する。 そして、AVは、RoIに基づいて画像データを圧縮し、圧縮したデータをエッジクラウドに送信する。 これにより、伝送遅延の低減によりリアルタイムodを実現することができる。 この枠組みの実現可能性を検証するために,フレーム間時間内にodの結果が受信されない確率(すなわち停止確率)と精度を評価した。 評価から,提案するeodfがavsに結果をリアルタイムに提供し,精度が良好であることを実証する。

Autonomous vehicles (AVs) can achieve the desired results within a short duration by offloading tasks even requiring high computational power (e.g., object detection (OD)) to edge clouds. However, although edge clouds are exploited, real-time OD cannot always be guaranteed due to dynamic channel quality. To mitigate this problem, we propose an edge network-assisted real-time OD framework~(EODF). In an EODF, AVs extract the region of interests~(RoIs) of the captured image when the channel quality is not sufficiently good for supporting real-time OD. Then, AVs compress the image data on the basis of the RoIs and transmit the compressed one to the edge cloud. In so doing, real-time OD can be achieved owing to the reduced transmission latency. To verify the feasibility of our framework, we evaluate the probability that the results of OD are not received within the inter-frame duration (i.e., outage probability) and their accuracy. From the evaluation, we demonstrate that the proposed EODF provides the results to AVs in real-time and achieves satisfactory accuracy.
翻訳日:2022-10-28 03:34:47 公開日:2020-08-17
# 複合顔行動単位データセットを用いた欠落値を用いたマルチラベル学習

Multi-label Learning with Missing Values using Combined Facial Action Unit Datasets ( http://arxiv.org/abs/2008.07234v1 )

ライセンス: Link先を確認
Jaspar Pahl, Ines Rieger, Dominik Seuss(参考訳) 顔のアクションユニットは、人間の顔の感情を記述するのに使用できる顔のマイクロムーブメントの客観的で標準化された記述を可能にする。 アクションユニットのデータアノテートは高価で時間を要する作業であり、データ状況の不足につながる。 異なる研究から得られた複数のデータセットを組み合わせることで、機械学習アルゴリズムのトレーニングデータの量を増やし、自動化されたマルチラベルアクションユニット検出のための堅牢なモデルを作成することができる。 しかし、すべての研究は異なるアクションユニットに注釈を付け、組み合わせたデータベースに膨大な量のラベルが失われる。 そこで本研究では,この課題を検証し,それらの値を推測することなく,ラベルの欠落下で学習可能なデータベースとアルゴリズムを組み合わせる手法を提案する。 提案手法は,最近の行動単位検出の競争と比較し,競争力を示す。

Facial action units allow an objective, standardized description of facial micro movements which can be used to describe emotions in human faces. Annotating data for action units is an expensive and time-consuming task, which leads to a scarce data situation. By combining multiple datasets from different studies, the amount of training data for a machine learning algorithm can be increased in order to create robust models for automated, multi-label action unit detection. However, every study annotates different action units, leading to a tremendous amount of missing labels in a combined database. In this work, we examine this challenge and present our approach to create a combined database and an algorithm capable of learning under the presence of missing labels without inferring their values. Our approach shows competitive performance compared to recent competitions in action unit detection.
翻訳日:2022-10-28 03:34:29 公開日:2020-08-17
# MLBF-Net:12レベル心電図を用いた多段階不整脈分類のためのマルチレベルブランチ融合ネットワーク

MLBF-Net: A Multi-Lead-Branch Fusion Network for Multi-Class Arrhythmia Classification Using 12-Lead ECG ( http://arxiv.org/abs/2008.07263v1 )

ライセンス: Link先を確認
Jing Zhang, Deng Liang, Aiping Liu, Min Gao, Xiang Chen, Xu Zhang, Xun Chen(参考訳) 12誘導心電図(ecg)信号を用いた不整脈の自動検出は、心血管疾患の早期予防と診断において重要な役割を果たす。 自動不整脈検出に関する以前の研究では、ほとんどの方法はECGの12個の鉛をマトリックスに結合し、そのマトリックスを様々な特徴抽出器やディープニューラルネットワークに入力して有用な情報を抽出する。 このような枠組みの下で、これらの手法は訓練中に各リードの情報が相互に相互作用するため、12リードのECGの包括的な特徴(完全性)を抽出する能力を持っていた。 しかし、12個のリードのうち様々なリード特異的特徴(多様性として知られる)は無視され、12個のリード心電図では不十分な情報学習を引き起こした。 マルチリードECGの情報学習を最大化するためには、完全性を備えた包括的特徴と多様性のあるリード特有特徴との情報融合を考慮する必要がある。 本稿では,マルチリーチ心電図の多様性と整合性を共同学習するマルチロス最適化を統合し,不整脈分類のための新しいマルチリーチ分岐融合ネットワーク(mlbf-net)アーキテクチャを提案する。 MLBF-Netは3つのコンポーネントで構成されています。 1) マルチリード心電図の多様性を学習するための複数のリード固有分枝 2)複数リード心電図の完全性を学ぶために,全ブランチの出力特徴マップを連結してクロスリード特徴融合を行う。 3) 各枝と連結ネットワークのマルチロス共最適化を行う。 MLBF-Net on China Physiological Signal Challenge 2018は、オープン12リードのECGデータセットである。 実験の結果,MLBF-Netは平均$F_1$スコア0.855を獲得し,不整脈分類成績が最も高かった。 情報融合の観点から,マルチリードECG解析のための有望な解法を提案する。

Automatic arrhythmia detection using 12-lead electrocardiogram (ECG) signal plays a critical role in early prevention and diagnosis of cardiovascular diseases. In the previous studies on automatic arrhythmia detection, most methods concatenated 12 leads of ECG into a matrix, and then input the matrix to a variety of feature extractors or deep neural networks for extracting useful information. Under such frameworks, these methods had the ability to extract comprehensive features (known as integrity) of 12-lead ECG since the information of each lead interacts with each other during training. However, the diverse lead-specific features (known as diversity) among 12 leads were neglected, causing inadequate information learning for 12-lead ECG. To maximize the information learning of multi-lead ECG, the information fusion of comprehensive features with integrity and lead-specific features with diversity should be taken into account. In this paper, we propose a novel Multi-Lead-Branch Fusion Network (MLBF-Net) architecture for arrhythmia classification by integrating multi-loss optimization to jointly learning diversity and integrity of multi-lead ECG. MLBF-Net is composed of three components: 1) multiple lead-specific branches for learning the diversity of multi-lead ECG; 2) cross-lead features fusion by concatenating the output feature maps of all branches for learning the integrity of multi-lead ECG; 3) multi-loss co-optimization for all the individual branches and the concatenated network. We demonstrate our MLBF-Net on China Physiological Signal Challenge 2018 which is an open 12-lead ECG dataset. The experimental results show that MLBF-Net obtains an average $F_1$ score of 0.855, reaching the highest arrhythmia classification performance. The proposed method provides a promising solution for multi-lead ECG analysis from an information fusion perspective.
翻訳日:2022-10-28 03:34:15 公開日:2020-08-17
# ドメイン固有の情報を含む最初のU-Netレイヤ

First U-Net Layers Contain More Domain Specific Information Than The Last Ones ( http://arxiv.org/abs/2008.07357v1 )

ライセンス: Link先を確認
Boris Shirokikh and Ivan Zakazov and Alexey Chernyavskiy and Irina Fedulova and Mikhail Belyaev(参考訳) MRIスキャンの外観は、走査プロトコルに大きく依存しており、その結果、データ収集機関である。 これらの臨床部位の違いは、見えない領域におけるCNNセグメンテーションの品質を劇的に低下させる。 最近提案されたMRI領域適応法の多くは、ドメインシフトを抑制するために最後のCNN層で動作する。 同時に、MRIの変動性のコアは、画像強度のかなりの多様性である。 我々は、これらの違いは最後の層ではなく最初の層を変更することで排除できると仮定する。 この簡単なアイデアを検証するために、6つの領域の脳MRIスキャンを用いて一連の実験を行った。 私たちの結果は 1) ドメインシフトは、単純な脳抽出セグメンテーションタスクであっても品質を低下させる可能性がある(表層サイススコアは0.85-0.89から0.09まで低下する)。 2) 最初のレイヤの微調整は、ほとんどすべての教師付きドメイン適応設定において、最後のレイヤの微調整を大幅に上回る。 さらに、新しいドメインからの注釈付きデータの量が厳密に制限されている場合、最初のレイヤの微調整はネットワーク全体の微調整よりも優れた戦略である。

MRI scans appearance significantly depends on scanning protocols and, consequently, the data-collection institution. These variations between clinical sites result in dramatic drops of CNN segmentation quality on unseen domains. Many of the recently proposed MRI domain adaptation methods operate with the last CNN layers to suppress domain shift. At the same time, the core manifestation of MRI variability is a considerable diversity of image intensities. We hypothesize that these differences can be eliminated by modifying the first layers rather than the last ones. To validate this simple idea, we conducted a set of experiments with brain MRI scans from six domains. Our results demonstrate that 1) domain-shift may deteriorate the quality even for a simple brain extraction segmentation task (surface Dice Score drops from 0.85-0.89 even to 0.09); 2) fine-tuning of the first layers significantly outperforms fine-tuning of the last layers in almost all supervised domain adaptation setups. Moreover, fine-tuning of the first layers is a better strategy than fine-tuning of the whole network, if the amount of annotated data from the new domain is strictly limited.
翻訳日:2022-10-28 03:33:47 公開日:2020-08-17
# 多施設の病理組織データに対するサイロ化フェデレーション学習

Siloed Federated Learning for Multi-Centric Histopathology Datasets ( http://arxiv.org/abs/2008.07424v1 )

ライセンス: Link先を確認
Mathieu Andreux, Jean Ogier du Terrail, Constance Beguier, Eric W. Tramel(参考訳) フェデレートされた学習は、分散センシティブデータセットよりもディープラーニングモデルをトレーニングするための有望なアプローチであるが、特にマルチ中心データの異種性が一般的である医療領域に適用する場合、機械学習に対する新たな課題が提示される。 本稿では,従来のドメイン適応手法に基づいて,局所統計バッチ正規化(BN)層を導入し,協調的に学習されるが,中心に固有のモデルを構築することによって,ディープラーニングアーキテクチャの新しいフェデレーション学習手法を提案する。 この戦略は、データの不均一性に対するロバスト性を改善し、センタ固有の層アクティベーション統計を共有せずに情報漏洩の可能性を低減する。 本研究では,camlyon16およびcamlyon17データセットから抽出した腫瘍病理画像パッチの分類法について検討した。 提案手法は,従来の最先端手法,特にデータセット間の伝達学習に好適であることを示す。

While federated learning is a promising approach for training deep learning models over distributed sensitive datasets, it presents new challenges for machine learning, especially when applied in the medical domain where multi-centric data heterogeneity is common. Building on previous domain adaptation works, this paper proposes a novel federated learning approach for deep learning architectures via the introduction of local-statistic batch normalization (BN) layers, resulting in collaboratively-trained, yet center-specific models. This strategy improves robustness to data heterogeneity while also reducing the potential for information leaks by not sharing the center-specific layer activation statistics. We benchmark the proposed method on the classification of tumorous histopathology image patches extracted from the Camelyon16 and Camelyon17 datasets. We show that our approach compares favorably to previous state-of-the-art methods, especially for transfer learning across datasets.
翻訳日:2022-10-28 03:33:30 公開日:2020-08-17
# 時系列衛星画像の特徴の自動抽出のためのディープニューラルネットワーク

Deep Neural Networks for automatic extraction of features in time series satellite images ( http://arxiv.org/abs/2008.08432v1 )

ライセンス: Link先を確認
Gael Kamdem De Teyou, Yuliya Tarabalka, Isabelle Manighetti, Rafael Almar, Sebastien Tripod(参考訳) ランドサット、センチネル、スポット、プレアデスといった多くの地球観測プログラムは、毎日大量の中高分解能のマルチスペクトル画像を生成し、時系列に整理することができる。 本研究では,これらの画像から得られる時間的・空間的な情報を利用してランドカバーマップを生成する。 この目的のために、完全な畳み込みニューラルネットワークと畳み込み長い短期記憶を組み合わせる。 提案する時空間ニューラルネットワークアーキテクチャの実装詳細を提供する。 実験の結果,時系列画像から得られる時間的情報により,土地被覆分類の精度が向上し,地球上の変化を識別できる最新の地図が得られた。

Many earth observation programs such as Landsat, Sentinel, SPOT, and Pleiades produce huge volume of medium to high resolution multi-spectral images every day that can be organized in time series. In this work, we exploit both temporal and spatial information provided by these images to generate land cover maps. For this purpose, we combine a fully convolutional neural network with a convolutional long short-term memory. Implementation details of the proposed spatio-temporal neural network architecture are provided. Experimental results show that the temporal information provided by time series images allows increasing the accuracy of land cover classification, thus producing up-to-date maps that can help in identifying changes on earth.
翻訳日:2022-10-28 03:32:54 公開日:2020-08-17
# ウェアラブル脳波ヘッドバンドを用いた色知覚のための脳ダイナミクスの理解

Understanding Brain Dynamics for Color Perception using Wearable EEG headband ( http://arxiv.org/abs/2008.07092v1 )

ライセンス: Link先を確認
Mahima Chaudhary, Sumona Mukhopadhyay, Marin Litoiu, Lauren E Sergio, Meaghan S Adams(参考訳) 色の知覚は人間の脳の重要な認知的特徴である。 ヒトの眼に影響を及ぼす様々な色は脳活動の変化を引き起こし、脳波(EEG)を用いて捉えることができる。 本研究では,生の脳波信号の特徴から一次色を検出するマルチクラス分類モデルを構築した。 従来の研究とは対照的に,本手法では,生の脳波の代わりに連続モレットウェーブレット変換から得られる信号帯電力から得られるスペクトルパワー特性,統計特性,相関特性を用いて分類を行う。 我々は、データ次元を減らし、最終的にモデルの効率を高めるために、フォワード特徴選択やスタックドオートエンコーダのような次元削減技術を適用した。 前向き選択法とランダム森林分類法を用いて,対象物内分類の総合精度を80.6\%とした。 提案手法は,運動能力に制限のある個人に対する一次色を見極めることで,IoT(Internet of Thing)デバイスを制御するようなカラーキューを用いた認知タスクの開発において有望であることを示す。

The perception of color is an important cognitive feature of the human brain. The variety of colors that impinge upon the human eye can trigger changes in brain activity which can be captured using electroencephalography (EEG). In this work, we have designed a multiclass classification model to detect the primary colors from the features of raw EEG signals. In contrast to previous research, our method employs spectral power features, statistical features as well as correlation features from the signal band power obtained from continuous Morlet wavelet transform instead of raw EEG, for the classification task. We have applied dimensionality reduction techniques such as Forward Feature Selection and Stacked Autoencoders to reduce the dimension of data eventually increasing the model's efficiency. Our proposed methodology using Forward Selection and Random Forest Classifier gave the best overall accuracy of 80.6\% for intra-subject classification. Our approach shows promise in developing techniques for cognitive tasks using color cues such as controlling Internet of Thing (IoT) devices by looking at primary colors for individuals with restricted motor abilities.
翻訳日:2022-10-28 03:26:56 公開日:2020-08-17
# shifu2: 助言者関係マイニングのためのネットワーク表現学習モデル

Shifu2: A Network Representation Learning Based Model for Advisor-advisee Relationship Mining ( http://arxiv.org/abs/2008.07097v1 )

ライセンス: Link先を確認
Jiaying Liu, Feng Xia, Lei Wang, Bo Xu, Xiangjie Kong, Hanghang Tong, and Irwin King(参考訳) 顧問・顧問関係は直接的な知識の遺産であり、学術図書館や検索エンジンから簡単には利用できない。 この研究は、科学的コラボレーションネットワークの背後に隠されたアドバイザーと助言の関係を見つけることを目的としている。 そこで本研究では,ネットワーク表現学習(NRL, Network Representation Learning, NRL)に基づく新しいモデルを提案する。 既存のNRLモデルとは対照的に、Shifu2はネットワーク構造だけでなく、ノードやエッジの意味情報も考慮している。 Shifu2はノードとエッジをそれぞれ低次元ベクトルにエンコードし、それぞれがアドバイザ・アドバイザーの関係を識別するために使用される。 実験の結果, 提案手法の安定性と有効性が向上した。 さらに,シフ2を利用した大規模学術系譜データセットを作成した。

The advisor-advisee relationship represents direct knowledge heritage, and such relationship may not be readily available from academic libraries and search engines. This work aims to discover advisor-advisee relationships hidden behind scientific collaboration networks. For this purpose, we propose a novel model based on Network Representation Learning (NRL), namely Shifu2, which takes the collaboration network as input and the identified advisor-advisee relationship as output. In contrast to existing NRL models, Shifu2 considers not only the network structure but also the semantic information of nodes and edges. Shifu2 encodes nodes and edges into low-dimensional vectors respectively, both of which are then utilized to identify advisor-advisee relationships. Experimental results illustrate improved stability and effectiveness of the proposed model over state-of-the-art methods. In addition, we generate a large-scale academic genealogy dataset by taking advantage of Shifu2.
翻訳日:2022-10-28 03:26:30 公開日:2020-08-17
# モバイルオーディオストリーミングネットワークを用いた高効率低レイテンシ音声強調

Efficient Low-Latency Speech Enhancement with Mobile Audio Streaming Networks ( http://arxiv.org/abs/2008.07244v1 )

ライセンス: Link先を確認
Micha{\l} Romaniuk, Piotr Masztalski, Karol Piaskowski, Mateusz Matuszewski(参考訳) 本稿では,効率的な低遅延音声強調のためのモバイル音声ストリーミングネットワーク (MASnet) を提案する。 masnetは線形スケールのスペクトログラムを処理し、連続するノイズフレームを複素値比マスクに変換し、各ノイズフレームに適用する。 masnetは、レイヤ毎のバッチモードの複雑さにマッチする低遅延インクリメンタル推論モードで動作する。 同様の完全畳み込みアーキテクチャと比較して、MASnetは深度と点の畳み込みを取り入れ、SNRの若干の削減を犠牲にして、融合多重累積演算を毎秒 (FMA/s) に削減する。

We propose Mobile Audio Streaming Networks (MASnet) for efficient low-latency speech enhancement, which is particularly suitable for mobile devices and other applications where computational capacity is a limitation. MASnet processes linear-scale spectrograms, transforming successive noisy frames into complex-valued ratio masks which are then applied to the respective noisy frames. MASnet can operate in a low-latency incremental inference mode which matches the complexity of layer-by-layer batch mode. Compared to a similar fully-convolutional architecture, MASnet incorporates depthwise and pointwise convolutions for a large reduction in fused multiply-accumulate operations per second (FMA/s), at the cost of some reduction in SNR.
翻訳日:2022-10-28 03:25:45 公開日:2020-08-17
# ゼロショットドメイン一般化

Zero Shot Domain Generalization ( http://arxiv.org/abs/2008.07443v1 )

ライセンス: Link先を確認
Udit Maniyar, Joseph K J, Aniket Anand Deshmukh, Urun Dogan, Vineeth N Balasubramanian(参考訳) 標準教師付き学習設定は、トレーニングデータとテストデータが同じ分布(ドメイン)から来ると仮定する。 ドメイン一般化(DG)メソッドは、複数のドメインのデータに基づいてトレーニングされた場合、新しい未知のドメインに一般化するモデルを学習しようとする。 DGをさらに難しい設定に拡張し、目に見えないドメインのラベル空間も変更できます。 我々は、この問題をゼロショット領域の一般化(私たちの知る限り、最初のそのような取り組み)として紹介し、モデルが新しいドメインとそれらのドメインの新しいクラスにまたがる一般化を行う。 本稿では,クラスの意味情報を効果的に活用し,ゼロショットドメイン一般化の要求を満たすために既存のdgメソッドを適用するシンプルな戦略を提案する。 提案手法をCIFAR-10, CIFAR-100, F-MNIST, PACSデータセット上で評価し, 本研究への関心を高めるための強力なベースラインを確立する。

Standard supervised learning setting assumes that training data and test data come from the same distribution (domain). Domain generalization (DG) methods try to learn a model that when trained on data from multiple domains, would generalize to a new unseen domain. We extend DG to an even more challenging setting, where the label space of the unseen domain could also change. We introduce this problem as Zero-Shot Domain Generalization (to the best of our knowledge, the first such effort), where the model generalizes across new domains and also across new classes in those domains. We propose a simple strategy which effectively exploits semantic information of classes, to adapt existing DG methods to meet the demands of Zero-Shot Domain Generalization. We evaluate the proposed methods on CIFAR-10, CIFAR-100, F-MNIST and PACS datasets, establishing a strong baseline to foster interest in this new research direction.
翻訳日:2022-10-28 03:18:03 公開日:2020-08-17
# グラフニューラルネットワークによるグラフ編集距離の学習

Learning Graph Edit Distance by Graph Neural Networks ( http://arxiv.org/abs/2008.07641v1 )

ライセンス: Link先を確認
Pau Riba, Andreas Fischer, Josep Llad\'os and Alicia Forn\'es(参考訳) グラフに基づく表現を扱う新しいフレームワークとしての幾何学的深層学習の出現は、全く新しい方法論を支持する従来のアプローチを消滅させてきた。 本稿では,グラフ編集距離の従来の近似と深度学習の進歩を組み合わせた新しいフレームワークを提案する。 そこで,我々は幾何学的深層学習の新しい分野に基づく効率的なグラフ距離を提案する。 提案手法は,グラフ構造を捉えるためにメッセージパッシングニューラルネットワークを用いており,その情報を利用して距離計算を行う。 提案するグラフ距離の性能は2つの異なるシナリオで検証される。 一方,手書き語~キーワードスポッティングのグラフ検索では,(近似)グラフ編集距離ベンチマークと比較して,優れた性能を示した。 一方,グラフ類似性学習において,最近のベンチマークデータセットにおける現状と比較した場合の競合結果を示す。

The emergence of geometric deep learning as a novel framework to deal with graph-based representations has faded away traditional approaches in favor of completely new methodologies. In this paper, we propose a new framework able to combine the advances on deep metric learning with traditional approximations of the graph edit distance. Hence, we propose an efficient graph distance based on the novel field of geometric deep learning. Our method employs a message passing neural network to capture the graph structure, and thus, leveraging this information for its use on a distance computation. The performance of the proposed graph distance is validated on two different scenarios. On the one hand, in a graph retrieval of handwritten words~\ie~keyword spotting, showing its superior performance when compared with (approximate) graph edit distance benchmarks. On the other hand, demonstrating competitive results for graph similarity learning when compared with the current state-of-the-art on a recent benchmark dataset.
翻訳日:2022-10-28 03:17:46 公開日:2020-08-17
# PIANOTREE VAE:ポリフォニック音楽のための構造化表現学習

PIANOTREE VAE: Structured Representation Learning for Polyphonic Music ( http://arxiv.org/abs/2008.07118v1 )

ライセンス: Link先を確認
Ziyu Wang, Yiyi Zhang, Yixiao Zhang, Junyan Jiang, Ruihan Yang, Junbo Zhao (Jake), Gus Xia(参考訳) 音楽表現学習における主流のアプローチは、深い教師なしモデルファミリー変動オートエンコーダ(VAE)である。 しかし、この問題に対する現実的な試みは、すべてではないが、ほとんどはモノフォニック音楽に限られている。 通常、より豊かなモダリティとより複雑な音楽構造で構成されているが、音楽表現学習の文脈ではまだ対応していない。 本研究では,ポリフォニック音楽学習に適合することを目的とした,新たな木構造拡張であるPanoTree VAEを提案する。 実験はピアノTree VAEの妥当性を証明した。 (i)ポリフォニックセグメントの理論的に有意義な潜在コード (ii)潜伏空間で学んだまともな幾何学以外の、より満足できる再構築 (iii)-このモデルが下流の音楽世代の多様性に恩恵をもたらす。

The dominant approach for music representation learning involves the deep unsupervised model family variational autoencoder (VAE). However, most, if not all, viable attempts on this problem have largely been limited to monophonic music. Normally composed of richer modality and more complex musical structures, the polyphonic counterpart has yet to be addressed in the context of music representation learning. In this work, we propose the PianoTree VAE, a novel tree-structure extension upon VAE aiming to fit the polyphonic music learning. The experiments prove the validity of the PianoTree VAE via (i)-semantically meaningful latent code for polyphonic segments; (ii)-more satisfiable reconstruction aside of decent geometry learned in the latent space; (iii)-this model's benefits to the variety of the downstream music generation.
翻訳日:2022-10-28 03:16:51 公開日:2020-08-17
# 制御可能なポリフォニック音楽生成のための学習解釈可能表現

Learning Interpretable Representation for Controllable Polyphonic Music Generation ( http://arxiv.org/abs/2008.07122v1 )

ライセンス: Link先を確認
Ziyu Wang, Dingsu Wang, Yixiao Zhang, Gus Xia(参考訳) 深層生成モデルはアルゴリズム合成の主要な手法となっているが、ほとんどの深層学習モデルの潜在変数は良好な解釈性に欠けるため、生成過程を制御することは依然として困難である。 コンテントスタイルのアンタングル化のアイデアに触発された我々は,ポリフォニック音楽の2つの解釈可能な潜在要因である和音とテクスチャを効果的に学習する,VAEフレームワークの下で,新しいアーキテクチャを設計する。 現在のモデルは8拍子長のピアノ作曲セグメントの学習に重点を置いている。 このようなコード・テクスチャ・ディコンタングルメントは,構成スタイルの伝達,テクスチャの変動,伴奏の配置など,幅広い応用につながる制御可能な生成経路を提供することを示す。 客観評価と主観評価の両方で,本手法は,歪みと高品質な音楽生成を実現する。

While deep generative models have become the leading methods for algorithmic composition, it remains a challenging problem to control the generation process because the latent variables of most deep-learning models lack good interpretability. Inspired by the content-style disentanglement idea, we design a novel architecture, under the VAE framework, that effectively learns two interpretable latent factors of polyphonic music: chord and texture. The current model focuses on learning 8-beat long piano composition segments. We show that such chord-texture disentanglement provides a controllable generation pathway leading to a wide spectrum of applications, including compositional style transfer, texture variation, and accompaniment arrangement. Both objective and subjective evaluations show that our method achieves a successful disentanglement and high quality controlled music generation.
翻訳日:2022-10-28 03:16:40 公開日:2020-08-17
# 2つのアルゴリズムフレームワークによる分解型多目的進化アルゴリズムの設計

Decomposition-Based Multi-Objective Evolutionary Algorithm Design under Two Algorithm Frameworks ( http://arxiv.org/abs/2008.07094v1 )

ライセンス: Link先を確認
Lie Meng Pang, Hisao Ishibuchi and Ke Shang(参考訳) 効率的な進化的多目的最適化(EMO)アルゴリズムの開発は、進化計算コミュニティにおいて活発な研究課題となっている。 長年にわたり、多くのEMOアルゴリズムが提案されてきた。 既存のEMOアルゴリズムは主に最終人口フレームワークに基づいて開発されている。 最終的な人口枠組では、emoアルゴリズムの最終人口が意思決定者に提示される。 したがって、EMOアルゴリズムによって生成される最終集団は良い解集合であることが要求される。 近年,EMOアルゴリズムの設計にソリューション選択フレームワークの利用が提案されている。 このフレームワークには、検査対象のソリューションをすべて格納する、無制限の外部アーカイブがある。 決定者に対して提示される最終ソリューションとして、事前に指定されたソリューションがアーカイブから選択される。 解選択フレームワークを使用する場合、最終集団が必ずしも良い解集合であるとは限らないので、より柔軟な方法でEMOアルゴリズムを設計することができる。 本稿では,この2つのフレームワークによるMOEA/Dの設計について検討する。 オフラインの遺伝的アルゴリズムに基づくハイパーヒューリスティック手法を用いて,各フレームワークにおけるMOEA/Dの最適構成を求める。 DTLZおよびWFGテストスイートとそのマイナスバージョンを実験で使用した。 実験結果から,解選択フレームワークを用いた場合,より柔軟で堅牢で高性能なMOEA/Dアルゴリズムが得られる可能性が示唆された。

The development of efficient and effective evolutionary multi-objective optimization (EMO) algorithms has been an active research topic in the evolutionary computation community. Over the years, many EMO algorithms have been proposed. The existing EMO algorithms are mainly developed based on the final population framework. In the final population framework, the final population of an EMO algorithm is presented to the decision maker. Thus, it is required that the final population produced by an EMO algorithm is a good solution set. Recently, the use of solution selection framework was suggested for the design of EMO algorithms. This framework has an unbounded external archive to store all the examined solutions. A pre-specified number of solutions are selected from the archive as the final solutions presented to the decision maker. When the solution selection framework is used, EMO algorithms can be designed in a more flexible manner since the final population is not necessarily to be a good solution set. In this paper, we examine the design of MOEA/D under these two frameworks. We use an offline genetic algorithm-based hyper-heuristic method to find the optimal configuration of MOEA/D in each framework. The DTLZ and WFG test suites and their minus versions are used in our experiments. The experimental results suggest the possibility that a more flexible, robust and high-performance MOEA/D algorithm can be obtained when the solution selection framework is used.
翻訳日:2022-10-28 03:15:52 公開日:2020-08-17
# 主観的論理を用いた多腕バンディット問題の不確実性推定

Using Subjective Logic to Estimate Uncertainty in Multi-Armed Bandit Problems ( http://arxiv.org/abs/2008.07386v1 )

ライセンス: Link先を確認
Fabio Massimo Zennaro, Audun J{\o}sang(参考訳) マルチアームバンディット問題は、エージェントが探索と搾取のバランスをとる最適なアクションを学習しなければならない古典的な意思決定問題である。 このトレードオフを適切に管理するには、適切な不確実性の評価が必要である; マルチアームの盗賊では、他の機械学習アプリケーションと同様に、システム固有の確率性とエージェントの限られた知識に由来する確率とを区別することが重要である。 本稿では,ディリクレ・多項モデルを主観的意見として表現するための簡潔で表現的な枠組みである主観的論理の形式化を考察し,多元的バンディット問題に適用する。 そこで本研究では,多腕バンディット問題に取り組むために主観論理を基礎とした新しいアルゴリズムを提案し,古典的アルゴリズムと比較し,不確かさのダイナミクスを評価する上で得られる知見を分析する。 予備結果は, 主観的論理量はより洗練されたエージェントによって悪用される可能性のある不確実性の有用な評価を可能にすることを示唆する。

The multi-armed bandit problem is a classical decision-making problem where an agent has to learn an optimal action balancing exploration and exploitation. Properly managing this trade-off requires a correct assessment of uncertainty; in multi-armed bandits, as in other machine learning applications, it is important to distinguish between stochasticity that is inherent to the system (aleatoric uncertainty) and stochasticity that derives from the limited knowledge of the agent (epistemic uncertainty). In this paper we consider the formalism of subjective logic, a concise and expressive framework to express Dirichlet-multinomial models as subjective opinions, and we apply it to the problem of multi-armed bandits. We propose new algorithms grounded in subjective logic to tackle the multi-armed bandit problem, we compare them against classical algorithms from the literature, and we analyze the insights they provide in evaluating the dynamics of uncertainty. Our preliminary results suggest that subjective logic quantities enable useful assessment of uncertainty that may be exploited by more refined agents.
翻訳日:2022-10-28 03:08:58 公開日:2020-08-17
# 人工知能がサイコロを奏でる:確率性は機械学習に不可欠

Intelligence plays dice: Stochasticity is essential for machine learning ( http://arxiv.org/abs/2008.07496v1 )

ライセンス: Link先を確認
Mert R. Sabuncu(参考訳) 多くの分野において、確率性は計算効率を得る方法であり、精度をトレードオフする必要がしばしばある。 本稿では,確率性は機械学習(ML)において根本的に異なる役割を担っており,知的システムの重要な要素であると考えられる。 ML文献をレビューするにあたり、多くのML手法で確率性が特徴であることに気付き、堅牢性、一般化性、キャリブレーションを実現している。 また、個々のニューロンのスパイクパターンから動物の複雑な行動に至るまで、生物学的知性においてランダム性は顕著である。 我々は、確率性がMLの未来を形作ると信じているかについて議論した。

Many fields view stochasticity as a way to gain computational efficiency, while often having to trade off accuracy. In this perspective article, we argue that stochasticity plays a fundamentally different role in machine learning (ML) and is likely a critical ingredient of intelligent systems. As we review the ML literature, we notice that stochasticity features in many ML methods, affording them robustness, generalizability, and calibration. We also note that randomness seems to be prominent in biological intelligence, from the spiking patterns of individual neurons to the complex behavior of animals. We conclude with a discussion of how we believe stochasticity might shape the future of ML.
翻訳日:2022-10-28 03:08:37 公開日:2020-08-17
# 不規則なサンプル時系列から学ぶ:データの欠如

Learning from Irregularly-Sampled Time Series: A Missing Data Perspective ( http://arxiv.org/abs/2008.07599v1 )

ライセンス: Link先を確認
Steven Cheng-Xian Li, Benjamin M. Marlin(参考訳) 不規則にサンプリングされた時系列は、医療を含む多くの領域で発生する。 多くの標準的な機械学習モデルで要求される固定次元表現を自然に生成しないため、モデリングは困難である。 本稿では,欠落データの観点から不規則なサンプリングについて考察する。 不規則にサンプリングされた時系列データを連続だが観測されていない関数からサンプリングされたインデックス値ペアの列としてモデル化した。 このような汎用インデックスシーケンスから学習するためのエンコーダ・デコーダフレームワークを提案する。 本稿では,変分オートエンコーダと生成対向ネットワークに基づく学習手法を提案する。 不規則にサンプリングされた連続時系列の場合、既存のニューラルネットワークアーキテクチャと効率的にインターフェースできる連続畳み込み層を導入する。 実験の結果,最近のrnnモデルと比較して,不規則にサンプリングされた多変量時系列の分類結果の精度が向上し,トレーニング時間が大幅に向上した。

Irregularly-sampled time series occur in many domains including healthcare. They can be challenging to model because they do not naturally yield a fixed-dimensional representation as required by many standard machine learning models. In this paper, we consider irregular sampling from the perspective of missing data. We model observed irregularly-sampled time series data as a sequence of index-value pairs sampled from a continuous but unobserved function. We introduce an encoder-decoder framework for learning from such generic indexed sequences. We propose learning methods for this framework based on variational autoencoders and generative adversarial networks. For continuous irregularly-sampled time series, we introduce continuous convolutional layers that can efficiently interface with existing neural network architectures. Experiments show that our models are able to achieve competitive or better classification results on irregularly-sampled multivariate time series compared to recent RNN models while offering significantly faster training times.
翻訳日:2022-10-28 03:07:52 公開日:2020-08-17
# テンソル分解を用いたエンサンブルノード埋め込み:DeepWalkのケーススタディ

Ensemble Node Embeddings using Tensor Decomposition: A Case-Study on DeepWalk ( http://arxiv.org/abs/2008.07672v1 )

ライセンス: Link先を確認
Jia Chen and Evangelos E. Papalexakis(参考訳) ノードの埋め込みはここ数年で注目を集めている。 そこで本稿では,既存の手法を用いて複数の埋め込みを生成し,それらを最新テンソル分解モデルPARAFAC2のマルチビューデータ入力として利用し,ノードの低次元表現の共有を学習することで,新しいアンサンブルノード埋め込み手法であるTenSemble2Vecを提案する。 他の埋め込み手法とは対照的に、私たちのTenSemble2Vecは異なるメソッドや異なるハイパーパラメータを持つ同じメソッドの補完的な情報を活用しています。 実世界のデータを用いた広範囲なテストにより、提案手法の有効性が検証される。

Node embeddings have been attracting increasing attention during the past years. In this context, we propose a new ensemble node embedding approach, called TenSemble2Vec, by first generating multiple embeddings using the existing techniques and taking them as multiview data input of the state-of-art tensor decomposition model namely PARAFAC2 to learn the shared lower-dimensional representations of the nodes. Contrary to other embedding methods, our TenSemble2Vec takes advantage of the complementary information from different methods or the same method with different hyper-parameters, which bypasses the challenge of choosing models. Extensive tests using real-world data validates the efficiency of the proposed method.
翻訳日:2022-10-28 03:06:20 公開日:2020-08-17
# テキストによる質問生成における多様性の評価

Evaluating for Diversity in Question Generation over Text ( http://arxiv.org/abs/2008.07291v1 )

ライセンス: Link先を確認
Michael Sejr Schlichtkrull, Weiwei Cheng(参考訳) テキスト上で多様で関連する質問を生成することは、広く応用されるタスクである。 BLEU や METEOR などの一般的な評価指標は,参照問題固有の多様性のため,この課題には適さないと論じ,多様性を反映する従来の指標を拡張する手法を提案する。 さらに,本課題に対する変分エンコーダデコーダモデルを提案する。 自動的・人為的評価を通じて,我々の変動モデルは品質を損なうことなく多様性を向上し,我々の評価方法がこの改善を反映しているかを示す。

Generating diverse and relevant questions over text is a task with widespread applications. We argue that commonly-used evaluation metrics such as BLEU and METEOR are not suitable for this task due to the inherent diversity of reference questions, and propose a scheme for extending conventional metrics to reflect diversity. We furthermore propose a variational encoder-decoder model for this task. We show through automatic and human evaluation that our variational model improves diversity without loss of quality, and demonstrate how our evaluation scheme reflects this improvement.
翻訳日:2022-10-28 02:59:45 公開日:2020-08-17
# ディープニューラルネットワークを用いたテキスト分類のためのアクティブラーニングの検討

A Survey of Active Learning for Text Classification using Deep Neural Networks ( http://arxiv.org/abs/2008.07267v1 )

ライセンス: Link先を確認
Christopher Schr\"oder and Andreas Niekler(参考訳) 自然言語処理(NLP)とニューラルネットワーク(NN)はどちらも近年大きく変化している。 しかし、アクティブラーニング(AL)の目的のために、NNは、現在の人気にもかかわらず、あまり使われていない。 AL用NNの優れたテキスト分類性能を利用することで、同じ量のデータを用いてモデルの性能を高めるか、データを減らすか、従って同じ性能を維持しながら必要なアノテーション処理を行うことができる。 我々は、ディープニューラルネットワーク(DNN)を用いたテキスト分類のためのALをレビューし、採用を妨げる2つの主な原因について詳述する。 (a)最も一般的に使用されているクエリ戦略が依存する信頼性の高い不確実性推定を提供するためのnnsの欠如 b) DNNを小さなデータで訓練する際の課題。 前者については,データベース,モデルベース,予測ベースのインスタンス選択を区別する問合せ戦略の分類法を構築し,最近の研究でこれらのクラスの普及状況を調査した。 さらに、(D)NNの文脈における単語埋め込みや言語モデルのようなNLPの最近の進歩を概観し、ALとテキスト分類、DNNの交差点における最先端技術を調査し、最近のNLPのALへの進歩について述べる。 最後に,テキスト分類のためのalの最近の研究を分析し,各問合せ戦略と分類を結びつけ,共通点と欠点を概説する。 その結果、現在の研究のギャップを強調し、オープンな研究課題を提示する。

Natural language processing (NLP) and neural networks (NNs) have both undergone significant changes in recent years. For active learning (AL) purposes, NNs are, however, less commonly used -- despite their current popularity. By using the superior text classification performance of NNs for AL, we can either increase a model's performance using the same amount of data or reduce the data and therefore the required annotation efforts while keeping the same performance. We review AL for text classification using deep neural networks (DNNs) and elaborate on two main causes which used to hinder the adoption: (a) the inability of NNs to provide reliable uncertainty estimates, on which the most commonly used query strategies rely, and (b) the challenge of training DNNs on small data. To investigate the former, we construct a taxonomy of query strategies, which distinguishes between data-based, model-based, and prediction-based instance selection, and investigate the prevalence of these classes in recent research. Moreover, we review recent NN-based advances in NLP like word embeddings or language models in the context of (D)NNs, survey the current state-of-the-art at the intersection of AL, text classification, and DNNs and relate recent advances in NLP to AL. Finally, we analyze recent work in AL for text classification, connect the respective query strategies to the taxonomy, and outline commonalities and shortcomings. As a result, we highlight gaps in current research and present open research questions.
翻訳日:2022-10-28 02:59:36 公開日:2020-08-17
# SuperSuit: 強化学習環境のためのシンプルなマイクロラッパ

SuperSuit: Simple Microwrappers for Reinforcement Learning Environments ( http://arxiv.org/abs/2008.08932v1 )

ライセンス: Link先を確認
J. K. Terry, Benjamin Black, Ananth Hari(参考訳) 強化学習では、ラッパーはモデルと環境の間の情報を変換するために普遍的に使用される。 ユビキタスにもかかわらず、一般的なプリプロセッシングメソッドをすべて合理的に実装したライブラリは存在しない。 これは不要なバグ、コードの非効率、開発者の時間を無駄にする。 そこで、人気のあるラッパーをすべて含むPythonライブラリであるSuperSuitと、観測/アクション/リワードにラムダ関数を簡単に適用可能なラッパーを紹介します。 これは、標準のGym環境仕様と、マルチエージェント環境のためのPettingZoo仕様と互換性がある。 このライブラリはhttps://github.com/PettingZoo-Team/SuperSuitで入手できる。

In reinforcement learning, wrappers are universally used to transform the information that passes between a model and an environment. Despite their ubiquity, no library exists with reasonable implementations of all popular preprocessing methods. This leads to unnecessary bugs, code inefficiencies, and wasted developer time. Accordingly we introduce SuperSuit, a Python library that includes all popular wrappers, and wrappers that can easily apply lambda functions to the observations/actions/reward. It's compatible with the standard Gym environment specification, as well as the PettingZoo specification for multi-agent environments. The library is available at https://github.com/PettingZoo-Team/SuperSuit,and can be installed via pip.
翻訳日:2022-10-28 02:59:10 公開日:2020-08-17
# 点推定を超えて:リコメンダ系におけるニューロン活性化強度からのアンサンブル予測の変動を推定する

Beyond Point Estimate: Inferring Ensemble Prediction Variation from Neuron Activation Strength in Recommender Systems ( http://arxiv.org/abs/2008.07032v1 )

ライセンス: Link先を確認
Zhe Chen, Yuyan Wang, Dong Lin, Derek Zhiyuan Cheng, Lichan Hong, Ed H. Chi, Claire Cui(参考訳) ディープニューラルネットワーク(DNN)の様々な領域における印象的な予測性能にもかかわらず、同じモデル仕様でトレーニングされたDNNモデルのセットと、同じデータが全く異なる予測結果を生成することはよく知られている。 Ensemble法は予測不確実性推定のための最先端のベンチマークである。 しかし、アンサンブルは訓練に費用がかかり、webスケールのトラフィックに対応している。 本稿では,アンサンブル法により推定される予測変動の理解を推し進める。 レコメンダシステムで広く使われている2つのベンチマークデータセットである movielens と criteo の実験を通して、予測の変動はトレーニングデータシャッフルやパラメータのランダム初期化など、様々なランダムなソースから生じることを観察する。 モデルの学習にさらにランダム性を導入することで、アンサンブルの平均予測はより正確になりがちであるが、予測のばらつきはより高くなることが分かる。 さらに,ニューロンの活性化強度からの予測変動を推定し,活性化強度の特徴から強い予測力を示す。 実験の結果,MovieLensでは平均Rが0.56,Criteoでは0.81であった。 本手法は, 最低変量バケットと最高変量バケットをそれぞれ0.92AUCと0.89AUCで検出した場合, 特に良好に機能する。 提案手法は,多くの興味深い分野(例えば,モデルに基づく強化学習)において,高価なアンサンブルモデルの提供に頼ることなく,将来の作業の新たな機会を開放する。

Despite deep neural network (DNN)'s impressive prediction performance in various domains, it is well known now that a set of DNN models trained with the same model specification and the same data can produce very different prediction results. Ensemble method is one state-of-the-art benchmark for prediction uncertainty estimation. However, ensembles are expensive to train and serve for web-scale traffic. In this paper, we seek to advance the understanding of prediction variation estimated by the ensemble method. Through empirical experiments on two widely used benchmark datasets MovieLens and Criteo in recommender systems, we observe that prediction variations come from various randomness sources, including training data shuffling, and parameter random initialization. By introducing more randomness into model training, we notice that ensemble's mean predictions tend to be more accurate while the prediction variations tend to be higher. Moreover, we propose to infer prediction variation from neuron activation strength and demonstrate the strong prediction power from activation strength features. Our experiment results show that the average R squared on MovieLens is as high as 0.56 and on Criteo is 0.81. Our method performs especially well when detecting the lowest and highest variation buckets, with 0.92 AUC and 0.89 AUC respectively. Our approach provides a simple way for prediction variation estimation, which opens up new opportunities for future work in many interesting areas (e.g.,model-based reinforcement learning) without relying on serving expensive ensemble models.
翻訳日:2022-10-28 02:59:01 公開日:2020-08-17
# 長期記憶を用いたオンラインマルチタスク学習

Online Multitask Learning with Long-Term Memory ( http://arxiv.org/abs/2008.07055v1 )

ライセンス: Link先を確認
Mark Herbster, Stephen Pasteris, Lisa Tse(参考訳) 我々は新しいオンラインマルチタスク設定を導入する。 この設定では、各タスクは学習者に未知のセグメントのシーケンスに分割される。 各セグメントに関連付けられた仮説は、ある仮説クラスからの仮説である。 このようなセグメントが多数存在するが、関連する仮説がかなり少ないシナリオを利用するように設計されたアルゴリズムを提供する。 我々は、タスクのセグメンテーションとセグメンテーションへの仮説の関連付けを保持する後悔の限界を証明します。 シングルタスク設定では、これは[Bousquet and Warmuth, 2003]という意味での長期記憶への切り替えに相当する。 仮説クラスが有限であるときの仮説数において,各試行を線形に予測するアルゴリズムを提案する。 また、再生成核ヒルベルト空間から無限の仮説クラスを考えることにより、試行時間毎に累積試行回数が立方的になるようなアルゴリズムを与える。 シングルタスク特別の場合、これは非パラメトリック仮説クラスに対する長期記憶を持つ効率的な後悔境界切替アルゴリズムの最初の例である。

We introduce a novel online multitask setting. In this setting each task is partitioned into a sequence of segments that is unknown to the learner. Associated with each segment is a hypothesis from some hypothesis class. We give algorithms that are designed to exploit the scenario where there are many such segments but significantly fewer associated hypotheses. We prove regret bounds that hold for any segmentation of the tasks and any association of hypotheses to the segments. In the single-task setting this is equivalent to switching with long-term memory in the sense of [Bousquet and Warmuth; 2003]. We provide an algorithm that predicts on each trial in time linear in the number of hypotheses when the hypothesis class is finite. We also consider infinite hypothesis classes from reproducing kernel Hilbert spaces for which we give an algorithm whose per trial time complexity is cubic in the number of cumulative trials. In the single-task special case this is the first example of an efficient regret-bounded switching algorithm with long-term memory for a non-parametric hypothesis class.
翻訳日:2022-10-28 02:58:31 公開日:2020-08-17
# クラスタ分析による自転車シェアリング利用における気象影響の検討

Exploring the weather impact on bike sharing usage through a clustering analysis ( http://arxiv.org/abs/2008.07249v1 )

ライセンス: Link先を確認
Jessica Quach, Reza Malekian(参考訳) 自転車シェアリングシステム (BSS) は長年にわたって人気があり、世界中で利用されている。 健康的なライフスタイルを推進したい都市やユーザーにとって、大気汚染や温室効果ガスの排出を減らし、交通量を改善することは魅力的である。 ドッキング自転車シェアリングシステムに対する大きな課題のひとつは、自転車の再分配とドックステーションのバランスです。 いくつかの研究は、自転車の利用予測に役立つモデル、自転車の流通を再バランスするための戦略、パターンの確立やパターンの特定方法を提案する。 他の研究では、気象データを含めることでアプローチを拡張することを提案する。 本研究は,これらの提案と,天候が自転車の利用に与える影響を調査する機会の拡大を目的とする。 ワシントンd.c.で自転車の利用データと気象データを収集し、k-meansクラスタリングアルゴリズムを用いて分析する。 k-meansは、天候に応じて自転車の使用量に対応する3つのクラスタを特定した。 その結果,自転車利用における天候の影響は,クラスタ間で顕著であった。 その結果,5つの気象変数のうち,降水量が最も多かった。

Bike sharing systems (BSS) have been a popular traveling service for years and are used worldwide. It is attractive for cities and users who wants to promote healthier lifestyles; to reduce air pollution and greenhouse gas emission as well as improve traffic. One major challenge to docked bike sharing system is redistributing bikes and balancing dock stations. Some studies propose models that can help forecasting bike usage; strategies for rebalancing bike distribution; establish patterns or how to identify patterns. Other studies propose to extend the approach by including weather data. This study aims to extend upon these proposals and opportunities to explore how and in what magnitude weather impacts bike usage. Bike usage data and weather data are gathered for the city of Washington D.C. and are analyzed using k-means clustering algorithm. K-means managed to identify three clusters that correspond to bike usage depending on weather conditions. The results show that the weather impact on bike usage was noticeable between clusters. It showed that temperature followed by precipitation weighted the most, out of five weather variables.
翻訳日:2022-10-28 02:57:42 公開日:2020-08-17
# 差別的明確化質問の検索による意図的曖昧さの解消

Resolving Intent Ambiguities by Retrieving Discriminative Clarifying Questions ( http://arxiv.org/abs/2008.07559v1 )

ライセンス: Link先を確認
Kaustubh D. Dhole(参考訳) タスク指向対話システムは、通常、ユーザクエリを予め定義されたインテントのセットにマッピングするためにインテント検出システムを使用する。 しかし、自然言語に現れるユーザクエリは容易にあいまいであり、このような直接マッピングは意図の検出や対話システム全体のパフォーマンスを損なうものではない。 さらに、ドメイン固有の明確化質問の取得にはコストがかかる。 2つの意図の間に曖昧なクエリを曖昧にするために,任意の質問生成システムを利用する単純なルールベースシステムを用いて,明確化質問の注釈データを必要とすることなく識別的質問を生成する新しい手法を提案する。 このアプローチは2つの意図の識別を目標としているが、複数の意図の明確化に容易に拡張できる。 ユーザの意図を分類するためにユーザから明確化を求めることは,ユーザの意図を効果的に理解するだけでなく,会話のロボット性も低減し,対話を極めて自然なものにする。

Task oriented Dialogue Systems generally employ intent detection systems in order to map user queries to a set of pre-defined intents. However, user queries appearing in natural language can be easily ambiguous and hence such a direct mapping might not be straightforward harming intent detection and eventually the overall performance of a dialogue system. Moreover, acquiring domain-specific clarification questions is costly. In order to disambiguate queries which are ambiguous between two intents, we propose a novel method of generating discriminative questions using a simple rule based system which can take advantage of any question generation system without requiring annotated data of clarification questions. Our approach aims at discrimination between two intents but can be easily extended to clarification over multiple intents. Seeking clarification from the user to classify user intents not only helps understand the user intent effectively, but also reduces the roboticity of the conversation and makes the interaction considerably natural.
翻訳日:2022-10-28 02:50:54 公開日:2020-08-17
# 生成モデルはページ品質の教師なし予測因子である:コロッサルスケールによる研究

Generative Models are Unsupervised Predictors of Page Quality: A Colossal-Scale Study ( http://arxiv.org/abs/2008.13533v1 )

ライセンス: Link先を確認
Dara Bahri, Yi Tay, Che Zheng, Donald Metzler, Cliff Brunk, Andrew Tomkins(参考訳) gpt-2のような大規模な生成言語モデルは、テキストを生成する能力や、微調整によるダウンストリームタスクの監督機能で有名である。 まず、人間と機械が生成するテキストを区別するために訓練された分類器が、教師なしの「ページ品質」予測器として出現し、トレーニングなしで品質の低いコンテンツを検出できることを示す。 これにより、低リソース環境における品質指標の高速ブートストラップが可能になる。 第2に,野生における低品質ページの発生状況と本質を理解することに興味のある我々は,5億以上のweb記事に対して広範囲な質的,定量的な分析を行い,この話題に関する最大の研究となった。

Large generative language models such as GPT-2 are well-known for their ability to generate text as well as their utility in supervised downstream tasks via fine-tuning. Our work is twofold: firstly we demonstrate via human evaluation that classifiers trained to discriminate between human and machine-generated text emerge as unsupervised predictors of "page quality", able to detect low quality content without any training. This enables fast bootstrapping of quality indicators in a low-resource setting. Secondly, curious to understand the prevalence and nature of low quality pages in the wild, we conduct extensive qualitative and quantitative analysis over 500 million web articles, making this the largest-scale study ever conducted on the topic.
翻訳日:2022-10-28 02:50:38 公開日:2020-08-17
# ニューラルネットワークを用いたカタンの演奏

Playing Catan with Cross-dimensional Neural Network ( http://arxiv.org/abs/2008.07079v1 )

ライセンス: Link先を確認
Quentin Gendre, Tomoyuki Kaneko(参考訳) catanは、マルチプレイヤー、不完全な情報、確率的、複雑な状態空間構造(各頂点、辺、面が独自の特徴、各プレイヤーのカードなどを持つヘキサゴナルボード)、大きなアクション空間(交渉を含む)など、興味深い特性を持つ戦略的ボードゲームである。 したがって、強化学習(RL:Reinforcement Learning)によるAIエージェントの構築は、ドメイン知識やヒューリスティックスなしでは困難である。 本稿では,情報ソースと多種多様な出力の混在を扱うために,クロス次元ニューラルネットワークを導入し,そのネットワークがカタンのrlを劇的に改善することを示す。 また、rlエージェントが初めて、利用可能な最も優れたヒューリスティックエージェントであるjsettlerを上回ることができることも示しています。

Catan is a strategic board game having interesting properties, including multi-player, imperfect information, stochastic, complex state space structure (hexagonal board where each vertex, edge and face has its own features, cards for each player, etc), and a large action space (including negotiation). Therefore, it is challenging to build AI agents by Reinforcement Learning (RL for short), without domain knowledge nor heuristics. In this paper, we introduce cross-dimensional neural networks to handle a mixture of information sources and a wide variety of outputs, and empirically demonstrate that the network dramatically improves RL in Catan. We also show that, for the first time, a RL agent can outperform jsettler, the best heuristic agent available.
翻訳日:2022-10-28 02:50:23 公開日:2020-08-17
# OCEAN: コンテキスト適応による構成タスクのオンラインタスク推論

OCEAN: Online Task Inference for Compositional Tasks with Context Adaptation ( http://arxiv.org/abs/2008.07087v1 )

ライセンス: Link先を確認
Hongyu Ren, Yuke Zhu, Jure Leskovec, Anima Anandkumar, Animesh Garg(参考訳) 現実世界のタスクは、単純なサブタスクのシーケンスを含む構成構造を示すことが多い。 例えば、ドアを開けるには、手を伸ばし、つかみ、回転させ、ドアノブを引っ張る必要がある。 このような構成的タスクは、エージェントが手元のサブタスクについて推論し、それに従ってグローバルな振る舞いを編成する必要がある。 これは、現在のタスクid(コンテキスト変数で表される)がエージェントの過去の確率的推論の経験から推定されるオンラインタスク推論問題としてキャストすることができる。 以前のアプローチでは、タスク全体の単一コンテキストをモデル化するために、単純な潜在分布(例えばガウス分布)を使用していた。 しかし、この定式化はサブタスクの構成と遷移をキャプチャする表現力に欠ける。 構成タスクに対するオンラインタスク推論を行うための変分推論フレームワークOCEANを提案する。 グローバル変数はタスクに必要なサブタスクの混合を表し、ローカル変数はサブタスク間の遷移をキャプチャする。 我々のフレームワークは、タスク構造に関する事前知識に基づいて柔軟な潜在分布をサポートし、教師なしの方法でトレーニングできる。 実験結果から,OCEANは逐次的コンテキスト適応によるタスク推論により,複雑なマルチステージタスクの性能向上につながることがわかった。

Real-world tasks often exhibit a compositional structure that contains a sequence of simpler sub-tasks. For instance, opening a door requires reaching, grasping, rotating, and pulling the door knob. Such compositional tasks require an agent to reason about the sub-task at hand while orchestrating global behavior accordingly. This can be cast as an online task inference problem, where the current task identity, represented by a context variable, is estimated from the agent's past experiences with probabilistic inference. Previous approaches have employed simple latent distributions, e.g., Gaussian, to model a single context for the entire task. However, this formulation lacks the expressiveness to capture the composition and transition of the sub-tasks. We propose a variational inference framework OCEAN to perform online task inference for compositional tasks. OCEAN models global and local context variables in a joint latent space, where the global variables represent a mixture of sub-tasks required for the task, while the local variables capture the transitions between the sub-tasks. Our framework supports flexible latent distributions based on prior knowledge of the task structure and can be trained in an unsupervised manner. Experimental results show that OCEAN provides more effective task inference with sequential context adaptation and thus leads to a performance boost on complex, multi-stage tasks.
翻訳日:2022-10-28 02:50:08 公開日:2020-08-17
# ポリシー空間一般化による強化学習のサンプル複雑性について

On the Sample Complexity of Reinforcement Learning with Policy Space Generalization ( http://arxiv.org/abs/2008.07353v1 )

ライセンス: Link先を確認
Wenlong Mou, Zheng Wen, Xi Chen(参考訳) 本研究では,政策空間の一般化を伴う大規模強化学習(rl)問題における最適サンプル複雑性について検討する。 既存の結果は、一般化モデルがなければ、RLアルゴリズムのサンプルの複雑さは必然的に状態空間と行動空間の濃度に依存することを示し、多くの実用的な問題において明らかに大きい。 そこで本稿では,このような状態や行動空間の大きさへの望ましくない依存を避けるため,任意のマルコフ決定過程 (mdp) において,政策学習の本質的複雑性を特徴付ける,ポリシー空間におけるエルダー次元の新たな概念を提案する。 シミュレーターオラクルを用いて、エルダー次元に線形にのみ依存する、最適に近いサンプル複雑性の上限を証明できる。 さらに、シミュレータを使わずに決定論的なシステムで同様の後悔を証明します。

We study the optimal sample complexity in large-scale Reinforcement Learning (RL) problems with policy space generalization, i.e. the agent has a prior knowledge that the optimal policy lies in a known policy space. Existing results show that without a generalization model, the sample complexity of an RL algorithm will inevitably depend on the cardinalities of state space and action space, which are intractably large in many practical problems. To avoid such undesirable dependence on the state and action space sizes, this paper proposes a new notion of eluder dimension for the policy space, which characterizes the intrinsic complexity of policy learning in an arbitrary Markov Decision Process (MDP). Using a simulator oracle, we prove a near-optimal sample complexity upper bound that only depends linearly on the eluder dimension. We further prove a similar regret bound in deterministic systems without the simulator.
翻訳日:2022-10-28 02:49:36 公開日:2020-08-17
# もし顔の感情が不確かなら、ベイジアンニューラルネットワークを使うべきだ!

Hey Human, If your Facial Emotions are Uncertain, You Should Use Bayesian Neural Networks! ( http://arxiv.org/abs/2008.07426v1 )

ライセンス: Link先を確認
Maryam Matin and Matias Valdenegro-Toro(参考訳) 顔認識は、人間の感情を顔画像に分類するタスクである。 不確実性と視覚的なあいまいさが高いため、これは難しい作業である。 文献の大部分は、このタスクの精度を高めて進捗を示すことを目的としているが、これはタスクの固有の不確実性と曖昧さを無視している。 本稿では,MC-Dropout,MC-DropConnect,あるいはEnsembleを用いて近似したベイズニューラルネットワークが,顔の感情認識におけるアレラトリック不確実性をモデル化し,人間の期待に迫る出力確率を生成することができることを示す。 また, キャリブレーションの指標は, 今後の作業の動機となる複数のクラスが正しいと考えられるため, このタスクに対して奇妙な振る舞いを示すことを示す。 私たちの研究は、他の研究者が古典学からベイズニューラルネットワークに移行する動機になると考えています。

Facial emotion recognition is the task to classify human emotions in face images. It is a difficult task due to high aleatoric uncertainty and visual ambiguity. A large part of the literature aims to show progress by increasing accuracy on this task, but this ignores the inherent uncertainty and ambiguity in the task. In this paper we show that Bayesian Neural Networks, as approximated using MC-Dropout, MC-DropConnect, or an Ensemble, are able to model the aleatoric uncertainty in facial emotion recognition, and produce output probabilities that are closer to what a human expects. We also show that calibration metrics show strange behaviors for this task, due to the multiple classes that can be considered correct, which motivates future work. We believe our work will motivate other researchers to move away from Classical and into Bayesian Neural Networks.
翻訳日:2022-10-28 02:49:21 公開日:2020-08-17
# 非IIDデータを用いたフェデレーション学習のための逆距離集約

Inverse Distance Aggregation for Federated Learning with Non-IID Data ( http://arxiv.org/abs/2008.07665v1 )

ライセンス: Link先を確認
Yousef Yeganeh, Azade Farshad, Nassir Navab, Shadi Albarqouni(参考訳) 近年,医療画像の分野では連合学習(fl)が有望なアプローチとなっている。 FLにおける重要な問題は、特に医療シナリオにおいて、ノイズやアウトオブディストリビューションクライアントに対して堅牢な、より正確な共有モデルを持つことである。 本研究では,医療データにおいて,例えば,異なるスキャナ設定の異なるサイトから得られるような,flのデータにおける統計的不均一性の問題に取り組む。 非バランス・非iidデータを扱うメタ情報に基づく,新しい適応的重み付け手法であるida(inverse distance aggregation)を提案する。 我々は,この手法をよく知られたFLアプローチであるFederated Averagingをベースラインとして広く分析し,評価した。

Federated learning (FL) has been a promising approach in the field of medical imaging in recent years. A critical problem in FL, specifically in medical scenarios is to have a more accurate shared model which is robust to noisy and out-of distribution clients. In this work, we tackle the problem of statistical heterogeneity in data for FL which is highly plausible in medical data where for example the data comes from different sites with different scanner settings. We propose IDA (Inverse Distance Aggregation), a novel adaptive weighting approach for clients based on meta-information which handles unbalanced and non-iid data. We extensively analyze and evaluate our method against the well-known FL approach, Federated Averaging as a baseline.
翻訳日:2022-10-28 02:49:05 公開日:2020-08-17
# 電力・エネルギーシステムのメタヒューリスティック最適化--「ヒューリスティック・ルーシ」の基礎原理と課題

Metaheuristic optimization of power and energy systems: underlying principles and main issues of the 'rush to heuristics' ( http://arxiv.org/abs/2008.07491v1 )

ライセンス: Link先を確認
Gianfranco Chicco and Andrea Mazza(参考訳) 電力・エネルギーシステム分野では、メタヒューリスティックアルゴリズムの適用を含む文献への貢献が進歩的に増加している。 多くの場合、これらのアプリケーションは単に特定の問題に対する既存のメタヒューリスティックアルゴリズムのテストを提案することを目的としており、弱い比較に基づく他の方法よりも優れた方法であると主張する。 この「ヒューリスティックスへのルーシュ」は、厳密な比較を行うための規則が厳格である進化計算領域では発生しないが、メタヒューリスティックスの応用の典型的な領域である。 本稿では,電力・エネルギーシステムへの応用を考察し,グローバル最適化問題に対するメタヒューリスティックスの利用に関する主要な課題を総合的に考察することを目的とする。 メタヒューリスティックなアルゴリズムを特徴付ける一連の基本原理が提示される。 特定の問題の制約を満たすためのメタヒューリスティックアルゴリズムのカスタマイズについて論じる。 文献のコントリビューションに見られるいくつかの弱点と落とし穴が特定され、メタヒューリスティックアルゴリズムの特定の問題への適用に関する具体的なガイドラインが提供される。

In the power and energy systems area, a progressive increase of literature contributions containing applications of metaheuristic algorithms is occurring. In many cases, these applications are merely aimed at proposing the testing of an existing metaheuristic algorithm on a specific problem, claiming that the proposed method is better than other methods based on weak comparisons. This 'rush to heuristics' does not happen in the evolutionary computation domain, where the rules for setting up rigorous comparisons are stricter, but are typical of the domains of application of the metaheuristics. This paper considers the applications to power and energy systems, and aims at providing a comprehensive view of the main issues concerning the use of metaheuristics for global optimization problems. A set of underlying principles that characterize the metaheuristic algorithms is presented. The customization of metaheuristic algorithms to fit the constraints of specific problems is discussed. Some weaknesses and pitfalls found in literature contributions are identified, and specific guidelines are provided on how to prepare sound contributions on the application of metaheuristic algorithms to specific problems.
翻訳日:2022-10-28 02:48:36 公開日:2020-08-17