このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210103となっている論文です。

PDF登録状況(公開日: 20210103)

TitleAuthorsAbstract論文公表日・翻訳日
# 破壊測地学による大規模微分型登録法

A method for large diffeomorphic registration via broken geodesics ( http://arxiv.org/abs/2011.14298v2 )

ライセンス: Link先を確認
Alphin J. Thottupattu, Jayanthi Sivaswamy, Venkateswaran P. Krishnan(参考訳) 縦断データやサブジェクト間データに見られる解剖学的変動は、通常、これらの画像の非剛性登録によってキャプチャされた基底変形によって記述される。 静止速度場(SVF)に基づく非剛性登録アルゴリズムは、広く登録に使われている。 SVF法は、微分同相の無限次元滑らかな多様体に埋め込まれた変形の有限次元部分多様体をキャプチャする計量自由フレームワークを形成する。 しかし、これらの手法は変形の程度に限られる。 本稿では、この制限を扱い、微分同相写像 $\mathcal{g}$ の多様体の近似距離空間を定義する。 本稿では,大変形を小変形の有限成分に分解する方法を提案する。 これにより、$\mathcal{g}$ の測地線が破れ、その長さは近似登録計量となる。 本手法は,単純で強度に基づくログデーモン実装を用いて記述する。 提案手法の検証結果は, 従来手法よりも定性的に優れた結果が得られる一方で, 大規模かつ複雑な変形を捉えることができることを示す。 また,提案した登録基準が変形の程度を示す良い指標であることを示す。

Anatomical variabilities seen in longitudinal data or inter-subject data is usually described by the underlying deformation, captured by non-rigid registration of these images. Stationary Velocity Field (SVF) based non-rigid registration algorithms are widely used for registration. SVF based methods form a metric-free framework which captures a finite dimensional submanifold of deformations embedded in the infinite dimensional smooth manifold of diffeomorphisms. However, these methods cover only a limited degree of deformations. In this paper, we address this limitation and define an approximate metric space for the manifold of diffeomorphisms $\mathcal{G}$. We propose a method to break down the large deformation into finite compositions of small deformations. This results in a broken geodesic path on $\mathcal{G}$ and its length now forms an approximate registration metric. We illustrate the method using a simple, intensity-based, log-demon implementation. Validation results of the proposed method show that it can capture large and complex deformations while producing qualitatively better results than the state-of-the-art methods. The results also demonstrate that the proposed registration metric is a good indicator of the degree of deformation.
翻訳日:2021-06-07 09:04:05 公開日:2021-01-03
# (参考訳) 単調性推論のための注意木構造ネットワーク [全文訳有]

Attentive Tree-structured Network for Monotonicity Reasoning ( http://arxiv.org/abs/2101.00540v1 )

ライセンス: CC BY 4.0
Zeming Chen(参考訳) 単調性推論のために設計された多くの最先端のニューラルモデルは、下向きの推論では不十分である。 この欠点に対処するため、注意深い木構造ニューラルネットワークを開発した。 ツリーベースの長期記憶ネットワーク(Tree-LSTM)をソフトアテンションで構成する。 推論タスクの文対から構文解析木情報をモデル化するように設計されている。 前提と仮説の表現を整列するために、自己注意集約器が使用される。 本稿では,モノトニティ・エンタテリメント・データセット(MED)を用いて,そのモデルを示し,評価する。 モデルが既存のモデルより優れていることを説明し、説明しようとします。

Many state-of-art neural models designed for monotonicity reasoning perform poorly on downward inference. To address this shortcoming, we developed an attentive tree-structured neural network. It consists of a tree-based long-short-term-memo ry network (Tree-LSTM) with soft attention. It is designed to model the syntactic parse tree information from the sentence pair of a reasoning task. A self-attentive aggregator is used for aligning the representations of the premise and the hypothesis. We present our model and evaluate it using the Monotonicity Entailment Dataset (MED). We show and attempt to explain that our model outperforms existing models on MED.
翻訳日:2021-04-13 06:15:10 公開日:2021-01-03
# (参考訳) Voronoiテッセルレーション支援深層学習によるスパースセンサのグローバルフィールド再構築 [全文訳有]

Global field reconstruction from sparse sensors with Voronoi tessellation-assiste d deep learning ( http://arxiv.org/abs/2101.00554v1 )

ライセンス: CC BY 4.0
Kai Fukami, Romit Maulik, Nesar Ramachandra, Koji Fukagata, and Kunihiko Taira(参考訳) 限られたセンサーから複雑な時間進化フィールドの正確で堅牢なグローバルな状況認識を実現することは、長年にわたる課題である。 この再構成問題は、センサーがランダムまたは非組織的な方法でわずかに配置されている場合、特に困難であり、科学や工学の様々な問題でしばしば遭遇する。 さらに、これらのセンサーは動作し、時間とともにオンラインまたはオフラインになる。 この科学的問題に対処する上で重要なレバレッジは、センサーから蓄積された豊富なデータである。 そこで本研究では,任意の位置センサに対して,構造化格子を用いた深層学習に基づくデータ駆動型空間場復元手法を提案する。 機械学習のna\" な利用は、グローバルフィールドの再構築に非常に高価になり、さらに任意の数のセンサーに適応できないことに注意すべきである。 本研究では,畳み込みニューラルネットワークの計算的利用を可能にするセンサ位置からの構造化グリッド表現を得るために,ボロノイテッセレーションの利用を検討する。 本手法の主な特徴の1つは、画像処理のために確立された構造化センサデータに対するディープラーニングに基づく超解像再構成技術との互換性である。 提案手法は, 非定常流れ, 物理データ, 3次元乱流に対して有効である。 現在のフレームワークは、任意の数の移動センサーを処理できるため、既存の再構築方法において大きな制限を克服できる。 提案手法は,実時間グローバルフィールド推定のためのニューラルネットワークの実用化に向けた新たな道を開く。

Achieving accurate and robust global situational awareness of a complex time-evolving field from a limited number of sensors has been a longstanding challenge. This reconstruction problem is especially difficult when sensors are sparsely positioned in a seemingly random or unorganized manner, which is often encountered in a range of scientific and engineering problems. Moreover, these sensors can be in motion and can become online or offline over time. The key leverage in addressing this scientific issue is the wealth of data accumulated from the sensors. As a solution to this problem, we propose a data-driven spatial field recovery technique founded on a structured grid-based deep-learning approach for arbitrary positioned sensors of any numbers. It should be noted that the na\"ive use of machine learning becomes prohibitively expensive for global field reconstruction and is furthermore not adaptable to an arbitrary number of sensors. In the present work, we consider the use of Voronoi tessellation to obtain a structured-grid representation from sensor locations enabling the computationally tractable use of convolutional neural networks. One of the central features of the present method is its compatibility with deep-learning based super-resolution reconstruction techniques for structured sensor data that are established for image processing. The proposed reconstruction technique is demonstrated for unsteady wake flow, geophysical data, and three-dimensional turbulence. The current framework is able to handle an arbitrary number of moving sensors, and thereby overcomes a major limitation with existing reconstruction methods. The presented technique opens a new pathway towards the practical use of neural networks for real-time global field estimation.
翻訳日:2021-04-13 05:46:25 公開日:2021-01-03
# (参考訳) StarNet:線形方程式決定系を用いた深部生成モデルのグラディエントフリートレーニング [全文訳有]

StarNet: Gradient-free Training of Deep Generative Models using Determined System of Linear Equations ( http://arxiv.org/abs/2101.00574v1 )

ライセンス: CC BY 4.0
Amir Zadeh, Santiago Benoit, Louis-Philippe Morency(参考訳) 本稿では,線形方程式の確定解法のみに基づいて,深部生成モデルを訓練する手法を提案する。 このアプローチをStarNetと呼ぶネットワークは、次の望ましい性質を持つ: 1) 線形方程式の解に対する解の勾配を必要としない; 2) 線形方程式の系を解く際に高度にスケーラブルであり、同様にモデルのパラメータに対して、3) 遅延符号とネットワークパラメータを各層で推定するのに望ましい最小二乗境界を与える。

In this paper we present an approach for training deep generative models solely based on solving determined systems of linear equations. A network that uses this approach, called a StarNet, has the following desirable properties: 1) training requires no gradient as solution to the system of linear equations is not stochastic, 2) is highly scalable when solving the system of linear equations w.r.t the latent codes, and similarly for the parameters of the model, and 3) it gives desirable least-square bounds for the estimation of latent codes and network parameters within each layer.
翻訳日:2021-04-13 05:37:32 公開日:2021-01-03
# (参考訳) ニューラルネットワークアルゴリズムと蒸留塔の温度制御への応用 [全文訳有]

Neural network algorithm and its application in temperature control of distillation tower ( http://arxiv.org/abs/2101.00582v1 )

ライセンス: CC BY 4.0
Ningrui Zhao, Jinwei Lu(参考訳) 蒸留プロセスは、伝導、物質移動、熱伝導の複雑なプロセスであり、主に次のように表される: 機構は複雑で不確実性に変化し、プロセスは多変量で強い結合であり、システムは非線形、ヒステリシス、時間変化である。 ニューラルネットワークは、対応するサンプルに基づいて効果的な学習を行い、固定されたメカニズムに依存しず、任意の非線形マッピングを近似することができ、システムの入出力モデルを確立するために使用できる。 整流塔の温度システムには複雑な構造と高精度な要求がある。 ニューラルネットワークは、生産プロセスの要求を満たすシステムの温度を制御するために使用される。 本稿では, ニューラルネットワークと蒸留塔温度制御の基礎的概念と研究の進展を概説するとともに, 蒸留塔温度制御におけるニューラルネットワークの適用を系統的に要約し, 関連産業の発展への言及を目的とした。

Distillation process is a complex process of conduction, mass transfer and heat conduction, which is mainly manifested as follows: The mechanism is complex and changeable with uncertainty; the process is multivariate and strong coupling; the system is nonlinear, hysteresis and time-varying. Neural networks can perform effective learning based on corresponding samples, do not rely on fixed mechanisms, have the ability to approximate arbitrary nonlinear mappings, and can be used to establish system input and output models. The temperature system of the rectification tower has a complicated structure and high accuracy requirements. The neural network is used to control the temperature of the system, which satisfies the requirements of the production process. This article briefly describes the basic concepts and research progress of neural network and distillation tower temperature control, and systematically summarizes the application of neural network in distillation tower control, aiming to provide reference for the development of related industries.
翻訳日:2021-04-13 05:28:35 公開日:2021-01-03
# (参考訳) マルチラベルランキング:マイニングマルチラベルとラベルランキングデータ [全文訳有]

Multi-label Ranking: Mining Multi-label and Label Ranking Data ( http://arxiv.org/abs/2101.00583v1 )

ライセンス: CC BY 4.0
Lihi Dery(参考訳) マルチラベルランキングタスク,特にマルチラベル分類とラベル分類について検討する。 従来のトランスフォーメーションと適応のカテゴリにはもはや当てはまらないので、ユニークな課題を強調し、メソッドを再分類します。 本研究は, 深層学習多ラベルマイニング, 極端多ラベル分類, ラベルランキングにおける最先端の手法に着目して, 過去10年間の開発状況を調査した。 今後の研究方針を述べることで締めくくります。

We survey multi-label ranking tasks, specifically multi-label classification and label ranking classification. We highlight the unique challenges, and re-categorize the methods, as they no longer fit into the traditional categories of transformation and adaptation. We survey developments in the last demi-decade, with a special focus on state-of-the-art methods in deep learning multi-label mining, extreme multi-label classification and label ranking. We conclude by offering a few future research directions.
翻訳日:2021-04-13 05:18:25 公開日:2021-01-03
# (参考訳) 一般化と適応のためのスタイル正規化と復元 [全文訳有]

Style Normalization and Restitution for DomainGeneralization and Adaptation ( http://arxiv.org/abs/2101.00588v1 )

ライセンス: CC BY 4.0
Xin Jin, Cuiling Lan, Wenjun Zeng, Zhibo Chen(参考訳) 多くの実用的なコンピュータビジョンアプリケーションでは、学習モデルは通常、トレーニングに使用されるデータセットのパフォーマンスが高いが、トレーニング画像とテスト画像の間にスタイルの違いがある新しい環境にデプロイすると、パフォーマンスが著しく低下する。 効果的なドメイン一般化モデルは、一般化および判別可能な特徴表現を学習できることが期待される。 本稿では,ネットワークの高一般化と識別能力の両立を図るために,新しいスタイル正規化・再構成モジュール(SNR)を設計する。 SNRモジュールでは、特に、インスタンス正規化(IN)を実行してスタイルのバリエーション(例えば、照明、色コントラスト)をフィルタリングし、異なるサンプルとドメイン間の差を小さくするスタイル正規化特徴を得る。 しかし、そのようなプロセスはタスク非依存であり、必然的にタスク関連識別情報を削除し、パフォーマンスを損なう可能性がある。 そこで本研究では,タスクに関連のある識別特徴を残差(すなわち,オリジナル特徴とスタイル正規化特徴の違い)から抽出し,それらをネットワークに戻すことで高い識別性を確保する。 さらに,タスク関連特徴とタスク非関連特徴の分離を促進すべく,再帰段階において2つの因果損失制約を強制する。 分類,セマンティックセグメンテーション,オブジェクト検出など,異なるコンピュータビジョンタスクにおけるSNRの有効性を検証する。 我々のSNRモジュールは、多くのタスクにおいてドメイン一般化(DG)および教師なしドメイン適応(UDA)のためのネットワークの性能を向上させることができることを示す。 コードはhttps://github.com/m icrosoft/snrで入手できる。

For many practical computer vision applications, the learned models usually have high performance on the datasets used for training but suffer from significant performance degradation when deployed in new environments, where there are usually style differences between the training images and the testing images. An effective domain generalizable model is expected to be able to learn feature representations that are both generalizable and discriminative. In this paper, we design a novel Style Normalization and Restitution module (SNR) to simultaneously ensure both high generalization and discrimination capability of the networks. In the SNR module, particularly, we filter out the style variations (e.g, illumination, color contrast) by performing Instance Normalization (IN) to obtain style normalized features, where the discrepancy among different samples and domains is reduced. However, such a process is task-ignorant and inevitably removes some task-relevant discriminative information, which could hurt the performance. To remedy this, we propose to distill task-relevant discriminative features from the residual (i.e, the difference between the original feature and the style normalized feature) and add them back to the network to ensure high discrimination. Moreover, for better disentanglement, we enforce a dual causality loss constraint in the restitution step to encourage the better separation of task-relevant and task-irrelevant features. We validate the effectiveness of our SNR on different computer vision tasks, including classification, semantic segmentation, and object detection. Experiments demonstrate that our SNR module is capable of improving the performance of networks for domain generalization (DG) and unsupervised domain adaptation (UDA) on many tasks. Code are available at https://github.com/m icrosoft/SNR.
翻訳日:2021-04-13 04:56:50 公開日:2021-01-03
# (参考訳) コンセンサスガイド対応デノナイジング [全文訳有]

Consensus-Guided Correspondence Denoising ( http://arxiv.org/abs/2101.00591v1 )

ライセンス: CC BY 4.0
Chen Zhao, Yixiao Ge, Jiaqi Yang, Feng Zhu, Rui Zhao, Hongsheng Li(参考訳) 特徴点の2つのグループ間の対応選択は、初期雑音の一致から一貫性のある一致を正しく認識することを目的としている。 初期の試合は概して極めて不均衡であり、アウトレーヤが容易に支配できるため、選択は一般的に困難である。 さらに、外れ値のランダム分布は、異なるシナリオに適用した場合、以前の作業のロバスト性に制限される。 この問題に対処するため,地域・地域間のコンセンサス学習フレームワークを用いて,対応を頑健に識別する手法を提案する。 ローカル地域からグローバル地域への動的グラフから推定されるコンセンサススコアに基づいて,信頼度の高い候補を初期マッチングから蒸留する新しい「プルーニング」ブロックを導入した。 提案手法は複数のプルーニングブロックを順次積み重ねることで徐々に実現される。 提案手法は, ラインフィッティング, ワイドベースライン画像マッチング, 画像ローカライゼーションベンチマークを顕著なマージンで比較し, 初期一致の分布に有望な一般化能力を示す。

Correspondence selection between two groups of feature points aims to correctly recognize the consistent matches (inliers) from the initial noisy matches. The selection is generally challenging since the initial matches are generally extremely unbalanced, where outliers can easily dominate. Moreover, random distributions of outliers lead to the limited robustness of previous works when applied to different scenarios. To address this issue, we propose to denoise correspondences with a local-to-global consensus learning framework to robustly identify correspondence. A novel "pruning" block is introduced to distill reliable candidates from initial matches according to their consensus scores estimated by dynamic graphs from local to global regions. The proposed correspondence denoising is progressively achieved by stacking multiple pruning blocks sequentially. Our method outperforms state-of-the-arts on robust line fitting, wide-baseline image matching and image localization benchmarks by noticeable margins and shows promising generalization capability on different distributions of initial matches.
翻訳日:2021-04-13 04:22:10 公開日:2021-01-03
# (参考訳) 崩壊測定による構造信号の回収過程の相転移

Phase Transitions in Recovery of Structured Signals from Corrupted Measurements ( http://arxiv.org/abs/2101.00599v1 )

ライセンス: CC BY 4.0
Zhongxing Sun, Wei Cui, and Yulong Liu(参考訳) 本稿では,比較的少数の乱数測定結果から構造化信号を復元する問題について考察する。 この問題を解決するために異なる凸計画法を用いる場合、シャープな位相遷移は実際に数値的に観測されている。 本稿では,ガウス過程理論の基本的なツールを用いて,これらの現象の理論的説明を行う。 具体的には, 拘束的および罰則的回復手順の相転移の正確な位置を同定する。 我々の理論的結果は、これらの相転移は、例えば、接円錐の球面ガウス幅とスケールされた部分微分へのガウス距離などの幾何的構造の測定によって決定されることを示している。 確立された相転移理論を応用して,これら2種類の回復手順の関連性をさらに検討し,また,罰則化回収手順におけるトレードオフパラメータを選択するための最適戦略(ラグランジュ理論)を明らかにした。 理論的結果を検証するため, 数値実験を行った。

This paper is concerned with the problem of recovering a structured signal from a relatively small number of corrupted random measurements. Sharp phase transitions have been numerically observed in practice when different convex programming procedures are used to solve this problem. This paper is devoted to presenting theoretical explanations for these phenomenons by employing some basic tools from Gaussian process theory. Specifically, we identify the precise locations of the phase transitions for both constrained and penalized recovery procedures. Our theoretical results show that these phase transitions are determined by some geometric measures of structure, e.g., the spherical Gaussian width of a tangent cone and the Gaussian (squared) distance to a scaled subdifferential. By utilizing the established phase transition theory, we further investigate the relationship between these two kinds of recovery procedures, which also reveals an optimal strategy (in the sense of Lagrange theory) for choosing the tradeoff parameter in the penalized recovery procedure. Numerical experiments are provided to verify our theoretical results.
翻訳日:2021-04-13 04:06:16 公開日:2021-01-03
# (参考訳) ライブビデオストリーミングのためのプライバシーに敏感なオブジェクトの表示 [全文訳有]

Privacy-sensitive Objects Pixelation for Live Video Streaming ( http://arxiv.org/abs/2101.00604v1 )

ライセンス: CC BY 4.0
Jizhe Zhou, Chi-Man Pun, Yu Tong(参考訳) ライブビデオストリーミングが普及すると、プライバシに敏感なオブジェクトのためのオンラインピクセル化手法が確立される。 プライバシに敏感なオブジェクトの不正確な検出によって引き起こされる、トラッキングバイ検出構造をオンライン形式に移行するだけで、ターゲット初期化、ドリフト、オーバーピクセル化といった問題が発生する。 そこで本研究では,ライブビデオストリーミング中の個人のプライバシーフィルタリングを自動的に行うための,プライバシに敏感なオブジェクトのピクセル化(psop)フレームワークを提案する。 事前トレーニングされた検出ネットワークを活用することで、私たちのPsOPは、潜在的なプライバシーに敏感なオブジェクトのピクセル化に拡張できます。 埋め込みネットワークと,提案する増分親和性伝播(piap)クラスタリングアルゴリズムをバックボーンとして用いたpsopは,トラジェクタ生成による画素識別と非識別のピクセル化を統一する。 画素精度の向上に加えて,我々が構築したストリーミングビデオデータを用いた実験により,プライバシに敏感なオブジェクト画素におけるPsOPのオーバーピクセル比を著しく低減できることが示された。

With the prevailing of live video streaming, establishing an online pixelation method for privacy-sensitive objects is an urgency. Caused by the inaccurate detection of privacy-sensitive objects, simply migrating the tracking-by-detectio n structure into the online form will incur problems in target initialization, drifting, and over-pixelation. To cope with the inevitable but impacting detection issue, we propose a novel Privacy-sensitive Objects Pixelation (PsOP) framework for automatic personal privacy filtering during live video streaming. Leveraging pre-trained detection networks, our PsOP is extendable to any potential privacy-sensitive objects pixelation. Employing the embedding networks and the proposed Positioned Incremental Affinity Propagation (PIAP) clustering algorithm as the backbone, our PsOP unifies the pixelation of discriminating and indiscriminating pixelation objects through trajectories generation. In addition to the pixelation accuracy boosting, experiments on the streaming video data we built show that the proposed PsOP can significantly reduce the over-pixelation ratio in privacy-sensitive object pixelation.
翻訳日:2021-04-13 04:04:53 公開日:2021-01-03
# (参考訳) news image steganography: 偽ニュースの識別を容易にする新しいアーキテクチャ [全文訳有]

News Image Steganography: A Novel Architecture Facilitates the Fake News Identification ( http://arxiv.org/abs/2101.00606v1 )

ライセンス: CC BY 4.0
Jizhe Zhou, Chi-Man Pun, Yu Tong(参考訳) フェイクニュースの大部分は、画像偽造を行うのではなく、他ソースからの未改ざんされたイメージを人工的な動機で引用している。 このような精巧な彫像は、画像とテキストのステルス性の間に不整合を保ちます。 本稿では,GANに基づく画像ステガノグラフィーにより,上記の不整合を明らかにするために,NIS (News Image Steganography) というアーキテクチャを提案する。 ニュース画像の抽出要約は、そのソーステキストに基づいて生成され、学習されたステガノグラフィーアルゴリズムは、知覚不可視に近づく方法で画像の要約を符号化して復号する。 符号化された画像が引用されると、そのソースの要約を復号し、さらに基礎的真理として提示し、引用するニュースを検証する。 ペアワイズエンコーダとデコーダは、それらの不可避な要約を実行する能力のイメージを付与する。 我々のNISは、その根底にある不整合を明らかにするため、実験と調査により、不正な画像を取り込む偽ニュースの識別精度に寄与する。

A larger portion of fake news quotes untampered images from other sources with ulterior motives rather than conducting image forgery. Such elaborate engraftments keep the inconsistency between images and text reports stealthy, thereby, palm off the spurious for the genuine. This paper proposes an architecture named News Image Steganography (NIS) to reveal the aforementioned inconsistency through image steganography based on GAN. Extractive summarization about a news image is generated based on its source texts, and a learned steganographic algorithm encodes and decodes the summarization of the image in a manner that approaches perceptual invisibility. Once an encoded image is quoted, its source summarization can be decoded and further presented as the ground truth to verify the quoting news. The pairwise encoder and decoder endow images of the capability to carry along their imperceptible summarization. Our NIS reveals the underlying inconsistency, thereby, according to our experiments and investigations, contributes to the identification accuracy of fake news that engrafts untampered images.
翻訳日:2021-04-13 03:51:57 公開日:2021-01-03
# (参考訳) 単細胞変分推論の数学的モデルに関するチュートリアル [全文訳有]

A Tutorial on the Mathematical Model of Single Cell Variational Inference ( http://arxiv.org/abs/2101.00650v1 )

ライセンス: CC BY 4.0
Songting Shi(参考訳) 過去数十年に蓄積された大量のシークエンシングデータが依然として蓄積されているため、ますます多くのシークエンシングデータを扱う必要がある。 コンピューティング技術の急速な発展として、ニューラルネットワークベースのモデルを使って、大量のデータを合理的な時間で処理できるようになりました。 このチュートリアルでは、変分自動エンコーダ(ニューラルネットワーク上に構築される)を用いて、データの分布を学習して洞察を得るシングルセル変分推論(scVI)の数学的モデルを紹介する。 初心者向けに、この分野のさらなる研究者を奨励するために、多くの推論の詳細と共に単純で直感的な方法で書かれた。

As the large amount of sequencing data accumulated in past decades and it is still accumulating, we need to handle the more and more sequencing data. As the fast development of the computing technologies, we now can handle a large amount of data by a reasonable of time using the neural network based model. This tutorial will introduce the the mathematical model of the single cell variational inference (scVI), which use the variational auto-encoder (building on the neural networks) to learn the distribution of the data to gain insights. It was written for beginners in the simple and intuitive way with many deduction details to encourage more researchers into this field.
翻訳日:2021-04-13 03:46:05 公開日:2021-01-03
# (参考訳) データから最適なベイズ事前確率を学習する [全文訳有]

Learning optimal Bayesian prior probabilities from data ( http://arxiv.org/abs/2101.00672v1 )

ライセンス: CC BY 4.0
Ozan Kaan Kayaalp(参考訳) 非形式的一様述語は、特にベイズ機械学習におけるベイズ推論の基礎である。 この研究は、それらが最適であるという仮定に挑戦し、ベイズ推定におけるそれらの使用は最適な結果をもたらす。 任意の非形式的一様先行関数の代わりに,対象関数の最大化によりデータから最適な先行値を学習する機械学習に基づく代替手法を提案する。 そこで本研究では,na\"ive bayesテキスト分類手法と探索アルゴリズムを適用し,正の予測値メトリクスを対象関数としてデータから事前学習を行った。 タスクは、ウィキペディアの特定のカテゴリーに分類されていない(しかし、あるべきだった)記事を見つけることだった。 ウィキペディアのカテゴリ別に5種類の実験を行った。 ベースラインモデルは一般的なベイズ・ラプラス前置法を用いたが、研究モデルは各実験の最適前置法を個別に学習した。 その結果, 研究モデルは, 統計的意義の大きいベースラインモデル (p < 0.001) を一貫して上回っていた。 研究モデルのベースラインに対する性能改善は, 平均値が5つのwikipediaカテゴリに対して193%であった443%と, 443%と高い値を示した。

Noninformative uniform priors are staples of Bayesian inference, especially in Bayesian machine learning. This study challenges the assumption that they are optimal and their use in Bayesian inference yields optimal outcomes. Instead of using arbitrary noninformative uniform priors, we propose a machine learning based alternative method, learning optimal priors from data by maximizing a target function of interest. Applying na\"ive Bayes text classification methodology and a search algorithm developed for this study, our system learned priors from data using the positive predictive value metric as the target function. The task was to find Wikipedia articles that had not (but should have) been categorized under certain Wikipedia categories. We conducted five sets of experiments using separate Wikipedia categories. While the baseline models used the popular Bayes-Laplace priors, the study models learned the optimal priors for each set of experiments separately before using them. The results showed that the study models consistently outperformed the baseline models with a wide margin of statistical significance (p < 0.001). The measured performance improvement of the study model over the baseline was as high as 443% with the mean value of 193% over five Wikipedia categories.
翻訳日:2021-04-13 01:57:39 公開日:2021-01-03
# (参考訳) 潜在文表現の再コード --動的勾配に基づくrnnのアクティベーション修飾

Recoding latent sentence representations -- Dynamic gradient-based activation modification in RNNs ( http://arxiv.org/abs/2101.00674v1 )

ライセンス: CC BY 4.0
Dennis Ulmer(参考訳) リカレントニューラルネットワーク(recurrent neural network、rnn)では、サブオプティマイズあるいは誤った方法で情報をエンコーディングすることは、シーケンス内の後の要素に基づいた表現の品質に影響を与える可能性がある。 人間では、庭の道の文(例えば「納屋を通り過ぎた馬」)のような困難な事例は、彼らの言語理解を混乱させる可能性がある。 しかし、新たな情報に遭遇すると、その表現を修正し、回復することができる。 このようなモデルが文の内的表現を動的に適応できるようにし、それらが生じたらすぐに逸脱を修正できるようにしたいと思っています。 したがって、推論時間中にも、より柔軟な表現を使用するより堅牢なモデルにつながる可能性がある。 言語モデリングの文脈で異なる実験を行い、そのようなメカニズムを使うことによる影響を詳細に調べる。 この目的のために、異なる種類の時間依存エラー信号に基づく修正と、モデル性能にどのように影響するかを考察する。 さらに本研究は,モデルの学習中の予測に対する自信と,テストサンプルへの挑戦と操作の効果についての研究を含む。 最後に,これらの新モデルと標準LSTMベースラインとの挙動の差異についても検討し,今後の研究の要点を特定するために,エラー事例を詳細に検討する。 提案手法には有望な理論的保証と魅力的な直観が伴うが,本手法の実用的適用と試験モデルの有効性の課題により,ベースラインに対する小さな改善しか得られないことを示す。

In Recurrent Neural Networks (RNNs), encoding information in a suboptimal or erroneous way can impact the quality of representations based on later elements in the sequence and subsequently lead to wrong predictions and a worse model performance. In humans, challenging cases like garden path sentences (an instance of this being the infamous "The horse raced past the barn fell") can lead their language understanding astray. However, they are still able to correct their representation accordingly and recover when new information is encountered. Inspired by this, I propose an augmentation to standard RNNs in form of a gradient-based correction mechanism: This way I hope to enable such models to dynamically adapt their inner representation of a sentence, adding a way to correct deviations as soon as they occur. This could therefore lead to more robust models using more flexible representations, even during inference time. I conduct different experiments in the context of language modeling, where the impact of using such a mechanism is examined in detail. To this end, I look at modifications based on different kinds of time-dependent error signals and how they influence the model performance. Furthermore, this work contains a study of the model's confidence in its predictions during training and for challenging test samples and the effect of the manipulation thereof. Lastly, I also study the difference in behavior of these novel models compared to a standard LSTM baseline and investigate error cases in detail to identify points of future research. I show that while the proposed approach comes with promising theoretical guarantees and an appealing intuition, it is only able to produce minor improvements over the baseline due to challenges in its practical application and the efficacy of the tested model variants.
翻訳日:2021-04-13 01:42:12 公開日:2021-01-03
# (参考訳) オープンドメイン会話エージェントの感性分析 [全文訳有]

Sentiment Analysis for Open Domain Conversational Agent ( http://arxiv.org/abs/2101.00675v1 )

ライセンス: CC BY 4.0
Mohamad Alissa, Issa Haddad, Jonathan Meyer, Jade Obeid, Kostis Vilaetis, Nicolas Wiecek, Sukrit Wongariyakavee(参考訳) 本稿では,オープンドメインの人間ロボットインタラクションに対する共通感情分析モデルの適用性について検討する。 これらのモデルは、Alanaシステム(Alexa賞システム)とのユーザインタラクションに特化したデータセットで使用され、ユーザが非人間駆動のソーシャルボットと対話するときの感情を特定するタスクにどちらが適切かを決定する。 モデルを特定することで、アラナシステムへの統合前に様々な改善が試みられ、詳細が記述される。 その結果,nltk vader に存在するデータセットと nltk vader に存在するデータセットを組み合わせることで,25本の木をトレーニングしたランダムフォレストモデルが,他のモデルよりも優れていることがわかった。 新しいシステム(Robと呼ばれる)は、その出力発話感情とユーザの発話感情とを一致させる。 本手法は,ユーザの感情に共感する新システムが全体の感情検出に基礎を置いているため,ユーザエクスペリエンスの向上が期待できる。 さらに,ユーザのフィードバックから得られた結果から,期待値が確認された。

The applicability of common sentiment analysis models to open domain human robot interaction is investigated within this paper. The models are used on a dataset specific to user interaction with the Alana system (a Alexa prize system) in order to determine which would be more appropriate for the task of identifying sentiment when a user interacts with a non-human driven socialbot. With the identification of a model, various improvements are attempted and detailed prior to integration into the Alana system. The study showed that a Random Forest Model with 25 trees trained on the dataset specific to user interaction with the Alana system combined with the dataset present in NLTK Vader outperforms other models. The new system (called 'Rob') matches it's output utterance sentiment with the user's utterance sentiment. This method is expected to improve user experience because it builds upon the overall sentiment detection which makes it seem that new system sympathises with user feelings. Furthermore, the results obtained from the user feedback confirms our expectation.
翻訳日:2021-04-13 01:40:52 公開日:2021-01-03
# (参考訳) 2ストリーム畳み込みニューラルネットワークを用いたフェイクビジュアルコンテンツ検出 [全文訳有]

Fake Visual Content Detection Using Two-Stream Convolutional Neural Networks ( http://arxiv.org/abs/2101.00676v1 )

ライセンス: CC BY 4.0
Bilal Yousaf, Muhammad Usama, Waqas Sultani, Arif Mahmood, Junaid Qadir(参考訳) 対人学習の急速な進歩により、現実的な偽のビジュアルコンテンツの生成が可能になった。 偽物と実物とを区別するために、いくつかの検出手法が提案されている。 しかし、テストとトレーニングデータが異なる分布からサンプリングされた場合、これらの手法のほとんどのパフォーマンスは大幅に低下する。 これは偽の検出器の一般化を改善する努力を動機付けている。 現在の偽コンテンツ生成技術は、自然画像の周波数スペクトルを正確にモデル化しないので、偽画像の周波数スペクトルには、偽コンテンツの検出に使用できる識別特性が含まれていることを観察する。 また,周波数スペクトルで取得した情報が空間領域と異なることも観察した。 これらの知見を用いて,2-stream convolutional neural networkアーキテクチャであるtwostreamnetを用いて,周波数領域と空間領域の特徴を補完する手法を提案する。 提案する2ストリームネットワークを,いくつかの未知の世代アーキテクチャ,データセット,技術に改良した一般化を実証する。 提案した検出器は,現在最先端の偽コンテンツ検出装置と比較して顕著な性能向上を示し,周波数と空間領域の流れを融合させ,検出器の一般化も改善した。

Rapid progress in adversarial learning has enabled the generation of realistic-looking fake visual content. To distinguish between fake and real visual content, several detection techniques have been proposed. The performance of most of these techniques however drops off significantly if the test and the training data are sampled from different distributions. This motivates efforts towards improving the generalization of fake detectors. Since current fake content generation techniques do not accurately model the frequency spectrum of the natural images, we observe that the frequency spectrum of the fake visual data contains discriminative characteristics that can be used to detect fake content. We also observe that the information captured in the frequency spectrum is different from that of the spatial domain. Using these insights, we propose to complement frequency and spatial domain features using a two-stream convolutional neural network architecture called TwoStreamNet. We demonstrate the improved generalization of the proposed two-stream network to several unseen generation architectures, datasets, and techniques. The proposed detector has demonstrated significant performance improvement compared to the current state-of-the-art fake content detectors and fusing the frequency and spatial domain streams has also improved generalization of the detector.
翻訳日:2021-04-13 01:31:12 公開日:2021-01-03
# (参考訳) 深層学習を用いたパーキンソン病診断

Parkinson's Disease Diagnosis Using Deep Learning ( http://arxiv.org/abs/2101.05631v1 )

ライセンス: CC BY 4.0
Mohamad Alissa(参考訳) パーキンソン病(英: Parkinson's Disease、PD)は、慢性の変性疾患であり、様々な運動および認知症状を引き起こす。 PD診断は、症状が正常な加齢や本態性振動などの他の疾患と非常によく似ているため、難しい課題である。 この病気の診断に多くの研究が応用されている。 本研究の目的は, 深層学習, 再帰ニューラルネットワーク (RNN) と畳み込みニューラルネットワーク (CNN) を用いたPD診断プロセスの自動化であり, 健常患者とPD患者を区別することである。 さらに、異なるデータセットがこの疾患のさまざまな側面を捉える可能性があるため、このプロジェクトは、異なる画像および運動データセット(特に立方体および渦巻型五角形データセット)を分析して、PDテストが識別プロセスにおいてより効果的であるかを探求することを目的としている。 さらに, PDの診断に有効なデータセットタイプ, 画像, 時系列の評価を行った。

Parkinson's Disease (PD) is a chronic, degenerative disorder which leads to a range of motor and cognitive symptoms. PD diagnosis is a challenging task since its symptoms are very similar to other diseases such as normal ageing and essential tremor. Much research has been applied to diagnosing this disease. This project aims to automate the PD diagnosis process using deep learning, Recursive Neural Networks (RNN) and Convolutional Neural Networks (CNN), to differentiate between healthy and PD patients. Besides that, since different datasets may capture different aspects of this disease, this project aims to explore which PD test is more effective in the discrimination process by analysing different imaging and movement datasets (notably cube and spiral pentagon datasets). In addition, this project evaluates which dataset type, imaging or time series, is more effective in diagnosing PD.
翻訳日:2021-04-13 01:18:23 公開日:2021-01-03
# (参考訳) セグメンテーションとゲノムアノテーションアルゴリズム [全文訳有]

Segmentation and genome annotation algorithms ( http://arxiv.org/abs/2101.00688v1 )

ライセンス: CC BY-SA 4.0
Maxwell W Libbrecht, Rachel CW Chan, Michael M Hoffman(参考訳) セグメンテーションとゲノムアノテーション(SAGA)アルゴリズムは、ゲノムの活性と遺伝子制御を理解するために広く使われている。 これらのアルゴリズムは、クロマチン免疫沈降シークエンシング(ChIP-sequencing, ChIP-seq)測定や転写因子の結合などの入力エピゲノムデータセットである。 彼らはゲノムを分割し、同じラベルを持つ位置が入力データの類似パターンを示すように各セグメントにラベルを割り当てる。 SAGAアルゴリズムは、既知のゲノム要素の事前知識のないプロモーター、エンハンサー、または遺伝子の一部の活性のカテゴリを発見する。 この意味では、概してクラスタリングアルゴリズムのような教師なしの方法で機能するが、同時にゲノムを分割する機能もある。 本稿では,これらの手法の根底にある共通方法論フレームワークをレビューし,この基本フレームワークの変種と改善点をレビューし,既存の大規模参照アノテーションを分類し,今後の作業の展望について考察する。

Segmentation and genome annotation (SAGA) algorithms are widely used to understand genome activity and gene regulation. These algorithms take as input epigenomic datasets, such as chromatin immunoprecipitation- sequencing (ChIP-seq) measurements of histone modifications or transcription factor binding. They partition the genome and assign a label to each segment such that positions with the same label exhibit similar patterns of input data. SAGA algorithms discover categories of activity such as promoters, enhancers, or parts of genes without prior knowledge of known genomic elements. In this sense, they generally act in an unsupervised fashion like clustering algorithms, but with the additional simultaneous function of segmenting the genome. Here, we review the common methodological framework that underlies these methods, review variants of and improvements upon this basic framework, catalogue existing large-scale reference annotations, and discuss the outlook for future work.
翻訳日:2021-04-13 01:17:15 公開日:2021-01-03
# (参考訳) 暗い肌、低品質、低リソース顔データの顔認識におけるトランスファー学習の検討 [全文訳有]

Exploring Transfer Learning on Face Recognition of Dark Skinned, Low Quality and Low Resource Face Data ( http://arxiv.org/abs/2101.10809v1 )

ライセンス: CC BY 4.0
Nuredin Ali(参考訳) 肌の色調は、肌の色と肌の色には大きな違いがある。 この事実にもかかわらず、ほとんどの顔認識タスクは、ほとんどすべての古典的な最先端のモデルが、明るい肌の顔画像の圧倒的多数を含むデータセットで訓練されている。 暗い肌の顔の膨大なデータを収集し、スクラッチからモデルを訓練するのは面倒だ。 本稿では,VGGFaceの移動学習を適用し,主にエチオピアの顔の黒い肌の認識にどのように役立つかを確認する。 データセットは低品質で低リソースである。 実験の結果,95%以上の精度で移動学習が可能であることが示された。

There is a big difference in the tone of color of skin between dark and light skinned people. Despite this fact, most face recognition tasks almost all classical state-of-the-art models are trained on datasets containing an overwhelming majority of light skinned face images. It is tedious to collect a huge amount of data for dark skinned faces and train a model from scratch. In this paper, we apply transfer learning on VGGFace to check how it works on recognising dark skinned mainly Ethiopian faces. The dataset is of low quality and low resource. Our experimental results show above 95\% accuracy which indicates that transfer learning in such settings works.
翻訳日:2021-04-13 01:00:10 公開日:2021-01-03
# (参考訳) IoTデバイス上でのキーワードスポッティングのためのニューラルネットワーク [全文訳有]

Neural Networks for Keyword Spotting on IoT Devices ( http://arxiv.org/abs/2101.00693v1 )

ライセンス: CC BY 4.0
Rakesh Dhakshinamurthy(参考訳) スマートスピーカーやウェアラブルといったIoTデバイス上でのキーワードスポッティング(KWS)のためのニューラルネットワーク(NN)について検討する。 我々は,制約のあるメモリと計算フットプリント上でNNを実行することを目標としているので,CNNの設計を提案する。 (i)限られた数の乗数を用いる。 (ii) 限られた数のモデルパラメータを使用する。

We explore Neural Networks (NNs) for keyword spotting (KWS) on IoT devices like smart speakers and wearables. Since we target to execute our NN on a constrained memory and computation footprint, we propose a CNN design that. (i) uses a limited number of multiplies. (ii) uses a limited number of model parameters.
翻訳日:2021-04-13 00:57:24 公開日:2021-01-03
# (参考訳) 保守的勾配場の構造 [全文訳有]

The structure of conservative gradient fields ( http://arxiv.org/abs/2101.00699v1 )

ライセンス: CC BY 4.0
Adrian Lewis and Tonghua Tian(参考訳) 古典クラーク部分微分だけでは、非滑らかな文脈における自動微分を理解するには不十分である。 代わりに、「保守的場」と呼ばれる拡大された一般化された勾配に頼り、自然経路の連鎖則によって定義される: 1つの応用は勾配に基づくディープラーニングアルゴリズムの収束解析である。 半代数的な場合、すべての保守体は実際はクラーク部分微分とウィットニー層における多様体の正規化であることを示す。

The classical Clarke subdifferential alone is inadequate for understanding automatic differentiation in nonsmooth contexts. Instead, we can sometimes rely on enlarged generalized gradients called "conservative fields", defined through the natural path-wise chain rule: one application is the convergence analysis of gradient-based deep learning algorithms. In the semi-algebraic case, we show that all conservative fields are in fact just Clarke subdifferentials plus normals of manifolds in underlying Whitney stratifications.
翻訳日:2021-04-12 13:51:29 公開日:2021-01-03
# (参考訳) バックプロパゲーションと熱帯ニューラルネットワークのアルゴリズム複雑さ [全文訳有]

Algorithmic Complexities in Backpropagation and Tropical Neural Networks ( http://arxiv.org/abs/2101.00717v1 )

ライセンス: CC BY 4.0
Ozgur Ceyhan(参考訳) 本稿では,実数の行列の代わりに熱帯実数の行列を用いて,ニューラルネットワーク学習のアルゴリズム的複雑さを低減する手法を提案する。 トロピカル算術は乗法を加算に置き換え、マックスに加算するので、理論上、訓練段階における時間複雑性における数桁の等級の良い定数係数を達成する。 実数の体を実数の熱帯半環に置き換え、ニューラルネットワークで同じ分類結果を得るという事実は、トポロジと分析の深い結果から来ており、ここで検証する。 次に、熱帯算術と熱帯代数幾何学の観点から人工ニューラルネットワークを探索し、多層熱帯ニューラルネットワークを普遍近似器として導入する。 逆プロパゲーションアルゴリズムのトロピカルな再定式化を行った後, トロピカル算術は通常の乗算の複雑さを伴わないため, アルゴリズムの複雑さは通常の逆プロパゲーションよりもかなり低いことが検証された。

In this note, we propose a novel technique to reduce the algorithmic complexity of neural network training by using matrices of tropical real numbers instead of matrices of real numbers. Since the tropical arithmetics replaces multiplication with addition, and addition with max, we theoretically achieve several order of magnitude better constant factors in time complexities in the training phase. The fact that we replace the field of real numbers with the tropical semiring of real numbers and yet achieve the same classification results via neural networks come from deep results in topology and analysis, which we verify in our note. We then explore artificial neural networks in terms of tropical arithmetics and tropical algebraic geometry, and introduce the multi-layered tropical neural networks as universal approximators. After giving a tropical reformulation of the backpropagation algorithm, we verify the algorithmic complexity is substantially lower than the usual backpropagation as the tropical arithmetic is free of the complexity of usual multiplication.
翻訳日:2021-04-12 13:47:00 公開日:2021-01-03
# (参考訳) 開示テキスト特徴を用いた破産予測

Bankruptcy prediction using disclosure text features ( http://arxiv.org/abs/2101.00719v1 )

ライセンス: CC BY 4.0
Sridhar Ravula(参考訳) 公開企業の破産予測は、セキュリティ価格の下落リスクのため、重要な金融研究問題である。 従来の方法は、ウィンドウドレッシングやふりかえりのフォーカスといった欠点に苦しむ会計基準に依存しています。 開示テキストベースのメトリクスはこれらの問題を克服する一方で、現在の方法は開示のトーンと感情に過度にフォーカスする。 開示テキスト中の有意義な信号を財務結果に関連付け、開示テキストデータを定量化する要件がある。 本研究は,経営担当者が財務状況を説明するのに用いた文に基づく新たな苦難辞書を提案する。 これは破産企業と非破産企業の間の言語的特徴の大きな違いを示している。 さらに、500の倒産企業の大規模なサンプルを用いて予測モデルを構築し、財務テキスト分析に使用される2つの辞書と比較する。 本研究は, ストレス辞書が開示情報からユニークな情報を抽出し, その特徴に基づく予測モデルが最も精度が高いことを示す。

A public firm's bankruptcy prediction is an important financial research problem because of the security price downside risks. Traditional methods rely on accounting metrics that suffer from shortcomings like window dressing and retrospective focus. While disclosure text-based metrics overcome some of these issues, current methods excessively focus on disclosure tone and sentiment. There is a requirement to relate meaningful signals in the disclosure text to financial outcomes and quantify the disclosure text data. This work proposes a new distress dictionary based on the sentences used by managers in explaining financial status. It demonstrates the significant differences in linguistic features between bankrupt and non-bankrupt firms. Further, using a large sample of 500 bankrupt firms, it builds predictive models and compares the performance against two dictionaries used in financial text analysis. This research shows that the proposed stress dictionary captures unique information from disclosures and the predictive models based on its features have the highest accuracy.
翻訳日:2021-04-12 13:36:59 公開日:2021-01-03
# (参考訳) 学生パフォーマンスのための合成組込み型データ生成手法 [全文訳有]

Synthetic Embedding-based Data Generation Methods for Student Performance ( http://arxiv.org/abs/2101.00728v1 )

ライセンス: CC BY 4.0
Dom Huh(参考訳) 学生のパフォーマンスデータセットに固有のクラス不均衡の問題を考えると、ターゲットクラス分布のエッジに属するサンプルは予測機械学習アルゴリズムが学習する上で課題となる。 本稿では,組込みを用いた新しい合成サンプル生成手法であるSEDG(Synthetic Embedding-based Data Generation)の一般的なフレームワークを導入し,クラス不均衡の軽減効果を最適に補正する。 我々は、SEDGフレームワークを、深層生成モデルや従来のサンプリング方法を含む過去の合成データ生成手法と比較する。 その結果,sedgは,ディープニューラルネットワークの従来の再サンプリング手法を上回っており,いくつかの標準性能指標において,学生パフォーマンスタスクにおける共通機械学習分類器の競合性が高いことがわかった。

Given the inherent class imbalance issue within student performance datasets, samples belonging to the edges of the target class distribution pose a challenge for predictive machine learning algorithms to learn. In this paper, we introduce a general framework for synthetic embedding-based data generation (SEDG), a search-based approach to generate new synthetic samples using embeddings to correct the detriment effects of class imbalances optimally. We compare the SEDG framework to past synthetic data generation methods, including deep generative models, and traditional sampling methods. In our results, we find SEDG to outperform the traditional re-sampling methods for deep neural networks and perform competitively for common machine learning classifiers on the student performance task in several standard performance metrics.
翻訳日:2021-04-12 12:02:20 公開日:2021-01-03
# 意味分類のためのSVD強化潜在空間上のニューラルネットワークの学習

Learning Neural Networks on SVD Boosted Latent Spaces for Semantic Classification ( http://arxiv.org/abs/2101.00563v1 )

ライセンス: Link先を確認
Sahil Sidheekh(参考訳) 大量のデータと説得力のある計算能力のおかげで、ディープラーニングモデルはテキストの分類や感情分析にとても人気がある。 深層ニューラルネットワークは、単語数、項頻度、バイナリマトリックスの埋め込みなどの単純テキスト表現を訓練することで、上記のタスクで競合性能を達成した。 しかし、上記の表現の多くは、入力空間が語彙の大きさの次数の次元を持つという巨大な結果をもたらす。 これにより、学習すべきパラメータの数が急増し、コロッサル語彙を保持する必要があるドメインにスケールする場合、計算コストは実現不可能になる。 本研究では,高次元入力空間を低次元潜在空間に変換するために特異値分解法を提案する。 この低次元空間でトレーニングされたニューラルネットワークは、計算複雑性を著しく低減しながら性能を維持するだけでなく、多くの状況において、ネイティブな入力空間でトレーニングされた古典的ニューラルネットワークよりも優れていることを示す。

The availability of large amounts of data and compelling computation power have made deep learning models much popular for text classification and sentiment analysis. Deep neural networks have achieved competitive performance on the above tasks when trained on naive text representations such as word count, term frequency, and binary matrix embeddings. However, many of the above representations result in the input space having a dimension of the order of the vocabulary size, which is enormous. This leads to a blow-up in the number of parameters to be learned, and the computational cost becomes infeasible when scaling to domains that require retaining a colossal vocabulary. This work proposes using singular value decomposition to transform the high dimensional input space to a lower-dimensional latent space. We show that neural networks trained on this lower-dimensional space are not only able to retain performance while savoring significant reduction in the computational complexity but, in many situations, also outperforms the classical neural networks trained on the native input space.
翻訳日:2021-04-12 11:41:45 公開日:2021-01-03
# わずかな画像分類: 事前訓練された特徴指数と単純な分類器のライブラリを使う

Few-shot Image Classification: Just Use a Library of Pre-trained Feature Extractors and a Simple Classifier ( http://arxiv.org/abs/2101.00562v1 )

ライセンス: Link先を確認
Arkabandhu Chowdhury, Mingchao Jiang, Chris Jermaine(参考訳) 近年の研究では、トランスファーラーニングは、少数の画像分類のための高度なメタラーニング手法より優れていることが示唆されている。 我々は,この仮説を論理的な結論に当てはめて,高品質で事前学習された特徴抽出器のアンサンブルを用いた少数ショット画像分類を提案する。 L2-regularizerで学習した単純なフィードフォワードネットワークと事前訓練された特徴抽出器のライブラリが組み合わさって、クロスドメインな少数ショット画像分類を解くのに最適な選択肢であることを示す。 実験結果から, この単純なサンプル効率のアプローチは, 様々なタスクにおいて, 確立されたメタ学習アルゴリズムよりも優れていることが示唆された。

Recent papers have suggested that transfer learning can outperform sophisticated meta-learning methods for few-shot image classification. We take this hypothesis to its logical conclusion, and suggest the use of an ensemble of high-quality, pre-trained feature extractors for few-shot image classification. We show experimentally that a library of pre-trained feature extractors combined with a simple feed-forward network learned with an L2-regularizer can be an excellent option for solving cross-domain few-shot image classification. Our experimental results suggest that this simpler sample-efficient approach far outperforms several well-established meta-learning algorithms on a variety of few-shot tasks.
翻訳日:2021-04-12 11:41:30 公開日:2021-01-03
# AttnMove: 注意ネットワークによるトラジェクトリリカバリの履歴向上

AttnMove: History Enhanced Trajectory Recovery via Attentional Network ( http://arxiv.org/abs/2101.00646v1 )

ライセンス: Link先を確認
Tong Xia and Yunhan Qi and Jie Feng and Fengli Xu and Funing Sun and Diansheng Guo and Yong Li(参考訳) 位置情報サービスの普及により、かなりの量のモビリティデータが蓄積されている。 しかし、タクシーのGPSモジュールのような輸送システムからの移動データと比較すると、ユーザーはモバイルサービスにアクセスせず、常にデータを提供していないという意味で、個々のトラジェクトリの観点からは、この種のデータは少ない。 これにより、ユーザ浸透率が高い場合でも、必然的にデータの実用価値が低下する。 そこで本研究では,未観測位置を微細な空間時間分解能で復元することにより,個々の軌跡を密度化するための,新しい注目ニューラルネットワークベースモデルAttnMoveを提案する。 本研究では, 利用者の移動規則性をモデル化し, 長期的履歴から周期パターンを完全に活用するために, 軌道内および軌道間注意機構を設計する。 実世界の2つのデータセット上で本モデルを評価し,その性能向上を最先端の手法と比較した。 これはまた、高品質なモビリティデータを提供することで、我々のモデルは様々なモビリティ指向のダウンストリームアプリケーションに利益をもたらすことを示す。

A considerable amount of mobility data has been accumulated due to the proliferation of location-based service. Nevertheless, compared with mobility data from transportation systems like the GPS module in taxis, this kind of data is commonly sparse in terms of individual trajectories in the sense that users do not access mobile services and contribute their data all the time. Consequently, the sparsity inevitably weakens the practical value of the data even it has a high user penetration rate. To solve this problem, we propose a novel attentional neural network-based model, named AttnMove, to densify individual trajectories by recovering unobserved locations at a fine-grained spatial-temporal resolution. To tackle the challenges posed by sparsity, we design various intra- and inter- trajectory attention mechanisms to better model the mobility regularity of users and fully exploit the periodical pattern from long-term history. We evaluate our model on two real-world datasets, and extensive results demonstrate the performance gain compared with the state-of-the-art methods. This also shows that, by providing high-quality mobility data, our model can benefit a variety of mobility-oriented down-stream applications.
翻訳日:2021-04-12 11:41:16 公開日:2021-01-03
# 数ショットベイズ最適化のためのメタラーニング共役事前

Meta-Learning Conjugate Priors for Few-Shot Bayesian Optimization ( http://arxiv.org/abs/2101.00729v1 )

ライセンス: Link先を確認
Ruduan Plug(参考訳) ベイズ最適化(英: bayesian optimization)は、ガウス過程の事前分布を利用してデータの真の分布に向かって後方分布を反復的に更新する統計モデリングの手法である。 サンプルからバイアスのない情報先を見つけることは困難であり、わずかなデータしか得られない場合、後部分布の結果に大きな影響を与える。 本稿では,メタラーニングを利用した情報共役事前分布の自動推定手法を提案する。 このプロセスから、元のデータ分布の形状パラメータを推定するために、わずかなデータしか必要としない事前を生成する。

Bayesian Optimization is methodology used in statistical modelling that utilizes a Gaussian process prior distribution to iteratively update a posterior distribution towards the true distribution of the data. Finding unbiased informative priors to sample from is challenging and can greatly influence the outcome on the posterior distribution if only few data are available. In this paper we propose a novel approach to utilize meta-learning to automate the estimation of informative conjugate prior distributions given a distribution class. From this process we generate priors that require only few data to estimate the shape parameters of the original distribution of the data.
翻訳日:2021-04-12 11:40:54 公開日:2021-01-03
# 畳み込みニューラルネットワークを用いた印刷物の自動欠陥検出

Automatic Defect Detection of Print Fabric Using Convolutional Neural Network ( http://arxiv.org/abs/2101.00703v1 )

ライセンス: Link先を確認
Samit Chakraborty, Marguerite Moore, Lisa Parrillo-Chapman(参考訳) 自動欠陥検出は、テクスチャや布の欠陥の種類が変化するため、難しい課題である。 効果的な欠陥検出システムにより、製造者はプロセスや製品の品質を向上させることができる。 繊維製造システム全体の自動化は、繊維の無駄を減らし、コストと資源を節約して利益を上げる。 画像処理と機械学習技術を用いた自動欠陥検出システムに関する現代の研究は異なっている。 これらの技術は製造プロセスや欠陥タイプによって異なる。 また、溶接中にリアルタイムの欠陥検出システムを構築することもできる。 パターン状欠陥検出の研究は行われているが,これらの欠陥は孔やワープ,ウェフト欠陥などの溶接欠陥と関連している。 しかし、スポットやプリントミスマッチなどの欠陥を検出するために設計された研究は行われていない。 この研究は、プリントファブリックデータベースを開発し、ディープ畳み込みニューラルネットワーク(cnn)を実装することで、このギャップを埋めた。

Automatic defect detection is a challenging task because of the variability in texture and type of fabric defects. An effective defect detection system enables manufacturers to improve the quality of processes and products. Automation across the textile manufacturing systems would reduce fabric wastage and increase profitability by saving cost and resources. There are different contemporary research on automatic defect detection systems using image processing and machine learning techniques. These techniques differ from each other based on the manufacturing processes and defect types. Researchers have also been able to establish real-time defect detection system during weaving. Although, there has been research on patterned fabric defect detection, these defects are related to weaving faults such as holes, and warp and weft defects. But, there has not been any research that is designed to detect defects that arise during such as spot and print mismatch. This research has fulfilled this gap by developing a print fabric database and implementing deep convolutional neural network (CNN).
翻訳日:2021-04-12 11:40:44 公開日:2021-01-03
# SARSA強化学習による大規模IoTトラフィックのためのPub/Sub通信の強化

Enhanced Pub/Sub Communications for Massive IoT Traffic with SARSA Reinforcement Learning ( http://arxiv.org/abs/2101.00687v1 )

ライセンス: Link先を確認
Carlos E. Arruda, Pedro F. Moraes, Nazim Agoulmine, Joberto S. B. Martins(参考訳) センサーは広範囲に展開され、今後数年で大幅に拡大すると予想されている。 それらは一般的に、スマートシティやインテリジェントトラフィックシステム、スマートグリッド、eヘルスといった、モノのインターネット(IoT)アプリケーション領域で大量のデータを生成する。 クラウド、エッジ、フォグコンピューティングは、IoTデータを収集、処理、配布するための潜在的かつ競争的な戦略である。 しかし、クラウド、エッジ、フォグベースのソリューションは、制約のある限られたリソースネットワークインフラストラクチャを通じて、大量のIoTデータの分散に効率的に取り組む必要がある。 本稿では,sarsaアルゴリズムを用いた強化学習(rl)に基づくコグニティブ・コミュニケーション・リソース割当てを用いて,通信資源(帯域幅)が制限されたネットワークを介してiotデータを大量に伝達する問題に対処する。 提案されたネットワークインフラストラクチャ(PSIoTRL)は、パブリッシュ/サブスクライブアーキテクチャを使用して、大規模かつ高度に分散されたIoTデータにアクセスする。 SARSAに基づくバッファフラッシングのためのPSIoTRL帯域割り当てにより,IoTアグリゲータバッファの占有とネットワークリンクの利用が向上することが実証された。 PSIoTRLは、Pub/Subトピックの優先度とネットワーク制約要件に従って、IoTアグリゲータトラフィックフラッシングを動的に適応する。

Sensors are being extensively deployed and are expected to expand at significant rates in the coming years. They typically generate a large volume of data on the internet of things (IoT) application areas like smart cities, intelligent traffic systems, smart grid, and e-health. Cloud, edge and fog computing are potential and competitive strategies for collecting, processing, and distributing IoT data. However, cloud, edge, and fog-based solutions need to tackle the distribution of a high volume of IoT data efficiently through constrained and limited resource network infrastructures. This paper addresses the issue of conveying a massive volume of IoT data through a network with limited communications resources (bandwidth) using a cognitive communications resource allocation based on Reinforcement Learning (RL) with SARSA algorithm. The proposed network infrastructure (PSIoTRL) uses a Publish/ Subscribe architecture to access massive and highly distributed IoT data. It is demonstrated that the PSIoTRL bandwidth allocation for buffer flushing based on SARSA enhances the IoT aggregator buffer occupation and network link utilization. The PSIoTRL dynamically adapts the IoT aggregator traffic flushing according to the Pub/Sub topic's priority and network constraint requirements.
翻訳日:2021-04-12 11:40:31 公開日:2021-01-03
# コミュニティ検出手法に関する調査研究:統計的モデリングから深層学習へ

A Survey of Community Detection Approaches: From Statistical Modeling to Deep Learning ( http://arxiv.org/abs/2101.01669v1 )

ライセンス: Link先を確認
Di Jin, Zhizhi Yu, Pengfei Jiao, Shirui Pan, Philip S. Yu, Weixiong Zhang(参考訳) ネットワーク分析の基本的なタスクであるコミュニティ検出は、ネットワークを複数のサブ構造に分割して、潜在機能を明らかにすることを目的としている。 コミュニティ検出は、多くの現実世界のネットワーク問題に広く研究され、広く適用されてきた。 コミュニティ検出に対する古典的なアプローチは一般に確率的グラフィカルモデルを使用し、コミュニティ構造を推測するために様々な事前知識を採用する。 ネットワーク手法が解決しようとする問題や分析対象のネットワークデータがより高度化するにつれ、特にディープラーニングを利用してネットワークデータを低次元表現に変換する新たなアプローチが提案され開発されている。 最近の進歩にもかかわらず、コミュニティ検出の理論的および方法論的基盤についての洞察深い理解が未だに欠如しており、ネットワーク分析の分野の将来の発展に極めて重要である。 本稿では,ネットワークコミュニティ探索手法の統一アーキテクチャを開発・提示し,コミュニティ検出技術の最先端を特徴付ける。 具体的には,既存のコミュニティ検出手法の包括的レビューを行い,既存の手法を確率的グラフィカルモデルとディープラーニングという2つのカテゴリに分類する新しい分類法を提案する。 次に2つのカテゴリで各メソッドの背後にある主なアイデアを詳細に論じる。 さらに,コミュニティ検出の今後の発展を促進するため,いくつかの問題領域からベンチマークデータセットを複数リリースし,様々なネットワーク分析タスクへの適用を強調した。 今後の研究に向けて,この分野の課題と今後の方向性を提案する。

Community detection, a fundamental task for network analysis, aims to partition a network into multiple sub-structures to help reveal their latent functions. Community detection has been extensively studied in and broadly applied to many real-world network problems. Classical approaches to community detection typically utilize probabilistic graphical models and adopt a variety of prior knowledge to infer community structures. As the problems that network methods try to solve and the network data to be analyzed become increasingly more sophisticated, new approaches have also been proposed and developed, particularly those that utilize deep learning and convert networked data into low dimensional representation. Despite all the recent advancement, there is still a lack of insightful understanding of the theoretical and methodological underpinning of community detection, which will be critically important for future development of the area of network analysis. In this paper, we develop and present a unified architecture of network community-finding methods to characterize the state-of-the-art of the field of community detection. Specifically, we provide a comprehensive review of the existing community detection methods and introduce a new taxonomy that divides the existing methods into two categories, namely probabilistic graphical model and deep learning. We then discuss in detail the main idea behind each method in the two categories. Furthermore, to promote future development of community detection, we release several benchmark datasets from several problem domains and highlight their applications to various network analysis tasks. We conclude with discussions of the challenges of the field and suggestions of possible directions for future research.
翻訳日:2021-04-12 11:40:11 公開日:2021-01-03
# 合成データ生成のためのコプラ流

Copula Flows for Synthetic Data Generation ( http://arxiv.org/abs/2101.00598v1 )

ライセンス: Link先を確認
Sanket Kamthe, Samuel Assefa, Marc Deisenroth(参考訳) 高忠実な合成データを生成する能力は、利用可能な(現実の)データが限られている場合や、プライバシーやデータ保護の基準が与えられたデータ(例えば医療や金融のデータセット)の限られた使用のみを許す場合に重要である。 合成データ生成の最先端技術は、GAN(Generative Adversarial Networks)のような生成モデルに基づいている。 さらに、ganベースの手法は、実変数とカテゴリ変数の混合で使用すると、苦しむことがある。さらに、損失関数(判別器の損失)設計自体が問題に特化しており、つまり、生成モデルは、明示的に訓練されていないタスクには役に立たないかもしれない。 本稿では,確率モデルを用いた合成データ生成手法を提案する。 データの確率モデルを学ぶことは、データの密度を推定することと同値である。 コプラ理論に基づいて、密度推定タスクを2つの部分、すなわち、一変量辺りの推定と多変量辺りの多変量辺縁密度の推定に分割する。 正規化フローを用いて、コプラ密度と一変量境界の両方を学習する。 本手法は, 密度推定と高忠実度合成データ生成の両面で, シミュレーションデータと実データの両方に対してベンチマークを行う。

The ability to generate high-fidelity synthetic data is crucial when available (real) data is limited or where privacy and data protection standards allow only for limited use of the given data, e.g., in medical and financial data-sets. Current state-of-the-art methods for synthetic data generation are based on generative models, such as Generative Adversarial Networks (GANs). Even though GANs have achieved remarkable results in synthetic data generation, they are often challenging to interpret.Furthermor e, GAN-based methods can suffer when used with mixed real and categorical variables.Moreover, loss function (discriminator loss) design itself is problem specific, i.e., the generative model may not be useful for tasks it was not explicitly trained for. In this paper, we propose to use a probabilistic model as a synthetic data generator. Learning the probabilistic model for the data is equivalent to estimating the density of the data. Based on the copula theory, we divide the density estimation task into two parts, i.e., estimating univariate marginals and estimating the multivariate copula density over the univariate marginals. We use normalising flows to learn both the copula density and univariate marginals. We benchmark our method on both simulated and real data-sets in terms of density estimation as well as the ability to generate high-fidelity synthetic data
翻訳日:2021-04-12 11:39:48 公開日:2021-01-03
# 持続的ホモロジーにおける周期登録とトポロジカルブートストラップへの応用

Cycle Registration in Persistent Homology with Applications in Topological Bootstrap ( http://arxiv.org/abs/2101.00698v1 )

ライセンス: Link先を確認
Yohai Reani, Omer Bobrowski(参考訳) 本稿では、2つの空間(フィルタ)の持続的ホモロジー表現を比較するための新しいアプローチを提案する。 一般的に用いられる方法は、永続化図や永続化風景などの数値的な要約と、適切なメトリクス(例)に基づいている。 ワッサースタイン(wasserstein)。 これらの要約は計算目的に有用であるが、それらは持続的ホモロジーが提供できる実際の位相情報の限界にすぎない。 その代わり、我々のアプローチはデータ空間で直接2つの位相表現を比較する。 2つの異なる空間の個々の持続的サイクル間の対応関係を定義し、この対応を計算する方法を考案する。 サイクルのマッチングは、永続化間隔と各特徴の空間配置の両方に基づいています。 そこでは,実際の特徴と点クラウドデータのノイズを区別するために,統計的ブートストラップ法を用いて,トポロジカル推論の文脈で新しいフレームワークを実証する。

In this article we propose a novel approach for comparing the persistent homology representations of two spaces (filtrations). Commonly used methods are based on numerical summaries such as persistence diagrams and persistence landscapes, along with suitable metrics (e.g. Wasserstein). These summaries are useful for computational purposes, but they are merely a marginal of the actual topological information that persistent homology can provide. Instead, our approach compares between two topological representations directly in the data space. We do so by defining a correspondence relation between individual persistent cycles of two different spaces, and devising a method for computing this correspondence. Our matching of cycles is based on both the persistence intervals and the spatial placement of each feature. We demonstrate our new framework in the context of topological inference, where we use statistical bootstrap methods in order to differentiate between real features and noise in point cloud data.
翻訳日:2021-04-12 11:39:26 公開日:2021-01-03
# 低解像度画像におけるCNNオブジェクト分類器の進化

An Evolution of CNN Object Classifiers on Low-Resolution Images ( http://arxiv.org/abs/2101.00686v1 )

ライセンス: Link先を確認
Md. Mohsin Kabir, Abu Quwsar Ohi, Md. Saifur Rahman, M. F. Mridha(参考訳) オブジェクト分類はコンピュータビジョンにおいて重要なタスクである。 画像処理の重要な側面として有効な研究領域となり、画像のローカライゼーション、検出、シーン解析のビルディングブロックとなっている。 低画質画像からのオブジェクト分類は、対象色、アスペクト比、乱れ背景のばらつきに対して困難である。 オブジェクト分類の分野は、深層畳み込みニューラルネットワーク(dcnn)の開発によって、著しく進歩している。 ディープニューラルネットワークは、高解像度画像からのオブジェクト分類の課題に直面するための非常に強力なシステムとして実証されてきたが、そのようなオブジェクト分類ネットワークを組み込みデバイスにデプロイすることは、高い計算能力とメモリ要件のために依然として困難である。 高品質な画像を使用することで計算やメモリの複雑さが高まることが少なくないが、低品質の画像はこの問題を解決できる。 そこで本稿では,DCNNアーキテクチャを用いて低品質画像を正確に分類する最適アーキテクチャについて検討する。 低品質の画像上で異なるベースラインを検証するために、10種類の異なるオブジェクトのwebcamキャプチャ画像データセットを用いて実験を行う。 本研究では,CNNアーキテクチャの実装により提案したアーキテクチャを評価する。 実験の結果、MobileNetアーキテクチャは、低解像度のWebカメラ画像データセットで利用可能なCNNアーキテクチャのほとんどより優れていることが確認された。

Object classification is a significant task in computer vision. It has become an effective research area as an important aspect of image processing and the building block of image localization, detection, and scene parsing. Object classification from low-quality images is difficult for the variance of object colors, aspect ratios, and cluttered backgrounds. The field of object classification has seen remarkable advancements, with the development of deep convolutional neural networks (DCNNs). Deep neural networks have been demonstrated as very powerful systems for facing the challenge of object classification from high-resolution images, but deploying such object classification networks on the embedded device remains challenging due to the high computational and memory requirements. Using high-quality images often causes high computational and memory complexity, whereas low-quality images can solve this issue. Hence, in this paper, we investigate an optimal architecture that accurately classifies low-quality images using DCNNs architectures. To validate different baselines on lowquality images, we perform experiments using webcam captured image datasets of 10 different objects. In this research work, we evaluate the proposed architecture by implementing popular CNN architectures. The experimental results validate that the MobileNet architecture delivers better than most of the available CNN architectures for low-resolution webcam image datasets.
翻訳日:2021-04-12 11:39:11 公開日:2021-01-03
# 圧縮サブ層を有する高効率変圧器デコーダ

An Efficient Transformer Decoder with Compressed Sub-layers ( http://arxiv.org/abs/2101.00542v1 )

ライセンス: Link先を確認
Yanyang Li, Ye Lin, Tong Xiao, Jingbo Zhu(参考訳) 大規模な注意に基づくエンコーダ・デコーダネットワーク(transformer)が最近普及している。 しかし、そのデコーダの計算の複雑さは非効率な問題を引き起こす。 復号器の数学的定式化を検討することにより, 若干の穏やかな条件下で, トランスフォーマーの基本構造であるサブ層を圧縮することにより, アーキテクチャを単純化し, 高い並列性を実現することを示す。 そこで本研究では,デコーダ層が3層ではなく1層のみからなる圧縮アテンションネットワークを提案する。 14のWMT機械翻訳タスクに対する大規模な実験により、我々のモデルは1.42倍高速であり、性能は強いベースラインと同等であることがわかった。 この強力なベースラインは、パフォーマンスを損なうことなく、広く使われている標準ベースラインよりも2倍高速である。

The large attention-based encoder-decoder network (Transformer) has become prevailing recently due to its effectiveness. But the high computation complexity of its decoder raises the inefficiency issue. By examining the mathematic formulation of the decoder, we show that under some mild conditions, the architecture could be simplified by compressing its sub-layers, the basic building block of Transformer, and achieves a higher parallelism. We thereby propose Compressed Attention Network, whose decoder layer consists of only one sub-layer instead of three. Extensive experiments on 14 WMT machine translation tasks show that our model is 1.42x faster with performance on par with a strong baseline. This strong baseline is already 2x faster than the widely used standard baseline without loss in performance.
翻訳日:2021-04-12 11:38:51 公開日:2021-01-03
# クロスドメインオブジェクト検出のための6チャンネル画像表現

Six-channel Image Representation for Cross-domain Object Detection ( http://arxiv.org/abs/2101.00561v1 )

ライセンス: Link先を確認
Tianxiao Zhang, Wenchi Ma, Guanghui Wang(参考訳) ほとんどのディープラーニングモデルはデータ駆動であり、優れたパフォーマンスは豊富で多様なデータセットに依存する。 しかし、特定のシーンやアプリケーションのデータセットを取得してラベル付けするのは非常に難しい。 あるドメインからのデータを使って検出器を訓練すれば、ほとんどのオブジェクト検出モデルにおいて大きな課題であるドメインシフトのため、別のドメインからのデータにうまく対応できない。 この問題に対処するために、特定のシーンの偽データを生成してモデルをトレーニングするために、画像から画像への変換技術が採用されている。 generative adversarial networks (gans) の出現により、ソースからターゲットドメイン、ターゲットドメインからソースドメインへの双方向の教師なし画像から画像への変換を実現することができた。 本研究では,生成した画像を利用する新しい手法について報告する。 3チャンネル画像とそれに対応するgan生成の偽画像とを結合してデータセットの6チャンネル表現を形成することを提案し,利用可能な検出モデルの成功を生かしながら,領域シフト問題に対処する。 拡張データ表現のアイデアは、オブジェクト検出やその他の応用に関するさらなる研究を刺激する可能性がある。

Most deep learning models are data-driven and the excellent performance is highly dependent on the abundant and diverse datasets. However, it is very hard to obtain and label the datasets of some specific scenes or applications. If we train the detector using the data from one domain, it cannot perform well on the data from another domain due to domain shift, which is one of the big challenges of most object detection models. To address this issue, some image-to-image translation techniques are employed to generate some fake data of some specific scenes to train the models. With the advent of Generative Adversarial Networks (GANs), we could realize unsupervised image-to-image translation in both directions from a source to a target domain and from the target to the source domain. In this study, we report a new approach to making use of the generated images. We propose to concatenate the original 3-channel images and their corresponding GAN-generated fake images to form 6-channel representations of the dataset, hoping to address the domain shift problem while exploiting the success of available detection models. The idea of augmented data representation may inspire further study on object detection and other applications.
翻訳日:2021-04-12 11:38:15 公開日:2021-01-03
# retinexのスイッチングビュー:深い自己正規化低光度画像強調

A Switched View of Retinex: Deep Self-Regularized Low-Light Image Enhancement ( http://arxiv.org/abs/2101.00603v1 )

ライセンス: Link先を確認
Zhuqing Jiang, Haotian Li, Liangjie Liu, Aidong Men, Haiying Wang(参考訳) 自己正規化低光度画像強調は、トレーニングにおいて通常の光画像を必要としないため、ペアまたはペアなしの低光/非正規画像のチェーンから解放される。 しかし、既存の方法は色差に苦しめられ、様々な照明条件に一般化できない。 本稿では,HSVにヒントを得て,すべての色(Hue, Saturation)を保存し,Retinex理論を輝度(Value)にのみ統合する,Retinexに基づく新たな自己正規化手法を提案する。 そこで本研究では,同一場面の輝度の新規なランダムな乱れ形態とオリジナルに埋め込まれた反射率の一貫性を制限し,反射率推定ネットワークを構築する。 生成した反射率は、レチネックスによる照明とは無関係であると仮定され、高輝度として扱われる。 本手法は、低光度画像を色と明るさの2つのサブスペースに分離し、保存と拡張性を向上させるため効率的である。 広汎な実験により,本手法は定性的かつ定量的に複数の最先端アルゴリズムより優れ,照明条件に適応することを示した。

Self-regularized low-light image enhancement does not require any normal-light image in training, thereby freeing from the chains on paired or unpaired low-/normal-images. However, existing methods suffer color deviation and fail to generalize to various lighting conditions. This paper presents a novel self-regularized method based on Retinex, which, inspired by HSV, preserves all colors (Hue, Saturation) and only integrates Retinex theory into brightness (Value). We build a reflectance estimation network by restricting the consistency of reflectances embedded in both the original and a novel random disturbed form of the brightness of the same scene. The generated reflectance, which is assumed to be irrelevant of illumination by Retinex, is treated as enhanced brightness. Our method is efficient as a low-light image is decoupled into two subspaces, color and brightness, for better preservation and enhancement. Extensive experiments demonstrate that our method outperforms multiple state-of-the-art algorithms qualitatively and quantitatively and adapts to more lighting conditions.
翻訳日:2021-04-12 11:37:54 公開日:2021-01-03
# 弱教師付きマルチオブジェクトトラッキングとセグメンテーション

Weakly Supervised Multi-Object Tracking and Segmentation ( http://arxiv.org/abs/2101.00667v1 )

ライセンス: Link先を確認
Idoia Ruiz, Lorenzo Porzi, Samuel Rota Bul\`o, Peter Kontschieder, Joan Serrat(参考訳) 本稿では,弱い教師付きマルチオブジェクト追跡とセグメンテーションの問題を紹介する。 共同で管理されるインスタンスセグメンテーションとマルチオブジェクトトラッキングは、何らかのマスクアノテーションを提供していません。 そこで我々は,マルチタスク学習を活用することによって,新たな相乗的学習戦略を設計する。 分類と追跡タスクは、教師なしインスタンスセグメンテーションのトレーニングをガイドする。 この目的のために, grad-cam ヒートマップが提供する弱フォアグラウンド位置情報を抽出することで, 学習すべき部分的基底真理を生成する。 さらに、RGB画像レベル情報を用いて、オブジェクトのエッジにおけるマスク予測を洗練させる。 我々は,このタスクの最も代表的なベンチマークであるKITTI MOTSについて,全監督手法と弱監督手法のMOTSP測定値のパフォーマンスギャップを,自動車と歩行者の12%と12.7%に削減した。

We introduce the problem of weakly supervised Multi-Object Tracking and Segmentation, i.e. joint weakly supervised instance segmentation and multi-object tracking, in which we do not provide any kind of mask annotation. To address it, we design a novel synergistic training strategy by taking advantage of multi-task learning, i.e. classification and tracking tasks guide the training of the unsupervised instance segmentation. For that purpose, we extract weak foreground localization information, provided by Grad-CAM heatmaps, to generate a partial ground truth to learn from. Additionally, RGB image level information is employed to refine the mask prediction at the edges of the objects. We evaluate our method on KITTI MOTS, the most representative benchmark for this task, reducing the performance gap on the MOTSP metric between the fully supervised and weakly supervised approach to just 12% and 12.7% for cars and pedestrians, respectively.
翻訳日:2021-04-12 11:37:01 公開日:2021-01-03
# diff-SAT -- SATとAnswer Setプログラミングのためのサンプリングと確率推論のためのソフトウェア

diff-SAT -- A Software for Sampling and Probabilistic Reasoning for SAT and Answer Set Programming ( http://arxiv.org/abs/2101.00589v1 )

ライセンス: Link先を確認
Matthias Nickles(参考訳) 本稿では,正規解法と確率的節,事実,規則を併用し,ユーザが提供する確率的制約を考慮した最適世界観(ブール変数代入や回答集合を満足するマルチセット)をサンプリングする解法であるdiff-SATについて述べる。 サンプリングプロセスは、勾配降下に基づく最適解法(\partial\mathrm{SAT}$)を用いて、ユーザ定義の微分対象関数を最小化し、それぞれ微分可能な解集合プログラミング(\partial\mathrm{ASP}$)を行う。 ユースケースはi.a。 確率的論理プログラミング(確率的解集合プログラミング)、確率的ブール充足可能性解法(psat)、モデル多重集合(アンスワー集合またはブール解釈)の分布認識サンプリング。

This paper describes diff-SAT, an Answer Set and SAT solver which combines regular solving with the capability to use probabilistic clauses, facts and rules, and to sample an optimal world-view (multiset of satisfying Boolean variable assignments or answer sets) subject to user-provided probabilistic constraints. The sampling process minimizes a user-defined differentiable objective function using a gradient descent based optimization method called Differentiable Satisfiability Solving ($\partial\mathrm{SAT}$) respectively Differentiable Answer Set Programming ($\partial\mathrm{ASP}$). Use cases are i.a. probabilistic logic programming (in form of Probabilistic Answer Set Programming), Probabilistic Boolean Satisfiability solving (PSAT), and distribution-aware sampling of model multisets (answer sets or Boolean interpretations).
翻訳日:2021-04-12 11:36:44 公開日:2021-01-03
# RV-GAN : 多次元生成対向ネットワークを用いた基底画像からの網膜血管セグメンテーション

RV-GAN : Retinal Vessel Segmentation from Fundus Images using Multi-scale Generative Adversarial Networks ( http://arxiv.org/abs/2101.00535v1 )

ライセンス: Link先を確認
Sharif Amit Kamran, Khondker Fariha Hossain, Alireza Tavakkoli, Stewart Lee Zuckerbrod, Kenton M. Sanders, Salah A. Baker(参考訳) 網膜血管セグメンテーションは視力低下疾患の診断における網膜画像解析の領域に大きく貢献する。 既存の技術では、生成したセグメンテーション結果は、高い信頼度でしきい値にすると劣化する。 そこで本研究では,網膜血管の正確なセグメンテーションのための新しいマルチスケール生成アーキテクチャであるRVGANを提案する。 2つのジェネレータと2つのマルチスケールオートエンコーダベースの判別器を用いて,マイクロセルの局在とセグメンテーションを改善する。 リコンストラクションと重み付き特徴マッチング損失を組み合わせることで,本手法は閾値 > 0.5 の網膜血管の高精度な画素分割を生成する。 このアーキテクチャは、DRIVE、CHASE-DB1、STAREの3つの公開データセットに対して、AUC 0.9887、0.9814、0.9887を達成する。 さらに、RV-GANはMean-IOUとSSIMという2つの関連するメトリクスで他のアーキテクチャよりも優れている。

Retinal vessel segmentation contributes significantly to the domain of retinal image analysis for the diagnosis of vision-threatening diseases. With existing techniques the generated segmentation result deteriorates when thresholded with higher confidence value. To alleviate from this, we propose RVGAN, a new multi-scale generative architecture for accurate retinal vessel segmentation. Our architecture uses two generators and two multi-scale autoencoder based discriminators, for better microvessel localization and segmentation. By combining reconstruction and weighted feature matching loss, our adversarial training scheme generates highly accurate pixel-wise segmentation of retinal vessels with threshold >= 0.5. The architecture achieves AUC of 0.9887, 0.9814, and 0.9887 on three publicly available datasets, namely DRIVE, CHASE-DB1, and STARE, respectively. Additionally, RV-GAN outperforms other architectures in two additional relevant metrics, Mean-IOU and SSIM.
翻訳日:2021-04-12 11:36:29 公開日:2021-01-03
# RegNet: 画像分類のための自己規制型ネットワーク

RegNet: Self-Regulated Network for Image Classification ( http://arxiv.org/abs/2101.00590v1 )

ライセンス: Link先を確認
Jing Xu, Yu Pan, Xinglin Pan, Steven Hoi, Zhang Yi, Zenglin Xu(参考訳) ResNetとその変種は様々なコンピュータビジョンタスクで顕著な成功を収めた。 ビルディングブロックに勾配を流すことに成功したにもかかわらず、単純なショートカット接続機構は、付加機能のために新たな補完機能を再検討する能力を制限する。 本稿では,レギュレータモジュールをメモリ機構として導入し,さらにresnetに供給される補完的特徴を抽出することを提案する。 特に、レギュレータモジュールは、時空間情報を抽出するのに優れていることを示す畳み込みRNN(例えば、畳み込みLSTMや畳み込みGRU)で構成されている。 我々は新しい規制ネットワークをRegNetと名付けた。 レギュレータモジュールは簡単に実装でき、どんなResNetアーキテクチャにも追加できる。 また,Squeeze-and-Excitat ion ResNetの改良のためのレギュレータモジュールを適用し,本手法の一般化能力を示す。 3つの画像分類データセットの実験結果は、標準ResNet、SE-ResNet、その他の最先端アーキテクチャと比較して提案アーキテクチャの有望な性能を示している。

The ResNet and its variants have achieved remarkable successes in various computer vision tasks. Despite its success in making gradient flow through building blocks, the simple shortcut connection mechanism limits the ability of re-exploring new potentially complementary features due to the additive function. To address this issue, in this paper, we propose to introduce a regulator module as a memory mechanism to extract complementary features, which are further fed to the ResNet. In particular, the regulator module is composed of convolutional RNNs (e.g., Convolutional LSTMs or Convolutional GRUs), which are shown to be good at extracting Spatio-temporal information. We named the new regulated networks as RegNet. The regulator module can be easily implemented and appended to any ResNet architecture. We also apply the regulator module for improving the Squeeze-and-Excitati on ResNet to show the generalization ability of our method. Experimental results on three image classification datasets have demonstrated the promising performance of the proposed architecture compared with the standard ResNet, SE-ResNet, and other state-of-the-art architectures.
翻訳日:2021-04-12 11:35:41 公開日:2021-01-03
# CovTANet:COVID-19胸部CTスキャンの病変分割、診断、重症度予測のためのハイブリッド三段階注意型ネットワーク

CovTANet: A Hybrid Tri-level Attention Based Network for Lesion Segmentation, Diagnosis, and Severity Prediction of COVID-19 Chest CT Scans ( http://arxiv.org/abs/2101.00691v1 )

ライセンス: Link先を確認
Tanvir Mahmud, Md. Jahin Alam, Sakib Chowdhury, Shams Nafisa Ali, Md Maisoon Rahman, Shaikh Anowarul Fattah, Mohammad Saquib(参考訳) 新型コロナウイルス(covid-19)の迅速かつ正確な診断は、世界的なコミュニティがこの拡大するパンデミックの広がりを制御するために直面する大きな課題の1つだ。 本稿では,胸部ctスキャンを用いた新型コロナウイルスの早期診断,病変分節化,重症度予測のためのエンドツーエンド臨床診断ツールとして,covtanetというハイブリッドニューラルネットワークを提案する。 感染の極めて早い段階で複雑な診断の課題を解決するために多相最適化戦略を導入し、最初に効率的な病変分割ネットワークを最適化し、後に、感染領域の特徴強化を提供する診断および重症度予測タスクのための統合最適化フレームワークに統合する。 さらに, びまん性, ぼやけ性, 多様な病巣の縁が新しく多様な特徴を持つ課題を克服するために, 新たなセグメンテーションネットワークであるtri-level attention-based segmentation network (ta-segnet) を導入した。 このネットワークは、後続の符号化復号段階における意味的ギャップを著しく減らし、従来のネットワークよりも性能が大幅に向上する。 さらに,特徴マップに埋め込まれた文脈情報の高速かつ効率的な一般化のために,チャネル,空間,ピクセルの注意スキームを組み合わせることで,ネットワーク上で繰り返し利用する新たな3レベル注意機構が導入された。 パンデミックの現段階における提案手法の有効性を示す胸部ctデータ110点を含む大規模データセットの大規模な実験により,3つの課題すべてにおいて優れた性能が達成されている。

Rapid and precise diagnosis of COVID-19 is one of the major challenges faced by the global community to control the spread of this overgrowing pandemic. In this paper, a hybrid neural network is proposed, named CovTANet, to provide an end-to-end clinical diagnostic tool for early diagnosis, lesion segmentation, and severity prediction of COVID-19 utilizing chest computer tomography (CT) scans. A multi-phase optimization strategy is introduced for solving the challenges of complicated diagnosis at a very early stage of infection, where an efficient lesion segmentation network is optimized initially which is later integrated into a joint optimization framework for the diagnosis and severity prediction tasks providing feature enhancement of the infected regions. Moreover, for overcoming the challenges with diffused, blurred, and varying shaped edges of COVID lesions with novel and diverse characteristics, a novel segmentation network is introduced, namely Tri-level Attention-based Segmentation Network (TA-SegNet). This network has significantly reduced semantic gaps in subsequent encoding decoding stages, with immense parallelization of multi-scale features for faster convergence providing considerable performance improvement over traditional networks. Furthermore, a novel tri-level attention mechanism has been introduced, which is repeatedly utilized over the network, combining channel, spatial, and pixel attention schemes for faster and efficient generalization of contextual information embedded in the feature map through feature re-calibration and enhancement operations. Outstanding performances have been achieved in all three-tasks through extensive experimentation on a large publicly available dataset containing 1110 chest CT-volumes that signifies the effectiveness of the proposed scheme at the current stage of the pandemic.
翻訳日:2021-04-12 11:35:23 公開日:2021-01-03
# グラフニューラルネットワークと時空間病モデルを組み合わせたドイツのcovid-19感染者予測

Combining Graph Neural Networks and Spatio-temporal Disease Models to Predict COVID-19 Cases in Germany ( http://arxiv.org/abs/2101.00661v1 )

ライセンス: Link先を確認
Cornelius Fritz, Emilio Dorigatti, David R\"ugamer(参考訳) 2020年には、さまざまな研究分野の研究者が新型コロナウイルスの感染率を調査している。 この文脈では、疾病インシデントの信頼性と解釈可能な予測は、政策立案者が医療資源を管理する上で不可欠なツールである。 新型コロナウイルスの感染拡大を説明するため、複数の専門家が人間の移動性を考慮する必要があると訴えている。 既存のアプローチは、しばしば各研究分野の標準モデルを適用している。 しかし、この習慣は特定の制限を伴うことが多い。 例えば、統計学モデルや疫学モデルでは、人間の移動性を符号化するリレーショナルデータを含む非構造化データソースを直接組み込むことはできない。 対照的に、機械学習のアプローチは、これらのデータ構造を利用することによってより良い予測をもたらすが、しばしばブラックボックスモデルに分類されるため、直感的な解釈性が欠如している。 本稿では,ドイツにおける局所的な新型コロナウイルス感染予測のための統計的回帰モデルと機械学習モデルの利点を組み合わせたマルチモーダル学習手法を提案する。 この新たなアプローチにより,モビリティフローやコロケーション確率など,よりリッチなデータ型コレクションの利用が可能となり,我々の観測期間において最も低いmseスコアが得られた。 その結果,モビリティデータを含める必要性と,アプローチの柔軟性と解釈性が示された。

During 2020, the infection rate of COVID-19 has been investigated by many scholars from different research fields. In this context, reliable and interpretable forecasts of disease incidents are a vital tool for policymakers to manage healthcare resources. Several experts have called for the necessity to account for human mobility to explain the spread of COVID-19. Existing approaches are often applying standard models of the respective research field. This habit, however, often comes along with certain restrictions. For instance, most statistical or epidemiological models cannot directly incorporate unstructured data sources, including relational data that may encode human mobility. In contrast, machine learning approaches may yield better predictions by exploiting these data structures, yet lack intuitive interpretability as they are often categorized as black-box models. We propose a trade-off between both research directions and present a multimodal learning approach that combines the advantages of statistical regression and machine learning models for predicting local COVID-19 cases in Germany. This novel approach enables the use of a richer collection of data types, including mobility flows and colocation probabilities, and yields the lowest MSE scores throughout our observational period in our benchmark study. The results corroborate the necessity of including mobility data and showcase the flexibility and interpretability of our approach.
翻訳日:2021-04-12 11:34:51 公開日:2021-01-03
# 深層ニューラルネットワークを用いたマルチモーダルウェアラブルセンサデータからの人間活動認識のための新しい多段階学習手法

A Novel Multi-Stage Training Approach for Human Activity Recognition from Multimodal Wearable Sensor Data Using Deep Neural Network ( http://arxiv.org/abs/2101.00702v1 )

ライセンス: Link先を確認
Tanvir Mahmud, A. Q. M. Sazzad Sayyed, Shaikh Anowarul Fattah, Sun-Yuan Kung(参考訳) ディープニューラルネットワークは、さまざまなウェアラブルセンサーのデータを利用して人間の行動を自動的に認識する効果的な選択である。 これらのネットワークは、完全にデータに依存する特徴抽出のプロセスを自動化する。 しかし、センサ間の複雑なモーダル関係を持つ時系列データの様々なノイズにより、この処理はより複雑になる。 本稿では,多様な視点から抽出した多種多様な特徴を組み合わせて行動の正確な認識を行うため,特徴抽出プロセスにおける多様性を高める新しい多段階学習手法を提案する。 当初、単一のタイプの変換を使う代わりに、時系列データに多くの変換を施し、生データにエンコードされた特徴の可変表現を得る。 異なる変換空間から特徴を抽出するために個別に訓練できる効率的な深層CNNアーキテクチャを提案する。 その後、これらのcnn特徴抽出器を最適なアーキテクチャにマージし、複合トレーニングステージまたは複数の逐次トレーニングステージを介して多様化した特徴を最適化する。 このアプローチは、最終収束のための効率的な特徴選択のために、多孔性観測窓を用いた生センサデータの符号化された特徴を探索する機会を提供する。 UCI HARデータベースでは平均5倍のクロスバリデーション精度99.29%、USC HARデータベースでは99.02%、SKODAデータベースでは97.21%という優れたパフォーマンスを提供する3つの公開データセットで大規模な実験が行われた。

Deep neural network is an effective choice to automatically recognize human actions utilizing data from various wearable sensors. These networks automate the process of feature extraction relying completely on data. However, various noises in time series data with complex inter-modal relationships among sensors make this process more complicated. In this paper, we have proposed a novel multi-stage training approach that increases diversity in this feature extraction process to make accurate recognition of actions by combining varieties of features extracted from diverse perspectives. Initially, instead of using single type of transformation, numerous transformations are employed on time series data to obtain variegated representations of the features encoded in raw data. An efficient deep CNN architecture is proposed that can be individually trained to extract features from different transformed spaces. Later, these CNN feature extractors are merged into an optimal architecture finely tuned for optimizing diversified extracted features through a combined training stage or multiple sequential training stages. This approach offers the opportunity to explore the encoded features in raw sensor data utilizing multifarious observation windows with immense scope for efficient selection of features for final convergence. Extensive experimentations have been carried out in three publicly available datasets that provide outstanding performance consistently with average five-fold cross-validation accuracy of 99.29% on UCI HAR database, 99.02% on USC HAR database, and 97.21% on SKODA database outperforming other state-of-the-art approaches.
翻訳日:2021-04-12 11:34:33 公開日:2021-01-03
# シリコンフォトニックマイクロリングを用いた遅延フィードバック貯留層計算用チップスケール加速器

Silicon Photonic Microring Based Chip-Scale Accelerator for Delayed Feedback Reservoir Computing ( http://arxiv.org/abs/2101.00557v1 )

ライセンス: Link先を確認
Sairam Sri Vatsavai, Ishan Thakkar(参考訳) 時間的およびシーケンシャルな機械学習タスクを実行するため、従来のリカレントニューラルネットワーク(RNN)の使用は、RNNの訓練複雑さのために減少している。 この目的のために, 単純なハードウェア実装のため, RNNの代わりにDFRC(Relay feedback storage computing)のアクセラレータが注目されている。 DFRC加速器の典型的な実装は遅延ループと1つの非線形ニューロンで構成され、計算のための複数の仮想ノードとして機能する。 以前の研究で、フォトニックDFRC加速器は電子的加速器よりも高速な計算の利点を示した。 本稿では、シリコンフォトニックマイクロリング(MR)ベースの非線形ニューロンとオンチップフォトニック導波路に基づく遅延フィードバックループを用いたよりエネルギー効率の良いDFRC加速器を提案する。 我々の評価では,従来からよく知られたDFRC加速器と比較して,NARMA10およびサンタフェ時系列の予測タスクにおいて,MRベースのDFRC加速器は35%と98.7%低い正規化ルート平均二乗誤差(NRMSE)を達成した。 さらに,MRをベースとしたDFRC加速器は,非線形チャネル等化タスクに対して,58.8%低いシンボル誤り率(SER)を達成する。 さらに,このMRベースのDFRC加速器は,電子的およびフォトニックなDFRC加速器と比較して,トレーニング時間を98%,訓練時間を93%高速化した。

To perform temporal and sequential machine learning tasks, the use of conventional Recurrent Neural Networks (RNNs) has been dwindling due to the training complexities of RNNs. To this end, accelerators for delayed feedback reservoir computing (DFRC) have attracted attention in lieu of RNNs, due to their simple hardware implementations. A typical implementation of a DFRC accelerator consists of a delay loop and a single nonlinear neuron, together acting as multiple virtual nodes for computing. In prior work, photonic DFRC accelerators have shown an undisputed advantage of fast computation over their electronic counterparts. In this paper, we propose a more energy-efficient chip-scale DFRC accelerator that employs a silicon photonic microring (MR) based nonlinear neuron along with on-chip photonic waveguides-based delayed feedback loop. Our evaluations show that, compared to a well-known photonic DFRC accelerator from prior work, our proposed MR-based DFRC accelerator achieves 35% and 98.7% lower normalized root mean square error (NRMSE), respectively, for the prediction tasks of NARMA10 and Santa Fe time series. In addition, our MR-based DFRC accelerator achieves 58.8% lower symbol error rate (SER) for the Non-Linear Channel Equalization task. Moreover, our MR-based DFRC accelerator has 98% and 93% faster training time, respectively, compared to an electronic and a photonic DFRC accelerators from prior work.
翻訳日:2021-04-12 11:34:10 公開日:2021-01-03
# EMと勾配EMによるガウス混合モデル学習のための収束保証の改善

Improved Convergence Guarantees for Learning Gaussian Mixture Models by EM and Gradient EM ( http://arxiv.org/abs/2101.00575v1 )

ライセンス: Link先を確認
Nimrod Segol, Boaz Nadler(参考訳) パラメータを既知の重みのk成分を持つガウス混合モデルとして推定する問題を考える。 我々は2つの貢献をした。 まず, 個体群レベルでは, 過去の研究に比べて, 局所的なemおよび勾配emの収束率を鋭く分析する。 $\Omega(\sqrt{\log K})$ の分離を仮定すると、どちらの方法も、以前の研究よりも大きい初期化領域から大域最適化への収束を証明できる。 具体的には、各成分の最初の推測は、最も近いガウシアンまでの距離の半分(ほぼ)である。 これは本質的に最大の収縮領域である。 第2の貢献は,EMと勾配EMによる精度評価のための試料サイズ要求の改善である。 以前の研究では, 必要なサンプル数は, K成分間の最大分離に2次依存しており, 得られた誤差は, この最大分離とともに線形に増大した。 この写本では、両方の量は最大分離のみに依存することを示した。

We consider the problem of estimating the parameters a Gaussian Mixture Model with K components of known weights, all with an identity covariance matrix. We make two contributions. First, at the population level, we present a sharper analysis of the local convergence of EM and gradient EM, compared to previous works. Assuming a separation of $\Omega(\sqrt{\log K})$, we prove convergence of both methods to the global optima from an initialization region larger than those of previous works. Specifically, the initial guess of each component can be as far as (almost) half its distance to the nearest Gaussian. This is essentially the largest possible contraction region. Our second contribution are improved sample size requirements for accurate estimation by EM and gradient EM. In previous works, the required number of samples had a quadratic dependence on the maximal separation between the K components, and the resulting error estimate increased linearly with this maximal separation. In this manuscript we show that both quantities depend only logarithmically on the maximal separation.
翻訳日:2021-04-12 11:33:44 公開日:2021-01-03
# ハーモニック・パーカッシブ音源分離のための非教師なし領域適応

Adversarial Unsupervised Domain Adaptation for Harmonic-Percussive Source Separation ( http://arxiv.org/abs/2101.00701v1 )

ライセンス: Link先を確認
Carlos Lordelo, Emmanouil Benetos, Simon Dixon, Sven Ahlb\"ack, and Patrik Ohlsson(参考訳) 本稿では,音源分離作業における領域適応の問題に対処する。 2つの異なるドメインからのデータセットを用いて、異なるトレーニングシナリオ下での深層学習に基づくハーモニック・パーカッシブソース分離モデルの性能を比較する。 本稿では,対象領域からのラベル付きデータ(地上信号)が利用できない場合に適した,対向的教師なし領域適応手法を提案する。 このドメインから非競合データ(混合データのみ)を活用することで、我々のフレームワークは、元のドメインでかなりのパフォーマンスを失うことなく、新しいドメインでの分離性能を改善することができることを示す。 tap & fiddleデータセットは、スカンジナビアのフィドルチューンを録音するデータセットであり、'foot-tapping'と'violin'のための孤立したトラックを含んでいる。

This paper addresses the problem of domain adaptation for the task of music source separation. Using datasets from two different domains, we compare the performance of a deep learning-based harmonic-percussive source separation model under different training scenarios, including supervised joint training using data from both domains and pre-training in one domain with fine-tuning in another. We propose an adversarial unsupervised domain adaptation approach suitable for the case where no labelled data (ground-truth source signals) from a target domain is available. By leveraging unlabelled data (only mixtures) from this domain, experiments show that our framework can improve separation performance on the new domain without losing any considerable performance on the original domain. The paper also introduces the Tap & Fiddle dataset, a dataset containing recordings of Scandinavian fiddle tunes along with isolated tracks for 'foot-tapping' and 'violin'.
翻訳日:2021-04-12 11:33:27 公開日:2021-01-03