このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200309となっている論文です。

PDF登録状況(公開日: 20200309)

TitleAuthorsAbstract論文公表日・翻訳日
# ランダム浅2次元量子回路の効率的な古典シミュレーション

Efficient classical simulation of random shallow 2D quantum circuits ( http://arxiv.org/abs/2001.00021v2 )

ライセンス: Link先を確認
John Napp, Rolando L. La Placa, Alexander M. Dalzell, Fernando G. S. L. Brandao, Aram W. Harrow(参考訳) ランダム量子回路は古典的にシミュレートするのは難しいと見なされる。 いくつかの体制では、これは正式に予想され、一様ランダムなゲートを持つ回路の場合、典型例の近似シミュレーションは正確なシミュレーションと同じくらい難しいというより一般的な可能性を示す証拠はなかった。 標準ハードネスの仮定では, 古典的にほぼ実用的にシミュレーションできないが, 量子ビット数やゲート数に線形な時間内に, 超多項的に小さな回路インスタンスを除いては, ほぼすべてに対してシミュレーション可能である, 一様ランダムなゲートを持つ浅い回路ファミリを提示することは, この事実を証明できる。 さらに、十分浅いランダム回路はより効率的にシミュレート可能であると推測する。 そこで本研究では,2つのシミュレーションアルゴリズムを提案する。 アルゴリズムの1つを数値的に実装し、漸近的にも実際にも効率が良いという強い証拠を与える。 効率性について分析的に議論するため、2次元の浅小ランダム回路のシミュレーションをランダムな局所ユニタリの交互な丸と弱い測定からなる1次元ダイナミクスのシミュレーションに還元する。 量子回路から統計力学モデルへのマッピングを用いて、局所ヒルベルト空間次元や回路深さなどの回路アーキテクチャのパラメータが変化するため、アルゴリズムに対して同様の計算位相遷移が起こることを証明した。

Random quantum circuits are commonly viewed as hard to simulate classically. In some regimes this has been formally conjectured, and there had been no evidence against the more general possibility that for circuits with uniformly random gates, approximate simulation of typical instances is almost as hard as exact simulation. We prove that this is not the case by exhibiting a shallow circuit family with uniformly random gates that cannot be efficiently classically simulated near-exactly under standard hardness assumptions, but can be simulated approximately for all but a superpolynomially small fraction of circuit instances in time linear in the number of qubits and gates. We furthermore conjecture that sufficiently shallow random circuits are efficiently simulable more generally. To this end, we propose and analyze two simulation algorithms. Implementing one of our algorithms numerically, we give strong evidence that it is efficient both asymptotically and, in some cases, in practice. To argue analytically for efficiency, we reduce the simulation of 2D shallow random circuits to the simulation of a form of 1D dynamics consisting of alternating rounds of random local unitaries and weak measurements -- a type of process that has generally been observed to undergo a phase transition from an efficient-to-simulate regime to an inefficient-to-simulate regime as measurement strength is varied. Using a mapping from quantum circuits to statistical mechanical models, we give evidence that a similar computational phase transition occurs for our algorithms as parameters of the circuit architecture like the local Hilbert space dimension and circuit depth are varied.
翻訳日:2023-01-16 21:37:15 公開日:2020-03-09
# スペクトル形状の操作によるスムースゲームの高速化

Accelerating Smooth Games by Manipulating Spectral Shapes ( http://arxiv.org/abs/2001.00602v2 )

ライセンス: Link先を確認
Wa\"iss Azizian, Damien Scieur, Ioannis Mitliagkas, Simon Lacoste-Julien, Gauthier Gidel(参考訳) スムースゲームにおけるアクセラレーションを特徴付けるために行列反復理論を用いる。 ゲーム群のスペクトル形状を、家族内の標準勾配力学のジャコビアンのすべての固有値を含む集合として定義する。 実数直線に制限された形状は、最小化のようなよく理解された問題のクラスを表す。 複雑な平面にまたがる形状は、滑らかなゲームを解くための追加の数値的課題を捉えている。 この枠組みでは、スペクトル形状の変換として、超勾配などの勾配に基づく手法を記述する。 この観点から,双線型ゲームに対する最適アルゴリズムを提案する。 滑らかで強い単調作用素に対しては、ポリアックの運動量を用いて加速が可能となる凸最小化と勾配降下が最適となる最悪の場合の間の連続体を特定する。 最後に、一階法を超えて、コンセンサス最適化の高速化版を提案する。

We use matrix iteration theory to characterize acceleration in smooth games. We define the spectral shape of a family of games as the set containing all eigenvalues of the Jacobians of standard gradient dynamics in the family. Shapes restricted to the real line represent well-understood classes of problems, like minimization. Shapes spanning the complex plane capture the added numerical challenges in solving smooth games. In this framework, we describe gradient-based methods, such as extragradient, as transformations on the spectral shape. Using this perspective, we propose an optimal algorithm for bilinear games. For smooth and strongly monotone operators, we identify a continuum between convex minimization, where acceleration is possible using Polyak's momentum, and the worst case where gradient descent is optimal. Finally, going beyond first-order methods, we propose an accelerated version of consensus optimization.
翻訳日:2023-01-16 04:02:01 公開日:2020-03-09
# EMOPAIN Challenge 2020: 顔と身体の表情によるマルチモーダル痛みの評価

EMOPAIN Challenge 2020: Multimodal Pain Evaluation from Facial and Bodily Expressions ( http://arxiv.org/abs/2001.07739v3 )

ライセンス: Link先を確認
Joy O. Egede, Siyang Song, Temitayo A. Olugbade, Chongyang Wang, Amanda Williams, Hongying Meng, Min Aung, Nicholas D. Lane, Michel Valstar and Nadia Bianchi-Berthouze(参考訳) EmoPain 2020 Challengeは、人間の表現行動から自動的に慢性的な痛みを評価する機械学習とマルチメディア処理方法の比較のための統一的なプラットフォームを構築することを目的とした、最初の国際コンペティションである。 この課題の目的は、リアルタイムのモニタリングとフィードバックを通じて慢性的な痛みを抱えた人々の生活の質を改善する支援技術の開発研究を促進することである。 この課題はまた、痛みと痛みに関連する感情認識のために、比較的未使用で、身体的な重要な表現信号の使用を促進することを目的としている。 本稿では,顔表情からの痛み推定,マルチモーダル動作からの痛み認識,保護運動行動検出の3つのサブタスクについて,課題,コンペティションガイドライン,ベンチマーキングデータセット,ベースラインシステムのアーキテクチャと性能について述べる。

The EmoPain 2020 Challenge is the first international competition aimed at creating a uniform platform for the comparison of machine learning and multimedia processing methods of automatic chronic pain assessment from human expressive behaviour, and also the identification of pain-related behaviours. The objective of the challenge is to promote research in the development of assistive technologies that help improve the quality of life for people with chronic pain via real-time monitoring and feedback to help manage their condition and remain physically active. The challenge also aims to encourage the use of the relatively underutilised, albeit vital bodily expression signals for automatic pain and pain-related emotion recognition. This paper presents a description of the challenge, competition guidelines, bench-marking dataset, and the baseline systems' architecture and performance on the three sub-tasks: pain estimation from facial expressions, pain recognition from multimodal movement, and protective movement behaviour detection.
翻訳日:2023-01-07 23:52:40 公開日:2020-03-09
# 映像認識のためのオーディオビジュアルスローファストネットワーク

Audiovisual SlowFast Networks for Video Recognition ( http://arxiv.org/abs/2001.08740v2 )

ライセンス: Link先を確認
Fanyi Xiao, Yong Jae Lee, Kristen Grauman, Jitendra Malik, Christoph Feichtenhofer(参考訳) 本稿では,視聴覚統合アーキテクチャであるAudiovisual SlowFast Networksを紹介する。 AVSlowFastにはスローとファストの視覚経路があり、より高速なオーディオ経路と深く統合され、視覚と音を統一された表現でモデル化する。 複数の層に音声と視覚的特徴を融合させ,階層型音声視覚概念の形成に寄与する。 音声と視覚のモダリティの異なる学習ダイナミクスから生じる学習困難を克服するために,訓練中の音声経路をランダムにドロップするdroppathwayを,効果的な正則化手法として導入する。 神経科学の先行研究に触発され,協調的な視聴覚機能を学ぶために階層的な視聴覚同期を行う。 6つのビデオアクション分類および検出データセットの最先端結果を報告し、詳細なアブレーション研究を行い、AVSlowFastの一般化を示し、自己監督型音声視覚特徴を学習する。 コードは、https://github.com/facebookresearch/SlowFast.comで入手できる。

We present Audiovisual SlowFast Networks, an architecture for integrated audiovisual perception. AVSlowFast has Slow and Fast visual pathways that are deeply integrated with a Faster Audio pathway to model vision and sound in a unified representation. We fuse audio and visual features at multiple layers, enabling audio to contribute to the formation of hierarchical audiovisual concepts. To overcome training difficulties that arise from different learning dynamics for audio and visual modalities, we introduce DropPathway, which randomly drops the Audio pathway during training as an effective regularization technique. Inspired by prior studies in neuroscience, we perform hierarchical audiovisual synchronization to learn joint audiovisual features. We report state-of-the-art results on six video action classification and detection datasets, perform detailed ablation studies, and show the generalization of AVSlowFast to learn self-supervised audiovisual features. Code will be made available at: https://github.com/facebookresearch/SlowFast.
翻訳日:2023-01-07 13:14:30 公開日:2020-03-09
# learn feature-wise transformation によるクロスドメイン・マイノショット分類

Cross-Domain Few-Shot Classification via Learned Feature-Wise Transformation ( http://arxiv.org/abs/2001.08735v3 )

ライセンス: Link先を確認
Hung-Yu Tseng, Hsin-Ying Lee, Jia-Bin Huang, Ming-Hsuan Yang(参考訳) 各クラスにラベル付き画像がほとんどない新しいカテゴリを認識することを目的としている。 既存のメトリックベースの数ショット分類アルゴリズムは、学習されたメトリック関数を用いて、クエリ画像の特徴埋め込みとラベル付き画像(サポート例)の特徴埋め込みを比較して、カテゴリを予測する。 有望な性能が実証されているが、これらの手法はドメイン間の機能分布のばらつきが大きいため、しばしば見えないドメインへの一般化に失敗している。 本研究では,メートル法における領域シフトに基づく少数ショット分類の問題に対処する。 我々の中核となる考え方は、アフィン変換を用いて画像特徴を拡大する機能ワイド変換レイヤを使用して、トレーニング段階で異なるドメイン下で様々な特徴分布をシミュレートすることである。 異なる領域における特徴分布の変動を捉えるために,特徴量変換層の超パラメータ探索に学習から学習へのアプローチを適用する。 我々は,mini-imagenet,cub,cars,places,およびplantaeの5つのマイナショット分類データセットを用いて,ドメイン一般化条件下で広範な実験およびアブレーション研究を行う。 実験の結果,提案手法は様々なメトリックベースモデルに適用可能であり,ドメインシフト下での最小ショット分類性能に一貫した改善が得られている。

Few-shot classification aims to recognize novel categories with only few labeled images in each class. Existing metric-based few-shot classification algorithms predict categories by comparing the feature embeddings of query images with those from a few labeled images (support examples) using a learned metric function. While promising performance has been demonstrated, these methods often fail to generalize to unseen domains due to large discrepancy of the feature distribution across domains. In this work, we address the problem of few-shot classification under domain shifts for metric-based methods. Our core idea is to use feature-wise transformation layers for augmenting the image features using affine transforms to simulate various feature distributions under different domains in the training stage. To capture variations of the feature distributions under different domains, we further apply a learning-to-learn approach to search for the hyper-parameters of the feature-wise transformation layers. We conduct extensive experiments and ablation studies under the domain generalization setting using five few-shot classification datasets: mini-ImageNet, CUB, Cars, Places, and Plantae. Experimental results demonstrate that the proposed feature-wise transformation layer is applicable to various metric-based models, and provides consistent improvements on the few-shot classification performance under domain shift.
翻訳日:2023-01-07 12:38:14 公開日:2020-03-09
# gershgorinディスクアライメントによるグラフメトリック学習

Graph Metric Learning via Gershgorin Disc Alignment ( http://arxiv.org/abs/2001.10485v4 )

ライセンス: Link先を確認
Cheng Yang, Gene Cheung, Wei Hu(参考訳) 我々は、最小化対象 $\min_{\textbf{M} \in \mathcal{S}} Q(\textbf{M})$ は計量行列 $\textbf{M}$ の凸微分可能関数であり、$\textbf{M}$ は一般化グラフの集合 $\mathcal{S}$ に存在し、正のエッジ重みとノード次数を持つ連結グラフに対するラプラシア行列である。 文献で一般的な低ランク計量行列とは異なり、$\mathcal{S}$ は極限の特別な場合として重要な正対角行列を含む。 高速最適化の鍵となるアイデアは、ゲルシュゴリンディスクアライメントによって信号適応線形制約として$\mathcal{s}$ で正定円錐制約を書き直し、$\textbf{m}$ の対角およびオフ対角項の交互最適化をフランク・ウルフ反復による線形プログラムとして効率的に解くことである。 我々は,最初の固有ベクトル $\textbf{v}$ of $\textbf{m}$ を用いてゲルシュゴリンディスクを完全アライメントできることを証明した。 実験により, グラフ距離行列の計算効率は, 競合手法を用いて学習した指標よりも優れていた。

We propose a fast general projection-free metric learning framework, where the minimization objective $\min_{\textbf{M} \in \mathcal{S}} Q(\textbf{M})$ is a convex differentiable function of the metric matrix $\textbf{M}$, and $\textbf{M}$ resides in the set $\mathcal{S}$ of generalized graph Laplacian matrices for connected graphs with positive edge weights and node degrees. Unlike low-rank metric matrices common in the literature, $\mathcal{S}$ includes the important positive-diagonal-only matrices as a special case in the limit. The key idea for fast optimization is to rewrite the positive definite cone constraint in $\mathcal{S}$ as signal-adaptive linear constraints via Gershgorin disc alignment, so that the alternating optimization of the diagonal and off-diagonal terms in $\textbf{M}$ can be solved efficiently as linear programs via Frank-Wolfe iterations. We prove that the Gershgorin discs can be aligned perfectly using the first eigenvector $\textbf{v}$ of $\textbf{M}$, which we update iteratively using Locally Optimal Block Preconditioned Conjugate Gradient (LOBPCG) with warm start as diagonal / off-diagonal terms are optimized. Experiments show that our efficiently computed graph metric matrices outperform metrics learned using competing methods in terms of classification tasks.
翻訳日:2023-01-06 02:26:02 公開日:2020-03-09
# 期待最大化の観点からの多視点点集合の登録

Registration of multi-view point sets under the perspective of expectation-maximization ( http://arxiv.org/abs/2002.07464v2 )

ライセンス: Link先を確認
Jihua Zhu, Jing Zhang, Huimin Lu, and Zhongyu Li(参考訳) 多視点点集合の登録は、3次元モデル再構成の前提条件である。 この問題を解決するために、以前のアプローチのほとんどは、利用可能な情報を部分的に探索するか、各点集合を整列するために不必要な情報を盲目的に利用するか、あるいは余分な計算の複雑さをもたらす。 そこで本稿では,多視点登録問題を最大確率推定問題と考え,期待最大化(em)の観点から新しい多視点登録手法を提案する。 提案手法の基本的な考え方は,ガウス混合モデル(GMM)の同一個数で異なるデータポイントを生成することである。 1つの点集合内の各データ点について、その最寄りの近傍を他の整列した点集合から探索することができる。 すると、このデータポイントは1つのガウス分布に付着した各近傍からなる特別なGMMによって生成されると仮定できる。 この仮定に基づいて、多視点登録のために推定されるすべての剛変換を含む可能性関数を定義することは合理的である。 その後、EMアルゴリズムを用いて確率関数を最大化し、全ての剛性変換を推定する。 最後に、提案手法はいくつかのベンチマークデータセットでテストされ、最先端のアルゴリズムと比較される。 実験結果は,多視点点集合の登録における精度,堅牢性,効率性に関する超性能を示す。

Registration of multi-view point sets is a prerequisite for 3D model reconstruction. To solve this problem, most of previous approaches either partially explore available information or blindly utilize unnecessary information to align each point set, which may lead to the undesired results or introduce extra computation complexity. To this end, this paper consider the multi-view registration problem as a maximum likelihood estimation problem and proposes a novel multi-view registration approach under the perspective of Expectation-Maximization (EM). The basic idea of our approach is that different data points are generated by the same number of Gaussian mixture models (GMMs). For each data point in one point set, its nearest neighbors can be searched from other well-aligned point sets. Then, we can suppose this data point is generated by the special GMM, which is composed of each nearest neighbor adhered with one Gaussian distribution. Based on this assumption, it is reasonable to define the likelihood function including all rigid transformations, which requires to be estimated for multi-view registration. Subsequently, the EM algorithm is utilized to maximize the likelihood function so as to estimate all rigid transformations. Finally, the proposed approach is tested on several bench mark data sets and compared with some state-of-the-art algorithms. Experimental results illustrate its super performance on accuracy, robustness and efficiency for the registration of multi-view point sets.
翻訳日:2022-12-30 20:18:31 公開日:2020-03-09
# ビザンチン耐性学習のための分散モーメント

Distributed Momentum for Byzantine-resilient Learning ( http://arxiv.org/abs/2003.00010v2 )

ライセンス: Link先を確認
El-Mahdi El-Mhamdi, Rachid Guerraoui, S\'ebastien Rouault(参考訳) 運動量は収束の利点として提案されている勾配降下の変種である。 分散環境では、サーバ側またはワーカ側の両方で運動量を実装することができる。 サーバが使用する集約ルールが線形である場合、追加による可換性は両方の配置を同等にする。 しかし、ロバスト性やプライバシーは、線形集約ルールを捨てる動機のひとつだ。 本研究では,作業者側での運動量の使用のロバスト性に関する利点を実証する。 まず,作業者の計算モーメントがサーバの勾配推定の分散ノルム比を減少させ,ビザンチン回復性集約ルールを強化することを証明した。 次に,分散sgdに対する作業者側運動量のロバスト性効果の広範な実証実験を行った。

Momentum is a variant of gradient descent that has been proposed for its benefits on convergence. In a distributed setting, momentum can be implemented either at the server or the worker side. When the aggregation rule used by the server is linear, commutativity with addition makes both deployments equivalent. Robustness and privacy are however among motivations to abandon linear aggregation rules. In this work, we demonstrate the benefits on robustness of using momentum at the worker side. We first prove that computing momentum at the workers reduces the variance-norm ratio of the gradient estimation at the server, strengthening Byzantine resilient aggregation rules. We then provide an extensive experimental demonstration of the robustness effect of worker-side momentum on distributed SGD.
翻訳日:2022-12-28 02:55:42 公開日:2020-03-09
# AdarGCN:Few-Shot Learningのための適応集約GCN

AdarGCN: Adaptive Aggregation GCN for Few-Shot Learning ( http://arxiv.org/abs/2002.12641v2 )

ライセンス: Link先を確認
Jianhong Zhang, Manli Zhang, Zhiwu Lu, Tao Xiang and Jirong Wen(参考訳) 既存の数ショット学習(FSL)手法では、知識の伝達のためにソースクラスからターゲットクラスへの十分なトレーニングサンプルが存在すると仮定する。 しかし、この仮定は、特に粒度の細かい認識に関しては、しばしば無効である。 そこで本研究では,FSFSL ( few-shot fewshot Learning) と呼ばれる新たなFSL設定を定義し,その下にソースクラスとターゲットクラスが限定的なトレーニングサンプルを持つ。 ソースクラスのデータの不足を克服するために、クラス名を検索キーワードとして、Webから画像をクローリングする自然な選択肢がある。 しかし、クロー画像は大量のノイズ(無関係画像)によって必然的に破損し、性能を損なう可能性がある。 この問題に対処するために,無関係な画像を削除するためのグラフ畳み込みネットワーク (GCN) ベースのラベルデノイング (LDN) 手法を提案する。 さらに,クリーニングしたweb画像とオリジナルのクリーニングトレーニング画像を用いて,gcnベースのfsl手法を提案する。 ldnタスクとfslタスクの両方に対して,マルチヘッドマルチレベルアグリゲーションモジュールに基づいて適応アグリゲーションを行うという既存のgcnモデルとは異なる,新しい適応アグリゲーションgcn(adargcn)モデルを提案する。 adargcnでは、グラフ構造に各グラフノードが伝搬する情報量と距離を自動的に決定することができ、ノイズとトレーニングサンプルの両方の効果を軽減できる。 新しいFSFSLと従来のFSL設定の両方で,AdarGCNの優れた性能を示した。

Existing few-shot learning (FSL) methods assume that there exist sufficient training samples from source classes for knowledge transfer to target classes with few training samples. However, this assumption is often invalid, especially when it comes to fine-grained recognition. In this work, we define a new FSL setting termed few-shot fewshot learning (FSFSL), under which both the source and target classes have limited training samples. To overcome the source class data scarcity problem, a natural option is to crawl images from the web with class names as search keywords. However, the crawled images are inevitably corrupted by large amount of noise (irrelevant images) and thus may harm the performance. To address this problem, we propose a graph convolutional network (GCN)-based label denoising (LDN) method to remove the irrelevant images. Further, with the cleaned web images as well as the original clean training images, we propose a GCN-based FSL method. For both the LDN and FSL tasks, a novel adaptive aggregation GCN (AdarGCN) model is proposed, which differs from existing GCN models in that adaptive aggregation is performed based on a multi-head multi-level aggregation module. With AdarGCN, how much and how far information carried by each graph node is propagated in the graph structure can be determined automatically, therefore alleviating the effects of both noisy and outlying training samples. Extensive experiments show the superior performance of our AdarGCN under both the new FSFSL and the conventional FSL settings.
翻訳日:2022-12-28 01:39:59 公開日:2020-03-09
# RGB-D特徴の学習によるロバスト6次元オブジェクト位置推定

Robust 6D Object Pose Estimation by Learning RGB-D Features ( http://arxiv.org/abs/2003.00188v2 )

ライセンス: Link先を確認
Meng Tian, Liang Pan, Marcelo H Ang Jr and Gim Hee Lee(参考訳) 正確な6Dオブジェクトのポーズ推定は、ロボット操作と把握の基礎となる。 以前の方法は、対称対象の回転曖昧性を扱うために最接近点対間の距離を最小化する局所最適化アプローチに従っていた。 本研究では,この局所最適問題を解くために,回転回帰のための離散連続式を提案する。 我々はSO(3)の回転アンカーを均一にサンプリングし、各アンカーから目標への制約付き偏差を予測し、最適な予測を選択するための不確実性スコアを出力する。 さらに、3d中心を指してポイントワイズベクトルを集約することにより、物体の位置を検出する。 LINEMOD と YCB-Video の2つのベンチマーク実験により,提案手法が最先端の手法より優れていることが示された。 私たちのコードはhttps://github.com/mentian/object-posenetで利用可能です。

Accurate 6D object pose estimation is fundamental to robotic manipulation and grasping. Previous methods follow a local optimization approach which minimizes the distance between closest point pairs to handle the rotation ambiguity of symmetric objects. In this work, we propose a novel discrete-continuous formulation for rotation regression to resolve this local-optimum problem. We uniformly sample rotation anchors in SO(3), and predict a constrained deviation from each anchor to the target, as well as uncertainty scores for selecting the best prediction. Additionally, the object location is detected by aggregating point-wise vectors pointing to the 3D center. Experiments on two benchmarks: LINEMOD and YCB-Video, show that the proposed method outperforms state-of-the-art approaches. Our code is available at https://github.com/mentian/object-posenet.
翻訳日:2022-12-27 20:42:27 公開日:2020-03-09
# トップビューグリッドマップの学習によるオブジェクト検出の改善

Learned Enrichment of Top-View Grid Maps Improves Object Detection ( http://arxiv.org/abs/2003.00710v2 )

ライセンス: Link先を確認
Sascha Wirges, Ye Yang, Sven Richter, Haohao Hu, Christoph Stiller(参考訳) 本稿では,その入力の充実したバージョンを生成するように訓練した,トップビューグリッドマップのための物体検出器を提案する。 連成モデルにおける我々のゴールは、複数の近接範囲センサ測定から融合した地図の形で構造知識を正規化することで一般化を改善することである。 このトレーニングデータは自動で生成することができ、手動のアノテーションを必要としない。 本稿では、学習データの生成、異なるモデルアーキテクチャの調査、さらにタスクとしてリッチな入力を予測することにより、オブジェクト検出性能が向上することを示す。

We propose an object detector for top-view grid maps which is additionally trained to generate an enriched version of its input. Our goal in the joint model is to improve generalization by regularizing towards structural knowledge in form of a map fused from multiple adjacent range sensor measurements. This training data can be generated in an automatic fashion, thus does not require manual annotations. We present an evidential framework to generate training data, investigate different model architectures and show that predicting enriched inputs as an additional task can improve object detection performance.
翻訳日:2022-12-27 05:24:55 公開日:2020-03-09
# 視覚・言語ナビゲーションのためのマルチビュー学習

Multi-View Learning for Vision-and-Language Navigation ( http://arxiv.org/abs/2003.00857v3 )

ライセンス: Link先を確認
Qiaolin Xia, Xiujun Li, Chunyuan Li, Yonatan Bisk, Zhifang Sui, Jianfeng Gao, Yejin Choi, Noah A. Smith(参考訳) 自然言語命令が高度に可変であり、曖昧で、具体的でないため、自然言語命令に従って視覚環境をナビゲートする学習は難しい課題である。 本稿では,言語あいまいさを解消し,一般化を改善するために,同じ軌道に対して複数の命令(異なる視点として)を活用する新しい学習パラダイムであるLearning from EveryOne(LEO)を提案する。 命令間でパラメータを共有することで、限られたトレーニングデータからより効果的に学習し、目に見えない環境でより良く一般化する。 最近のRoom-to-Room(R2R)ベンチマークデータセットでは、LEOはベースエージェント(25.3%$\rightarrow$41.4%)としてgreedyエージェントよりも16%改善(絶対)されている。 さらに、LEOは視覚・言語ナビゲーションの既存のモデルの多くを補完するものであり、既存の技術と簡単に統合できるため、LEO+は技術の新たな状態を生み出し、R2Rベンチマークを62%(絶対的な改善は9%)まで押し上げている。

Learning to navigate in a visual environment following natural language instructions is a challenging task because natural language instructions are highly variable, ambiguous, and under-specified. In this paper, we present a novel training paradigm, Learn from EveryOne (LEO), which leverages multiple instructions (as different views) for the same trajectory to resolve language ambiguity and improve generalization. By sharing parameters across instructions, our approach learns more effectively from limited training data and generalizes better in unseen environments. On the recent Room-to-Room (R2R) benchmark dataset, LEO achieves 16% improvement (absolute) over a greedy agent as the base agent (25.3% $\rightarrow$ 41.4%) in Success Rate weighted by Path Length (SPL). Further, LEO is complementary to most existing models for vision-and-language navigation, allowing for easy integration with the existing techniques, leading to LEO+, which creates the new state of the art, pushing the R2R benchmark to 62% (9% absolute improvement).
翻訳日:2022-12-27 03:54:01 公開日:2020-03-09
# ランダム林における不偏変動の重要性

Unbiased variable importance for random forests ( http://arxiv.org/abs/2003.02106v2 )

ライセンス: Link先を確認
Markus Loecher(参考訳) ランダム林におけるデフォルトの変数インポート尺度であるginiは、基礎となるgini-gain分割基準の偏りに苦しむことが示されている。 オルタナティブな置換の重要性は、一般的に変数の重要性の信頼できる尺度として受け入れられるが、計算的に要求され、他の欠点に悩まされている。 我々は,バッグ内トレーニングのサンプルではなく,バッグ外損失の削減を計算し,過度に適合する問題と見なせる,誤解を招く/信頼できないギーニの重要度に対する簡単な解を提案する。

The default variable-importance measure in random Forests, Gini importance, has been shown to suffer from the bias of the underlying Gini-gain splitting criterion. While the alternative permutation importance is generally accepted as a reliable measure of variable importance, it is also computationally demanding and suffers from other shortcomings. We propose a simple solution to the misleading/untrustworthy Gini importance which can be viewed as an overfitting problem: we compute the loss reduction on the out-of-bag instead of the in-bag training samples.
翻訳日:2022-12-26 12:51:19 公開日:2020-03-09
# SAFE: 産業タスクのためのスケーラブルな自動機能エンジニアリングフレームワーク

SAFE: Scalable Automatic Feature Engineering Framework for Industrial Tasks ( http://arxiv.org/abs/2003.02556v3 )

ライセンス: Link先を確認
Qitao Shi, Ya-Lin Zhang, Longfei Li, Xinxing Yang, Meng Li, Jun Zhou(参考訳) 機械学習技術はインターネット企業において様々なタスクに広く応用され、重要な推進力として機能し、機械学習システムを構築する際には、機能工学が重要なタッシュとして一般的に認識されている。 近年, 自動機能工学手法の開発への取り組みが活発化しており, 実質的かつ退屈な手作業の解放が図られている。 しかし、産業的なタスクでは、これらの手法の効率性とスケーラビリティはまだ十分ではない。 本稿では,SAFE (Scalable Automatic Feature Engineering) と呼ばれる段階的手法を提案する。 広範な実験を行い,提案手法が他の手法と比較した場合,顕著な効率性と競合性をもたらすことを示した。 さらに,提案手法の十分な拡張性により,大規模産業タスクに展開可能である。

Machine learning techniques have been widely applied in Internet companies for various tasks, acting as an essential driving force, and feature engineering has been generally recognized as a crucial tache when constructing machine learning systems. Recently, a growing effort has been made to the development of automatic feature engineering methods, so that the substantial and tedious manual effort can be liberated. However, for industrial tasks, the efficiency and scalability of these methods are still far from satisfactory. In this paper, we proposed a staged method named SAFE (Scalable Automatic Feature Engineering), which can provide excellent efficiency and scalability, along with requisite interpretability and promising performance. Extensive experiments are conducted and the results show that the proposed method can provide prominent efficiency and competitive effectiveness when comparing with other methods. What's more, the adequate scalability of the proposed method ensures it to be deployed in large scale industrial tasks.
翻訳日:2022-12-26 06:34:13 公開日:2020-03-09
# 唇の向こうのスピーチは読めますか? 深部視覚音声認識のためのroi選択の再考

Can We Read Speech Beyond the Lips? Rethinking RoI Selection for Deep Visual Speech Recognition ( http://arxiv.org/abs/2003.03206v2 )

ライセンス: Link先を確認
Yuanhang Zhang, Shuang Yang, Jingyun Xiao, Shiguang Shan, Xilin Chen(参考訳) 近年の深層学習の進歩は、視覚音声認識(VSR)分野の研究者の間で関心が高まっている。 現在、既存のほとんどの手法は、唇の動きを分析して音声認識しようとする自動唇読解とVSRを等価にしている。 しかし、人間の経験や心理学的な研究は、対面会話中に常にお互いの唇を見つめているのではなく、顔全体を反復的にスキャンしていることを示唆している。 これは、VSRモデルが口外顔面領域、すなわち唇を越えて読むことの恩恵を享受できるかどうかという根本的な問題を再考するきっかけとなる。 本稿では, 口, 顔全体, 上顔, 頬部を含む最先端のVSRモデルを用いて, 異なる顔面領域の効果を総合的に評価する。 異なる特徴を持つ単語レベルと文レベルのベンチマークで実験を行う。 複雑なデータの変化にもかかわらず、口腔外顔領域の情報や上面でさえも、常にVSRの性能に寄与することがわかった。 さらに、顔をベースとしたVSRのより識別的な特徴を学習し、異なる顔領域に符号化された情報の有用性を最大化するために、カットアウトに基づく簡易かつ効果的な方法を提案する。 我々の実験は、リップ領域のみを入力として使用する既存の最先端手法よりも明らかに改善されていることを示し、VSRコミュニティに新しいエキサイティングな洞察を与えるだろうと考えている。

Recent advances in deep learning have heightened interest among researchers in the field of visual speech recognition (VSR). Currently, most existing methods equate VSR with automatic lip reading, which attempts to recognise speech by analysing lip motion. However, human experience and psychological studies suggest that we do not always fix our gaze at each other's lips during a face-to-face conversation, but rather scan the whole face repetitively. This inspires us to revisit a fundamental yet somehow overlooked problem: can VSR models benefit from reading extraoral facial regions, i.e. beyond the lips? In this paper, we perform a comprehensive study to evaluate the effects of different facial regions with state-of-the-art VSR models, including the mouth, the whole face, the upper face, and even the cheeks. Experiments are conducted on both word-level and sentence-level benchmarks with different characteristics. We find that despite the complex variations of the data, incorporating information from extraoral facial regions, even the upper face, consistently benefits VSR performance. Furthermore, we introduce a simple yet effective method based on Cutout to learn more discriminative features for face-based VSR, hoping to maximise the utility of information encoded in different facial regions. Our experiments show obvious improvements over existing state-of-the-art methods that use only the lip region as inputs, a result we believe would probably provide the VSR community with some new and exciting insights.
翻訳日:2022-12-26 01:28:46 公開日:2020-03-09
# 超解像のためのピクセルレベル自己ペース学習

Pixel-Level Self-Paced Learning for Super-Resolution ( http://arxiv.org/abs/2003.03113v2 )

ライセンス: Link先を確認
Wei. Lin, Junyu. Gao, Qi. Wang, Xuelong. Li(参考訳) 近年,超解像(sr)画像の精度向上のために,画像ベースで広く利用されている深層ネットワークが多数提案されている。 しかし、これらのネットワークはより深く深く構築されているため、トレーニングにずっと時間がかかるため、学習者を局所的な最適化に導く可能性がある。 この問題に対処するため,本論文では,SISRモデルの収束速度を高速化する,Pixel-level Self-Paced Learning (PSPL) というトレーニング戦略を設計する。 自己ペースト学習を模倣したPSPLは、予測SR画像中の各ピクセルとその対応するピクセルに注意重みを与え、パラメータ空間内のより良い領域にモデルを誘導する。 大規模な実験により、PSPLはSISRモデルの訓練を高速化し、いくつかの既存のモデルに新しいより良い結果を得るよう促すことができた。 さらにソースコードはhttps://github.com/elin24/psplで入手できる。

Recently, lots of deep networks are proposed to improve the quality of predicted super-resolution (SR) images, due to its widespread use in several image-based fields. However, with these networks being constructed deeper and deeper, they also cost much longer time for training, which may guide the learners to local optimization. To tackle this problem, this paper designs a training strategy named Pixel-level Self-Paced Learning (PSPL) to accelerate the convergence velocity of SISR models. PSPL imitating self-paced learning gives each pixel in the predicted SR image and its corresponding pixel in ground truth an attention weight, to guide the model to a better region in parameter space. Extensive experiments proved that PSPL could speed up the training of SISR models, and prompt several existing models to obtain new better results. Furthermore, the source code is available at https://github.com/Elin24/PSPL.
翻訳日:2022-12-26 01:11:09 公開日:2020-03-09
# I-ViSE: 教師なし機能クエリを用いたエッジサービスとしてのインタラクティブビデオ監視

I-ViSE: Interactive Video Surveillance as an Edge Service using Unsupervised Feature Queries ( http://arxiv.org/abs/2003.04169v1 )

ライセンス: Link先を確認
Seyed Yahya Nikouei, Yu Chen, Alexander Aved, Erik Blasch(参考訳) AWareness (SAW)は多くのミッションクリティカルなアプリケーションに必須である。 しかし、興味のあるオブジェクトを即座に識別したり、何千ものビデオフレームから不審なアクティビティを拡大しようとする場合、SAWは非常に難しい。 本研究の目的は、興味深いコンテンツを即座に選択できるクエリ可能なシステムを開発することである。 顔認識技術は成熟しているが、公共の安全監視のような多くのシナリオでは、関心のあるオブジェクトの機能は顔の特徴よりもずっと複雑かもしれない。 加えて、人間の演算子は常に記述的でシンプルで正確なクエリを提供できるとは限らない。 実際には、不審な物や事故に関する粗雑で一般的な記述しか存在しないことが多い。 本稿では、教師なし機能クエリに基づくエッジサービス(I-ViSE)としてインタラクティブビデオ監視を提案する。 プライベート情報を公開しない教師なしの手法を採用するため、I-ViSEスキームは人体の一般的な特徴と衣服の色を利用する。 I-ViSEのプロトタイプはエッジフォッグコンピューティングのパラダイムに従って構築され、実験により、I-ViSE方式がシーン認識の設計目標を2秒以内で満たすことを確認した。

Situation AWareness (SAW) is essential for many mission critical applications. However, SAW is very challenging when trying to immediately identify objects of interest or zoom in on suspicious activities from thousands of video frames. This work aims at developing a queryable system to instantly select interesting content. While face recognition technology is mature, in many scenarios like public safety monitoring, the features of objects of interest may be much more complicated than face features. In addition, human operators may not be always able to provide a descriptive, simple, and accurate query. Actually, it is more often that there are only rough, general descriptions of certain suspicious objects or accidents. This paper proposes an Interactive Video Surveillance as an Edge service (I-ViSE) based on unsupervised feature queries. Adopting unsupervised methods that do not reveal any private information, the I-ViSE scheme utilizes general features of a human body and color of clothes. An I-ViSE prototype is built following the edge-fog computing paradigm and the experimental results verified the I-ViSE scheme meets the design goal of scene recognition in less than two seconds.
翻訳日:2022-12-25 09:38:29 公開日:2020-03-09
# バイノーラル音による意味的物体予測と空間音響超解法

Semantic Object Prediction and Spatial Sound Super-Resolution with Binaural Sounds ( http://arxiv.org/abs/2003.04210v1 )

ライセンス: Link先を確認
Arun Balajee Vasudevan, Dengxin Dai, Luc Van Gool(参考訳) 視覚と聴覚の統合によって、人間はオブジェクトを堅牢に認識し、ローカライズすることができる。 機械は今、画像で同じことをできるが、音声による作業は少ない。 本研究は、純粋にバイノーラル音に基づく、音生成対象の密接な意味的ラベリングへのアプローチを展開する。 本研究では,8つのプロ用バイノーラルマイクと360度カメラを備えた,新たな音響・視覚的ストリートシーンデータセットを提案する。 視覚と音声の手がかりの共存は監督の伝達に利用される。 特に,教師方式と同じ結果を生成するために,教師方式と教師方式の「教師」方式と「学生」方式を組み合わせたクロスモーダル蒸留フレームワークを用いる。 このように、人間のアノテーションを使わずに聴覚システムを訓練することができる。 また,2つの補助的タスクを提案する。 イ 空間音の空間分解能を高めるための空間音の超分解能に関する新しい課題 b)シーンの深い深さの予測。 次に、3つのタスクをエンドツーエンドのトレーニング可能なマルチタスクネットワークに定式化し、全体的なパフォーマンス向上を目指しています。 データセットの実験結果からは 1)本手法は,有望な意味予測と2つの補助課題を実現する。 2) 3つのタスクは相互に有益である。 3) マイクロホンの数と向きはともに重要である。 データとコードがリリースされ、この新たな方向性の研究が促進される。

Humans can robustly recognize and localize objects by integrating visual and auditory cues. While machines are able to do the same now with images, less work has been done with sounds. This work develops an approach for dense semantic labelling of sound-making objects, purely based on binaural sounds. We propose a novel sensor setup and record a new audio-visual dataset of street scenes with eight professional binaural microphones and a 360 degree camera. The co-existence of visual and audio cues is leveraged for supervision transfer. In particular, we employ a cross-modal distillation framework that consists of a vision `teacher' method and a sound `student' method -- the student method is trained to generate the same results as the teacher method. This way, the auditory system can be trained without using human annotations. We also propose two auxiliary tasks namely, a) a novel task on Spatial Sound Super-resolution to increase the spatial resolution of sounds, and b) dense depth prediction of the scene. We then formulate the three tasks into one end-to-end trainable multi-tasking network aiming to boost the overall performance. Experimental results on the dataset show that 1) our method achieves promising results for semantic prediction and the two auxiliary tasks; and 2) the three tasks are mutually beneficial -- training them together achieves the best performance and 3) the number and orientations of microphones are both important. The data and code will be released to facilitate the research in this new direction.
翻訳日:2022-12-25 09:38:10 公開日:2020-03-09
# SOIC:LiDARとカメラのセマンティックオンライン初期化と校正

SOIC: Semantic Online Initialization and Calibration for LiDAR and Camera ( http://arxiv.org/abs/2003.04260v1 )

ライセンス: Link先を確認
Weimin Wang, Shohei Nobuhara, Ryosuke Nakamura, Ken Sakurada(参考訳) 本稿では,光検出・測位(lidar)とカメラセンサのための,新しい意味論的オンライン極値校正手法soic(so, i see)を提案する。 従来のオンラインキャリブレーション手法では、最適化には大まかな初期値の事前知識が必要である。 提案手法では,semantic centroids (scs) の導入により初期化問題を perspective-n-point (pnp) 問題に変換することにより,この制限を解消する。 このPnP問題の閉形式解はよく研究されており、既存のPnP法で見ることができる。 点雲のセマンティクスセンタロイドは通常、対応する画像のそれと正確に一致しないので、非線形精細化処理後もパラメータの精度は向上しない。 これにより、ポイントクラウドと画像データとのセマンティック要素間の対応の制約に基づくコスト関数が定式化される。 その後、コスト関数を最小化して最適外因性パラメータを推定する。 提案手法は,KITTIデータセット上でGTまたは予測セマンティクスを用いて評価する。 実験結果とベースライン法との比較により,初期化戦略の有効性とキャリブレーション手法の精度が検証された。 さらに、ソースコードはhttps://github.com/-/SOIC.com/で公開しています。

This paper presents a novel semantic-based online extrinsic calibration approach, SOIC (so, I see), for Light Detection and Ranging (LiDAR) and camera sensors. Previous online calibration methods usually need prior knowledge of rough initial values for optimization. The proposed approach removes this limitation by converting the initialization problem to a Perspective-n-Point (PnP) problem with the introduction of semantic centroids (SCs). The closed-form solution of this PnP problem has been well researched and can be found with existing PnP methods. Since the semantic centroid of the point cloud usually does not accurately match with that of the corresponding image, the accuracy of parameters are not improved even after a nonlinear refinement process. Thus, a cost function based on the constraint of the correspondence between semantic elements from both point cloud and image data is formulated. Subsequently, optimal extrinsic parameters are estimated by minimizing the cost function. We evaluate the proposed method either with GT or predicted semantics on KITTI dataset. Experimental results and comparisons with the baseline method verify the feasibility of the initialization strategy and the accuracy of the calibration approach. In addition, we release the source code at https://github.com/--/SOIC.
翻訳日:2022-12-25 09:37:50 公開日:2020-03-09
# DeepCP: 閉鎖型ソーシャルネットワークにおけるディープラーニング駆動カスケード予測に基づく自律的コンテンツ配置

DeepCP: Deep Learning Driven Cascade Prediction Based Autonomous Content Placement in Closed Social Network ( http://arxiv.org/abs/2003.03971v1 )

ライセンス: Link先を確認
Qiong Wu and Muhong Wu and Xu Chen and Zhi Zhou and Kaiwen He and Liang Chen(参考訳) オンラインソーシャルネットワーク(OSN)は、コンテンツカスケード拡散の主流プラットフォームとして最も人気がある。 osnsのユーザに対してqoe(quality of experience)を提供するため、オープンなソーシャルネットワークシナリオ(例えばtwitterやweibo)において、伝播パターン、個人のプロフィール、社会的関係を用いて、積極的なコンテンツ配置に多くの研究が費やされている。 本稿では,ユーザのプライバシーが高度に向上した閉鎖型ソーシャルネットワーク(WeChat Momentなど)における人気コンテンツ配置の新たな方向性について述べる。 本稿では,ユーザの個人情報やソーシャル情報を活用することなく,共用拡散認識型カスケード予測と自律コンテンツ配置のための,データ駆動型総合的ディープラーニングフレームワークであるDeepCPを提案する。 まず,コンテンツ人気予測とカスケード地理分布推定のための時間ウィンドウLSTMモデルを考案する。 そこで本研究では, コンテンツアクセス遅延を低減し, ユーザのQoEを向上させるために, GAN(Generative Adversarial Network)をアジャイル配置決定に適用した, 新規なコンテンツ配置機構CP-GANを提案する。 WeChat Moment (WM) におけるカスケード拡散トレースを用いた広範囲な実験を行った。 評価結果は,提案するDeepCPフレームワークがコンテンツ人気を高い精度で予測し,効率的な配置決定をリアルタイムに生成し,既存の方式よりもコンテンツアクセス遅延を大幅に低減できることを示す。

Online social networks (OSNs) are emerging as the most popular mainstream platform for content cascade diffusion. In order to provide satisfactory quality of experience (QoE) for users in OSNs, much research dedicates to proactive content placement by using the propagation pattern, user's personal profiles and social relationships in open social network scenarios (e.g., Twitter and Weibo). In this paper, we take a new direction of popularity-aware content placement in a closed social network (e.g., WeChat Moment) where user's privacy is highly enhanced. We propose a novel data-driven holistic deep learning framework, namely DeepCP, for joint diffusion-aware cascade prediction and autonomous content placement without utilizing users' personal and social information. We first devise a time-window LSTM model for content popularity prediction and cascade geo-distribution estimation. Accordingly, we further propose a novel autonomous content placement mechanism CP-GAN which adopts the generative adversarial network (GAN) for agile placement decision making to reduce the content access latency and enhance users' QoE. We conduct extensive experiments using cascade diffusion traces in WeChat Moment (WM). Evaluation results corroborate that the proposed DeepCP framework can predict the content popularity with a high accuracy, generate efficient placement decision in a real-time manner, and achieve significant content access latency reduction over existing schemes.
翻訳日:2022-12-25 09:37:31 公開日:2020-03-09
# 全神経源分離・計数・ダイアリゼーションシステムによる実雑音残響会議への取り組み

Tackling real noisy reverberant meetings with all-neural source separation, counting, and diarization system ( http://arxiv.org/abs/2003.03987v1 )

ライセンス: Link先を確認
Keisuke Kinoshita, Marc Delcroix, Shoko Araki, Tomohiro Nakatani(参考訳) 自動ミーティング分析は、スマートデバイスが会話に追従し、反応するために必要な、基本的な技術である。 最適な自動ミーティング分析を実現するために,我々は以前,ソース分離,話者ダイアリゼーション,ソースカウント問題(すべての3つのタスクがエラーバックプロパゲーションによって協調的に最適化できるという意味で)を協調的に解決するオールニューラルアプローチを提案した。 提案手法は, クリーン(無雑音, 無響)なダイアログのようなデータを扱うことができ, 従来の手法と比較して非常に優れた性能を示した。 しかし、このような全脳的アプローチが、より自然に話す話者、激しい騒音と残響を含むより複雑な実際の会議データに一般化されるか、そしてそのようなシナリオにおける最先端システムと比較してどのように機能するかは明らかになっていない。 本稿では,まず,all-neuralアプローチのロバスト性向上に必要な実践的課題を検討するとともに,実際のミーティングシナリオにおいても,all-neuralアプローチが効果的な音声強調を行い,最先端システムよりも優れることを示す。

Automatic meeting analysis is an essential fundamental technology required to let, e.g. smart devices follow and respond to our conversations. To achieve an optimal automatic meeting analysis, we previously proposed an all-neural approach that jointly solves source separation, speaker diarization and source counting problems in an optimal way (in a sense that all the 3 tasks can be jointly optimized through error back-propagation). It was shown that the method could well handle simulated clean (noiseless and anechoic) dialog-like data, and achieved very good performance in comparison with several conventional methods. However, it was not clear whether such all-neural approach would be successfully generalized to more complicated real meeting data containing more spontaneously-speaking speakers, severe noise and reverberation, and how it performs in comparison with the state-of-the-art systems in such scenarios. In this paper, we first consider practical issues required for improving the robustness of the all-neural approach, and then experimentally show that, even in real meeting scenarios, the all-neural approach can perform effective speech enhancement, and simultaneously outperform state-of-the-art systems.
翻訳日:2022-12-25 09:37:06 公開日:2020-03-09
# 単チャネル時間領域拡張ネットワークによる雑音ロバスト自動音声認識の改善

Improving noise robust automatic speech recognition with single-channel time-domain enhancement network ( http://arxiv.org/abs/2003.03998v1 )

ライセンス: Link先を確認
Keisuke Kinoshita, Tsubasa Ochiai, Marc Delcroix, Tomohiro Nakatani(参考訳) ディープラーニングの出現に伴い,ノイズロスト音声認識(ASR)の研究が急速に進んでいる。 しかし,単一チャネルシステムの雑音条件下でのASR性能は相容れない。 実際、ほとんどのシングルチャネル音声強調法(SE)は、マルチコンディショントレーニングデータに基づいてトレーニングされた最先端のASRバックエンドよりも、限られた性能向上しか得られていない。 近年、ニューラルネットワークベースのseメソッドは、これまで達成されたことのないパフォーマンスレベルを示す時間領域で動作するという多くの研究がなされている。 しかし、そのような時間領域アプローチによって達成された高い向上性能がASRに変換できるかどうかは定かではない。 本稿では,CHiME-4データセットの単一チャネルトラックの実際の評価データに基づいて,強力なASRバックエンド上での単語誤り率を30%以上削減し,単一チャネル時間領域デノベート手法によりASR性能を著しく向上させることができることを示す。 これらの肯定的な結果は、シングルチャネルノイズ低減がasr性能を改善できることを示している。

With the advent of deep learning, research on noise-robust automatic speech recognition (ASR) has progressed rapidly. However, ASR performance in noisy conditions of single-channel systems remains unsatisfactory. Indeed, most single-channel speech enhancement (SE) methods (denoising) have brought only limited performance gains over state-of-the-art ASR back-end trained on multi-condition training data. Recently, there has been much research on neural network-based SE methods working in the time-domain showing levels of performance never attained before. However, it has not been established whether the high enhancement performance achieved by such time-domain approaches could be translated into ASR. In this paper, we show that a single-channel time-domain denoising approach can significantly improve ASR performance, providing more than 30 % relative word error reduction over a strong ASR back-end on the real evaluation data of the single-channel track of the CHiME-4 dataset. These positive results demonstrate that single-channel noise reduction can still improve ASR performance, which should open the door to more research in that direction.
翻訳日:2022-12-25 09:36:43 公開日:2020-03-09
# 差動ネットワーク分析:統計学的考察

Differential Network Analysis: A Statistical Perspective ( http://arxiv.org/abs/2003.04235v1 )

ライセンス: Link先を確認
Ali Shojaie(参考訳) ネットワークは複雑なシステムのコンポーネント間の相互作用を効果的に捉え、多くの科学分野において主要な柱となっている。 特に生物学からの証拠の増大は、ネットワークが時間とともに変化し、外部からの刺激に反応することを示唆している。 生物学や医学では、これらの変化は複雑な疾患を予測できる。 また、疾患の発症と進行のメカニズムについての洞察を得るためにも用いられる。 本稿では,ネットワークを推論し,その構造変化を特定するための最近の統計的機械学習手法について概説する。

Networks effectively capture interactions among components of complex systems, and have thus become a mainstay in many scientific disciplines. Growing evidence, especially from biology, suggest that networks undergo changes over time, and in response to external stimuli. In biology and medicine, these changes have been found to be predictive of complex diseases. They have also been used to gain insight into mechanisms of disease initiation and progression. Primarily motivated by biological applications, this article provides a review of recent statistical machine learning methods for inferring networks and identifying changes in their structures.
翻訳日:2022-12-25 09:35:45 公開日:2020-03-09
# ブラックボックス関数最適化におけるヒューマンアクティブサーチのモデル化

Modelling Human Active Search in Optimizing Black-box Functions ( http://arxiv.org/abs/2003.04275v1 )

ライセンス: Link先を確認
Antonio Candelieri, Riccardo Perego, Ilaria Giordani, Andrea Ponti, Francesco Archetti(参考訳) 人間の機能学習をモデル化することは認知科学におけるインセンス研究の主題となっている。 このトピックは、目的および/または制約に関する情報が入手できず、関数評価を通じて学ぶ必要があるブラックボックス最適化に関係している。 本稿では,最大値を求める人間の行動とベイズ最適化における確率モデルとの関係に注目した。 ガウス過程とランダムフォレストの両方の未知関数の代理モデルとして、ベイズ学習パラダイムは、大きな決定空間における効果的な一般化に向けて、不確実な条件における探索と探索のバランスをとる活発な学習アプローチの開発の中心である。 本稿では,ベイズ最適化が未知の2次元関数の最大値を求める人間とどのように比較されるかを実験的に解析する。 双方の代理モデルを用いた60人の被験者による制御実験により、ベイズ最適化が人間の活動学習の個々のパターンを表現する一般的なモデルを提供することを確認した。

Modelling human function learning has been the subject of in-tense research in cognitive sciences. The topic is relevant in black-box optimization where information about the objective and/or constraints is not available and must be learned through function evaluations. In this paper we focus on the relation between the behaviour of humans searching for the maximum and the probabilistic model used in Bayesian Optimization. As surrogate models of the unknown function both Gaussian Processes and Random Forest have been considered: the Bayesian learning paradigm is central in the development of active learning approaches balancing exploration/exploitation in uncertain conditions towards effective generalization in large decision spaces. In this paper we analyse experimentally how Bayesian Optimization compares to humans searching for the maximum of an unknown 2D function. A set of controlled experiments with 60 subjects, using both surrogate models, confirm that Bayesian Optimization provides a general model to represent individual patterns of active learning in humans
翻訳日:2022-12-25 09:35:36 公開日:2020-03-09
# 人物再同定モデルを用いたファッション検索のための強固なベースライン

A Strong Baseline for Fashion Retrieval with Person Re-Identification Models ( http://arxiv.org/abs/2003.04094v1 )

ライセンス: Link先を確認
Mikolaj Wieczorek (1), Andrzej Michalowski (1), Anna Wroblewska (1 and 2), Jacek Dabrowski (1) ((1) Synerise, (2) Warsaw University of Technology)(参考訳) ファッション検索は、画像に含まれるファッションアイテムの正確なマッチングを見つけるのに難しいタスクである。 困難は衣料品の細かな性質、非常に大きなクラス内およびクラス間ばらつきから生じる。 さらに、タスクのクエリとソースイメージは、それぞれ異なるドメイン – ストリート写真とカタログ写真 – から生まれることが多い。 これらの違いにより、領域間で品質、照明、コントラスト、背景の散らばり、アイテムの提示において大きなギャップが存在する。 結果として、ファッション検索は学術と産業の両方の研究の活発な分野である。 近年のPerson Re-Identification研究の進展に触発されて,ファッション検索に使用されるリード型ReIDモデルに適応する。 ファッション検索のためのシンプルなベースラインモデルを導入し、よりシンプルなアーキテクチャにもかかわらず、これまでの最先端の結果を著しく上回っている。 Street2ShopとDeepFashionのデータセットで詳細な実験を行い、その結果を検証する。 最後に,ファッション検索モデルのロバスト性をテストするためのクロスドメイン(クロスデータセット)評価手法を提案する。

Fashion retrieval is the challenging task of finding an exact match for fashion items contained within an image. Difficulties arise from the fine-grained nature of clothing items, very large intra-class and inter-class variance. Additionally, query and source images for the task usually come from different domains - street photos and catalogue photos respectively. Due to these differences, a significant gap in quality, lighting, contrast, background clutter and item presentation exists between domains. As a result, fashion retrieval is an active field of research both in academia and the industry. Inspired by recent advancements in Person Re-Identification research, we adapt leading ReID models to be used in fashion retrieval tasks. We introduce a simple baseline model for fashion retrieval, significantly outperforming previous state-of-the-art results despite a much simpler architecture. We conduct in-depth experiments on Street2Shop and DeepFashion datasets and validate our results. Finally, we propose a cross-domain (cross-dataset) evaluation method to test the robustness of fashion retrieval models.
翻訳日:2022-12-25 09:29:09 公開日:2020-03-09
# 確率的分割(PPP)

Probabilistic Partitive Partitioning (PPP) ( http://arxiv.org/abs/2003.04372v1 )

ライセンス: Link先を確認
Mujahid Sultan(参考訳) クラスタリングはNPハードの問題である。 したがって、最適なアルゴリズムはなく、データのクラスタ化にヒューリスティックが適用される。 ヒューリスティックは適切に適用されていないとしても、非常にリソース集約的である。 実質的に大きなデータセットの場合、情報の損失を最小限に抑えれば、入力空間を減らすことで計算効率を実現できる。 クラスタリングアルゴリズムは一般的に2つの一般的な問題に直面している。 1)これらは,異なる初期条件で異なる設定に収束し, 2) クラスターの数は事前に任意に決めなければならない。 この問題はビッグデータの分野では重要になっている。 近年,グリッド上の並列処理を用いた計算を高速化するクラスタリングアルゴリズムが登場し,上記の問題に直面している。 目標: 目標は、データをクラスタ化する方法を見つけることです。 1) 初期条件にかかわらず,同一の設定への収束を保証する。 2)事前にクラスタ数を確立する必要をなくし、 3) 大規模データセットのクラスタに適用できる。 方法: 確率的, 組合せ的クラスタリング法を組み合わせて, 初期条件に敏感でない反復的, コンパクトなクラスタを生成する手法を提案する。 この方法は、k-means(組合せクラスタリング法)のパワーを非常に大きなデータセットのクラスタ/パーティショニングに利用し、ガウス混合モデル(確率的クラスタリング法)を用いてk-meansパーティションを検証する。 結果:本手法は初期条件に敏感でない非常にコンパクトなクラスタを生成することを示す。 この方法は、データセットの'クラスタビリティ'を増加させるデータセットで最も分離可能な'セットを特定するために使用することができる。 この方法では、事前にクラスタ数を指定する必要もなくなる。

Clustering is a NP-hard problem. Thus, no optimal algorithm exists, heuristics are applied to cluster the data. Heuristics can be very resource-intensive, if not applied properly. For substantially large data sets computational efficiencies can be achieved by reducing the input space if a minimal loss of information can be achieved. Clustering algorithms, in general, face two common problems: 1) these converge to different settings with different initial conditions and; 2) the number of clusters has to be arbitrarily decided beforehand. This problem has become critical in the realm of big data. Recently, clustering algorithms have emerged which can speedup computations using parallel processing over the grid but face the aforementioned problems. Goals: Our goals are to find methods to cluster data which: 1) guarantee convergence to the same settings irrespective of the initial conditions; 2) eliminate the need to establish the number of clusters beforehand, and 3) can be applied to cluster large datasets. Methods: We introduce a method that combines probabilistic and combinatorial clustering methods to produce repeatable and compact clusters that are not sensitive to initial conditions. This method harnesses the power of k-means (a combinatorial clustering method) to cluster/partition very large dimensional datasets and uses the Gaussian Mixture Model (a probabilistic clustering method) to validate the k-means partitions. Results: We show that this method produces very compact clusters that are not sensitive to initial conditions. This method can be used to identify the most 'separable' set in a dataset which increases the 'clusterability' of a dataset. This method also eliminates the need to specify the number of clusters in advance.
翻訳日:2022-12-25 09:27:44 公開日:2020-03-09
# ステレオビジョンと多項式フィッティングに基づく縞状突起プロフィロメトリーのハイブリッド校正法

Hybrid calibration procedure for fringe projection profilometry based on stereo-vision and polynomial fitting ( http://arxiv.org/abs/2003.04168v1 )

ライセンス: Link先を確認
Raul Vargas, Andres G. Marrugo, Song Zhang, Lenny A. Romero(参考訳) フランジ投影プロファイロメトリー(FPP)における正確な3次元形状測定の鍵は、測定システムの適切な校正である。 現在の校正技術は位相座標マッピング(PCM)や後方投影ステレオビジョン(SV)方式に依存している。 PCM法は、FPP法と比較してキャリブレーションターゲットの正確な位置決めを必要とするため実装が難しいが、キャリブレーションボリューム内での高精度な測定を行う。 SV法は一般に同じ精度を達成できない。 しかし、キャリブレーション対象を任意に位置決めできるので、キャリブレーションはより柔軟である。 そこで本研究では,PCM法を用いたSVキャリブレーション手法を用いて,高い精度を実現するハイブリッドキャリブレーション手法を提案する。 この方法はSV法の柔軟性を持ち、レンズ歪みに対して頑健であり、回収した位相と距離座標との単純な関係を持つ。 実験の結果,提案手法は計算量が少ないため,sv法よりも精度と再構成時間において優れることがわかった。

The key to accurate 3D shape measurement in Fringe Projection Profilometry (FPP) is the proper calibration of the measurement system. Current calibration techniques rely on phase-coordinate mapping (PCM) or back-projection stereo-vision (SV) methods. PCM methods are cumbersome to implement as they require precise positioning of the calibration target relative to the FPP system but produce highly accurate measurements within the calibration volume. SV methods generally do not achieve the same accuracy level. However, the calibration is more flexible in that the calibration target can be arbitrarily positioned. In this work, we propose a hybrid calibration method that leverages the SV calibration approach using a PCM method to achieve higher accuracy. The method has the flexibility of SV methods, is robust to lens distortions, and has a simple relation between the recovered phase and the metric coordinates. Experimental results show that the proposed Hybrid method outperforms the SV method in terms of accuracy and reconstruction time due to its low computational complexity.
翻訳日:2022-12-25 09:26:44 公開日:2020-03-09
# 風中の布 : シミュレーションによる物理計測を事例として

Cloth in the Wind: A Case Study of Physical Measurement through Simulation ( http://arxiv.org/abs/2003.05065v1 )

ライセンス: Link先を確認
Tom F.H. Runia, Kirill Gavrilyuk, Cees G.M. Snoek, Arnold W.M. Smeulders(参考訳) 私たちを取り巻く多くの物理現象に対して、我々はそれらの振る舞いを説明する洗練されたモデルを開発した。 それでも、物質特性や外部力を含む多くの因果的物理パラメータが原因で、視覚的な観察から物理的特性を測定することは困難である。 本稿では,実例を見ることなく,風中の布の潜伏物性を測定することを提案する。 私たちのソリューションは、シミュレーションを核とする反復的なリファインメント手順です。 このアルゴリズムは、観測された現象のシミュレーションを実行し、現在のシミュレーションと実世界の観測を比較して、物理モデルパラメータを徐々に更新する。 この対応は、物理的に類似した例を近くの点にマップする埋め込み関数を用いて測定される。 風の布のケーススタディを考えて、カーリングフラッグを主な例として挙げます。 布の物理とその視覚的表現に基づいて,組込み関数のインスタンス化を提案する。 深層ネットワークとしてモデル化されたこのマッピングでは,ビデオボリュームを時間的スペクトルパワーと対応する周波数に分解するスペクトル層を導入する。 提案手法は,実世界の映像から布素材特性と外風力を測定する作業において,先行研究と好適に比較できることを示す。

For many of the physical phenomena around us, we have developed sophisticated models explaining their behavior. Nevertheless, measuring physical properties from visual observations is challenging due to the high number of causally underlying physical parameters -- including material properties and external forces. In this paper, we propose to measure latent physical properties for cloth in the wind without ever having seen a real example before. Our solution is an iterative refinement procedure with simulation at its core. The algorithm gradually updates the physical model parameters by running a simulation of the observed phenomenon and comparing the current simulation to a real-world observation. The correspondence is measured using an embedding function that maps physically similar examples to nearby points. We consider a case study of cloth in the wind, with curling flags as our leading example -- a seemingly simple phenomena but physically highly involved. Based on the physics of cloth and its visual manifestation, we propose an instantiation of the embedding function. For this mapping, modeled as a deep network, we introduce a spectral layer that decomposes a video volume into its temporal spectral power and corresponding frequencies. Our experiments demonstrate that the proposed method compares favorably to prior work on the task of measuring cloth material properties and external wind force from a real-world video.
翻訳日:2022-12-25 09:19:16 公開日:2020-03-09
# アメリカ手話認識のための生成的マルチストリームアーキテクチャ

Generative Multi-Stream Architecture For American Sign Language Recognition ( http://arxiv.org/abs/2003.08743v1 )

ライセンス: Link先を確認
Dom Huh, Sai Gurrapu, Frederick Olson, Huzefa Rangwala, Parth Pathak, Jana Kosecka(参考訳) ディープモデルアーキテクチャの進歩により、コンピュータビジョンのタスクは適切なデータ前処理とモデルパラメータの初期化により最適な収束に到達できる。 しかしながら、複雑なアプリケーションのための機能豊富度の低いデータセットのトレーニングは、人間のパフォーマンス以下の最適収束を制限している。 過去の研究で、研究者は補助ハードウェアのコストで補完データの外部ソースを提供しており、この制限に対処し、性能を高めるためにストリームに供給されている。 提案する生成型マルチストリームアーキテクチャは,非現実性を危険にさらすことなく,機能豊かさ向上を目的としたハードウェアの追加の必要性を解消する。 また,標準3次元畳み込みモデルであるC3Dにコンパクトな時空間残差ブロックを導入する。 我々のrC3DモデルはFASL-RGBデータセット上で,上位のC3D残差変動型アーキテクチャ,擬似3Dモデルに対して相対的に動作する。 検証精度は95.62%で, トレーニングによるばらつきは1.42%であり, 検証精度は0.45%, ばらつきは5.53%であった。

With advancements in deep model architectures, tasks in computer vision can reach optimal convergence provided proper data preprocessing and model parameter initialization. However, training on datasets with low feature-richness for complex applications limit and detriment optimal convergence below human performance. In past works, researchers have provided external sources of complementary data at the cost of supplementary hardware, which are fed in streams to counteract this limitation and boost performance. We propose a generative multi-stream architecture, eliminating the need for additional hardware with the intent to improve feature richness without risking impracticability. We also introduce the compact spatio-temporal residual block to the standard 3-dimensional convolutional model, C3D. Our rC3D model performs comparatively to the top C3D residual variant architecture, the pseudo-3D model, on the FASL-RGB dataset. Our methods have achieved 95.62% validation accuracy with a variance of 1.42% from training, outperforming past models by 0.45% in validation accuracy and 5.53% in variance.
翻訳日:2022-12-25 09:18:57 公開日:2020-03-09
# IROF : 説明手法のための低リソース評価指標

IROF: a low resource evaluation metric for explanation methods ( http://arxiv.org/abs/2003.08747v1 )

ライセンス: Link先を確認
Laura Rieger, Lars Kai Hansen(参考訳) 医療における機械学習の採用は、使用済みアルゴリズムの透明性に基づいており、説明方法の必要性を欠いている。 しかし、ニューラルネットワークの説明に関する文献が増えているにもかかわらず、これらの説明方法を評価する方法については合意が得られていない。 IROFは,手動による評価を回避し,説明手法の評価を行う新しい手法である。 他の最近の研究と比較すると、我々の手法は計算資源が桁違いに少なく、人間の入力が不要であり、リソース群が低く、人間のバイアスに頑健である。

The adoption of machine learning in health care hinges on the transparency of the used algorithms, necessitating the need for explanation methods. However, despite a growing literature on explaining neural networks, no consensus has been reached on how to evaluate those explanation methods. We propose IROF, a new approach to evaluating explanation methods that circumvents the need for manual evaluation. Compared to other recent work, our approach requires several orders of magnitude less computational resources and no human input, making it accessible to lower resource groups and robust to human bias.
翻訳日:2022-12-25 09:18:39 公開日:2020-03-09
# 自動運転の計画支援ツールの概要

Overview of Tools Supporting Planning for Automated Driving ( http://arxiv.org/abs/2003.04081v1 )

ライセンス: Link先を確認
Kailin Tong, Zlatan Ajanovic and Georg Stettinger(参考訳) 計画は自動運転の領域において不可欠なトピックである。 文献で広く取り上げられている計画アルゴリズムに加えて、計画には開発、検証、実行のために異なるソフトウェアツールが必要である。 本稿では,地図表現,コミュニケーション,トラフィックルール,オープンソースの計画スタックとミドルウェア,シミュレーション,可視化ツール,ベンチマークなどのツールに関する調査を行う。 まず、計画タスクと異なるサポートツールを定義することから始めます。 次に,最先端の発展に関する総合的なレビューを行い,それらの関係の分析を行う。 最後に,現在のギャップを議論し,今後の研究の方向性を提案する。

Planning is an essential topic in the realm of automated driving. Besides planning algorithms that are widely covered in the literature, planning requires different software tools for its development, validation, and execution. This paper presents a survey of such tools including map representations, communication, traffic rules, open-source planning stacks and middleware, simulation, and visualization tools as well as benchmarks. We start by defining the planning task and different supporting tools. Next, we provide a comprehensive review of state-of-the-art developments and analysis of relations among them. Finally, we discuss the current gaps and suggest future research directions.
翻訳日:2022-12-25 09:18:14 公開日:2020-03-09
# 単純な正規パスクエリの封じ込め

Containment of Simple Regular Path Queries ( http://arxiv.org/abs/2003.04411v1 )

ライセンス: Link先を確認
Diego Figueira and Adwait Godbole and S. Krishna and Wim Martens and Matthias Niewerth and Tina Trautner(参考訳) クエリの封じ込めテストは、知識表現における基本的な推論タスクである。 本稿では、オントロジーやグラフデータベースクエリで広く使われているナビゲーションクエリ言語CRPQ(Conjunctive Regular Path Queries)の包摂問題について検討する。 一般に CRPQ の包接化は expspace-complete であることが知られているが,近年のいくつかの研究によると,本研究は極めて限定的な断片に焦点をあてている。 np,pitwo,pspace,expspaceの完全性によって,クエリの正規表現で使用される特徴に応じて,格納問題の複雑さを詳細に概観する。

Testing containment of queries is a fundamental reasoning task in knowledge representation. We study here the containment problem for Conjunctive Regular Path Queries (CRPQs), a navigational query language extensively used in ontology and graph database querying. While it is known that containment of CRPQs is expspace-complete in general, we focus here on severely restricted fragments, which are known to be highly relevant in practice according to several recent studies. We obtain a detailed overview of the complexity of the containment problem, depending on the features used in the regular expressions of the queries, with completeness results for np, pitwo, pspace or expspace.
翻訳日:2022-12-25 09:17:52 公開日:2020-03-09
# farsee-net: 効率的なマルチスケールコンテキストアグリゲーションと特徴空間超解像によるリアルタイム意味セグメンテーション

FarSee-Net: Real-Time Semantic Segmentation by Efficient Multi-scale Context Aggregation and Feature Space Super-resolution ( http://arxiv.org/abs/2003.03913v1 )

ライセンス: Link先を確認
Zhanpeng Zhang and Kaipeng Zhang(参考訳) リアルタイムセマンティクスセグメンテーションは、限られた計算リソースを持つ多くのロボットアプリケーションで望ましい。 セマンティックセグメンテーションの課題のひとつは、オブジェクトスケールのバリエーションに対処し、コンテキストを活用することだ。 限られた計算予算内でのマルチスケールコンテキストアグリゲーションの実行方法が重要である。 本稿では,まず,Cascaded Factorized Atrous Spatial Pyramid Pooling (CF-ASPP) と呼ばれる,新規で効率的なモジュールを紹介する。 畳み込みニューラルネットワーク(cnns)のための軽量なカスケード構造であり、コンテキスト情報を効率的に活用する。 一方、ランタイム効率では、最先端のメソッドは、初期のネットワークステージにおいて、入力やフィーチャーマップの空間サイズを迅速に減少させる。 最終的な高分解能は、通常ノンパラメトリックアップサンプリング演算(例えば双線型補間)によって得られる。 異なるのは、パイプラインを再考し、超解像度プロセスとして扱うことです。 超解像処理をアップサンプリングステップで最適化し、特にリアルタイムアプリケーションのためのサブサンプリング入力画像シナリオにおいて精度を向上させる。 上記の2つの改善を融合することにより,本手法は他の最先端手法よりも高いレイテンシ精度のトレードオフを実現する。 特に,1枚のNivida Titan X (Maxwell) GPUカードを用いたCityscapesテストセットにおいて,68.4% mIoUを84fpsで達成した。 提案モジュールは任意の機能抽出CNNにプラグインすることができ、CNN構造開発の恩恵を受けることができる。

Real-time semantic segmentation is desirable in many robotic applications with limited computation resources. One challenge of semantic segmentation is to deal with the object scale variations and leverage the context. How to perform multi-scale context aggregation within limited computation budget is important. In this paper, firstly, we introduce a novel and efficient module called Cascaded Factorized Atrous Spatial Pyramid Pooling (CF-ASPP). It is a lightweight cascaded structure for Convolutional Neural Networks (CNNs) to efficiently leverage context information. On the other hand, for runtime efficiency, state-of-the-art methods will quickly decrease the spatial size of the inputs or feature maps in the early network stages. The final high-resolution result is usually obtained by non-parametric up-sampling operation (e.g. bilinear interpolation). Differently, we rethink this pipeline and treat it as a super-resolution process. We use optimized super-resolution operation in the up-sampling step and improve the accuracy, especially in sub-sampled input image scenario for real-time applications. By fusing the above two improvements, our methods provide better latency-accuracy trade-off than the other state-of-the-art methods. In particular, we achieve 68.4% mIoU at 84 fps on the Cityscapes test set with a single Nivida Titan X (Maxwell) GPU card. The proposed module can be plugged into any feature extraction CNN and benefits from the CNN structure development.
翻訳日:2022-12-25 09:17:40 公開日:2020-03-09
# iFAN: 適応オブジェクト検出のためのイメージインスタンスフルアライメントネットワーク

iFAN: Image-Instance Full Alignment Networks for Adaptive Object Detection ( http://arxiv.org/abs/2003.04132v1 )

ライセンス: Link先を確認
Chenfan Zhuang, Xintong Han, Weilin Huang, Matthew R. Scott(参考訳) データリッチなドメインでオブジェクト検出器をトレーニングし、パフォーマンスの低下が制限されたデータポアにそれを適用することは、業界において非常に魅力的なことです。 教師なし領域適応オブジェクト検出に関する最近の研究は、逆学習によるソースとターゲット画像間のデータ分布の整合が極めて有用であることを検証している。 重要なのは、いつ、どこで、どのようにベストプラクティスを達成するかです。 画像とインスタンスレベルの特徴分布を正確に整合させることにより、この問題に対処するための画像インスタンスフルアライメントネットワーク(iFAN)を提案する。 1) 画像レベルのアライメント: マルチスケールな特徴は, 階層的な手法で, 敵ドメイン分類器の訓練によって概ね整列する。 2) 完全なインスタンスレベルのアライメント: カテゴリとドメイン間の強い関係を確立するために、深いセマンティック情報と精巧なインスタンス表現が完全に活用される。 これらの相関関係の確立は、インスタンスペアを慎重に構築することにより、計量学習問題として定式化される。 上述の適応をオブジェクト検出器(例えばより高速なRCNN)に統合することで、複数のアライメントが粗い方法で協調動作するエンドツーエンドのトレーニング可能なフレームワークを実現する。 2つのドメイン適応タスク:Synthetic-to-real(SIM10K->Cityscapes)とNormal-to-foggy weather(Cityscapes->Foggy Cityscapes)では、iFANはソースのみのベースライン上で10%以上のAPで最先端の手法より優れている。

Training an object detector on a data-rich domain and applying it to a data-poor one with limited performance drop is highly attractive in industry, because it saves huge annotation cost. Recent research on unsupervised domain adaptive object detection has verified that aligning data distributions between source and target images through adversarial learning is very useful. The key is when, where and how to use it to achieve best practice. We propose Image-Instance Full Alignment Networks (iFAN) to tackle this problem by precisely aligning feature distributions on both image and instance levels: 1) Image-level alignment: multi-scale features are roughly aligned by training adversarial domain classifiers in a hierarchically-nested fashion. 2) Full instance-level alignment: deep semantic information and elaborate instance representations are fully exploited to establish a strong relationship among categories and domains. Establishing these correlations is formulated as a metric learning problem by carefully constructing instance pairs. Above-mentioned adaptations can be integrated into an object detector (e.g. Faster RCNN), resulting in an end-to-end trainable framework where multiple alignments can work collaboratively in a coarse-tofine manner. In two domain adaptation tasks: synthetic-to-real (SIM10K->Cityscapes) and normal-to-foggy weather (Cityscapes->Foggy Cityscapes), iFAN outperforms the state-of-the-art methods with a boost of 10%+ AP over the source-only baseline.
翻訳日:2022-12-25 09:11:40 公開日:2020-03-09
# 関連認識ピラミッドネットワークを用いた高精度時空間行動提案生成

Accurate Temporal Action Proposal Generation with Relation-Aware Pyramid Network ( http://arxiv.org/abs/2003.04145v1 )

ライセンス: Link先を確認
Jialin Gao, Zhixiang Shi, Jiani Li, Guanshuo Wang, Yufeng Yuan, Shiming Ge, and Xi Zhou(参考訳) 正確な時間的アクション提案は、未トリミングビデオからのアクションを検出する上で重要な役割を果たす。 既存のアプローチでは、グローバルなコンテキスト情報をキャプチャし、異なる期間のアクションを同時にローカライズすることが困難である。 そこで我々は,高精度な時間的行動提案を生成するためのRapNet(Relation-Aware pyramid Network)を提案する。 RapNetでは、コンテキスト蒸留のための局所的な特徴間の双方向の長距離関係を利用するために、新しいリレーションアウェアモジュールが導入された。 この組み込みモジュールは、予め定義されたアンカーボックスが与えられたとき、RapNetのマルチグラニュラリティ時間的提案生成能力を向上する。 さらに,提案境界を洗練し,スニペットレベルの動作性を持つアクションを含むことに対する信頼度を測定するため,二段階調整方式を導入する。 挑戦的なActivityNetとTHUMOS14ベンチマークに関する大規模な実験は、RapNetが既存の最先端メソッドよりも優れた正確な提案を生成することを示した。

Accurate temporal action proposals play an important role in detecting actions from untrimmed videos. The existing approaches have difficulties in capturing global contextual information and simultaneously localizing actions with different durations. To this end, we propose a Relation-aware pyramid Network (RapNet) to generate highly accurate temporal action proposals. In RapNet, a novel relation-aware module is introduced to exploit bi-directional long-range relations between local features for context distilling. This embedded module enhances the RapNet in terms of its multi-granularity temporal proposal generation ability, given predefined anchor boxes. We further introduce a two-stage adjustment scheme to refine the proposal boundaries and measure their confidence in containing an action with snippet-level actionness. Extensive experiments on the challenging ActivityNet and THUMOS14 benchmarks demonstrate our RapNet generates superior accurate proposals over the existing state-of-the-art methods.
翻訳日:2022-12-25 09:11:10 公開日:2020-03-09
# BirdNet+:LiDAR Bird's Eye Viewにおける3Dオブジェクトの終端検出

BirdNet+: End-to-End 3D Object Detection in LiDAR Bird's Eye View ( http://arxiv.org/abs/2003.04188v1 )

ライセンス: Link先を確認
Alejandro Barrera, Carlos Guindel, Jorge Beltr\'an and Fernando Garc\'ia(参考訳) 自動運転車のオンボード3Dオブジェクト検出は、LiDARデバイスが捉えた幾何学情報に依存することが多い。 画像の特徴は一般的に検出に好まれるが、多くのアプローチは入力として空間データのみを取る。 この情報を推論で展開するには、通常、情報の損失を伴い、オブジェクトの3Dボックスの全てのパラメータのジョイント推論を妨げるバードアイビュー(BEV)プロジェクションのようなコンパクトな表現を使用する必要がある。 本稿では,2段階の物体検出器とアドホック回帰分枝を用いて,bev画像からのみ指向性3dボックスを推定し,後処理の必要をなくすための,完全エンドツーエンドの3dオブジェクト検出フレームワークを提案する。 この手法は, 評価におけるすべてのカテゴリに対して, KITTI 3D Object Detection Benchmark の最先端結果を得るとともに, 先行技術(BirdNet)よりも優れる。

On-board 3D object detection in autonomous vehicles often relies on geometry information captured by LiDAR devices. Albeit image features are typically preferred for detection, numerous approaches take only spatial data as input. Exploiting this information in inference usually involves the use of compact representations such as the Bird's Eye View (BEV) projection, which entails a loss of information and thus hinders the joint inference of all the parameters of the objects' 3D boxes. In this paper, we present a fully end-to-end 3D object detection framework that can infer oriented 3D boxes solely from BEV images by using a two-stage object detector and ad-hoc regression branches, eliminating the need for a post-processing stage. The method outperforms its predecessor (BirdNet) by a large margin and obtains state-of-the-art results on the KITTI 3D Object Detection Benchmark for all the categories in evaluation.
翻訳日:2022-12-25 09:10:52 公開日:2020-03-09
# モーメントコントラスト学習によるベースラインの改良

Improved Baselines with Momentum Contrastive Learning ( http://arxiv.org/abs/2003.04297v1 )

ライセンス: Link先を確認
Xinlei Chen and Haoqi Fan and Ross Girshick and Kaiming He(参考訳) 対照的に教師なしの学習は近年、Momentum Contrast (MoCo) やSimCLRなど、活発な進歩を示している。 本稿では,MoCoフレームワークに実装することで,SimCLRの設計改善の2つの有効性を検証する。 つまり、MLPプロジェクションヘッドとさらなるデータ拡張を使用することで、SimCLRよりも優れたベースラインを確立し、大規模なトレーニングバッチを必要としない。 これが、最先端の教師なし学習研究をよりアクセスしやすくすることを期待しています。 コードは公開されます。

Contrastive unsupervised learning has recently shown encouraging progress, e.g., in Momentum Contrast (MoCo) and SimCLR. In this note, we verify the effectiveness of two of SimCLR's design improvements by implementing them in the MoCo framework. With simple modifications to MoCo---namely, using an MLP projection head and more data augmentation---we establish stronger baselines that outperform SimCLR and do not require large training batches. We hope this will make state-of-the-art unsupervised learning research more accessible. Code will be made public.
翻訳日:2022-12-25 09:10:15 公開日:2020-03-09
# Patch-based Nearest Neighbor Matching によるテクスチャスーパーピクセルクラスタリング

Texture Superpixel Clustering from Patch-based Nearest Neighbor Matching ( http://arxiv.org/abs/2003.04414v1 )

ライセンス: Link先を確認
R\'emi Giraud, Yannick Berthoumieu(参考訳) スーパーピクセルはコンピュータビジョンアプリケーションで広く使われている。 それでも、分解方法は局所的なテクスチャに応じて画像ピクセルを効率的にクラスタリングできない可能性がある。 本稿では,従来の手法と比較してテクスチャ認識型スーパーピクセルを限られた計算時間で生成する,最寄りのnear-based superpixel clustering (nnsc) 法を提案する。 パッチベースの近接マッチングを用いた新しいクラスタリングフレームワークを導入し,既存の手法のほとんどは画素単位のK平均クラスタリングに基づいている。 したがって、テクスチャ情報をキャプチャできるパッチスペースに画素を直接グループ化する。 本稿では,標準色とテクスチャのデータセットにおけるセグメンテーション性能の比較を行い,提案手法の有効性を示す。 また,最近のテクスチャ対応スーパーピクセル法と比較して,NNSCの計算効率を示す。

Superpixels are widely used in computer vision applications. Nevertheless, decomposition methods may still fail to efficiently cluster image pixels according to their local texture. In this paper, we propose a new Nearest Neighbor-based Superpixel Clustering (NNSC) method to generate texture-aware superpixels in a limited computational time compared to previous approaches. We introduce a new clustering framework using patch-based nearest neighbor matching, while most existing methods are based on a pixel-wise K-means clustering. Therefore, we directly group pixels in the patch space enabling to capture texture information. We demonstrate the efficiency of our method with favorable comparison in terms of segmentation performances on both standard color and texture datasets. We also show the computational efficiency of NNSC compared to recent texture-aware superpixel methods.
翻訳日:2022-12-25 09:09:44 公開日:2020-03-09
# デュアルスーパーピクセル記述子を用いたマルチスケールスーパーパッチマッチング

Multi-Scale Superpatch Matching using Dual Superpixel Descriptors ( http://arxiv.org/abs/2003.04428v1 )

ライセンス: Link先を確認
R\'emi Giraud, Merlin Boyer, Micha\"el Cl\'ement(参考訳) スーパーピクセルへの過剰セグメンテーションは、高速な高密度画像処理を可能にする、非常に効果的な次元削減戦略である。 このアプローチの主な問題は、画像分解の固有の不規則性であり、特に類似した隣接パターンを探索する場合、標準的な階層的マルチレゾリューションスキームと比較される。 いくつかの研究は、地域的不規則さを比較モデルに考慮し、この問題を克服しようと試みている。 それでも、各領域の機能のみを計算し、スーパーピクセル境界での輪郭情報を不十分に捉えているため、堅牢で正確なスーパーピクセル地区記述子を提供するのに最適ではない。 本稿では,この制約に対処するために,新しいスーパーピクセル近傍記述子であるデュアルスーパーパッチを導入する。 この構造は、縮小スーパーピクセル領域で計算された特徴と、輪郭構造情報を明示的にキャプチャする複数のスーパーピクセルのインターフェイスを含む。 画像データセット内の解像度の異なる類似の記述子を検索するために、高速なマルチスケール非局所マッチングフレームワークも導入された。 提案するデュアルスーパーパッチは,異なるスケールで類似の構造化パターンをより正確にキャプチャし,マッチングおよび教師付きラベルアプリケーションにおける新しい戦略の堅牢性と性能を示す。

Over-segmentation into superpixels is a very effective dimensionality reduction strategy, enabling fast dense image processing. The main issue of this approach is the inherent irregularity of the image decomposition compared to standard hierarchical multi-resolution schemes, especially when searching for similar neighboring patterns. Several works have attempted to overcome this issue by taking into account the region irregularity into their comparison model. Nevertheless, they remain sub-optimal to provide robust and accurate superpixel neighborhood descriptors, since they only compute features within each region, poorly capturing contour information at superpixel borders. In this work, we address these limitations by introducing the dual superpatch, a novel superpixel neighborhood descriptor. This structure contains features computed in reduced superpixel regions, as well as at the interfaces of multiple superpixels to explicitly capture contour structure information. A fast multi-scale non-local matching framework is also introduced for the search of similar descriptors at different resolution levels in an image dataset. The proposed dual superpatch enables to more accurately capture similar structured patterns at different scales, and we demonstrate the robustness and performance of this new strategy on matching and supervised labeling applications.
翻訳日:2022-12-25 09:09:31 公開日:2020-03-09
# SDVTracker: リアルタイムマルチセンサーアソシエーションと自動運転車のトラッキング

SDVTracker: Real-Time Multi-Sensor Association and Tracking for Self-Driving Vehicles ( http://arxiv.org/abs/2003.04447v1 )

ライセンス: Link先を確認
Shivam Gautam, Gregory P. Meyer, Carlos Vallespi-Gonzalez and Brian C. Becker(参考訳) Vulnerable Road Users (VRUs) の正確な動き状態推定は、都市環境を走行する自動運転車にとって重要な要件である。 計算効率のため、多くの伝統的な自律システムは手作業によるアソシエーションに依存するカルマンフィルタを用いて多目的追跡を行う。 しかし、そのような手法は混み合ったシーンやマルチセンサーのモダリティに一般化できず、しばしば不正確な予測にカスケードする状態推定が不十分になる。 本稿では,協調と状態推定のための深層学習モデルと,相互干渉型多元モデル(IMM)フィルタを併用した,実用的で軽量なトラッキングシステムSDVTrackerを提案する。 提案手法は高速で堅牢で,複数のセンサモードと異なるVRUクラスにまたがって一般化されている。 本稿では,新たな損失と相関関係と状態推定を協調的に最適化するモデル,地道監督のためのアルゴリズム,訓練手順について述べる。 本システムは,100アクタを持つシーンのCPU上で2.5ms以下で実行しながら,実世界の都市走行データセット上での手動運転法を著しく上回り,低レイテンシかつ高精度な自動運転アプリケーションに適していることを示す。

Accurate motion state estimation of Vulnerable Road Users (VRUs), is a critical requirement for autonomous vehicles that navigate in urban environments. Due to their computational efficiency, many traditional autonomy systems perform multi-object tracking using Kalman Filters which frequently rely on hand-engineered association. However, such methods fail to generalize to crowded scenes and multi-sensor modalities, often resulting in poor state estimates which cascade to inaccurate predictions. We present a practical and lightweight tracking system, SDVTracker, that uses a deep learned model for association and state estimation in conjunction with an Interacting Multiple Model (IMM) filter. The proposed tracking method is fast, robust and generalizes across multiple sensor modalities and different VRU classes. In this paper, we detail a model that jointly optimizes both association and state estimation with a novel loss, an algorithm for determining ground-truth supervision, and a training procedure. We show this system significantly outperforms hand-engineered methods on a real-world urban driving dataset while running in less than 2.5 ms on CPU for a scene with 100 actors, making it suitable for self-driving applications where low latency and high accuracy is critical.
翻訳日:2022-12-25 09:09:08 公開日:2020-03-09
# 肺結節検出における偽陽性抑制のための完全非結節分類付きシングルビュー2次元CNN

Single-view 2D CNNs with Fully Automatic Non-nodule Categorization for False Positive Reduction in Pulmonary Nodule Detection ( http://arxiv.org/abs/2003.04454v1 )

ライセンス: Link先を確認
Hyunjun Eun, Daeyeong Kim, Chanho Jung, Changick Kim(参考訳) 背景と目的:肺結節検出では,第1段階として,疑わしい肺結節を検出することを目的とする。 しかし、検出された候補には多くの偽陽性が含まれており、次の段階では偽陽性が確実に減少する。 この課題は困難であることに注意してください 1)結節数と非結節数の不均衡 2) 非結節のクラス内多様性。 3次元畳み込みニューラルネットワーク(cnns)を用いた手法は有望な性能を示しているが、ディープネットワークの構築を妨げる高い計算複雑性に苦しむ。 これらの問題を効率的に解決するために,従来の3次元CNN手法よりも優れた2次元CNNのアンサンブルを用いた新しいフレームワークを提案する。 方法:2D CNNのアンサンブルでは,従来の3D CNNの手法と比較して,シングルビュー2Dパッチを用いて計算効率とメモリ効率を改善する。 まず、オートエンコーダでエンコードされた特徴に基づいて非結節を分類する。 次に、すべての2D CNNは、同じ結節サンプルを使用して訓練されるが、異なるタイプの非結節を持つ。 学習能力を拡張することにより,出現変動が大きい非節から代表的特徴を抽出することの難しさを解消する。 放射線技師の作業負荷の重い手動分類の代わりに,オートエンコーダとk平均クラスタリングに基づいて,非ノイズを自動的に分類することを提案する。

Background and Objective: In pulmonary nodule detection, the first stage, candidate detection, aims to detect suspicious pulmonary nodules. However, detected candidates include many false positives and thus in the following stage, false positive reduction, such false positives are reliably reduced. Note that this task is challenging due to 1) the imbalance between the numbers of nodules and non-nodules and 2) the intra-class diversity of non-nodules. Although techniques using 3D convolutional neural networks (CNNs) have shown promising performance, they suffer from high computational complexity which hinders constructing deep networks. To efficiently address these problems, we propose a novel framework using the ensemble of 2D CNNs using single views, which outperforms existing 3D CNN-based methods. Methods: Our ensemble of 2D CNNs utilizes single-view 2D patches to improve both computational and memory efficiency compared to previous techniques exploiting 3D CNNs. We first categorize non-nodules on the basis of features encoded by an autoencoder. Then, all 2D CNNs are trained by using the same nodule samples, but with different types of non-nodules. By extending the learning capability, this training scheme resolves difficulties of extracting representative features from non-nodules with large appearance variations. Note that, instead of manual categorization requiring the heavy workload of radiologists, we propose to automatically categorize non-nodules based on the autoencoder and k-means clustering.
翻訳日:2022-12-25 09:08:48 公開日:2020-03-09
# 画像キャプションの廃止:因果的考察

Deconfounded Image Captioning: A Causal Retrospect ( http://arxiv.org/abs/2003.03923v1 )

ライセンス: Link先を確認
Xu Yang, Hanwang Zhang, Jianfei Cai(参考訳) ビジョン言語タスクにおけるデータセットバイアスは、コミュニティの進歩を妨げる主要な問題のひとつになっています。 しかし、近年の研究はバイアスの原理的な分析を欠いている。 本稿では, 画像キャプションのバイアスの原因を解明し, 最新のニューラルイメージキャプタを反映してDICフレームワークであるDICv1.0を提案する。 DICは因果推論に基づいており、バックドアとフロントドアの調整という2つの原則は、過去の作業のレビューと効果的なモデルの設計に役立つ。 特に、DICv1.0は2つの一般的なキャプションモデルを強化し、1つのモデル130.7 CIDEr-Dと128.4 C40 CIDEr-Dのカーパシー分割と課題であるMS-COCOデータセットのオンライン分割を実現する。 最後に、DICv1.0は、画像キャプションの有望な方向を開く因果関係からの自然な派生である。

The dataset bias in vision-language tasks is becoming one of the main problems that hinder the progress of our community. However, recent studies lack a principled analysis of the bias. In this paper, we present a novel perspective: Deconfounded Image Captioning (DIC), to find out the cause of the bias in image captioning, then retrospect modern neural image captioners, and finally propose a DIC framework: DICv1.0. DIC is based on causal inference, whose two principles: the backdoor and front-door adjustments, help us to review previous works and design the effective models. In particular, we showcase that DICv1.0 can strengthen two prevailing captioning models and achieves a single-model 130.7 CIDEr-D and 128.4 c40 CIDEr-D on Karpathy split and online split of the challenging MS-COCO dataset, respectively. Last but not least, DICv1.0 is merely a natural derivation from our causal retrospect, which opens a promising direction for image captioning.
翻訳日:2022-12-25 09:02:42 公開日:2020-03-09
# 膵臓抽出のためのmcmc誘導cnn訓練とセグメンテーション

MCMC Guided CNN Training and Segmentation for Pancreas Extraction ( http://arxiv.org/abs/2003.03938v1 )

ライセンス: Link先を確認
Jinchan He, Xiaxia Yu, Chudong Cai, Yi Gao(参考訳) 効率的な臓器分割は様々な定量的分析の前提条件である。 腹部CT像から膵を分離することは, 形状, サイズ, 位置の解剖学的多様性が高いため, 課題である。 さらに、膵臓は腹部のごく一部しか占めておらず、臓器の境界は非常に曖昧です。 これらの因子は膵の分節に適さない他の臓器の分節法である。 本稿では,マルコフ連鎖モンテカルロ(MCMC)サンプリング誘導畳み込みニューラルネットワーク(CNN)アプローチを提案する。 具体的には,まず,身体の重量と位置の変動を緩和するために登録を行う。 次に、訓練のためにcnnに供給される3dパッチのサンプリングをガイドするためにmcmcサンプリングを用いる。 同時に、膵臓分布もその後のセグメンテーションで学習される。 第3に、MCMCプロセスは、学習された分布からサンプリングされ、セグメンテーションプロセスのガイドとなる。 最後に、パッチベースのセグメンテーションはベイズ投票方式で融合される。 本法は腹部造影CT82巻を含むNIH膵データセットを用いて評価した。 最後に、テストデータの78.13%のDice similarity Coefficient値と82.65%のリコール値の競合結果を得た。

Efficient organ segmentation is the precondition of various quantitative analysis. Segmenting the pancreas from abdominal CT images is a challenging task because of its high anatomical variability in shape, size and location. What's more, the pancreas only occupies a small portion in abdomen, and the organ border is very fuzzy. All these factors make the segmentation methods of other organs less suitable for the pancreas segmentation. In this report, we propose a Markov Chain Monte Carlo (MCMC) sampling guided convolutional neural network (CNN) approach, in order to handle such difficulties in morphological and photometric variabilities. Specifically, the proposed method mainly contains three steps: First, registration is carried out to mitigate the body weight and location variability. Then, an MCMC sampling is employed to guide the sampling of 3D patches, which are fed to the CNN for training. At the same time, the pancreas distribution is also learned for the subsequent segmentation. Third, sampled from the learned distribution, an MCMC process guides the segmentation process. Lastly, the patches based segmentation is fused using a Bayesian voting scheme. This method is evaluated on the NIH pancreatic datasets which contains 82 abdominal contrast-enhanced CT volumes. Finally, we achieved a competitive result of 78.13% Dice Similarity Coefficient value and 82.65% Recall value in testing data.
翻訳日:2022-12-25 09:02:22 公開日:2020-03-09
# Pacemaker:オンザフライ畳み込みニューラルネットワークのための中間教師知識蒸留

Pacemaker: Intermediate Teacher Knowledge Distillation For On-The-Fly Convolutional Neural Network ( http://arxiv.org/abs/2003.03944v1 )

ライセンス: Link先を確認
Wonchul Son, Youngbin Kim, Wonseok Song, Youngsu Moon, Wonjun Hwang(参考訳) system-on-chip(soc)や組み込みデバイスなど、非常に低パフォーマンスなシステムを持つオンザフライ計算プロセスが必要である。 本稿では,これらのシステムで畳み込みニューラルネットワークを利用する中間アンサンブル教師としてのペースメーカー知識蒸留について述べる。 オンザフライシステムでは,通常のNxN形状フィルタを用いた1xN形状の学生モデルと教師モデルについて検討する。 オンザフライフィルタの適用による学生モデルの訓練について,3点に留意する。 まず、同じ深さだが避けられない薄いモデル圧縮。 第2に,水平場のみによる大容量ギャップとパラメータサイズギャップを,垂直受容器ではなく選択する必要がある。 第三に、直接蒸留の性能不安定と劣化である。 そこで,本研究では,中間教師である pacemaker をオンザフライの学生向けに提案する。 そのため、学生はペースメーカーやオリジナルの教師から段階的に訓練することができる。 cifar100では、wrn-40-4の5.39%が、ベースラインよりも低い性能を示す従来の知識蒸留よりも増加した。 また, 従来の知識蒸留法を適用した際に生じた列車不安定性を, ペースメーカー知識蒸留法の適用による偏差範囲の低減により解決する。

There is a need for an on-the-fly computational process with very low performance system such as system-on-chip (SoC) and embedded device etc. This paper presents pacemaker knowledge distillation as intermediate ensemble teacher to use convolutional neural network in these systems. For on-the-fly system, we consider student model using 1xN shape on-the-fly filter and teacher model using normal NxN shape filter. We note three points about training student model, caused by applying on-the-fly filter. First, same depth but unavoidable thin model compression. Second, the large capacity gap and parameter size gap due to only the horizontal field must be selected not the vertical receptive. Third, the performance instability and degradation of direct distilling. To solve these problems, we propose intermediate teacher, named pacemaker, for an on-the-fly student. So, student can be trained from pacemaker and original teacher step by step. Experiments prove our proposed method make significant performance (accuracy) improvements: on CIFAR100, 5.39% increased in WRN-40-4 than conventional knowledge distillation which shows even low performance than baseline. And we solve train instability, occurred when conventional knowledge distillation was applied without proposed method, by reducing deviation range by applying proposed method pacemaker knowledge distillation.
翻訳日:2022-12-25 09:02:01 公開日:2020-03-09
# セマンティックセグメンテーションにおけるコンテキスト対応ドメイン適応

Context-Aware Domain Adaptation in Semantic Segmentation ( http://arxiv.org/abs/2003.04010v1 )

ライセンス: Link先を確認
Jinyu Yang, Weizhi An, Chaochao Yan, Peilin Zhao, Junzhou Huang(参考訳) 本稿ではセマンティックセグメンテーションにおける教師なしドメイン適応の問題について考察する。 この分野には2つの大きな問題がある。すなわち、ドメイン知識を2つのドメイン間で転送する方法である。 既存の手法は主に、逆学習(転送方法)を通じてドメイン不変の特徴(転送方法)を適応することに焦点を当てている。 セマンティックセグメンテーションにはコンテキスト依存性が不可欠だが、その伝達性はまだよく理解されていない。 さらに、2つの領域にまたがるコンテキスト情報の転送方法も未検討である。 そこで我々は,2つのドメイン間のコンテキスト依存性を捕捉し,伝達可能なコンテキストに適応するための自己注意に基づく相互注意機構を提案する。 この目的を達成するため、2つのクロスドメインアテンションモジュールを設計し、空間ビューとチャネルビューの両方からコンテキスト依存性を適合させる。 具体的には、spatial attentionモジュールは、ソースとターゲットイメージの各位置間の局所的な特徴依存性をキャプチャする。 チャネルアテンションモジュールは、各クロスドメインチャネルマップ間のセマンティック依存関係をモデル化する。 コンテキスト依存に適応するため、コンテキスト情報を2つの領域から選択的に集約する。 GTA5 to Cityscapes" と "SYNTHIA to Cityscapes" では,既存手法よりも優れた手法が実証的に証明されている。

In this paper, we consider the problem of unsupervised domain adaptation in the semantic segmentation. There are two primary issues in this field, i.e., what and how to transfer domain knowledge across two domains. Existing methods mainly focus on adapting domain-invariant features (what to transfer) through adversarial learning (how to transfer). Context dependency is essential for semantic segmentation, however, its transferability is still not well understood. Furthermore, how to transfer contextual information across two domains remains unexplored. Motivated by this, we propose a cross-attention mechanism based on self-attention to capture context dependencies between two domains and adapt transferable context. To achieve this goal, we design two cross-domain attention modules to adapt context dependencies from both spatial and channel views. Specifically, the spatial attention module captures local feature dependencies between each position in the source and target image. The channel attention module models semantic dependencies between each pair of cross-domain channel maps. To adapt context dependencies, we further selectively aggregate the context information from two domains. The superiority of our method over existing state-of-the-art methods is empirically proved on "GTA5 to Cityscapes" and "SYNTHIA to Cityscapes".
翻訳日:2022-12-25 09:01:21 公開日:2020-03-09
# 土地被覆分類のためのDense Dilated Convolutions Merging Network

Dense Dilated Convolutions Merging Network for Land Cover Classification ( http://arxiv.org/abs/2003.04027v1 )

ライセンス: Link先を確認
Qinghui Liu, Michael Kampffmeyer, Robert Jessen, and Arnt-B{\o}rre Salberg(参考訳) リモートセンシング画像のランドカバー分類は、限られた量の注釈付きデータ、高度に不均衡なクラス、頻繁な不正確なピクセルレベルのアノテーション、セマンティックセグメンテーションタスクにおける固有の複雑さによる課題である。 本稿では,この課題に対処するために,高密度拡張畳み込み結合ネットワーク (ddcm-net) と呼ばれる新しいアーキテクチャを提案する。 提案するddcm-netは,拡張率の異なる拡張画像畳み込みにより構成する。 これは、リモートセンシング領域における最先端のアプローチと比較して、より少ないパラメータと特徴でネットワークの受容フィールドを拡大する拡張畳み込みの豊富な組み合わせを効果的に利用する。 ddcm-netは,高分解能空中画像において,色やテクスチャに類似したマルチスケール・複雑形状の物体の周辺識別機能を組み込んだ,融合した局所的・グローバル的コンテキスト情報を得る。 提案するDDCM-Netの有効性,堅牢性,柔軟性をISPRS Potsdam と Vaihingen のデータセットおよび DeepGlobe の土地被覆データセット上で実証する。 我々の1つのモデルは3バンドのポツダムとヴァイヒンゲンのデータセットで訓練され、3バンド以上のデータで訓練された他のモデルと比較して平均交叉(mIoU)とF1スコアの両方で精度が向上する。 我々は、DeepGlobeデータセットのモデルをさらに検証し、56.2% mIoUをパラメータの少ない状態で達成し、最近の研究と比較して計算コストを下げた。 https://github.com/samleoqh/DDCM-Semantic-Segmentation-PyTorchで公開されているコード

Land cover classification of remote sensing images is a challenging task due to limited amounts of annotated data, highly imbalanced classes, frequent incorrect pixel-level annotations, and an inherent complexity in the semantic segmentation task. In this article, we propose a novel architecture called the dense dilated convolutions' merging network (DDCM-Net) to address this task. The proposed DDCM-Net consists of dense dilated image convolutions merged with varying dilation rates. This effectively utilizes rich combinations of dilated convolutions that enlarge the network's receptive fields with fewer parameters and features compared with the state-of-the-art approaches in the remote sensing domain. Importantly, DDCM-Net obtains fused local- and global-context information, in effect incorporating surrounding discriminative capability for multiscale and complex-shaped objects with similar color and textures in very high-resolution aerial imagery. We demonstrate the effectiveness, robustness, and flexibility of the proposed DDCM-Net on the publicly available ISPRS Potsdam and Vaihingen data sets, as well as the DeepGlobe land cover data set. Our single model, trained on three-band Potsdam and Vaihingen data sets, achieves better accuracy in terms of both mean intersection over union (mIoU) and F1-score compared with other published models trained with more than three-band data. We further validate our model on the DeepGlobe data set, achieving state-of-the-art result 56.2% mIoU with much fewer parameters and at a lower computational cost compared with related recent work. Code available at https://github.com/samleoqh/DDCM-Semantic-Segmentation-PyTorch
翻訳日:2022-12-25 09:01:02 公開日:2020-03-09
# 顔アンチスプーフィングのための中央差分畳み込みネットワークの探索

Searching Central Difference Convolutional Networks for Face Anti-Spoofing ( http://arxiv.org/abs/2003.04092v1 )

ライセンス: Link先を確認
Zitong Yu, Chenxu Zhao, Zezheng Wang, Yunxiao Qin, Zhuo Su, Xiaobai Li, Feng Zhou, Guoying Zhao(参考訳) face anti-spoofing (fas) は顔認識システムにおいて重要な役割を果たす。 最先端のfas法 1) 積み重ねた畳み込みとエキスパート設計のネットワークに依存するが,細かな細かな情報の記述には弱く,環境が変化する場合(例えば,異なる照明)に容易に有効ではない。 2)長いシーケンスをインプットとして使用して動的特徴を抽出することを好むため、迅速な応答を必要とするシナリオへのデプロイが困難になる。 本稿では,集中差分畳み込み(CDC)に基づくフレームレベルのFAS手法を提案する。 CDCで構築されたネットワークであるCentral difference Convolutional Network (CDCN)は、バニラ畳み込みで構築されたネットワークよりも堅牢なモデリング能力を提供できる。 さらに、特別に設計されたcdc検索空間において、ニューラルネットワーク検索(nas)を使用して、より強力なネットワーク構造(cdcn++)を発見し、さらにパフォーマンスを高めるためにマルチスケールアテンション・フュージョン・モジュール(mafm)を組み立てることができる。 6つのベンチマークデータセットで包括的な実験が行われ、 1)提案手法は,データセット内テスト(特にOULU-NPUデータセットのProtocol-1における0.2% ACER)において,優れた性能を達成できる。 2) クロスデータセットテスト(特にCASIA-MFSD から Replay-Attack データセットまで 6.5% HTER )にも適している。 コードは \href{https://github.com/ZitongYu/CDCN}{https://github.com/ZitongYu/CDCN} で公開されている。

Face anti-spoofing (FAS) plays a vital role in face recognition systems. Most state-of-the-art FAS methods 1) rely on stacked convolutions and expert-designed network, which is weak in describing detailed fine-grained information and easily being ineffective when the environment varies (e.g., different illumination), and 2) prefer to use long sequence as input to extract dynamic features, making them difficult to deploy into scenarios which need quick response. Here we propose a novel frame level FAS method based on Central Difference Convolution (CDC), which is able to capture intrinsic detailed patterns via aggregating both intensity and gradient information. A network built with CDC, called the Central Difference Convolutional Network (CDCN), is able to provide more robust modeling capacity than its counterpart built with vanilla convolution. Furthermore, over a specifically designed CDC search space, Neural Architecture Search (NAS) is utilized to discover a more powerful network structure (CDCN++), which can be assembled with Multiscale Attention Fusion Module (MAFM) for further boosting performance. Comprehensive experiments are performed on six benchmark datasets to show that 1) the proposed method not only achieves superior performance on intra-dataset testing (especially 0.2% ACER in Protocol-1 of OULU-NPU dataset), 2) it also generalizes well on cross-dataset testing (particularly 6.5% HTER from CASIA-MFSD to Replay-Attack datasets). The codes are available at \href{https://github.com/ZitongYu/CDCN}{https://github.com/ZitongYu/CDCN}.
翻訳日:2022-12-25 08:59:22 公開日:2020-03-09
# ファイナンシャルドメインのためのマルチソースEntity-Level Sentiment Corpus:The FinLin Corpus

A Multi-Source Entity-Level Sentiment Corpus for the Financial Domain: The FinLin Corpus ( http://arxiv.org/abs/2003.04073v1 )

ライセンス: Link先を確認
Tobias Daudert(参考訳) 自動車業界から派生した複数の企業を対象とし,3ヶ月の期間を対象とする,投資家レポート,企業レポート,ニュース記事,ストックウィッツのマイクロブログを含む新たなコーパスであるfinlinを紹介する。 FinLinは感情スコアと関連スコアをそれぞれ[-1.0, 1.0]と[0.0, 1.0]にアノテートした。 アノテーションには感情のために選択されたテキストスパンも含まれており、注釈者の推論に関するさらなる洞察を提供する。 全体として、FinLinは、新規で公開の財務感情コーパスを提供することによって現在の知識を補完し、財務感情分析と行動科学の潜在的応用に関する研究を促進することを目的としている。

We introduce FinLin, a novel corpus containing investor reports, company reports, news articles, and microblogs from StockTwits, targeting multiple entities stemming from the automobile industry and covering a 3-month period. FinLin was annotated with a sentiment score and a relevance score in the range [-1.0, 1.0] and [0.0, 1.0], respectively. The annotations also include the text spans selected for the sentiment, thus, providing additional insight into the annotators' reasoning. Overall, FinLin aims to complement the current knowledge by providing a novel and publicly available financial sentiment corpus and to foster research on the topic of financial sentiment analysis and potential applications in behavioural science.
翻訳日:2022-12-25 08:52:53 公開日:2020-03-09
# 深層相互情報推定によるテキストのマッチング

Matching Text with Deep Mutual Information Estimation ( http://arxiv.org/abs/2003.11521v1 )

ライセンス: Link先を確認
Xixi Zhou (1), Chengxi Li (1), Jiajun Bu (1), Chengwei Yao (1), Keyue Shi (1), Zhi Yu (1), Zhou Yu (2) ((1) Zhejiang University, (2) University of California, Davis)(参考訳) テキストマッチングは、自然言語処理研究の核となる問題である。 コンテンツと構造情報の両方について十分な情報を保持する方法が重要な課題である。 本稿では,深層相互情報推定を組み込んだ汎用テキストマッチングのためのニューラルアプローチを提案する。 提案手法は,Deep Info Max (TIM) を用いたテキストマッチングであり,テキストマッチングニューラルネットワークの入力と出力の相互情報を最大化することにより,表現の教師なし学習と統合する。 グローバル情報とローカル情報の両方を用いてテキスト表現を学習する。 自然言語推論,パラフレーズ識別,解答選択など,いくつかのタスクにおけるテキストマッチング手法の評価を行った。 その結果, 相互情報推定と統合した手法が優れたテキスト表現を学習し, 外部データへの事前学習を生かさずに, テキストマッチングタスクのよりよい実験結果が得られることがわかった。

Text matching is a core natural language processing research problem. How to retain sufficient information on both content and structure information is one important challenge. In this paper, we present a neural approach for general-purpose text matching with deep mutual information estimation incorporated. Our approach, Text matching with Deep Info Max (TIM), is integrated with a procedure of unsupervised learning of representations by maximizing the mutual information between text matching neural network's input and output. We use both global and local mutual information to learn text representations. We evaluate our text matching approach on several tasks including natural language inference, paraphrase identification, and answer selection. Compared to the state-of-the-art approaches, the experiments show that our method integrated with mutual information estimation learns better text representation and achieves better experimental results of text matching tasks without exploiting pretraining on external data.
翻訳日:2022-12-25 08:52:40 公開日:2020-03-09
# 人道支援のためのトランスファーラーニングを用いたTigrinya Neural Machine Translation

Tigrinya Neural Machine Translation with Transfer Learning for Humanitarian Response ( http://arxiv.org/abs/2003.11523v1 )

ライセンス: Link先を確認
Alp \"Oktem, Mirko Plitt, and Grace Tang(参考訳) ドメイン固有のTigrinya-to- Englishニューラルマシン翻訳システムの構築実験について報告する。 我々は、他のゲエズ文字言語からの転写学習を使用し、古典的な神経ベースラインよりも1.3 BLEUポイントの改善を報告している。 開発パイプラインをオープンソースライブラリとして公開し、デモアプリケーションも提供しています。

We report our experiments in building a domain-specific Tigrinya-to-English neural machine translation system. We use transfer learning from other Ge'ez script languages and report an improvement of 1.3 BLEU points over a classic neural baseline. We publish our development pipeline as an open-source library and also provide a demonstration application.
翻訳日:2022-12-25 08:52:24 公開日:2020-03-09
# 音声合成のための相互情報最小化による教師なしスタイルとコンテンツ分離

Unsupervised Style and Content Separation by Minimizing Mutual Information for Speech Synthesis ( http://arxiv.org/abs/2003.06227v1 )

ライセンス: Link先を確認
Ting-Yao Hu, Ashish Shrivastava, Oncel Tuzel, Chandra Dhir(参考訳) 本稿では、入力テキストから音声を生成する方法と、参照音声信号から教師なしの方法で抽出されるスタイルベクトル、すなわち、話者情報などのスタイルアノテーションを必要としない方法を提案する。 既存の教師なし手法は、訓練中、対応する基底真理サンプルから計算スタイルによる音声を生成し、デコーダを使用してスタイルベクトルと入力テキストを結合する。 このような方法でモデルをトレーニングすることで、コンテンツ情報をスタイルベクトルにリークする。 デコーダは、漏洩したコンテンツを使用し、入力テキストの一部を無視して復元損失を最小限にすることができる。 推定時には、参照音声がコンテンツ入力と一致しない場合には、出力は入力テキストのすべての内容を含まない。 我々は,この問題を「コンテンツ漏洩」と呼び,敵対的トレーニングの定式化を通じて,スタイルとコンテンツ間の相互情報を明示的に推定し,最小化する。 相互情報に基づくスタイルコンテンツ分離手法をmistと呼ぶ。 本手法の主な目的は、単語誤り率(WER)によって測定される合成音声信号の入力内容を保存し、最先端の教師なし音声合成法よりも大幅に改善することである。

We present a method to generate speech from input text and a style vector that is extracted from a reference speech signal in an unsupervised manner, i.e., no style annotation, such as speaker information, is required. Existing unsupervised methods, during training, generate speech by computing style from the corresponding ground truth sample and use a decoder to combine the style vector with the input text. Training the model in such a way leaks content information into the style vector. The decoder can use the leaked content and ignore some of the input text to minimize the reconstruction loss. At inference time, when the reference speech does not match the content input, the output may not contain all of the content of the input text. We refer to this problem as "content leakage", which we address by explicitly estimating and minimizing the mutual information between the style and the content through an adversarial training formulation. We call our method MIST - Mutual Information based Style Content Separation. The main goal of the method is to preserve the input content in the synthesized speech signal, which we measure by the word error rate (WER) and show substantial improvements over state-of-the-art unsupervised speech synthesis methods.
翻訳日:2022-12-25 08:52:19 公開日:2020-03-09
# FoCL: 生成モデルのための特徴指向連続学習

FoCL: Feature-Oriented Continual Learning for Generative Models ( http://arxiv.org/abs/2003.03877v1 )

ライセンス: Link先を確認
Qicheng Lao, Mehrzad Mortazavi, Marzieh Tahaei, Francis Dutil, Thomas Fevens, Mohammad Havaei(参考訳) 本稿では,FoCL(Feature-oriented Continuousal Learning)という,生成モデルに対する連続学習の一般的な枠組みを提案する。 パラメータ空間や画像空間の正規化を導入することで、破滅的な忘れ問題の解決を目指す従来の研究とは異なり、FoCLは特徴空間の正規化を課している。 実験では,FoCLは逐次到着タスクの分布変化に適応しやすく,タスクインクリメンタル学習における生成モデルの最先端性能を実現する。 異なるユースケースシナリオに対する複合正規化空間の選択について検討し、パフォーマンスの向上、例えば、バックグラウンドに高い変動性を持つタスクについて論じる。 最後に、モデルが忘れることに苦しむ程度を正確に評価する忘れやすさ尺度を導入する。 興味深いことに、提案した忘れやすさスコアの分析は、FoCLが将来のタスクを省く傾向にあることも示唆している。

In this paper, we propose a general framework in continual learning for generative models: Feature-oriented Continual Learning (FoCL). Unlike previous works that aim to solve the catastrophic forgetting problem by introducing regularization in the parameter space or image space, FoCL imposes regularization in the feature space. We show in our experiments that FoCL has faster adaptation to distributional changes in sequentially arriving tasks, and achieves the state-of-the-art performance for generative models in task incremental learning. We discuss choices of combined regularization spaces towards different use case scenarios for boosted performance, e.g., tasks that have high variability in the background. Finally, we introduce a forgetfulness measure that fairly evaluates the degree to which a model suffers from forgetting. Interestingly, the analysis of our proposed forgetfulness score also implies that FoCL tends to have a mitigated forgetting for future tasks.
翻訳日:2022-12-25 08:51:22 公開日:2020-03-09
# 正規化法のロバスト性と不確かさに関する実証評価

An Empirical Evaluation on Robustness and Uncertainty of Regularization Methods ( http://arxiv.org/abs/2003.03879v1 )

ライセンス: Link先を確認
Sanghyuk Chun, Seong Joon Oh, Sangdoo Yun, Dongyoon Han, Junsuk Choe, Youngjoon Yoo(参考訳) ディープニューラルネットワーク(dnn)の人間レベルのパフォーマンスは明らかだが、人間とは根本的に異なる振る舞いをしている。 入力にぼやけやノイズなどの小さな腐敗(頑健さの欠如)が加えられたときの予測を容易に変更し、しばしば分散サンプル(不確実性尺度)に自信を持って予測する。 多くの研究がこれらの問題に対処しようとしているが、提案された解決策は通常高価で複雑である(ベイズ的推論や敵対的訓練など)。 一方、分類器の一般化を促進するため、単純で安価な正規化法が数多く開発されている。 このような正規化手法は、特に設計されていないため、ロバスト性や不確実性に対処するためのベースラインとして見過ごされてきた。 本稿では,画像分類器 (CIFAR-100 と ImageNet) のロバスト性および不確実性評価について,最先端の正則化法を用いて訓練した。 さらに, 実験結果から, DNNのロバスト性および不確実性評価のための強いベースライン手法として, ある正規化手法が有効であることが示された。

Despite apparent human-level performances of deep neural networks (DNN), they behave fundamentally differently from humans. They easily change predictions when small corruptions such as blur and noise are applied on the input (lack of robustness), and they often produce confident predictions on out-of-distribution samples (improper uncertainty measure). While a number of researches have aimed to address those issues, proposed solutions are typically expensive and complicated (e.g. Bayesian inference and adversarial training). Meanwhile, many simple and cheap regularization methods have been developed to enhance the generalization of classifiers. Such regularization methods have largely been overlooked as baselines for addressing the robustness and uncertainty issues, as they are not specifically designed for that. In this paper, we provide extensive empirical evaluations on the robustness and uncertainty estimates of image classifiers (CIFAR-100 and ImageNet) trained with state-of-the-art regularization methods. Furthermore, experimental results show that certain regularization methods can serve as strong baseline methods for robustness and uncertainty estimation of DNNs.
翻訳日:2022-12-25 08:51:07 公開日:2020-03-09
# rose: マルチスケール空間的注意に基づく指紋特異点検出のための実単段階的取り組み

ROSE: Real One-Stage Effort to Detect the Fingerprint Singular Point Based on Multi-scale Spatial Attention ( http://arxiv.org/abs/2003.03918v1 )

ライセンス: Link先を確認
Liaojun Pang, Jiong Chen, Fei Guo, Zhicheng Cao, and Heng Zhao(参考訳) 特異点を正確にかつ効率的に検出することは,指紋認識において最も重要な課題の一つである。 近年,指紋特異点検出における深層学習の活用が進んでいる。 しかし、現在のディープラーニングに基づく特異点検出手法は2段階または多段階であり、時間を要する。 さらに重要なことに、その検出精度は、特に低品質の指紋の場合、まだ不十分である。 本稿では,指紋特異点をより正確かつ効率的に検出するための実1段階の努力を行い,提案手法のローズを,複数スケールの空間的注目,ガウス熱マップ,焦点損失の変種を併用して高い検出率を達成するための短時間で命名する。 FVC2002 DB1 と NIST SD4 による実験結果から,ROSE は検出速度,誤警報速度,検出速度において最先端のアルゴリズムよりも優れていた。

Detecting the singular point accurately and efficiently is one of the most important tasks for fingerprint recognition. In recent years, deep learning has been gradually used in the fingerprint singular point detection. However, current deep learning-based singular point detection methods are either two-stage or multi-stage, which makes them time-consuming. More importantly, their detection accuracy is yet unsatisfactory, especially in the case of the low-quality fingerprint. In this paper, we make a Real One-Stage Effort to detect fingerprint singular points more accurately and efficiently, and therefore we name the proposed algorithm ROSE for short, in which the multi-scale spatial attention, the Gaussian heatmap and the variant of focal loss are applied together to achieve a higher detection rate. Experimental results on the datasets FVC2002 DB1 and NIST SD4 show that our ROSE outperforms the state-of-art algorithms in terms of detection rate, false alarm rate and detection speed.
翻訳日:2022-12-25 08:50:21 公開日:2020-03-09
# hiv患者の共同表現型学習による患者記録要約に向けて

Towards Patient Record Summarization Through Joint Phenotype Learning in HIV Patients ( http://arxiv.org/abs/2003.11474v1 )

ライセンス: Link先を確認
Gal Levy-Fix, Jason Zucker, Konstantin Stojanovic, and No\'emie Elhadad(参考訳) 患者の重要な問題を時間とともに特定することは、ポイントケアにおける提供者にとって共通の課題であるが、現在の電気健康記録からすると、複雑で時間を要する活動である。 問題指向要約者が患者の包括的問題リストとその救済性を識別できるようにするため、構造化データと非構造化データ間で多数の表現型/問題を同時に学習する教師なし表現型化手法を提案する。 学習した表現型の適切な粒度を特定するために、同じ診療所の患者集団を対象にモデルを訓練する。 問題指向要約者のコンテンツ編成を可能にするため、モデルは表現型関連性も識別する。 本モデルは,異種臨床データに適用した変動推論と相関混合メンバシップアプローチを活用する。 本稿では,特定の患者集団から得られた学習表現型とその関連性を評価する実験について述べる。 都市医療機関(n=7,523)のhiv診療所から患者を表現型づけする実験を行い、患者が有望で縦長の文書を持ち、その患者がhivについてであれ、その患者の医療履歴の要約から利益を享受できるような実験を行った。 臨床専門家による質的評価では, 学習した表現型とその関連性は臨床的に有効であり, 既存の専門家による条件群と比較すると, 表現型関連性を推定する基準値を超えていることがわかった。

Identifying a patient's key problems over time is a common task for providers at the point care, yet a complex and time-consuming activity given current electric health records. To enable a problem-oriented summarizer to identify a patient's comprehensive list of problems and their salience, we propose an unsupervised phenotyping approach that jointly learns a large number of phenotypes/problems across structured and unstructured data. To identify the appropriate granularity of the learned phenotypes, the model is trained on a target patient population of the same clinic. To enable the content organization of a problem-oriented summarizer, the model identifies phenotype relatedness as well. The model leverages a correlated-mixed membership approach with variational inference applied to heterogenous clinical data. In this paper, we focus our experiments on assessing the learned phenotypes and their relatedness as learned from a specific patient population. We ground our experiments in phenotyping patients from an HIV clinic in a large urban care institution (n=7,523), where patients have voluminous, longitudinal documentation, and where providers would benefit from summaries of these patient's medical histories, whether about their HIV or any comorbidities. We find that the learned phenotypes and their relatedness are clinically valid when assessed qualitatively by clinical experts, and that the model surpasses baseline in inferring phenotype-relatedness when comparing to existing expert-curated condition groupings.
翻訳日:2022-12-25 08:44:31 公開日:2020-03-09
# ウェーブレット変換を用いた発作予測の原理成分解析

Principle components analysis for seizures prediction using wavelet transform ( http://arxiv.org/abs/2004.07937v1 )

ライセンス: Link先を確認
Syed Muhammad Usman, Shahzad Latif, Arshad Beg(参考訳) てんかんは、神経細胞の異常な活動によって頻繁に発作を起こす疾患である。 この疾患の影響を受ける患者は、薬や外科手術の助けを借りて治療することができる。 しかし、どちらの方法もあまり役に立たない。 てんかん患者を効果的に治療する唯一の方法は、発症前に発作を予測することである。 脳信号の異常な活動は、前頭葉状態として知られる発作が起こる前に始まることが観察されている。 多くの研究者が、先天状態の開始を検出することによっててんかん発作を予測する機械学習モデルを提案している。 しかし,前処理,特徴抽出,分類は,まだ出生前状態の予測において大きな課題である。 そこで本稿では,前処理における共通空間パターンフィルタリングとウェーブレット変換,特徴抽出のための主成分分析,前処理状態を検出するためのサポートベクトルマシンを提案する。 対象は23名であり,84回の発作では平均93.1%の感度が観察されている。

Epilepsy is a disease in which frequent seizures occur due to abnormal activity of neurons. Patients affected by this disease can be treated with the help of medicines or surgical procedures. However, both of these methods are not quite useful. The only method to treat epilepsy patients effectively is to predict the seizure before its onset. It has been observed that abnormal activity in the brain signals starts before the occurrence of seizure known as the preictal state. Many researchers have proposed machine learning models for prediction of epileptic seizures by detecting the start of preictal state. However, pre-processing, feature extraction and classification remains a great challenge in the prediction of preictal state. Therefore, we propose a model that uses common spatial pattern filtering and wavelet transform for preprocessing, principal component analysis for feature extraction and support vector machines for detecting preictal state. We have applied our model on 23 subjects and an average sensitivity of 93.1% has been observed for 84 seizures.
翻訳日:2022-12-25 08:44:03 公開日:2020-03-09
# sequence-to-sequence lip-readingにおける疑似畳み込み政策勾配

Pseudo-Convolutional Policy Gradient for Sequence-to-Sequence Lip-Reading ( http://arxiv.org/abs/2003.03983v1 )

ライセンス: Link先を確認
Mingshuang Luo, Shuang Yang, Shiguang Shan, Xilin Chen(参考訳) lip-readingは、唇運動シーケンスから音声コンテンツの推測を目的としており、唇運動の入力画像シーケンスを音声コンテンツのテキストシーケンスに変換する典型的なsequence-to-sequence(seq2seq)問題と見なすことができる。 しかし、Seq2seqモデルの伝統的な学習プロセスには、"教師強制"戦略による露光バイアスと、識別的最適化目標(通常はクロスエントロピー損失)と最終評価指標(通常は文字/単語の誤り率)の矛盾という2つの問題がある。 本稿では,これら2つの問題に対処するために,新しいpseudo-convolutional policy gradient (pcpg) 法を提案する。 本稿では,評価指標(本論文の文字誤り率を参照)を,元の判別対象と共にモデルを最適化するための報酬の形式として導入する。 一方,畳み込み操作の局所的な知覚特性に触発されて,報酬と損失次元の擬似畳み込み操作を行い,各時間に関する文脈を考慮に入れ,最適化全体に対してロバストな報酬と損失を生成する。 最後に,単語レベルのベンチマークと文レベルのベンチマークを徹底的に比較,評価する。 その結果、他の手法よりも大幅に改善され、新たな最先端のパフォーマンスや、これらの挑戦的なベンチマークの競合精度が報告され、このアプローチの利点が明らかに証明された。

Lip-reading aims to infer the speech content from the lip movement sequence and can be seen as a typical sequence-to-sequence (seq2seq) problem which translates the input image sequence of lip movements to the text sequence of the speech content. However, the traditional learning process of seq2seq models always suffers from two problems: the exposure bias resulted from the strategy of "teacher-forcing", and the inconsistency between the discriminative optimization target (usually the cross-entropy loss) and the final evaluation metric (usually the character/word error rate). In this paper, we propose a novel pseudo-convolutional policy gradient (PCPG) based method to address these two problems. On the one hand, we introduce the evaluation metric (refers to the character error rate in this paper) as a form of reward to optimize the model together with the original discriminative target. On the other hand, inspired by the local perception property of convolutional operation, we perform a pseudo-convolutional operation on the reward and loss dimension, so as to take more context around each time step into account to generate a robust reward and loss for the whole optimization. Finally, we perform a thorough comparison and evaluation on both the word-level and sentence-level benchmarks. The results show a significant improvement over other related methods, and report either a new state-of-the-art performance or a competitive accuracy on all these challenging benchmarks, which clearly proves the advantages of our approach.
翻訳日:2022-12-25 08:43:49 公開日:2020-03-09
# エンド・ツー・エンドモデルを用いたクロスドメイン音声認識

Toward Cross-Domain Speech Recognition with End-to-End Models ( http://arxiv.org/abs/2003.04194v1 )

ライセンス: Link先を確認
Thai-Son Nguyen, Sebastian St\"uker, Alex Waibel(参考訳) マルチドメイン音声認識の分野では、これまでクロスドメインおよびドメイン不変音声認識システムを構築するためのハイブリッド音響モデルに重点を置いてきた。 本稿では,複数領域の音響訓練データを混合する場合に,ハイブリッド音響モデルとニューラルエンド・ツー・エンドシステムの挙動の違いを実験的に検討する。 これらの実験のために,電話会話,講義,音声読取,ニュース放送など,さまざまな話題や音響条件をカバーするコーパス内の異なるドメインを,公開ソースから多領域データセットとして構成した。 ハイブリッドモデルでは,音響条件が不一致な他ドメインから追加のトレーニングデータを供給しても,特定のドメインの性能は向上しないことを示す。 しかし、シーケンスベースの基準を最適化したエンドツーエンドモデルは、多様なドメイン上のハイブリッドモデルよりも一般化しています。 単語誤り率性能の面では,複数ドメインデータセットで学習した音響-単語間および注意に基づくモデルが,ドメイン固有長短期記憶(lstm)ハイブリッドモデルの性能に到達し,ドメイン固有言語よりも性能に支障をきたさないマルチドメイン音声認識システムを実現する。 さらに、ニューラルエンド・ツー・エンドモデルを使用することで、認識中にドメイン対応言語モデルの必要性がなくなるため、入力領域が不明な場合には大きなメリットがある。

In the area of multi-domain speech recognition, research in the past focused on hybrid acoustic models to build cross-domain and domain-invariant speech recognition systems. In this paper, we empirically examine the difference in behavior between hybrid acoustic models and neural end-to-end systems when mixing acoustic training data from several domains. For these experiments we composed a multi-domain dataset from public sources, with the different domains in the corpus covering a wide variety of topics and acoustic conditions such as telephone conversations, lectures, read speech and broadcast news. We show that for the hybrid models, supplying additional training data from other domains with mismatched acoustic conditions does not increase the performance on specific domains. However, our end-to-end models optimized with sequence-based criterion generalize better than the hybrid models on diverse domains. In term of word-error-rate performance, our experimental acoustic-to-word and attention-based models trained on multi-domain dataset reach the performance of domain-specific long short-term memory (LSTM) hybrid models, thus resulting in multi-domain speech recognition systems that do not suffer in performance over domain specific ones. Moreover, the use of neural end-to-end models eliminates the need of domain-adapted language models during recognition, which is a great advantage when the input domain is unknown.
翻訳日:2022-12-25 08:43:19 公開日:2020-03-09
# 文アナロジー:文埋め込みにおける言語的関係と規則性を探る

Sentence Analogies: Exploring Linguistic Relationships and Regularities in Sentence Embeddings ( http://arxiv.org/abs/2003.04036v1 )

ライセンス: Link先を確認
Xunjie Zhu, Gerard de Melo(参考訳) 単語ベクトル表現の重要な特性は広く研究されているが、文ベクトル表現の性質についてはあまり知られていない。 単語ベクトルはしばしば、単語アナロジーで考慮される種類の関係に関して正規性を示す程度を評価することによって評価される。 本稿では,一般的な文ベクトル表現空間が,ある種の規則性を反映する範囲について検討する。 本稿では,語彙類似データと文間の意味的関係に基づいて,評価データを誘導するスキームを提案する。 本実験では,BERTスタイルの文脈埋め込みを含む文埋め込み手法について検討した。 このような規則性を反映する能力において、異なるモデルが著しく異なることが分かる。

While important properties of word vector representations have been studied extensively, far less is known about the properties of sentence vector representations. Word vectors are often evaluated by assessing to what degree they exhibit regularities with regard to relationships of the sort considered in word analogies. In this paper, we investigate to what extent commonly used sentence vector representation spaces as well reflect certain kinds of regularities. We propose a number of schemes to induce evaluation data, based on lexical analogy data as well as semantic relationships between sentences. Our experiments consider a wide range of sentence embedding methods, including ones based on BERT-style contextual embeddings. We find that different models differ substantially in their ability to reflect such regularities.
翻訳日:2022-12-25 08:41:24 公開日:2020-03-09
# 高次元ベイズ最適化のためのカーネルと獲得関数の構成

Composition of kernel and acquisition functions for High Dimensional Bayesian Optimization ( http://arxiv.org/abs/2003.04207v1 )

ライセンス: Link先を確認
Antonio Candelieri, Ilaria Giordani, Riccardo Perego, Francesco Archetti(参考訳) ベイズ最適化はブラックボックスのグローバル最適化の基準手法となり、高価でノイズの多い関数となった。 ベイズオプティマイズ(英語版)は目的関数(通常ガウス過程)に関する確率論的モデルを学び、その平均と分散に依存して、新しい評価点をオプティマイザが得る獲得関数を構築し、確率的サロゲートモデルを更新する。 サンプル効率にもかかわらず、ベイズのオプティミザは問題の次元ではうまくスケールしない。 取得関数の最適化は、通常計算コストはオブジェク関数の評価よりも無視できると考えられるため、あまり注目されていない。 その効率的な最適化は、特に高次元問題において、多重極限によってしばしば阻害される。 本稿では,対象関数の加法性を利用して,低次元部分空間におけるベイズ最適化の核と獲得関数の両方をマッピングする。 このap-proachは確率的代理モデルの学習/更新をより効率的にし、取得関数の効率的な最適化を可能にする。 都市配水システムにおけるポンプの制御を実生活に応用するための実験的検討を行った。

Bayesian Optimization has become the reference method for the global optimization of black box, expensive and possibly noisy functions. Bayesian Op-timization learns a probabilistic model about the objective function, usually a Gaussian Process, and builds, depending on its mean and variance, an acquisition function whose optimizer yields the new evaluation point, leading to update the probabilistic surrogate model. Despite its sample efficiency, Bayesian Optimiza-tion does not scale well with the dimensions of the problem. The optimization of the acquisition function has received less attention because its computational cost is usually considered negligible compared to that of the evaluation of the objec-tive function. Its efficient optimization is often inhibited, particularly in high di-mensional problems, by multiple extrema. In this paper we leverage the addition-ality of the objective function into mapping both the kernel and the acquisition function of the Bayesian Optimization in lower dimensional subspaces. This ap-proach makes more efficient the learning/updating of the probabilistic surrogate model and allows an efficient optimization of the acquisition function. Experi-mental results are presented for real-life application, that is the control of pumps in urban water distribution systems.
翻訳日:2022-12-25 08:35:34 公開日:2020-03-09
# 音声自動処理のためのディープニューラルネットワーク:大規模コーパスから限定データへの調査

Deep Neural Networks for Automatic Speech Processing: A Survey from Large Corpora to Limited Data ( http://arxiv.org/abs/2003.04241v1 )

ライセンス: Link先を確認
Vincent Roger, J\'er\^ome Farinas and Julien Pinquier(参考訳) 最先端の音声システムはディープニューラルネットワーク(DNN)を使用している。 これらのシステムは大量のデータを学習する必要がある。 したがって、アンダーリソース音声言語/プロブレムにおける最先端フレームワークの学習は難しい課題である。 問題は、音声障害の限られたデータ量だ。 さらに、より多くのデータや専門知識を取得するのに時間と費用がかかります。 本稿では,音声の自動認識,話者識別,感情認識など,音声処理タスクに自己を配置する。 限られたデータの問題を評価するために,まず,(言語毎に大きな変動があるため)最も難しいタスクを表現するため,最先端の自動音声認識システムについて検討する。 次に、少ないデータを必要とする技術とタスクの概要を示す。 前節では、アンダーリソーシングされた音声を数ショット問題として解釈する際、少数ショット技術について検討する。 そこで,本研究では,この手法を音声に焦点をあてた音声問題に対して用いる際の問題点と展望について概説する。 レビューされたテクニックは大規模なデータセットには適していない。 それにもかかわらず、文献から得られる有望な成果は、そのような技術が音声処理に使用されることを奨励している。

Most state-of-the-art speech systems are using Deep Neural Networks (DNNs). Those systems require a large amount of data to be learned. Hence, learning state-of-the-art frameworks on under-resourced speech languages/problems is a difficult task. Problems could be the limited amount of data for impaired speech. Furthermore, acquiring more data and/or expertise is time-consuming and expensive. In this paper we position ourselves for the following speech processing tasks: Automatic Speech Recognition, speaker identification and emotion recognition. To assess the problem of limited data, we firstly investigate state-of-the-art Automatic Speech Recognition systems as it represents the hardest tasks (due to the large variability in each language). Next, we provide an overview of techniques and tasks requiring fewer data. In the last section we investigate few-shot techniques as we interpret under-resourced speech as a few-shot problem. In that sense we propose an overview of few-shot techniques and perspectives of using such techniques for the focused speech problems in this survey. It occurs that the reviewed techniques are not well adapted for large datasets. Nevertheless, some promising results from the literature encourage the usage of such techniques for speech processing.
翻訳日:2022-12-25 08:35:16 公開日:2020-03-09
# UPR: ディープフェーズ検索のためのモデル駆動アーキテクチャ

UPR: A Model-Driven Architecture for Deep Phase Retrieval ( http://arxiv.org/abs/2003.04396v1 )

ライセンス: Link先を確認
Naveed Naimipour, Shahin Khobahi, Mojtaba Soltanalian(参考訳) 位相探索の問題は、広範囲の応用で現れるため、何十年にもわたって研究者を惹きつけてきた。 位相探索アルゴリズムの課題は、通常、線形位相のない測定から信号を回復することである。 本稿では,unfolded phase retrieval (upr) と呼ばれるハイブリッドモデルに基づくデータ駆動型ディープアーキテクチャを提案することで,最先端の位相検索アルゴリズムの性能向上の可能性を示す。 特に,提案手法は,確立されたモデルベースアルゴリズムの汎用性と解釈可能性の恩恵を受けると同時に,ディープニューラルネットワークの表現力の恩恵を受ける。 このようなハイブリッドな深層構造の有効性を数値計算で示し、既存の位相探索アルゴリズムを強化するためにデータ支援手法の未完成の可能性を示す。

The problem of phase retrieval has been intriguing researchers for decades due to its appearance in a wide range of applications. The task of a phase retrieval algorithm is typically to recover a signal from linear phase-less measurements. In this paper, we approach the problem by proposing a hybrid model-based data-driven deep architecture, referred to as the Unfolded Phase Retrieval (UPR), that shows potential in improving the performance of the state-of-the-art phase retrieval algorithms. Specifically, the proposed method benefits from versatility and interpretability of well established model-based algorithms, while simultaneously benefiting from the expressive power of deep neural networks. Our numerical results illustrate the effectiveness of such hybrid deep architectures and showcase the untapped potential of data-aided methodologies to enhance the existing phase retrieval algorithms.
翻訳日:2022-12-25 08:33:57 公開日:2020-03-09
# コンテンツとアクティビティ機能を用いたtwitterにおける抑うつ検出のための機械学習アプローチ

Machine Learning-based Approach for Depression Detection in Twitter Using Content and Activity Features ( http://arxiv.org/abs/2003.04763v1 )

ライセンス: Link先を確認
Hatoon S. AlSagri, Mourad Ykhlef(参考訳) facebook、twitter、instagramなどのソーシャルメディアチャンネルは、われわれの世界を永遠に変えてきた。 今や人々はますますつながり、ある種のデジタルペルソナを公開している。 ソーシャルメディアには注目すべき特徴がいくつかあるが、デメリットも否定できない。 近年の研究では、ソーシャルメディアサイトの高利用と抑うつの増加の相関が示されている。 本研究の目的は、ネットワークの振る舞いとつぶやきの両方に基づいて、潜在的に落ち込んだTwitterユーザーを検出する機械学習技術を活用することである。 この目的のために,ネットワーク上での活動やつぶやきから抽出した特徴を用いて,ユーザが抑うつ状態にあるかどうかを識別するために,分類器を訓練し,テストした。 その結果、より多くの特徴が使用されるほど、抑うつユーザを検出する際の精度とF測定スコアが高くなることがわかった。 この方法は、うつ病や他の精神疾患を早期に検出するためのデータ駆動予測手法である。 本研究の主な貢献は, 特徴の探索部分と, うつ病レベルの検出に対する影響である。

Social media channels, such as Facebook, Twitter, and Instagram, have altered our world forever. People are now increasingly connected than ever and reveal a sort of digital persona. Although social media certainly has several remarkable features, the demerits are undeniable as well. Recent studies have indicated a correlation between high usage of social media sites and increased depression. The present study aims to exploit machine learning techniques for detecting a probable depressed Twitter user based on both, his/her network behavior and tweets. For this purpose, we trained and tested classifiers to distinguish whether a user is depressed or not using features extracted from his/ her activities in the network and tweets. The results showed that the more features are used, the higher are the accuracy and F-measure scores in detecting depressed users. This method is a data-driven, predictive approach for early detection of depression or other mental illnesses. This study's main contribution is the exploration part of the features and its impact on detecting the depression level.
翻訳日:2022-12-25 08:33:19 公開日:2020-03-09
# グレード予測のための文脈認識型非線形・神経注意知識モデル

Context-aware Non-linear and Neural Attentive Knowledge-based Models for Grade Prediction ( http://arxiv.org/abs/2003.05063v1 )

ライセンス: Link先を確認
Sara Morsy and George Karypis(参考訳) 学生がまだ受け取っていない将来のコースのグレード予測は、コース選択の過程で彼らとそのアドバイザーを助け、パーソナライズされた学位プランを設計し、パフォーマンスに基づいて修正する上で重要である。 将来の授業で生徒の成績を正確に予測するのに成功したアプローチの1つは累積知識ベース回帰モデル(ckrm)である。 CKRMは、学生の成績を、自分の知識状態と対象コースとの類似性として予測する浅い線形モデルを学ぶ。 しかし、学生の知識状態を推定し、各対象のコースに向ける際には、学生が受ける事前のコースは「ブラック{差分的な貢献」を持つことができる。 さらに、CKRMや他のグレード予測手法は、対象コースにおける生徒のパフォーマンスに対する同時学習の効果を無視する。 本稿では,対象コースと並行コースの相互作用をモデル化するとともに,事前コース情報から学習者の知識状態を推定し得る,文脈認識型非線形・神経注意モデルを提案する。 実世界の大規模データセットを15万ドル以上の成績で比較した結果,提案モデルの有効性が示され,学生の成績を正確に予測できた。 さらに,神経注意モデルによって学習された注意重みは,学習度計画の設計に有用である。

Grade prediction for future courses not yet taken by students is important as it can help them and their advisers during the process of course selection as well as for designing personalized degree plans and modifying them based on their performance. One of the successful approaches for accurately predicting a student's grades in future courses is Cumulative Knowledge-based Regression Models (CKRM). CKRM learns shallow linear models that predict a student's grades as the similarity between his/her knowledge state and the target course. However, prior courses taken by a student can have \black{different contributions when estimating a student's knowledge state and towards each target course, which} cannot be captured by linear models. Moreover, CKRM and other grade prediction methods ignore the effect of concurrently-taken courses on a student's performance in a target course. In this paper, we propose context-aware non-linear and neural attentive models that can potentially better estimate a student's knowledge state from his/her prior course information, as well as model the interactions between a target course and concurrent courses. Compared to the competing methods, our experiments on a large real-world dataset consisting of more than $1.5$M grades show the effectiveness of the proposed models in accurately predicting students' grades. Moreover, the attention weights learned by the neural attentive model can be helpful in better designing their degree plans.
翻訳日:2022-12-25 08:33:05 公開日:2020-03-09
# 乳児の機械的パラメータ推定のためのハイブリッド手法

An Hybrid Method for the Estimation of the Breast Mechanical Parameters ( http://arxiv.org/abs/2003.07274v1 )

ライセンス: Link先を確認
Diogo Lopes and Ant\'onio Ramires Fernandes and St\'ephane Clain(参考訳) 複雑な問題を解くために使われる実現象を記述する数値モデルがいくつか存在する。 例えば、正確な数値乳房モデルは、手術シミュレーションの結果、乳房の視覚情報を外科医に提供することができる。 モデルパラメータを見つけるプロセスは、医療画像技術または他の測定基準に基づく数値入力を必要とする。 入力は反復的な方法(逆弾性解法)によって処理できる。 このような解法は非常に堅牢で、必要な精度で解を提供する。 しかし計算の複雑さは高くつく。 一方、機械学習に基づくアプローチは、リアルタイムで出力を提供する。 高い精度は達成できるが、これらの手法は必要な精度以外の解の生成を免除するものではない。 現実の状況では、非正確な解決策が患者に合併症をもたらす可能性がある。 本稿では,上記の各手法の正の特徴を生かしたハイブリッドパラメータ推定手法を提案する。 本手法は,ディープラーニング手法のリアルタイム性能と逆弾性解法の信頼性を両立させる。 この提案の背後にある根拠は、ニューラルネットワークのようなディープラーニング手法が、ほとんどのケースで正確な結果を提供することができ、信頼性を確保するためにフェールセーフなシステムが必要であるという事実です。 そこで本研究では,MNN(Multilayer Neural Networks)を用いて,反復解法によって検証された推定値を求める。 mnnが所要の精度範囲内にない推定を提供する場合、解答者は所要の精度が達成されるまで推定を洗練する。 この結果から,提案手法は, MNNの計算性能を反復解法の頑健さで補うことができると結論付けることができる。

There are several numerical models that describe real phenomena being used to solve complex problems. For example, an accurate numerical breast model can provide assistance to surgeons with visual information of the breast as a result of a surgery simulation. The process of finding the model parameters requires numeric inputs, either based in medical imaging techniques, or other measures. Inputs can be processed by iterative methods (inverse elasticity solvers). Such solvers are highly robust and provide solutions within the required degree of accuracy. However, their computational complexity is costly. On the other hand, machine learning based approaches provide outputs in real-time. Although high accuracy rates can be achieved, these methods are not exempt from producing solutions outside the required degree of accuracy. In the context of real life situations, a non accurate solution might present complications to the patient. We present an hybrid parameter estimation method to take advantage of the positive features of each of the aforementioned approaches. Our method preserves both the real-time performance of deep-learning methods, and the reliability of inverse elasticity solvers. The underlying reasoning behind our proposal is the fact that deep-learning methods, such as neural networks, can provide accurate results in the majority of cases and they just need a fail-safe system to ensure its reliability. Hence, we propose using a Multilayer Neural Networks (MNN) to get an estimation which is in turn validated by a iterative solver. In case the MNN provides an estimation not within the required accuracy range, the solver refines the estimation until the required accuracy is achieved. Based on our results we can conclude that the presented hybrid method is able to complement the computational performance of MNNs with the robustness of iterative solver approaches.
翻訳日:2022-12-25 08:32:43 公開日:2020-03-09
# データ駆動不感性パラメータを用いたベクトル回帰支援のための作業可能性法

A working likelihood approach to support vector regression with a data-driven insensitivity parameter ( http://arxiv.org/abs/2003.03893v1 )

ライセンス: Link先を確認
Jinran Wu and You-Gan Wang(参考訳) サポートベクトル回帰の無感パラメータは、予測に大きな影響を及ぼすサポートベクトルの集合を決定する。 この不感性パラメータの近似値を決定するためにデータ駆動型手法を提案し,帰結原理を起点とする一般化損失関数を最小化する。 このデータ駆動サポートベクター回帰は、ノイズスケールを用いてサンプルを統計的に標準化する。 3種類のノイズ("\epsilon$-laplacian distribution, normal distribution, and uniform distribution")を含む非線形および線形数値シミュレーションに加えて,提案手法のキャパシティをテストするために,5つの実ベンチマークデータセットが使用される。 シミュレーションと5つのケーススタディに基づいて,作業可能性を用いたベクトル回帰法を提案するが,データ駆動型不感パラメータの方が優れ,計算コストも低い。

The insensitive parameter in support vector regression determines the set of support vectors that greatly impacts the prediction. A data-driven approach is proposed to determine an approximate value for this insensitive parameter by minimizing a generalized loss function originating from the likelihood principle. This data-driven support vector regression also statistically standardizes samples using the scale of noises. Nonlinear and linear numerical simulations with three types of noises ($\epsilon$-Laplacian distribution, normal distribution, and uniform distribution), and in addition, five real benchmark data sets, are used to test the capacity of the proposed method. Based on all of the simulations and the five case studies, the proposed support vector regression using a working likelihood, data-driven insensitive parameter is superior and has lower computational costs.
翻訳日:2022-12-25 08:24:43 公開日:2020-03-09
# QTIP:クイックシミュレーションに基づくインシデントパラメータごとの交通モデルの適応

QTIP: Quick simulation-based adaptation of Traffic model per Incident Parameters ( http://arxiv.org/abs/2003.04109v1 )

ライセンス: Link先を確認
Inon Peled, Raghuveer Kamalakar, Carlos Lima Azevedo, Francisco C. Pereira(参考訳) 現在のデータ駆動トラフィック予測モデルは、通常、数ヶ月のスピードやフローなど、大きなデータセットでトレーニングされる。 このようなモデルは、通常の道路状況に非常に適合するが、最も必要な時にしばしば失敗する: 道路事故のような突然で重大な混乱に苦しむ場合。 本稿では,交通破壊に対する予測モデルの準瞬時適応のためのシミュレーションベースのフレームワークQTIPについて述べる。 簡単に言えば、QTIPは影響を受ける道路のリアルタイムシミュレーションを行い、その結果を分析し、通常の予測モデルの変更を提案する。 QTIPは、影響を受けた車両からの即時救難信号によって伝達される、インシデントの性質ごとのシミュレーションシナリオを構築する。 このようなリアルタイム信号は車載監視システムによって提供され、世界中で広く普及している。 デンマークの高速道路のケーススタディにおいて,QTIPを実験したところ,QTIPは道路事故発生最初の臨界時間において交通予測を改善することができることがわかった。

Current data-driven traffic prediction models are usually trained with large datasets, e.g. several months of speeds and flows. Such models provide very good fit for ordinary road conditions, but often fail just when they are most needed: when traffic suffers a sudden and significant disruption, such as a road incident. In this work, we describe QTIP: a simulation-based framework for quasi-instantaneous adaptation of prediction models upon traffic disruption. In a nutshell, QTIP performs real-time simulations of the affected road for multiple scenarios, analyzes the results, and suggests a change to an ordinary prediction model accordingly. QTIP constructs the simulated scenarios per properties of the incident, as conveyed by immediate distress signals from affected vehicles. Such real-time signals are provided by In-Vehicle Monitor Systems, which are becoming increasingly prevalent world-wide. We experiment QTIP in a case study of a Danish motorway, and the results show that QTIP can improve traffic prediction in the first critical minutes of road incidents.
翻訳日:2022-12-25 08:24:00 公開日:2020-03-09
# 二重確率目的に対する償却分散還元

Amortized variance reduction for doubly stochastic objectives ( http://arxiv.org/abs/2003.04125v1 )

ライセンス: Link先を確認
Ayman Boustati, Sattar Vakili, James Hensman, ST John(参考訳) 深いガウス過程のような複素確率モデルにおける近似推論は、二重確率目的関数の最適化を必要とする。 これらの目的はデータのミニバッチサブサンプリングとモンテカルロ予測の両方からランダム性を取り入れている。 勾配分散が高ければ、確率的最適化問題は収束速度が遅くなると困難になる。 制御変数は分散を低減するために用いられるが、過去のアプローチでは、最小バッチ確率がサンプリング確率にどのように影響するかを考慮していない。 本研究では,モデル勾配計算を必要とせず,各ミニバッチの最適制御変動を安価に近似する認識ネットワークを提案する。 本提案の特性を説明し,ロジスティック回帰および深いガウス過程におけるその性能をテストする。

Approximate inference in complex probabilistic models such as deep Gaussian processes requires the optimisation of doubly stochastic objective functions. These objectives incorporate randomness both from mini-batch subsampling of the data and from Monte Carlo estimation of expectations. If the gradient variance is high, the stochastic optimisation problem becomes difficult with a slow rate of convergence. Control variates can be used to reduce the variance, but past approaches do not take into account how mini-batch stochasticity affects sampling stochasticity, resulting in sub-optimal variance reduction. We propose a new approach in which we use a recognition network to cheaply approximate the optimal control variate for each mini-batch, with no additional model gradient computations. We illustrate the properties of this proposal and test its performance on logistic regression and deep Gaussian processes.
翻訳日:2022-12-25 08:23:43 公開日:2020-03-09
# 政策勾配法における確率的再帰モーメント

Stochastic Recursive Momentum for Policy Gradient Methods ( http://arxiv.org/abs/2003.04302v1 )

ライセンス: Link先を確認
Huizhuo Yuan, Xiangru Lian, Ji Liu, Yuren Zhou(参考訳) 本稿では,SARAH型確率的再帰的分散誘導政策勾配を指数移動平均方式で演算する,STOchastic Recursive Momentum for Policy Gradient (STORM-PG) という新しいアルゴリズムを提案する。 STORM-PGは、STORM-PGのサンプル複雑性を証明可能なシャープな$O(1/\epsilon^3)で楽しむ。 平均すると、STORM-PGは、大きなバッチと、同等の分散還元ポリシー勾配メソッドで持続する小さなバッチの交替を回避し、かなり単純なパラメータチューニングを可能にします。 数値実験は比較ポリシー勾配アルゴリズムよりもアルゴリズムの優越性を示す。

In this paper, we propose a novel algorithm named STOchastic Recursive Momentum for Policy Gradient (STORM-PG), which operates a SARAH-type stochastic recursive variance-reduced policy gradient in an exponential moving average fashion. STORM-PG enjoys a provably sharp $O(1/\epsilon^3)$ sample complexity bound for STORM-PG, matching the best-known convergence rate for policy gradient algorithm. In the mean time, STORM-PG avoids the alternations between large batches and small batches which persists in comparable variance-reduced policy gradient methods, allowing considerably simpler parameter tuning. Numerical experiments depicts the superiority of our algorithm over comparative policy gradient algorithms.
翻訳日:2022-12-25 08:17:06 公開日:2020-03-09
# 相関データに対する相関初期化

Correlated Initialization for Correlated Data ( http://arxiv.org/abs/2003.04422v1 )

ライセンス: Link先を確認
Johannes Schneider(参考訳) 空間データは、近傍の点が関連付けられる特性を示す。 これはレイヤー間の学習表現にも当てはまるが、一般に使われる重み初期化法には当てはまらない。 我々の理論的分析は 相関のない初期化について (i)層を流れる流れは、より急速な減少に苦しむ。 (ii)個々のパラメータのトレーニングは、より「zig-zagging」される。 相関初期化のための複数の手法を提案する。 CNNでは、正規化がなければ精度が数パーセント向上する。 適切に調整されたL2正規化ゲインもしばしば可能である。

Spatial data exhibits the property that nearby points are correlated. This holds also for learnt representations across layers, but not for commonly used weight initialization methods. Our theoretical analysis reveals for uncorrelated initialization that (i) flow through layers suffers from much more rapid decrease and (ii) training of individual parameters is subject to more ``zig-zagging''. We propose multiple methods for correlated initialization. For CNNs, they yield accuracy gains of several per cent in the absence of regularization. Even for properly tuned L2-regularization gains are often possible.
翻訳日:2022-12-25 08:16:23 公開日:2020-03-09
# BiDet: 効率的なバイナリオブジェクト検出器

BiDet: An Efficient Binarized Object Detector ( http://arxiv.org/abs/2003.03961v1 )

ライセンス: Link先を確認
Ziwei Wang, Ziyi Wu, Jiwen Lu and Jie Zhou(参考訳) 本稿では,効率的な物体検出のための二元化ニューラルネットワーク学習手法であるbidetを提案する。 従来のネットワークバイナライゼーション手法では,1段または2段の検出器の重みとアクティベーションを直接定量化することにより,ネットワーク内の情報冗長性が多数の偽陽性を引き起こし,性能を著しく低下させる。 それとは対照的に,提案手法では冗長性除去によるオブジェクト検出のためのバイナリニューラルネットワークの表現能力を完全に活用し,その検出精度を緩和された偽陽性により向上させる。 具体的には,高レベル特徴マップにおける情報量が制限され,特徴マップと物体検出との間の相互情報量が最大となる物体検出への情報ボトルネック(ib)原理を一般化する。 一方,偽陽性除去による情報検出予測に後部が集中するように,スパース物体の先行を学習する。 PASCAL VOCとCOCOデータセットの大規模な実験により、我々の手法は、最先端のバイナリニューラルネットワークよりも大きなマージンで優れていることが示された。

In this paper, we propose a binarized neural network learning method called BiDet for efficient object detection. Conventional network binarization methods directly quantize the weights and activations in one-stage or two-stage detectors with constrained representational capacity, so that the information redundancy in the networks causes numerous false positives and degrades the performance significantly. On the contrary, our BiDet fully utilizes the representational capacity of the binary neural networks for object detection by redundancy removal, through which the detection precision is enhanced with alleviated false positives. Specifically, we generalize the information bottleneck (IB) principle to object detection, where the amount of information in the high-level feature maps is constrained and the mutual information between the feature maps and object detection is maximized. Meanwhile, we learn sparse object priors so that the posteriors are concentrated on informative detection prediction with false positive elimination. Extensive experiments on the PASCAL VOC and COCO datasets show that our method outperforms the state-of-the-art binary neural networks by a sizable margin.
翻訳日:2022-12-25 08:16:17 公開日:2020-03-09
# 赤外線人物再同定のための領域適応訓練

Domain Adversarial Training for Infrared-colour Person Re-Identification ( http://arxiv.org/abs/2003.04191v1 )

ライセンス: Link先を確認
Nima Mohammadi Meshky, Sara Iodice, Krystian Mikolajczyk(参考訳) 人物再識別(re-ID)は、ビデオ監視における役割のため、コンピュータビジョンにおける非常に活発な研究領域である。 現在、ほとんどの手法はカラー画像のマッチングにのみ対応している。 しかし、低照度環境では、CCTVカメラは赤外線イメージングに切り替えるため、赤外線とカラー画像のマッチングを正しく行うシステムを開発する必要がある。 本稿では,赤外線とカラーの両モードで見える人物に対して,微妙でユニークな署名に焦点をあてる部分特徴抽出ネットワークを提案する。 モデルをトレーニングするために,ドメインの敵対的特徴学習フレームワークの新しい変種を提案する。 広範な実験を通じて,本手法が最先端手法よりも優れていることを示す。

Person re-identification (re-ID) is a very active area of research in computer vision, due to the role it plays in video surveillance. Currently, most methods only address the task of matching between colour images. However, in poorly-lit environments CCTV cameras switch to infrared imaging, hence developing a system which can correctly perform matching between infrared and colour images is a necessity. In this paper, we propose a part-feature extraction network to better focus on subtle, unique signatures on the person which are visible across both infrared and colour modalities. To train the model we propose a novel variant of the domain adversarial feature-learning framework. Through extensive experimentation, we show that our approach outperforms state-of-the-art methods.
翻訳日:2022-12-25 08:15:20 公開日:2020-03-09
# 適応インスタンス正規化による知識蒸留

Knowledge distillation via adaptive instance normalization ( http://arxiv.org/abs/2003.04289v1 )

ライセンス: Link先を確認
Jing Yang, Brais Martinez, Adrian Bulat, Georgios Tzimiropoulos(参考訳) 本稿では,知識蒸留によるモデル圧縮の問題に対処する。 そこで本研究では,教師から生徒への特徴統計,特にチャネル単位の平均と分散の伝達に基づく新しい知識蒸留手法を提案する。 本手法は,学生の平均と分散を教師のそれと同等にするために,l_2$の損失を課す標準的な方法に留まらず,その効果は限定的であることが判明した。 具体的には,特徴統計を効果的に伝達するために,適応インスタンス正規化に基づく新たな損失を提案する。 主な考え方は、学習した統計を適応インスタンス正規化(学生に条件付き)を介して教師に転送し、学習した統計が確実に伝達されるかどうかを損失を通じて教師ネットワークを「評価」することである。 我々は, 蒸留方法が, 異なる条件を含む多数の実験的な蒸留方法よりも優れていることを示す。 (a)ネットワークアーキテクチャ (b)教師学生の能力 (c)データセット、及び (d)ドメイン。

This paper addresses the problem of model compression via knowledge distillation. To this end, we propose a new knowledge distillation method based on transferring feature statistics, specifically the channel-wise mean and variance, from the teacher to the student. Our method goes beyond the standard way of enforcing the mean and variance of the student to be similar to those of the teacher through an $L_2$ loss, which we found it to be of limited effectiveness. Specifically, we propose a new loss based on adaptive instance normalization to effectively transfer the feature statistics. The main idea is to transfer the learned statistics back to the teacher via adaptive instance normalization (conditioned on the student) and let the teacher network "evaluate" via a loss whether the statistics learned by the student are reliably transferred. We show that our distillation method outperforms other state-of-the-art distillation methods over a large set of experimental settings including different (a) network architectures, (b) teacher-student capacities, (c) datasets, and (d) domains.
翻訳日:2022-12-25 08:15:08 公開日:2020-03-09
# 距離空間における効率的なモデルフリー強化学習のためのズーム

Zooming for Efficient Model-Free Reinforcement Learning in Metric Spaces ( http://arxiv.org/abs/2003.04069v1 )

ライセンス: Link先を確認
Ahmed Touati, Adrien Ali Taiga, Marc G. Bellemare(参考訳) 効率的な強化学習アルゴリズムに関する豊富な研究にもかかわらず、ほとんどの作品は表表現に焦点を当てており、指数関数的あるいは無限大の状態作用空間を扱うのに苦労している。 本稿では,異なる状態と行動間の近接を特徴付ける自然な距離を持つと考えられる連続的な状態-作用空間を持つエピソード強化学習について考察する。 本研究では,連続的バンディットからアイデアを活用し,より有望で頻繁に訪れる領域をズームすることで協調空間の適応的離散化を学習するオンラインアルゴリズムであるzoomrlを提案する。 ZoomRL が最悪のケースである $\tilde{O}(H^{\frac{5}{2}} K^{\frac{d+1}{d+2}})$ ここで $H$ は計画的地平線であり、$K$ はエピソード数であり、$d$ は計量に関して空間の被覆次元であることを示す。 さらに,本アルゴリズムは,基礎空間の形状を反映するメトリック依存保証の改善を享受する。 最後に,本アルゴリズムは小さな誤特定誤差に対して頑健であることを示す。

Despite the wealth of research into provably efficient reinforcement learning algorithms, most works focus on tabular representation and thus struggle to handle exponentially or infinitely large state-action spaces. In this paper, we consider episodic reinforcement learning with a continuous state-action space which is assumed to be equipped with a natural metric that characterizes the proximity between different states and actions. We propose ZoomRL, an online algorithm that leverages ideas from continuous bandits to learn an adaptive discretization of the joint space by zooming in more promising and frequently visited regions while carefully balancing the exploitation-exploration trade-off. We show that ZoomRL achieves a worst-case regret $\tilde{O}(H^{\frac{5}{2}} K^{\frac{d+1}{d+2}})$ where $H$ is the planning horizon, $K$ is the number of episodes and $d$ is the covering dimension of the space with respect to the metric. Moreover, our algorithm enjoys improved metric-dependent guarantees that reflect the geometry of the underlying space. Finally, we show that our algorithm is robust to small misspecification errors.
翻訳日:2022-12-25 08:08:02 公開日:2020-03-09
# setクラスタリング

Sets Clustering ( http://arxiv.org/abs/2003.04135v1 )

ライセンス: Link先を確認
Ibrahim Jubran and Murad Tukan and Alaa Maalouf and Dan Feldman(参考訳) emph{sets-$k$-means}問題への入力は整数 $k\geq 1$ であり、$\mathcal{p}=\{p_1,\cdots,p_n\}$ of set in $\mathbb{r}^d$ である。 目標は、$\sum_{p\in \mathcal{p}} \min_{p\in p, c\in c}\left\| p-c \right\|^2$ of squared distances to these set である。 この問題に対する \emph{$\varepsilon$-core-set} は$\mathcal{P}$ の重み付き部分集合であり、$\mathbb{R}^d$ における$k$の集合に対して$1\pm\varepsilon$ factor に近似する。 このような $o(\log^2{n})$ のコア集合は常に存在し、すべての入力 $\mathcal{p}$ と固定 $d,k\geq 1$ と $\varepsilon \in (0,1)$ に対して $o(n\log{n})$ time で計算できる。 結果は、任意の距離空間、$z>0$ のパワーへの距離、および外れ値を扱う M-推定器に対して容易に一般化される。 このコアセットに非効率だが最適なアルゴリズムを適用することで、n$で線形に近い時間を要する集合-k$-平均問題に対する最初のptas ($1+\varepsilon$ approximation) が得られる。 これは平面上の集合平均 (k=1$, $d=2$) に対しても最初の結果である。 オープンソースコードと文書分類および施設位置の実験結果も提供される。

The input to the \emph{sets-$k$-means} problem is an integer $k\geq 1$ and a set $\mathcal{P}=\{P_1,\cdots,P_n\}$ of sets in $\mathbb{R}^d$. The goal is to compute a set $C$ of $k$ centers (points) in $\mathbb{R}^d$ that minimizes the sum $\sum_{P\in \mathcal{P}} \min_{p\in P, c\in C}\left\| p-c \right\|^2$ of squared distances to these sets. An \emph{$\varepsilon$-core-set} for this problem is a weighted subset of $\mathcal{P}$ that approximates this sum up to $1\pm\varepsilon$ factor, for \emph{every} set $C$ of $k$ centers in $\mathbb{R}^d$. We prove that such a core-set of $O(\log^2{n})$ sets always exists, and can be computed in $O(n\log{n})$ time, for every input $\mathcal{P}$ and every fixed $d,k\geq 1$ and $\varepsilon \in (0,1)$. The result easily generalized for any metric space, distances to the power of $z>0$, and M-estimators that handle outliers. Applying an inefficient but optimal algorithm on this coreset allows us to obtain the first PTAS ($1+\varepsilon$ approximation) for the sets-$k$-means problem that takes time near linear in $n$. This is the first result even for sets-mean on the plane ($k=1$, $d=2$). Open source code and experimental results for document classification and facility locations are also provided.
翻訳日:2022-12-25 08:07:20 公開日:2020-03-09
# 近似は十分である:次元の確率変数とマージン複雑性

Approximate is Good Enough: Probabilistic Variants of Dimensional and Margin Complexity ( http://arxiv.org/abs/2003.04180v1 )

ライセンス: Link先を確認
Pritish Kamath, Omar Montasser, Nathan Srebro(参考訳) 我々は、与えられた仮説クラスを正確に表すのに必要な埋め込みの最小次元またはノルムに対応する次元と辺の複雑性の近似的な概念を提示し、研究する。 このような概念は線形予測子やカーネルを用いた学習に十分であるだけでなく、正確な変種とは異なり必要であることを示す。 したがって、線形メソッドやカーネルメソッドの制限を議論するのに適している。

We present and study approximate notions of dimensional and margin complexity, which correspond to the minimal dimension or norm of an embedding required to approximate, rather then exactly represent, a given hypothesis class. We show that such notions are not only sufficient for learning using linear predictors or a kernel, but unlike the exact variants, are also necessary. Thus they are better suited for discussing limitations of linear or kernel methods.
翻訳日:2022-12-25 08:06:11 公開日:2020-03-09
# 未集計データのラベル付けのための半教師ありクラスタリングと分類の協調学習

Collaborative Learning of Semi-Supervised Clustering and Classification for Labeling Uncurated Data ( http://arxiv.org/abs/2003.04261v1 )

ライセンス: Link先を確認
Sara Mousavi, Dylan Lee, Tatianna Griffin, Dawnie Steadman, and Audris Mockus(参考訳) ドメイン固有のイメージコレクションは、科学やビジネスの様々な分野において潜在的価値を示すが、しばしばキュレーションされることはない。 このような画像データに現代的な教師あり画像分析手法を適用するためには、まずは整理して整理し、次に特定の領域で採用する命名法に手作業でラベル付けする必要がある。 この問題に対処するため,我々はPludシステムの設計と実装を行った。 Pludは、専門家が費やした労力を最小限に抑え、リアルな大規模な画像コレクションを処理するために、反復的な半教師付きワークフローを提供する。 サイズやタイプに関わらず、ラベル付けデータセットをサポートできると考えています。 Pludは、教師なしクラスタリング、ヒューマンアシスト、教師付き分類の反復的なシーケンスである。 イテレーションごとに 1)ラベル付きデータセットが成長する。 2) 分類法の一般性とその正確性は増大し, 3) 手動作業の削減。 人間の分解を文書化した100万以上の画像に適用し,本システムの有効性を評価した。 手動ラベリングとpludのサポートによるラベリングを比較した実験では、データラベリングに要する時間を短縮し、この新しいドメインに対して高精度なモデルを生成することが分かりました。

Domain-specific image collections present potential value in various areas of science and business but are often not curated nor have any way to readily extract relevant content. To employ contemporary supervised image analysis methods on such image data, they must first be cleaned and organized, and then manually labeled for the nomenclature employed in the specific domain, which is a time consuming and expensive endeavor. To address this issue, we designed and implemented the Plud system. Plud provides an iterative semi-supervised workflow to minimize the effort spent by an expert and handles realistic large collections of images. We believe it can support labeling datasets regardless of their size and type. Plud is an iterative sequence of unsupervised clustering, human assistance, and supervised classification. With each iteration 1) the labeled dataset grows, 2) the generality of the classification method and its accuracy increases, and 3) manual effort is reduced. We evaluated the effectiveness of our system, by applying it on over a million images documenting human decomposition. In our experiment comparing manual labeling with labeling conducted with the support of Plud, we found that it reduces the time needed to label data and produces highly accurate models for this new domain.
翻訳日:2022-12-25 08:06:03 公開日:2020-03-09
# 深い確率的正準相関解析のための変分推論

Variational Inference for Deep Probabilistic Canonical Correlation Analysis ( http://arxiv.org/abs/2003.04292v1 )

ライセンス: Link先を確認
Mahdi Karami, Dale Schuurmans(参考訳) 本稿では,潜在空間における確率的正準相関解析(cca)記述に基づく線形多視点層と,深層生成ネットワークを観測モデルとして構成した,高確率多視点モデルを提案する。 このネットワークは、すべてのビューのバリエーションを、共有潜在表現と共有潜在表現が共通の基盤となるビューの変動源を記述することを意図したビュー固有のコンポーネントのセットに分解するように設計されている。 確率的CCAの解を考慮しつつ、潜在確率的多視点層の後方分布を近似した効率的な変分推論法を開発した。 任意の数のビューを持つモデルへの一般化も提案されている。 本研究では,複数視点間の関係を効率的に統合し,学習の難易度を軽減しつつ,多視点学習に深い変動推論を適用できることを実証する。

In this paper, we propose a deep probabilistic multi-view model that is composed of a linear multi-view layer based on probabilistic canonical correlation analysis (CCA) description in the latent space together with deep generative networks as observation models. The network is designed to decompose the variations of all views into a shared latent representation and a set of view-specific components where the shared latent representation is intended to describe the common underlying sources of variation among the views. An efficient variational inference procedure is developed that approximates the posterior distributions of the latent probabilistic multi-view layer while taking into account the solution of probabilistic CCA. A generalization to models with arbitrary number of views is also proposed. The empirical studies confirm that the proposed deep generative multi-view model can successfully extend deep variational inference to multi-view learning while it efficiently integrates the relationship between multiple views to alleviate the difficulty of learning.
翻訳日:2022-12-25 08:05:43 公開日:2020-03-09
# 文脈理解のためのニューロシンボリックアーキテクチャ

Neuro-symbolic Architectures for Context Understanding ( http://arxiv.org/abs/2003.04707v1 )

ライセンス: Link先を確認
Alessandro Oltramari, Jonathan Francis, Cory Henson, Kaixin Ma, and Ruwan Wickramarachchi(参考訳) コンピュータコンテキスト理解(Computational context understanding)とは、エージェントが意思決定のために異なる情報ソースを融合する能力のことであり、人工知能(AI)のような高度な機械推論能力の前提とされている。 データ駆動型と知識駆動型の2つの手法は、機械認識能力の追求において古典的な手法である。 しかし、データ駆動手法は実世界の観測によって事象の統計的規則性をモデル化しようとするが、解釈は困難であり、外部知識を自然に取り入れるメカニズムが欠如している。 逆に、知識駆動の手法は構造化知識ベースを結合し、公理原理に基づく記号的推論を行い、推論処理においてより解釈可能であるが、推論の統計的サリエンスを推定する能力は欠如していることが多い。 これらの課題に対処するため,両アプローチの長所を結合する汎用フレームワークとしてハイブリッドAI手法を提案する。 具体的には,ニューロシンボリズムの概念を知識ベースを用いて深層ニューラルネットワークの学習過程を指導する方法として継承する。 さらに神経シンボリズムの2つの応用で議論を進め、どちらの場合においても、我々のシステムは最先端と比較して、同等のパフォーマンスを達成しつつも解釈性を維持していることを示している。

Computational context understanding refers to an agent's ability to fuse disparate sources of information for decision-making and is, therefore, generally regarded as a prerequisite for sophisticated machine reasoning capabilities, such as in artificial intelligence (AI). Data-driven and knowledge-driven methods are two classical techniques in the pursuit of such machine sense-making capability. However, while data-driven methods seek to model the statistical regularities of events by making observations in the real-world, they remain difficult to interpret and they lack mechanisms for naturally incorporating external knowledge. Conversely, knowledge-driven methods, combine structured knowledge bases, perform symbolic reasoning based on axiomatic principles, and are more interpretable in their inferential processing; however, they often lack the ability to estimate the statistical salience of an inference. To combat these issues, we propose the use of hybrid AI methodology as a general framework for combining the strengths of both approaches. Specifically, we inherit the concept of neuro-symbolism as a way of using knowledge-bases to guide the learning progress of deep neural networks. We further ground our discussion in two applications of neuro-symbolism and, in both cases, show that our systems maintain interpretability while achieving comparable performance, relative to the state-of-the-art.
翻訳日:2022-12-25 07:59:18 公開日:2020-03-09
# KGvec2go - サービスとしての知識グラフ埋め込み

KGvec2go -- Knowledge Graph Embeddings as a Service ( http://arxiv.org/abs/2003.05809v1 )

ライセンス: Link先を確認
Jan Portisch, Michael Hladik, Heiko Paulheim(参考訳) 本稿では、下流アプリケーションにおけるグラフ埋め込みへのアクセスと消費のためのWeb APIであるKGvec2goについて述べる。 現在、4つの知識グラフに対して事前学習された埋め込みを提供する。 サービスとその利用方法を紹介し,複数の意味ベンチマークで評価することにより,学習モデルに意味的価値があることをさらに示す。 また、複数のモデルを組み合わせることで、最高の個々のモデルよりも優れた結果が得られることも明らかにした。

In this paper, we present KGvec2go, a Web API for accessing and consuming graph embeddings in a light-weight fashion in downstream applications. Currently, we serve pre-trained embeddings for four knowledge graphs. We introduce the service and its usage, and we show further that the trained models have semantic value by evaluating them on multiple semantic benchmarks. The evaluation also reveals that the combination of multiple models can lead to a better outcome than the best individual model.
翻訳日:2022-12-25 07:58:54 公開日:2020-03-09
# 階層的運用モデルにおける行動・計画・学習の統合

Integrating Acting, Planning and Learning in Hierarchical Operational Models ( http://arxiv.org/abs/2003.03932v1 )

ライセンス: Link先を確認
Sunandita Patra, James Mason, Amit Kumar, Malik Ghallab, Paolo Traverso, Dana Nau(参考訳) 我々はRAE(Refinement Acting Engine)のための新しい計画と学習アルゴリズムを提案する。 RAEは階層的な運用モデルを使用して動的に変化する環境でタスクを実行する。 当社の計画手順であるupomは,運用モデルの空間でuttライクな検索を行い,タスクや手元のコンテキストに最適な近似手法を見つける。 我々の学習戦略は、オンライン行動経験および/またはシミュレートされた計画結果から、決定コンテキストからメソッドインスタンスへのマッピングと、upomを導くヒューリスティック関数を取得します。 実験の結果,upomと学習戦略は,効率と成功率の2つの指標を用いて,4つのテスト領域におけるraeの性能を大幅に向上させた。

We present new planning and learning algorithms for RAE, the Refinement Acting Engine. RAE uses hierarchical operational models to perform tasks in dynamically changing environments. Our planning procedure, UPOM, does a UCT-like search in the space of operational models in order to find a near-optimal method to use for the task and context at hand. Our learning strategies acquire, from online acting experiences and/or simulated planning results, a mapping from decision contexts to method instances as well as a heuristic function to guide UPOM. Our experimental results show that UPOM and our learning strategies significantly improve RAE's performance in four test domains using two different metrics: efficiency and success ratio.
翻訳日:2022-12-25 07:58:46 公開日:2020-03-09
# 識別的特徴フィードバックによるロバスト学習

Robust Learning from Discriminative Feature Feedback ( http://arxiv.org/abs/2003.03946v1 )

ライセンス: Link先を確認
Sanjoy Dasgupta and Sivan Sabato(参考訳) 近年の研究では、人間のアノテーションがインスタンスのラベルを提供するだけでなく、インスタンスのペア間の重要な違いを強調する識別的特徴を識別する、識別的特徴フィードバックからの学習モデルが導入されている。 このようなフィードバックは学習に寄与する可能性があり,それ以外は難解な概念クラスを効率的に学習できることが示されている。 しかし、これらの結果は完全なアノテータのフィードバックに頼っていた。 本稿では,アノテータが誤りを犯すことのできる,より現実的で堅牢なフレームワークについて紹介する。 このようなエラーをアルゴリズム的に処理する方法を,敵意と確率的設定の両方において示す。 特に、完全アノテータの場合のように、機能の数に依存しない、両方の設定における後悔の限界を導出します。 この結果は,ロバストな設定から非ロバストな設定へのナイーブな還元によっては得られないことを示す。

Recent work introduced the model of learning from discriminative feature feedback, in which a human annotator not only provides labels of instances, but also identifies discriminative features that highlight important differences between pairs of instances. It was shown that such feedback can be conducive to learning, and makes it possible to efficiently learn some concept classes that would otherwise be intractable. However, these results all relied upon perfect annotator feedback. In this paper, we introduce a more realistic, robust version of the framework, in which the annotator is allowed to make mistakes. We show how such errors can be handled algorithmically, in both an adversarial and a stochastic setting. In particular, we derive regret bounds in both settings that, as in the case of a perfect annotator, are independent of the number of features. We show that this result cannot be obtained by a naive reduction from the robust setting to the non-robust setting.
翻訳日:2022-12-25 07:57:29 公開日:2020-03-09
# pq-gramを用いた順序付きラベル付き木の計量学習

Metric Learning for Ordered Labeled Trees with pq-grams ( http://arxiv.org/abs/2003.03960v1 )

ライセンス: Link先を確認
Hikaru Shindo, Masaaki Nishino, Yasuaki Kobayashi, Akihiro Yamamoto(参考訳) 2つのデータポイント間の類似性を計算することは、多くの機械学習アルゴリズムにおいて重要な役割を果たす。 メトリック学習は、データから適切なメトリックを自動的に学習することを目的としています。 木構造データの計量学習に関する既存の研究は、木編集距離を学習するアプローチを採用している。 しかし,その編集距離は計算コストが高いため,ビッグデータ解析には適していない。 本稿では,pq-gramを用いた木構造データのための新しいメトリック学習手法を提案する。 pq-gram距離は順序付きラベル付き木の距離であり、ツリー編集距離よりもはるかに低い計算コストを持つ。 pq-grams に基づく計量学習を実現するため,新しいパラメータ化距離,重み付き pq-gram 距離を提案する。 また,提案手法は, よく研究され,実践的な計量学習手法であるLarge Margin Nearest Neighbors (LMNN) に基づいて,提案した距離を学習する方法を提案する。 メトリック学習問題を最適化問題として定式化し,勾配降下法を用いてメトリック学習を行う。 提案手法は,様々な分類問題において最先端の編集距離法と競合する結果を得るだけでなく,編集距離法よりも高速に分類問題を解くことができることを示す。

Computing the similarity between two data points plays a vital role in many machine learning algorithms. Metric learning has the aim of learning a good metric automatically from data. Most existing studies on metric learning for tree-structured data have adopted the approach of learning the tree edit distance. However, the edit distance is not amenable for big data analysis because it incurs high computation cost. In this paper, we propose a new metric learning approach for tree-structured data with pq-grams. The pq-gram distance is a distance for ordered labeled trees, and has much lower computation cost than the tree edit distance. In order to perform metric learning based on pq-grams, we propose a new differentiable parameterized distance, weighted pq-gram distance. We also propose a way to learn the proposed distance based on Large Margin Nearest Neighbors (LMNN), which is a well-studied and practical metric learning scheme. We formulate the metric learning problem as an optimization problem and use the gradient descent technique to perform metric learning. We empirically show that the proposed approach not only achieves competitive results with the state-of-the-art edit distance-based methods in various classification problems, but also solves the classification problems much more rapidly than the edit distance-based methods.
翻訳日:2022-12-25 07:57:15 公開日:2020-03-09
# 可変領域非依存特徴リプレイによる連続ドメイン適応

Continuous Domain Adaptation with Variational Domain-Agnostic Feature Replay ( http://arxiv.org/abs/2003.04382v1 )

ライセンス: Link先を確認
Qicheng Lao, Xiang Jiang, Mohammad Havaei, Yoshua Bengio(参考訳) 非定常環境での学習は、機械学習における最大の課題の1つだ。 非定常性は、タスクドリフト、すなわち、入力データに与えられたラベルの条件分布のドリフトまたはドメインドリフト、すなわち入力データの限界分布のドリフトによって引き起こされる。 本稿では,従来学習した知識を維持しつつ,非定常環境において新しいドメインに適応した新しいタスクを学習するためにモデルが必要となる連続的ドメイン適応の文脈において,この課題に取り組むことを目的とする。 両者のドリフトに対処するため,我々は,入力データをドメインに依存しない表現にフィルタする推論モジュール,知識転送を容易にする生成モジュール,フィルタ化および転送可能な知識を適用してクエリを解決するソルバモジュールという,3つのコンポーネントで構成される変分的ドメイン非依存機能リプレイを提案する。 継続的ドメイン適応における2つの基本的なシナリオを取り上げ,提案手法の有効性を実証する。

Learning in non-stationary environments is one of the biggest challenges in machine learning. Non-stationarity can be caused by either task drift, i.e., the drift in the conditional distribution of labels given the input data, or the domain drift, i.e., the drift in the marginal distribution of the input data. This paper aims to tackle this challenge in the context of continuous domain adaptation, where the model is required to learn new tasks adapted to new domains in a non-stationary environment while maintaining previously learned knowledge. To deal with both drifts, we propose variational domain-agnostic feature replay, an approach that is composed of three components: an inference module that filters the input data into domain-agnostic representations, a generative module that facilitates knowledge transfer, and a solver module that applies the filtered and transferable knowledge to solve the queries. We address the two fundamental scenarios in continuous domain adaptation, demonstrating the effectiveness of our proposed approach for practical usage.
翻訳日:2022-12-25 07:50:12 公開日:2020-03-09
# 16個のニューロンを持つ道路:バイオインスパイアされたディープニューラルネットワークを用いたメンタルイメージ

On the Road with 16 Neurons: Mental Imagery with Bio-inspired Deep Neural Networks ( http://arxiv.org/abs/2003.08745v1 )

ライセンス: Link先を確認
Alice Plebe and Mauro Da Lio(参考訳) 本稿では,自律運転における視覚的予測戦略を提案する。 人間は、気を取られたり酔っ払ったりしないときには、今でも最良のドライバーだ。 そのため、人間の心とその神経組織に関する2つの理論的考えからインスピレーションを得ます。 最初のアイデアは、脳がどのようにしてニューロンアンサンブルの階層構造を用いて視覚経験から抽象概念を抽出し、それらをコンパクトな表現に符号化するかである。 第二の考えは、これらの神経知覚表現は中立ではなく、環境における将来の状況の予測に機能することを示唆している。 同様に、予測メカニズムは中立ではなく、将来の行動の現在の計画に向けられている。 我々は、上記の神経認知理論の2つの人工的な枠組みの中で識別する。 第1の理論概念と畳み込みオートエンコーダのアーキテクチャとの対応性を見出す一方、第2理論は中性ではないが2つの異なる視点からタスクの駆動を指向したコンパクトな表現を学習する訓練手順に変換する。 静的観点から、我々は、コンパクト表現における神経ユニットのグループに、駆動タスクに不可欠な特定の概念を明確に表現するよう強制する。 ダイナミックな観点から、我々は、現在の道路シナリオが将来どのように変化するかを予測するよう、コンパクトな表現を奨励します。 我々は、車と車線という2つの基本的な駆動概念のそれぞれに最大16個の神経ユニットを使用するコンパクトな表現をうまく学習する。 我々は,SynTHIAデータセット上で提案した知覚表現の有効性を実証する。 私たちのソースコードはhttps://github.com/3lis/rnn_vaeで利用可能です。

This paper proposes a strategy for visual prediction in the context of autonomous driving. Humans, when not distracted or drunk, are still the best drivers you can currently find. For this reason we take inspiration from two theoretical ideas about the human mind and its neural organization. The first idea concerns how the brain uses a hierarchical structure of neuron ensembles to extract abstract concepts from visual experience and code them into compact representations. The second idea suggests that these neural perceptual representations are not neutral but functional to the prediction of the future state of affairs in the environment. Similarly, the prediction mechanism is not neutral but oriented to the current planning of a future action. We identify within the deep learning framework two artificial counterparts of the aforementioned neurocognitive theories. We find a correspondence between the first theoretical idea and the architecture of convolutional autoencoders, while we translate the second theory into a training procedure that learns compact representations which are not neutral but oriented to driving tasks, from two distinct perspectives. From a static perspective, we force groups of neural units in the compact representations to distinctly represent specific concepts crucial to the driving task. From a dynamic perspective, we encourage the compact representations to be predictive of how the current road scenario will change in the future. We successfully learn compact representations that use as few as 16 neural units for each of the two basic driving concepts we consider: car and lane. We prove the efficiency of our proposed perceptual representations on the SYNTHIA dataset. Our source code is available at https://github.com/3lis/rnn_vae
翻訳日:2022-12-25 07:49:54 公開日:2020-03-09
# 強化学習による再生可能電力消費の促進

Advancing Renewable Electricity Consumption With Reinforcement Learning ( http://arxiv.org/abs/2003.04310v1 )

ライセンス: Link先を確認
Filip Tolovski(参考訳) 現在の電気エネルギーミックスにおける再生可能エネルギー源のシェアが上昇するにつれて、その断続性は炭素フリー発電にとって最大の課題であることが証明される。 そこで,本稿では,顧客に対して価格信号を送信し,高い再生可能エネルギー発生期間への顧客需要のシフトに寄与する電力価格エージェントを提案する。 本稿では,顧客,発電ユーティリティ,気象条件に代表される環境を表現した強化学習手法による価格設定エージェントの実装を提案する。

As the share of renewable energy sources in the present electric energy mix rises, their intermittence proves to be the biggest challenge to carbon free electricity generation. To address this challenge, we propose an electricity pricing agent, which sends price signals to the customers and contributes to shifting the customer demand to periods of high renewable energy generation. We propose an implementation of a pricing agent with a reinforcement learning approach where the environment is represented by the customers, the electricity generation utilities and the weather conditions.
翻訳日:2022-12-25 07:49:08 公開日:2020-03-09
# CCKS 2019知識グラフ評価トラックの概要:エンティティ、リレーショナル、イベント、QA

Overview of the CCKS 2019 Knowledge Graph Evaluation Track: Entity, Relation, Event and QA ( http://arxiv.org/abs/2003.03875v1 )

ライセンス: Link先を確認
Xianpei Han, Zhichun Wang, Jiangtao Zhang, Qinghua Wen, Wenqi Li, Buzhou Tang, Qi Wang, Zhifan Feng, Yang Zhang, Yajuan Lu, Haitao Wang, Wenliang Chen, Hao Shao, Yubo Chen, Kang Liu, Jun Zhao, Taifeng Wang, Kezun Zhang, Meng Wang, Yinlin Jiang, Guilin Qi, Lei Zou, Sen Hu, Minhao Zhang, Yinnian Lin(参考訳) 知識グラフは世界知識を概念、実体、それらの関係としてモデル化し、多くの現実世界のタスクで広く使われている。 CCKS 2019は6つのタスクで評価トラックを開催し、1,600以上のチームを惹きつけた。 本稿では,CCKS 2019における知識グラフ評価手法の概要について述べる。 CCKS 2019において、タスク定義、成功したメソッド、有用なリソース、優れた戦略、そして各タスクに関連する研究課題をレビューすることにより、知識グラフアプリケーションの開発と今後の知識グラフ研究の実施に有用な参考となる。

Knowledge graph models world knowledge as concepts, entities, and the relationships between them, which has been widely used in many real-world tasks. CCKS 2019 held an evaluation track with 6 tasks and attracted more than 1,600 teams. In this paper, we give an overview of the knowledge graph evaluation tract at CCKS 2019. By reviewing the task definition, successful methods, useful resources, good strategies and research challenges associated with each task in CCKS 2019, this paper can provide a helpful reference for developing knowledge graph applications and conducting future knowledge graph researches.
翻訳日:2022-12-25 07:48:58 公開日:2020-03-09
# オープンドメイン対話生成のための事前学習変換言語モデルの実証的検討

An Empirical Investigation of Pre-Trained Transformer Language Models for Open-Domain Dialogue Generation ( http://arxiv.org/abs/2003.04195v1 )

ライセンス: Link先を確認
Piji Li(参考訳) オープンドメイン対話生成作業のための事前学習型トランスフォーマーに基づく自動回帰言語モデルについて実験的検討を行った。 パラメータ学習には事前学習と微調整のトレーニングパラダイムが用いられる。 中国語と英語のニュースとウィキペディアのコーパスは、それぞれ事前学習段階に集められる。 対話コンテキストと応答は、微調整段階でモデルの入力として使用される単一のシーケンスに結合される。 コンテキストと応答の両方に対する重み付き共同予測パラダイムは、コンテキスト予測の損失項の有無にかかわらず、モデルの性能を評価するように設計されている。 応答テキスト生成には、グリーディ探索、ビーム探索、トップkサンプリングなど様々な復号戦略が用いられる。 weibo、douban、reddit、dailydialog、ペルソナチャットなど、典型的なシングルターンおよびマルチターン対話コーパスに関する広範な実験が行われた。 言語モデルおよびベースラインアプローチにおける生成結果の妥当性と多様性に関する自動評価指標の詳細な数について報告する。

We present an empirical investigation of pre-trained Transformer-based auto-regressive language models for the task of open-domain dialogue generation. Training paradigm of pre-training and fine-tuning is employed to conduct the parameter learning. Corpora of News and Wikipedia in Chinese and English are collected for the pre-training stage respectively. Dialogue context and response are concatenated into a single sequence utilized as the input of the models during the fine-tuning stage. A weighted joint prediction paradigm for both context and response is designed to evaluate the performance of models with or without the loss term for context prediction. Various of decoding strategies such as greedy search, beam search, top-k sampling, etc. are employed to conduct the response text generation. Extensive experiments are conducted on the typical single-turn and multi-turn dialogue corpora such as Weibo, Douban, Reddit, DailyDialog, and Persona-Chat. Detailed numbers of automatic evaluation metrics on relevance and diversity of the generated results for the languages models as well as the baseline approaches are reported.
翻訳日:2022-12-25 07:48:47 公開日:2020-03-09
# Learned Spectral Computed Tomography

Learned Spectral Computed Tomography ( http://arxiv.org/abs/2003.04138v1 )

ライセンス: Link先を確認
Dimitris Kamilis, Mario Blatter, Nick Polydorides(参考訳) SPCCT(Spectral Photon-Counting Computed Tomography)は、従来のX線CT(Computed Tomography)に比べて、材料分離、アーティファクト除去、画像品質の向上という形で多くの利点を示す有望な技術である。 しかしながら、SPCCT支配方程式の複雑さと非線形性の増加により、モデルベースの再構成アルゴリズムは、通常、手作りの正規化項と極小パラメータの巧妙なチューニングを必要とし、変動条件での校正は不可能である。 さらに、一般的に計算コストが高く、限られた角度のデータの場合、撮像能力は著しく低下する。 近年、Deep Learningは、これらの課題の多くを回避しつつ、医療画像アプリケーションに最先端の再構築性能を提供することが証明されている。 これらの進歩に触発されて,モデル知識を取り入れつつ,ニューラルネットワークの表現力を利用するscctのための深層学習イメージング手法を提案する。 この手法は、ケース固有データを用いて訓練された2段階学習原始双対アルゴリズムの形式を取る。 提案手法は,他の最適化手法で要求されるハンドチューニングを回避しつつ,高速再構成機能と高撮像性能によって特徴付けられる。 心血管画像の応用に触発された数値例を用いて,再構成画像と品質指標を用いて,本手法の性能を実証した。

Spectral Photon-Counting Computed Tomography (SPCCT) is a promising technology that has shown a number of advantages over conventional X-ray Computed Tomography (CT) in the form of material separation, artefact removal and enhanced image quality. However, due to the increased complexity and non-linearity of the SPCCT governing equations, model-based reconstruction algorithms typically require handcrafted regularisation terms and meticulous tuning of hyperparameters making them impractical to calibrate in variable conditions. Additionally, they typically incur high computational costs and in cases of limited-angle data, their imaging capability deteriorates significantly. Recently, Deep Learning has proven to provide state-of-the-art reconstruction performance in medical imaging applications while circumventing most of these challenges. Inspired by these advances, we propose a Deep Learning imaging method for SPCCT that exploits the expressive power of Neural Networks while also incorporating model knowledge. The method takes the form of a two-step learned primal-dual algorithm that is trained using case-specific data. The proposed approach is characterised by fast reconstruction capability and high imaging performance, even in limited-data cases, while avoiding the hand-tuning that is required by other optimisation approaches. We demonstrate the performance of the method in terms of reconstructed images and quality metrics via numerical examples inspired by the application of cardiovascular imaging.
翻訳日:2022-12-25 07:48:32 公開日:2020-03-09
# fusionlane: ディープニューラルネットワークを用いたレーンマーキング意味セグメンテーションのためのマルチセンサー融合

FusionLane: Multi-Sensor Fusion for Lane Marking Semantic Segmentation Using Deep Neural Networks ( http://arxiv.org/abs/2003.04404v1 )

ライセンス: Link先を確認
Ruochen Yin, Biao Yu, Huapeng Wu, Yutao Song, Runxin Niu(参考訳) レーンレベルの高精度マップの構築において,レーンマーキングの効果的なセマンティックセマンティックセグメンテーションを実現するための重要なステップである。 近年,多くのイメージセマンティックセグメンテーション手法が提案されている。 これらの手法は主にカメラからの映像に焦点を当てており、センサ自体の限界により、車線マーキングの正確な3次元空間位置を得ることができず、車線レベルの高精度マップ構築の需要を満たすことができない。 本稿では,lidarとカメラ融合深層ニューラルネットワークを用いたレーンマーキング意味セグメンテーション手法を提案する。 他の方法とは異なり、セグメンテーション結果の正確な位置情報を得るために、本論文のセマンティックセグメンテーション対象は、カメラで撮影された画像ではなく、ライダーポイントクラウドから変換された鳥の目視である。 本手法は,まずDeeplabv3+[\ref{ref:1}]ネットワークを用いてカメラが捉えた画像を分割し,提案したネットワークの入力としてLIDARが収集した点雲とセグメンテーション結果をマージする。 このニューラルネットワークでは,時系列情報を用いてレーンマーキングのセマンティクスセグメンテーションを支援するために,long short-term memory (lstm)構造も追加する。 手動でラベル付けおよび拡張した14,000以上の画像データセットに対する実験により,雲鳥の眼球図のセマンティックセグメンテーションにおいて,提案手法の有効性が示された。 そのため、高精度マップ構築の自動化を大幅に改善することができる。 私たちのコードはhttps://github.com/rolandying/fusionlaneで利用可能です。

It is a crucial step to achieve effective semantic segmentation of lane marking during the construction of the lane level high-precision map. In recent years, many image semantic segmentation methods have been proposed. These methods mainly focus on the image from camera, due to the limitation of the sensor itself, the accurate three-dimensional spatial position of the lane marking cannot be obtained, so the demand for the lane level high-precision map construction cannot be met. This paper proposes a lane marking semantic segmentation method based on LIDAR and camera fusion deep neural network. Different from other methods, in order to obtain accurate position information of the segmentation results, the semantic segmentation object of this paper is a bird's eye view converted from a LIDAR points cloud instead of an image captured by a camera. This method first uses the deeplabv3+ [\ref{ref:1}] network to segment the image captured by the camera, and the segmentation result is merged with the point clouds collected by the LIDAR as the input of the proposed network. In this neural network, we also add a long short-term memory (LSTM) structure to assist the network for semantic segmentation of lane markings by using the the time series information. The experiments on more than 14,000 image datasets which we have manually labeled and expanded have shown the proposed method has better performance on the semantic segmentation of the points cloud bird's eye view. Therefore, the automation of high-precision map construction can be significantly improved. Our code is available at https://github.com/rolandying/FusionLane.
翻訳日:2022-12-25 07:48:01 公開日:2020-03-09
# Deep Inverse Feature Learning: エラーの表現学習

Deep Inverse Feature Learning: A Representation Learning of Error ( http://arxiv.org/abs/2003.04285v1 )

ライセンス: Link先を確認
Behzad Ghazanfari, Fatemeh Afghah(参考訳) 本稿では,機械学習における誤りに関する新しい視点を紹介し,分類やクラスタリングのための誤り表現に基づく高レベル特徴のセットを学習する表現学習手法として,逆特徴学習(ifl)を提案する。 提案する誤り表現の観点は,現在の学習手法と根本的に異なり,分類手法では誤りを,真のラベルと予測されたラベルの違いや,コンパクト性などのクラスタリング目的関数を用いたクラスタリングアプローチの関数として解釈する。 逆特徴学習法は、深層クラスタリング手法に基づいて、誤り表現の定性的形式を特徴として求める。 提案手法の性能は,学習特徴と元の特徴を併用するか,複数のデータセットの分類とクラスタリングの異なる手法で学習特徴を単に利用することによって評価される。 実験の結果,提案手法は分類,特にクラスタリングにおいて有望な結果をもたらすことがわかった。 分類において、提案する特徴と主特徴は、いくつかの一般的なデータセットの分類方法のほとんどの結果を改善する。 クラスタリングでは、異なるデータセット上で異なるクラスタリング手法の性能が大幅に改善される。 エラーの表現のいくつかの特徴が、主要な機能の非常に有益な側面を捉えている興味深い結果がある。 本稿では,様々な特徴学習領域における誤り表現学習の活用を期待する。

This paper introduces a novel perspective about error in machine learning and proposes inverse feature learning (IFL) as a representation learning approach that learns a set of high-level features based on the representation of error for classification or clustering purposes. The proposed perspective about error representation is fundamentally different from current learning methods, where in classification approaches they interpret the error as a function of the differences between the true labels and the predicted ones or in clustering approaches, in which the clustering objective functions such as compactness are used. Inverse feature learning method operates based on a deep clustering approach to obtain a qualitative form of the representation of error as features. The performance of the proposed IFL method is evaluated by applying the learned features along with the original features, or just using the learned features in different classification and clustering techniques for several data sets. The experimental results show that the proposed method leads to promising results in classification and especially in clustering. In classification, the proposed features along with the primary features improve the results of most of the classification methods on several popular data sets. In clustering, the performance of different clustering methods is considerably improved on different data sets. There are interesting results that show some few features of the representation of error capture highly informative aspects of primary features. We hope this paper helps to utilize the error representation learning in different feature learning domains.
翻訳日:2022-12-25 07:42:06 公開日:2020-03-09
# ReLUニューラルネットワークにおける出力特性の入力特性の探索

Finding Input Characterizations for Output Properties in ReLU Neural Networks ( http://arxiv.org/abs/2003.04273v1 )

ライセンス: Link先を確認
Saket Dingliwal, Divyansh Pareek, Jatin Arora(参考訳) Deep Neural Networks(DNN)は強力なメカニズムとして登場し、現実世界の安全クリティカルなドメインにますますデプロイされている。 広く成功したにもかかわらず、その複雑なアーキテクチャは、それらに関する正式な保証を証明するのを困難にしている。 複雑な低レベルネットワークアーキテクチャとハイレベルな正しさの論理的概念がどのように関連しているかを特定することは、重要な課題である。 このプロジェクトでは、提案するアイデアを拡張し、アーキテクチャとハイレベルな仕様の間のギャップを埋める方法を紹介します。 我々の重要な洞察は、必要な安全特性を直接証明する代わりに、まずニューラルネットワークの構造に密接に関係する性質を証明し、安全特性を推論するためにそれらを使用することである。 我々は,提案手法の理論的基礎を構築し,様々な実験を通して性能を実証的に評価し,出力の特定の特性を保証する入力空間の広い領域を特定することにより,既存の手法よりも有望な結果を得る。

Deep Neural Networks (DNNs) have emerged as a powerful mechanism and are being increasingly deployed in real-world safety-critical domains. Despite the widespread success, their complex architecture makes proving any formal guarantees about them difficult. Identifying how logical notions of high-level correctness relate to the complex low-level network architecture is a significant challenge. In this project, we extend the ideas presented in and introduce a way to bridge the gap between the architecture and the high-level specifications. Our key insight is that instead of directly proving the safety properties that are required, we first prove properties that relate closely to the structure of the neural net and use them to reason about the safety properties. We build theoretical foundations for our approach, and empirically evaluate the performance through various experiments, achieving promising results than the existing approach by identifying a larger region of input space that guarantees a certain property on the output.
翻訳日:2022-12-25 07:41:00 公開日:2020-03-09
# チャージトラップ型Flash重み行列を用いた確率計算によるソフトウェアレベル精度

Software-Level Accuracy Using Stochastic Computing With Charge-Trap-Flash Based Weight Matrix ( http://arxiv.org/abs/2004.11120v1 )

ライセンス: Link先を確認
Varun Bhatt, Shalini Shrivastava, Tanmay Chavan, Udayan Ganguly(参考訳) 新たなメモリデバイスによるインメモリコンピューティングパラダイムは、ディープラーニングを加速する有望な方法であることが最近示されている。 抵抗処理ユニット(RPU)は、同一パルスの確率的トレインを用いてクロスバーアレイのベクトルベクトル外積を可能とし、一発の重み付けを可能とし、行列乗算演算の急激な高速化を約束する。 しかし, 装置が1000以上の導電レベルの線形変化の条件を満たさない場合, システムの性能は低下する。 これはナノスケール記憶の課題です。 近年、チャージトラップフラッシュ(CTF)メモリは飽和前に大量のレベルを持つが、非線形性は可変であることが示されている。 本稿では,コンダクタンス変化範囲と線形性とのトレードオフについて検討する。 シミュレーションにより, 最適範囲の選択において, 精度の高い浮動小数点演算を用いて訓練したモデルとほぼ同等の性能を示し, 性能を1%以下に抑えることができた。 我々のシステムは、MNISTデータセットで97.9%、CIFAR-10とCIFAR-100データセットで89.1%、70.5%の精度に達する。 また,強化学習において,q-learningにおける値関数近似に利用し,約146ステップでマウンテンカー制御問題のエピソードを完了させる方法を示す。 最先端とベンチマークすると、CTFベースのRPUは、ソフトウェアに匹敵するパフォーマンスを実現するために、最高のクラスパフォーマンスを示す。

The in-memory computing paradigm with emerging memory devices has been recently shown to be a promising way to accelerate deep learning. Resistive processing unit (RPU) has been proposed to enable the vector-vector outer product in a crossbar array using a stochastic train of identical pulses to enable one-shot weight update, promising intense speed-up in matrix multiplication operations, which form the bulk of training neural networks. However, the performance of the system suffers if the device does not satisfy the condition of linear conductance change over around 1,000 conductance levels. This is a challenge for nanoscale memories. Recently, Charge Trap Flash (CTF) memory was shown to have a large number of levels before saturation, but variable non-linearity. In this paper, we explore the trade-off between the range of conductance change and linearity. We show, through simulations, that at an optimum choice of the range, our system performs nearly as well as the models trained using exact floating point operations, with less than 1% reduction in the performance. Our system reaches an accuracy of 97.9% on MNIST dataset, 89.1% and 70.5% accuracy on CIFAR-10 and CIFAR-100 datasets (using pre-extracted features). We also show its use in reinforcement learning, where it is used for value function approximation in Q-Learning, and learns to complete an episode the mountain car control problem in around 146 steps. Benchmarked to state-of-the-art, the CTF based RPU shows best in class performance to enable software equivalent performance.
翻訳日:2022-12-25 07:40:45 公開日:2020-03-09
# 単語埋め込みの多層的デバイアス

Joint Multiclass Debiasing of Word Embeddings ( http://arxiv.org/abs/2003.11520v1 )

ライセンス: Link先を確認
Radomir Popovi\'c, Florian Lemmerich and Markus Strohmaier(参考訳) Word Embeddingsのバイアスは、その削減の取り組みとともに、近年の関心の対象となっている。 現在のアプローチは、性別や人種のような単一のバイアス次元をデバイアスする有望な進歩を示している。 本稿では,複数のバイアス次元を同時にデバイアスできる多クラス脱バイアス手法を提案する。 そこで我々は,Word Embeddings Association Test (WEAT) のスコアを最小化し,バイアス軽減を目的としたHardWEATとSoftWEATの2つのアプローチを提案する。 我々は,3種類のバイアス(宗教,性別,人種)に対して,単語埋め込みを偏在させることにより,その実現可能性を示すとともに,単語埋め込みにおけるベクトル間の有意義な関係を維持しつつ,バイアスを低減あるいは完全に排除できることを示す。 我々の研究は、テキストデータのより偏りのない神経表現の基礎を強化する。

Bias in Word Embeddings has been a subject of recent interest, along with efforts for its reduction. Current approaches show promising progress towards debiasing single bias dimensions such as gender or race. In this paper, we present a joint multiclass debiasing approach that is capable of debiasing multiple bias dimensions simultaneously. In that direction, we present two approaches, HardWEAT and SoftWEAT, that aim to reduce biases by minimizing the scores of the Word Embeddings Association Test (WEAT). We demonstrate the viability of our methods by debiasing Word Embeddings on three classes of biases (religion, gender and race) in three different publicly available word embeddings and show that our concepts can both reduce or even completely eliminate bias, while maintaining meaningful relationships between vectors in word embeddings. Our work strengthens the foundation for more unbiased neural representations of textual data.
翻訳日:2022-12-25 07:40:14 公開日:2020-03-09
# human ai interaction loop training: インタラクティブ強化学習のための新しいアプローチ

Human AI interaction loop training: New approach for interactive reinforcement learning ( http://arxiv.org/abs/2003.04203v1 )

ライセンス: Link先を確認
Neda Navidi(参考訳) 機械学習の様々な意思決定タスクにおける強化学習(rl)は、スタンドアローン報酬関数から学習するエージェントに効果的な結果を提供する。 しかし、これは多くの環境状態や行動空間とともに、報酬の決定にもユニークな課題をもたらす。 この複雑さは、ここで考慮された環境の高次元性と連続性から生まれ、強化学習を通じて環境について学ぶための多くの学習試行を要求する。 模倣学習(il)は教師を使った課題に対して有望な解決策を提供する。 ILでは、学習プロセスは、エージェントと環境に対する人為的な援助と/または制御を利用することができる。 本研究では,人間教師とエージェント学習者について考察する。 教師は、環境に対処するためのエージェントトレーニングに参加し、特定の目標に取り組み、事前定義された目標を達成する。 しかしながら、このパラダイム内では、既存のilアプローチは、長いホライゾン問題における広範なデモンストレーション情報を期待する欠点がある。 本稿では,ILと異なるタイプのRL手法,すなわち状態アクション報酬状態アクション(SARSA)と非同期アドバンテージアクタ批判エージェント(A3C)を組み合わせることで,スタンドアローンシステムの問題を克服する手法を提案する。 教師のフィードバックを効果的に活用するには,エージェント学習者が逐次的な意思決定方針を学べるように,直接的あるいは間接的に詳細な方法が必要となる。 本研究は,様々なOpenAI Gym環境において,このアルゴリズムを異なる組み合わせで組み込むことができ,人間の努力と退屈な探索プロセスの両方を著しく減少させることを示した。

Reinforcement Learning (RL) in various decision-making tasks of machine learning provides effective results with an agent learning from a stand-alone reward function. However, it presents unique challenges with large amounts of environment states and action spaces, as well as in the determination of rewards. This complexity, coming from high dimensionality and continuousness of the environments considered herein, calls for a large number of learning trials to learn about the environment through Reinforcement Learning. Imitation Learning (IL) offers a promising solution for those challenges using a teacher. In IL, the learning process can take advantage of human-sourced assistance and/or control over the agent and environment. A human teacher and an agent learner are considered in this study. The teacher takes part in the agent training towards dealing with the environment, tackling a specific objective, and achieving a predefined goal. Within that paradigm, however, existing IL approaches have the drawback of expecting extensive demonstration information in long-horizon problems. This paper proposes a novel approach combining IL with different types of RL methods, namely state action reward state action (SARSA) and asynchronous advantage actor-critic (A3C) agents, to overcome the problems of both stand-alone systems. It is addressed how to effectively leverage the teacher feedback, be it direct binary or indirect detailed for the agent learner to learn sequential decision-making policies. The results of this study on various OpenAI Gym environments show that this algorithmic method can be incorporated with different combinations, significantly decreases both human endeavor and tedious exploration process.
翻訳日:2022-12-25 07:39:45 公開日:2020-03-09
# 非観測文脈情報に基づく伝達強化学習

Transfer Reinforcement Learning under Unobserved Contextual Information ( http://arxiv.org/abs/2003.04427v1 )

ライセンス: Link先を確認
Yan Zhang and Michael M. Zavlanos(参考訳) 本稿では,環境条件によって状態遷移と報酬が影響を受ける伝達強化学習問題について検討する。 具体的には、コンテキスト対応ポリシーにアクセスでき、そのポリシーに基づいて遷移データと報酬データを生成するデモンストレータエージェントを検討する。 これらのデータはデモ参加者の経験を構成する。 そして、この体験を、基礎となる文脈情報を除いて、環境コンテキストにアクセスできない学習者エージェントに転送し、少ないサンプルを用いて制御ポリシーを学習できるようにすることが目的である。 文脈情報の因果的影響を無視して、学習者が見積もる遷移モデルと報奨モデルにバイアスを生じさせ、学習した準最適政策をもたらすことはよく知られている。 この課題に対処するため,本稿では,デモンストレータのデータを用いて遷移関数と報酬関数の因果境界を求める手法を開発し,それを用いて値関数の因果境界を求める。 これらの値関数境界を用いて、バイアスのない真値関数に収束する新しいQ学習アルゴリズムとUCB-Q学習アルゴリズムを提案する。 本稿では,提案する値関数境界を検証したロボット動作計画問題の数値実験を行い,提案アルゴリズムが実証者からのデータを効果的に利用して学習者の学習プロセスを高速化できることを実証する。

In this paper, we study a transfer reinforcement learning problem where the state transitions and rewards are affected by the environmental context. Specifically, we consider a demonstrator agent that has access to a context-aware policy and can generate transition and reward data based on that policy. These data constitute the experience of the demonstrator. Then, the goal is to transfer this experience, excluding the underlying contextual information, to a learner agent that does not have access to the environmental context, so that they can learn a control policy using fewer samples. It is well known that, disregarding the causal effect of the contextual information, can introduce bias in the transition and reward models estimated by the learner, resulting in a learned suboptimal policy. To address this challenge, in this paper, we develop a method to obtain causal bounds on the transition and reward functions using the demonstrator's data, which we then use to obtain causal bounds on the value functions. Using these value function bounds, we propose new Q learning and UCB-Q learning algorithms that converge to the true value function without bias. We provide numerical experiments for robot motion planning problems that validate the proposed value function bounds and demonstrate that the proposed algorithms can effectively make use of the data from the demonstrator to accelerate the learning process of the learner.
翻訳日:2022-12-25 07:39:16 公開日:2020-03-09