論文の概要: Multi-Perspective LSTM for Joint Visual Representation Learning
- arxiv url: http://arxiv.org/abs/2105.02802v1
- Date: Thu, 6 May 2021 16:44:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 15:15:41.661216
- Title: Multi-Perspective LSTM for Joint Visual Representation Learning
- Title(参考訳): 共同視覚表現学習のための多視点LSTM
- Authors: Alireza Sepas-Moghaddam, Fernando Pereira, Paulo Lobato Correia, Ali
Etemad
- Abstract要約: 複数の視点から捉えた視覚的シーケンスで利用可能な内的および対外的関係を学習できる新しいLSTM細胞アーキテクチャを提案する。
私たちのアーキテクチャは、細胞レベルで追加のゲートと記憶を使用する新しい繰り返し共同学習戦略を採用しています。
提案するセルを用いてネットワークを構築することにより、より効果的でリッチな視覚的表現が認識タスクで学習されることを示す。
- 参考スコア(独自算出の注目度): 81.21490913108835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel LSTM cell architecture capable of learning both intra- and
inter-perspective relationships available in visual sequences captured from
multiple perspectives. Our architecture adopts a novel recurrent joint learning
strategy that uses additional gates and memories at the cell level. We
demonstrate that by using the proposed cell to create a network, more effective
and richer visual representations are learned for recognition tasks. We
validate the performance of our proposed architecture in the context of two
multi-perspective visual recognition tasks namely lip reading and face
recognition. Three relevant datasets are considered and the results are
compared against fusion strategies, other existing multi-input LSTM
architectures, and alternative recognition solutions. The experiments show the
superior performance of our solution over the considered benchmarks, both in
terms of recognition accuracy and complexity. We make our code publicly
available at https://github.com/arsm/MPLSTM.
- Abstract(参考訳): 複数の視点から捉えた視覚的シーケンスで利用可能な内的および対外的関係を学習できる新しいLSTM細胞アーキテクチャを提案する。
われわれのアーキテクチャは、新たなゲートと記憶をセルレベルで活用する新しい連成学習戦略を採用している。
提案するセルを用いてネットワークを構築することで、より効果的でリッチな視覚的表現が認識タスクで学習できることを実証する。
提案するアーキテクチャの性能を,唇読取と顔認識という2つの多視点視覚認識課題の文脈で検証する。
3つの関連するデータセットが検討され、融合戦略、既存のマルチインプットLSTMアーキテクチャ、代替認識ソリューションと比較される。
この実験は,認識精度と複雑性の両面で,検討されたベンチマークよりも優れた性能を示す。
コードはhttps://github.com/arsm/MPLSTMで公開しています。
関連論文リスト
- Multi-modal Semantic Understanding with Contrastive Cross-modal Feature
Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。
我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文 参考訳(メタデータ) (2024-03-11T01:07:36Z) - Unveiling Backbone Effects in CLIP: Exploring Representational Synergies
and Variances [49.631908848868505]
コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。
各種ニューラルアーキテクチャにおけるCLIP性能の違いについて検討する。
我々は、複数のバックボーンからの予測を組み合わせるためのシンプルで効果的なアプローチを提案し、最大6.34%のパフォーマンス向上につながった。
論文 参考訳(メタデータ) (2023-12-22T03:01:41Z) - Handling Data Heterogeneity via Architectural Design for Federated
Visual Recognition [16.50490537786593]
4つのFLデータセットを用いて、5つの異なるアーキテクチャファミリからの19の視覚認識モデルについて検討する。
本研究は,現実的なシナリオにおけるコンピュータビジョンタスクにおけるアーキテクチャ設計の重要性を強調した。
論文 参考訳(メタデータ) (2023-10-23T17:59:16Z) - APPLeNet: Visual Attention Parameterized Prompt Learning for Few-Shot
Remote Sensing Image Generalization using CLIP [12.73827827842155]
視覚注意条件付きPrompts Learning Network (APPLeNet) と呼ばれる新しい画像条件付きプロンプト学習戦略を提案する。
APPLeNetは、RSシーン分類におけるマルチスケールな特徴学習の重要性を強調し、ドメイン一般化タスクのための視覚スタイルとコンテンツプリミティブを歪めている。
我々の結果は、関連する文献やコードより一貫して優れており、https://github.com/mainaksingha01/APPLeNet.comで利用可能です。
論文 参考訳(メタデータ) (2023-04-12T17:20:37Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z) - Specificity-preserving RGB-D Saliency Detection [103.3722116992476]
本稿では,RGB-Dサリエンシ検出のための特異性保存ネットワーク(SP-Net)を提案する。
2つのモダリティ特化ネットワークと共有学習ネットワークを採用し、個別および共有唾液マップを生成する。
6つのベンチマークデータセットの実験では、SP-Netは他の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-08-18T14:14:22Z) - More Diverse Means Better: Multimodal Deep Learning Meets Remote Sensing
Imagery Classification [43.35966675372692]
ディープネットワークをトレーニングし、ネットワークアーキテクチャを構築する方法を示します。
特に、深層ネットワークをトレーニングし、ネットワークアーキテクチャを構築する方法と同様に、異なる融合戦略を示す。
我々のフレームワークは画素単位の分類タスクに限らず、畳み込みニューラルネットワーク(CNN)を用いた空間情報モデリングにも適用できる。
論文 参考訳(メタデータ) (2020-08-12T17:45:25Z) - ResNeSt: Split-Attention Networks [86.25490825631763]
このアーキテクチャは、異なるネットワークブランチにチャンネルワイズを応用し、機能間相互作用のキャプチャと多様な表現の学習の成功を活用する。
我々のモデルはResNeStと呼ばれ、画像分類の精度と遅延トレードオフにおいてEfficientNetより優れています。
論文 参考訳(メタデータ) (2020-04-19T20:40:31Z) - Spatial-Temporal Multi-Cue Network for Continuous Sign Language
Recognition [141.24314054768922]
本稿では、視覚に基づくシーケンス学習問題を解決するために、時空間マルチキュー(STMC)ネットワークを提案する。
有効性を検証するため、3つの大規模CSLRベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-02-08T15:38:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。