論文の概要: Multi-Perspective LSTM for Joint Visual Representation Learning
- arxiv url: http://arxiv.org/abs/2105.02802v1
- Date: Thu, 6 May 2021 16:44:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 15:15:41.661216
- Title: Multi-Perspective LSTM for Joint Visual Representation Learning
- Title(参考訳): 共同視覚表現学習のための多視点LSTM
- Authors: Alireza Sepas-Moghaddam, Fernando Pereira, Paulo Lobato Correia, Ali
Etemad
- Abstract要約: 複数の視点から捉えた視覚的シーケンスで利用可能な内的および対外的関係を学習できる新しいLSTM細胞アーキテクチャを提案する。
私たちのアーキテクチャは、細胞レベルで追加のゲートと記憶を使用する新しい繰り返し共同学習戦略を採用しています。
提案するセルを用いてネットワークを構築することにより、より効果的でリッチな視覚的表現が認識タスクで学習されることを示す。
- 参考スコア(独自算出の注目度): 81.21490913108835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel LSTM cell architecture capable of learning both intra- and
inter-perspective relationships available in visual sequences captured from
multiple perspectives. Our architecture adopts a novel recurrent joint learning
strategy that uses additional gates and memories at the cell level. We
demonstrate that by using the proposed cell to create a network, more effective
and richer visual representations are learned for recognition tasks. We
validate the performance of our proposed architecture in the context of two
multi-perspective visual recognition tasks namely lip reading and face
recognition. Three relevant datasets are considered and the results are
compared against fusion strategies, other existing multi-input LSTM
architectures, and alternative recognition solutions. The experiments show the
superior performance of our solution over the considered benchmarks, both in
terms of recognition accuracy and complexity. We make our code publicly
available at https://github.com/arsm/MPLSTM.
- Abstract(参考訳): 複数の視点から捉えた視覚的シーケンスで利用可能な内的および対外的関係を学習できる新しいLSTM細胞アーキテクチャを提案する。
われわれのアーキテクチャは、新たなゲートと記憶をセルレベルで活用する新しい連成学習戦略を採用している。
提案するセルを用いてネットワークを構築することで、より効果的でリッチな視覚的表現が認識タスクで学習できることを実証する。
提案するアーキテクチャの性能を,唇読取と顔認識という2つの多視点視覚認識課題の文脈で検証する。
3つの関連するデータセットが検討され、融合戦略、既存のマルチインプットLSTMアーキテクチャ、代替認識ソリューションと比較される。
この実験は,認識精度と複雑性の両面で,検討されたベンチマークよりも優れた性能を示す。
コードはhttps://github.com/arsm/MPLSTMで公開しています。
関連論文リスト
- Relax DARTS: Relaxing the Constraints of Differentiable Architecture Search for Eye Movement Recognition [9.905155497581815]
眼球運動認識の分野にNASアルゴリズムを導入する。
Relax DARTSは、より効率的なネットワーク検索とトレーニングを実現するために、DARTSの改良である。
Relax DARTSは、他の多機能時間分類タスクへの適応性を示す。
論文 参考訳(メタデータ) (2024-09-18T02:37:04Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Task agnostic continual learning with Pairwise layer architecture [0.0]
ネットワークの最終層を相互の相互作用層に置き換えることで、継続的な学習性能を向上させることができることを示す。
このアーキテクチャを用いたネットワークは、MNISTとFashionMNISTベースの連続画像分類実験において競合性能を示す。
論文 参考訳(メタデータ) (2024-05-22T13:30:01Z) - Handling Data Heterogeneity via Architectural Design for Federated
Visual Recognition [16.50490537786593]
4つのFLデータセットを用いて、5つの異なるアーキテクチャファミリからの19の視覚認識モデルについて検討する。
本研究は,現実的なシナリオにおけるコンピュータビジョンタスクにおけるアーキテクチャ設計の重要性を強調した。
論文 参考訳(メタデータ) (2023-10-23T17:59:16Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z) - Specificity-preserving RGB-D Saliency Detection [103.3722116992476]
本稿では,RGB-Dサリエンシ検出のための特異性保存ネットワーク(SP-Net)を提案する。
2つのモダリティ特化ネットワークと共有学習ネットワークを採用し、個別および共有唾液マップを生成する。
6つのベンチマークデータセットの実験では、SP-Netは他の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-08-18T14:14:22Z) - ResNeSt: Split-Attention Networks [86.25490825631763]
このアーキテクチャは、異なるネットワークブランチにチャンネルワイズを応用し、機能間相互作用のキャプチャと多様な表現の学習の成功を活用する。
我々のモデルはResNeStと呼ばれ、画像分類の精度と遅延トレードオフにおいてEfficientNetより優れています。
論文 参考訳(メタデータ) (2020-04-19T20:40:31Z) - Spatial-Temporal Multi-Cue Network for Continuous Sign Language
Recognition [141.24314054768922]
本稿では、視覚に基づくシーケンス学習問題を解決するために、時空間マルチキュー(STMC)ネットワークを提案する。
有効性を検証するため、3つの大規模CSLRベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-02-08T15:38:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。