Fugu-MT 論文翻訳(概要): Multi-Perspective LSTM for Joint Visual Representation Learning

論文の概要: Multi-Perspective LSTM for Joint Visual Representation Learning

arxiv url: http://arxiv.org/abs/2105.02802v1
Date: Thu, 6 May 2021 16:44:40 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-07 15:15:41.661216
Title: Multi-Perspective LSTM for Joint Visual Representation Learning
Title（参考訳）: 共同視覚表現学習のための多視点LSTM
Authors: Alireza Sepas-Moghaddam, Fernando Pereira, Paulo Lobato Correia, Ali Etemad
Abstract要約: 複数の視点から捉えた視覚的シーケンスで利用可能な内的および対外的関係を学習できる新しいLSTM細胞アーキテクチャを提案する。私たちのアーキテクチャは、細胞レベルで追加のゲートと記憶を使用する新しい繰り返し共同学習戦略を採用しています。提案するセルを用いてネットワークを構築することにより、より効果的でリッチな視覚的表現が認識タスクで学習されることを示す。
参考スコア（独自算出の注目度）: 81.21490913108835
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a novel LSTM cell architecture capable of learning both intra- and inter-perspective relationships available in visual sequences captured from multiple perspectives. Our architecture adopts a novel recurrent joint learning strategy that uses additional gates and memories at the cell level. We demonstrate that by using the proposed cell to create a network, more effective and richer visual representations are learned for recognition tasks. We validate the performance of our proposed architecture in the context of two multi-perspective visual recognition tasks namely lip reading and face recognition. Three relevant datasets are considered and the results are compared against fusion strategies, other existing multi-input LSTM architectures, and alternative recognition solutions. The experiments show the superior performance of our solution over the considered benchmarks, both in terms of recognition accuracy and complexity. We make our code publicly available at https://github.com/arsm/MPLSTM.
Abstract（参考訳）: 複数の視点から捉えた視覚的シーケンスで利用可能な内的および対外的関係を学習できる新しいLSTM細胞アーキテクチャを提案する。われわれのアーキテクチャは、新たなゲートと記憶をセルレベルで活用する新しい連成学習戦略を採用している。提案するセルを用いてネットワークを構築することで、より効果的でリッチな視覚的表現が認識タスクで学習できることを実証する。提案するアーキテクチャの性能を,唇読取と顔認識という2つの多視点視覚認識課題の文脈で検証する。 3つの関連するデータセットが検討され、融合戦略、既存のマルチインプットLSTMアーキテクチャ、代替認識ソリューションと比較される。この実験は,認識精度と複雑性の両面で,検討されたベンチマークよりも優れた性能を示す。コードはhttps://github.com/arsm/MPLSTMで公開しています。

関連論文リスト

RingMo-Agent: A Unified Remote Sensing Foundation Model for Multi-Platform and Multi-Modal Reasoning [15.670921552151775]
RingMo-Agentはマルチモーダルおよびマルチプラットフォームデータを扱うように設計されている。 RS-VL3Mと呼ばれる大規模な視覚言語データセットでサポートされている。これは視覚的理解と高度な分析タスクの両方に有効である。
論文参考訳（メタデータ） (2025-07-28T12:39:33Z)
XR-VLM: Cross-Relationship Modeling with Multi-part Prompts and Visual Features for Fine-Grained Recognition [20.989787824067143]
XR-VLMは、相互関係をモデル化することによって微妙な違いを発見する新しいメカニズムである。マルチパースペクティブな記述をキャプチャするマルチパート・プロンプト学習モジュールを開発した。提案手法は,現在の最先端手法と比較して,大幅な改善を実現している。
論文参考訳（メタデータ） (2025-03-10T08:58:05Z)
Recurrence-Enhanced Vision-and-Language Transformers for Robust Multimodal Document Retrieval [44.008094698200026]
クロスモーダル検索は研究コミュニティから有効性や関心が増している。本稿では,画像とテキストの両方からなるマルチモーダルクエリを実現するアプローチを設計する。我々のモデルであるReTは、視覚とテキストの両方のバックボーンの異なるレイヤから抽出されたマルチレベル表現を用いる。
論文参考訳（メタデータ） (2025-03-03T19:01:17Z)
Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文参考訳（メタデータ） (2024-12-26T05:41:31Z)
Relax DARTS: Relaxing the Constraints of Differentiable Architecture Search for Eye Movement Recognition [9.905155497581815]
眼球運動認識の分野にNASアルゴリズムを導入する。 Relax DARTSは、より効率的なネットワーク検索とトレーニングを実現するために、DARTSの改良である。 Relax DARTSは、他の多機能時間分類タスクへの適応性を示す。
論文参考訳（メタデータ） (2024-09-18T02:37:04Z)
Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文参考訳（メタデータ） (2024-06-24T17:59:42Z)
Task agnostic continual learning with Pairwise layer architecture [0.0]
ネットワークの最終層を相互の相互作用層に置き換えることで、継続的な学習性能を向上させることができることを示す。このアーキテクチャを用いたネットワークは、MNISTとFashionMNISTベースの連続画像分類実験において競合性能を示す。
論文参考訳（メタデータ） (2024-05-22T13:30:01Z)
Handling Data Heterogeneity via Architectural Design for Federated Visual Recognition [16.50490537786593]
4つのFLデータセットを用いて、5つの異なるアーキテクチャファミリからの19の視覚認識モデルについて検討する。本研究は,現実的なシナリオにおけるコンピュータビジョンタスクにおけるアーキテクチャ設計の重要性を強調した。
論文参考訳（メタデータ） (2023-10-23T17:59:16Z)
Learning Visual Representation from Modality-Shared Contrastive Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文参考訳（メタデータ） (2022-07-26T05:19:16Z)
Specificity-preserving RGB-D Saliency Detection [103.3722116992476]
本稿では,RGB-Dサリエンシ検出のための特異性保存ネットワーク(SP-Net)を提案する。 2つのモダリティ特化ネットワークと共有学習ネットワークを採用し、個別および共有唾液マップを生成する。 6つのベンチマークデータセットの実験では、SP-Netは他の最先端の手法よりも優れています。
論文参考訳（メタデータ） (2021-08-18T14:14:22Z)
ResNeSt: Split-Attention Networks [86.25490825631763]
このアーキテクチャは、異なるネットワークブランチにチャンネルワイズを応用し、機能間相互作用のキャプチャと多様な表現の学習の成功を活用する。我々のモデルはResNeStと呼ばれ、画像分類の精度と遅延トレードオフにおいてEfficientNetより優れています。
論文参考訳（メタデータ） (2020-04-19T20:40:31Z)
Spatial-Temporal Multi-Cue Network for Continuous Sign Language Recognition [141.24314054768922]
本稿では、視覚に基づくシーケンス学習問題を解決するために、時空間マルチキュー(STMC)ネットワークを提案する。有効性を検証するため、3つの大規模CSLRベンチマークで実験を行った。
論文参考訳（メタデータ） (2020-02-08T15:38:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。