論文の概要: Temporal Working Memory: Query-Guided Segment Refinement for Enhanced Multimodal Understanding
- arxiv url: http://arxiv.org/abs/2502.06020v1
- Date: Sun, 09 Feb 2025 20:26:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:29:31.316643
- Title: Temporal Working Memory: Query-Guided Segment Refinement for Enhanced Multimodal Understanding
- Title(参考訳): 時間的ワーキングメモリ:マルチモーダル理解の強化のためのクエリガイド付きセグメントリファインメント
- Authors: Xingjian Diao, Chunhui Zhang, Weiyi Wu, Zhongyu Ouyang, Peijun Qing, Ming Cheng, Soroush Vosoughi, Jiang Gui,
- Abstract要約: MFMの時間的モデリング能力を高めることを目的とした、特別な認知モジュールである時間的ワーキングメモリ(TWM)を導入する。
TWMは時間次元にまたがるタスク関連情報を選択的に保持し、ビデオおよびオーディオコンテンツの処理を通して重要な詳細が保存されることを保証する。
我々のTWMでは、9つの最先端モデルが、ビデオキャプション、質問応答、ビデオテキスト検索といったタスクにおいて、大幅なパフォーマンス向上を示している。
- 参考スコア(独自算出の注目度): 28.635761403266496
- License:
- Abstract: Multimodal foundation models (MFMs) have demonstrated significant success in tasks such as visual captioning, question answering, and image-text retrieval. However, these models face inherent limitations due to their finite internal capacity, which restricts their ability to process extended temporal sequences, a crucial requirement for comprehensive video and audio analysis. To overcome these challenges, we introduce a specialized cognitive module, temporal working memory (TWM), which aims to enhance the temporal modeling capabilities of MFMs. It selectively retains task-relevant information across temporal dimensions, ensuring that critical details are preserved throughout the processing of video and audio content. The TWM uses a query-guided attention approach to focus on the most informative multimodal segments within temporal sequences. By retaining only the most relevant content, TWM optimizes the use of the model's limited capacity, enhancing its temporal modeling ability. This plug-and-play module can be easily integrated into existing MFMs. With our TWM, nine state-of-the-art models exhibit significant performance improvements across tasks such as video captioning, question answering, and video-text retrieval. By enhancing temporal modeling, TWM extends the capability of MFMs to handle complex, time-sensitive data effectively. Our code is available at https://github.com/xid32/NAACL_2025_TWM.
- Abstract(参考訳): マルチモーダル基礎モデル(MFM)は,視覚的キャプション,質問応答,画像テキスト検索などのタスクにおいて大きな成功を収めている。
しかし、これらのモデルは内部容量が有限であることから固有の制約に直面しており、ビデオやオーディオの包括的分析において重要な要件である時間的シーケンスの処理能力を制限している。
これらの課題を克服するために,MFMの時間的モデリング能力を高めることを目的とした,特別な認知モジュールである時間的ワーキングメモリ(TWM)を導入する。
時間的次元にわたってタスク関連情報を選択的に保持し、ビデオやオーディオコンテンツの処理を通して重要な詳細が保存されることを保証する。
TWMはクエリ誘導型アテンションアプローチを使用して、時間列内の最も情報性の高いマルチモーダルセグメントに焦点を当てる。
最も関連性の高いコンテンツのみを保持することで、TWMはモデルの限られたキャパシティの使用を最適化し、時間的モデリング能力を向上する。
このプラグアンドプレイモジュールは、既存のMFMに容易に統合できる。
我々のTWMでは、9つの最先端モデルが、ビデオキャプション、質問応答、ビデオテキスト検索といったタスクにおいて、大幅なパフォーマンス向上を示している。
時間的モデリングの強化により、TWMは、複雑で時間に敏感なデータを効果的に扱うためのMFMの能力を拡張する。
私たちのコードはhttps://github.com/xid32/NAACL_2025_TWMで利用可能です。
関連論文リスト
- Exploring the Role of Explicit Temporal Modeling in Multimodal Large Language Models for Video Understanding [23.477954901326978]
既存のアプローチでは、デコーダのみに依存する暗黙の時間的モデリングと、補助的な時間的エンコーダを使用する明示的な時間的モデリングが採用されている。
適応性のある時間場とトークン圧縮比を持つフレキシブルな時間的モデリングを実現するための明示的時空間(STE)を提案する。
本研究は、ビデオMLLMの進行に有効な洞察を提供する、明示的な時間的モデリングの重要な役割を強調した。
論文 参考訳(メタデータ) (2025-01-28T08:30:58Z) - MAKIMA: Tuning-free Multi-Attribute Open-domain Video Editing via Mask-Guided Attention Modulation [55.101611012677616]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは,グローバルビデオ編集タスクにおいて顕著な結果を示した。
我々は、オープンドメインビデオ編集のための事前訓練されたT2Iモデル上に構築された、チューニング不要なMAEフレームワークであるMAKIMAを紹介する。
論文 参考訳(メタデータ) (2024-12-28T02:36:51Z) - Bridging Vision and Language: Modeling Causality and Temporality in Video Narratives [0.0]
本稿では,Causal-Temporal Reasoning Moduleを最先端のLVLMに統合する拡張フレームワークを提案する。
CTRMはCausal Dynamics(CDE)とTemporal Learner(TRL)の2つの重要なコンポーネントから構成される。
大規模ビデオテキストデータセットの事前学習を併用して,モデル最適化のための多段階学習戦略を設計する。
論文 参考訳(メタデータ) (2024-12-14T07:28:38Z) - InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions [104.90258030688256]
本研究は,ストリーミング映像とオーディオ入力とのリアルタイムインタラクションを実現するために,非絡み合いのストリーミング知覚,推論,メモリ機構を導入している。
このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。
論文 参考訳(メタデータ) (2024-12-12T18:58:30Z) - Look Every Frame All at Once: Video-Ma$^2$mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing [52.050036778325094]
Video-Ma$2$mbaは、Mamba-2フレームワークにステートスペースモデル(SSM)を組み込んだ新しいアーキテクチャである。
本手法は,標準勾配チェックポイントに比べてメモリフットプリントを大幅に削減する。
時間的ダイナミクスの詳細なキャプチャーを維持することで、長いビデオ理解タスクにおける応答の精度と関連性を改善することができる。
論文 参考訳(メタデータ) (2024-11-29T04:12:13Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge
Transferring [82.84513669453744]
画像テキスト事前訓練モデル(例えばCLIP)は、大規模な画像テキストデータペアから学んだ、印象的な汎用マルチモーダル知識を示している。
画像間知識伝達の文脈における時間的モデリングを再考する。
本稿では,CLIPモデルを多様なビデオタスクに拡張する簡易かつ効果的な時間的モデリング機構を提案する。
論文 参考訳(メタデータ) (2023-01-26T14:12:02Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。