論文の概要: LLaFEA: Frame-Event Complementary Fusion for Fine-Grained Spatiotemporal Understanding in LMMs
- arxiv url: http://arxiv.org/abs/2503.06934v1
- Date: Mon, 10 Mar 2025 05:30:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:48:17.540836
- Title: LLaFEA: Frame-Event Complementary Fusion for Fine-Grained Spatiotemporal Understanding in LMMs
- Title(参考訳): LLaFEA:LMMにおける微細粒度時空間理解のためのフレームイベント補間融合
- Authors: Hanyu Zhou, Gim Hee Lee,
- Abstract要約: 大規模モデル(LMM)はシーン理解に優れるが、言語的表現と視覚的表現の微妙なアライメントのために微妙な時間的推論に苦慮する。
既存の方法は、フレームベースのビデオからテキストの位置と期間を視覚空間にマッピングするが、時間的調整を制限する時間的間隔に悩まされる。
LFEAを導入してイベントカメラを時間的に密集した認識とフレームイベント融合に活用する。
- 参考スコア(独自算出の注目度): 55.81291976637705
- License:
- Abstract: Large multimodal models (LMMs) excel in scene understanding but struggle with fine-grained spatiotemporal reasoning due to weak alignment between linguistic and visual representations. Existing methods map textual positions and durations into the visual space encoded from frame-based videos, but suffer from temporal sparsity that limits language-vision temporal coordination. To address this issue, we introduce LLaFEA (Large Language and Frame-Event Assistant) to leverage event cameras for temporally dense perception and frame-event fusion. Our approach employs a cross-attention mechanism to integrate complementary spatial and temporal features, followed by self-attention matching for global spatio-temporal associations. We further embed textual position and duration tokens into the fused visual space to enhance fine-grained alignment. This unified framework ensures robust spatio-temporal coordinate alignment, enabling LMMs to interpret scenes at any position and any time. In addition, we construct a dataset of real-world frames-events with coordinate instructions and conduct extensive experiments to validate the effectiveness of the proposed method.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、シーン理解において優れているが、言語的表現と視覚的表現の微妙なアライメントのため、微細な時空間推論に苦慮している。
既存の手法は、フレームベースのビデオから符号化された視覚空間にテキストの位置と期間をマッピングするが、言語ビジョンの時間的調整を制限する時間的間隔に悩まされる。
この問題に対処するため,LLaFEA(Large Language and Frame-Event Assistant)を導入し,時間的に密集した認識とフレームイベント融合にイベントカメラを活用する。
提案手法では, 空間的特徴と時間的特徴を相補的に統合するクロスアテンション機構を用い, 続いてグローバル時空間関連に対する自己アテンションマッチングを行った。
さらに、テキストの位置と持続時間トークンを融合した視覚空間に埋め込んで、微粒なアライメントを強化する。
この統合されたフレームワークは、堅牢な時空間座標を保証し、LMMが任意の位置でいつでもシーンを解釈できるようにする。
さらに,座標命令を用いた実世界のフレームイベントのデータセットを構築し,提案手法の有効性を検証するための広範囲な実験を行った。
関連論文リスト
- LLaVA-ST: A Multimodal Large Language Model for Fine-Grained Spatial-Temporal Understanding [29.42797944919497]
LLaVA-STは空間的・時間的マルチモーダル理解のためのMLLMである。
LLaVA-STでは,座標の特別なトークンを視覚空間に埋め込んだLanguage-Aligned Positional Embeddingを提案する。
また、時間分解能と空間分解能の特徴圧縮を2つの異なるポイント・ツー・リージョンのアテンション処理ストリームに分離する空間-テンポラル・パッカーを設計する。
論文 参考訳(メタデータ) (2025-01-14T17:58:12Z) - Building a Multi-modal Spatiotemporal Expert for Zero-shot Action Recognition with CLIP [34.88916568947695]
マルチテンポラルダイナミクスを理解するための新しいCLIフレームワークを提案する。
視覚面では,効率的なダイナミック・クロスショット・アテンションを提案する。
セマンティック側では、アクション知識グラフを構築してテキスト拡張を行う。
論文 参考訳(メタデータ) (2024-12-13T06:30:52Z) - MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。
既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。
この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。
本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文 参考訳(メタデータ) (2024-06-25T18:39:43Z) - MTGA: Multi-View Temporal Granularity Aligned Aggregation for Event-Based Lip-Reading [23.071296603664656]
唇読みは、話者の唇の動きの視覚情報を利用して、単語や文を認識することである。
MTGA(Multi-view Temporality-aligned Aggregation)と呼ばれる新しいフレームワークを提案する。
本手法は, イベントベース, ビデオベースの唇読解法の両方に優れる。
論文 参考訳(メタデータ) (2024-04-18T08:16:56Z) - SOC: Semantic-Assisted Object Cluster for Referring Video Object
Segmentation [35.063881868130075]
本稿では,映像レベルの視覚言語的アライメントを高めることによって,映像オブジェクトセグメンテーション(RVOS)について述べる。
本稿では,映像コンテンツとテキストガイダンスを集約したセマンティック支援オブジェクトクラスタ(SOC)を提案する。
我々は、人気のあるRVOSベンチマークで広範な実験を行い、我々の手法は、すべてのベンチマークにおける最先端の競合よりも顕著なマージンで優れています。
論文 参考訳(メタデータ) (2023-05-26T15:13:44Z) - Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z) - Local-Global Temporal Difference Learning for Satellite Video
Super-Resolution [55.69322525367221]
本稿では,時間的差分を効果的かつ効果的な時間的補償に利用することを提案する。
フレーム内における局所的・大域的時間的情報を完全に活用するために,短期・長期的時間的相違を体系的にモデル化した。
5つの主流ビデオ衛星に対して行われた厳密な客観的および主観的評価は、我々の手法が最先端のアプローチに対して好適に機能することを実証している。
論文 参考訳(メタデータ) (2023-04-10T07:04:40Z) - Learning Commonsense-aware Moment-Text Alignment for Fast Video Temporal
Grounding [78.71529237748018]
自然言語クエリで記述された時間的ビデオセグメントを効果的かつ効率的にグラウンド化することは、視覚・言語分野において必須の能力である。
既存のほとんどのアプローチでは、接地性能を改善するために、厳密に設計されたクロスモーダルな相互作用モジュールを採用しています。
本稿では,コモンセンスの視覚とテキストの表現を補完的なコモンスペースに組み込んだ,コモンセンス対応のクロスモーダルアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T13:07:05Z) - Context-aware Biaffine Localizing Network for Temporal Sentence
Grounding [61.18824806906945]
本論文では時間文接地(TSG)の問題について述べる。
TSGは、文章クエリによって、未トリムのビデオから特定のセグメントの時間境界を特定することを目指しています。
ビデオ内の開始と終了の全てのインデックスをバイアフィン機構で同時にスコア付けする,新しいローカリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-22T03:13:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。