論文の概要: Self-ReS: Self-Reflection in Large Vision-Language Models for Long Video Understanding
- arxiv url: http://arxiv.org/abs/2503.20362v1
- Date: Wed, 26 Mar 2025 09:39:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 19:18:47.126067
- Title: Self-ReS: Self-Reflection in Large Vision-Language Models for Long Video Understanding
- Title(参考訳): 自己回帰:長期映像理解のための大規模視覚言語モデルにおける自己回帰
- Authors: Joao Pereira, Vasco Lopes, David Semedo, Joao Neves,
- Abstract要約: SelfReSは、ユーザのプロンプトに基づいてキービデオフラグメントを動的に選択する、非時間的自己反射サンプリング手法である。
SelfReSは、強力なベースLVLMにシームレスに統合することができ、長時間ビデオタスクの精度を改善し、同じGPUメモリ予算で最大46%高速な推論速度を達成することができる。
- 参考スコア(独自算出の注目度): 5.070026408553652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) demonstrate remarkable performance in short-video tasks such as video question answering, but struggle in long-video understanding. The linear frame sampling strategy, conventionally used by LVLMs, fails to account for the non-linear distribution of key events in video data, often introducing redundant or irrelevant information in longer contexts while risking the omission of critical events in shorter ones. To address this, we propose SelfReS, a non-linear spatiotemporal self-reflective sampling method that dynamically selects key video fragments based on user prompts. Unlike prior approaches, SelfReS leverages the inherently sparse attention maps of LVLMs to define reflection tokens, enabling relevance-aware token selection without requiring additional training or external modules. Experiments demonstrate that SelfReS can be seamlessly integrated into strong base LVLMs, improving long-video task accuracy and achieving up to 46% faster inference speed within the same GPU memory budget.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、ビデオ質問応答などの短いビデオタスクにおいて顕著なパフォーマンスを示すが、長時間の理解に苦慮している。
従来LVLMが用いた線形フレームサンプリング戦略は、ビデオデータにおける重要事象の非線形分布を考慮せず、より長いコンテキストで冗長または無関係な情報を導入し、短い時間における重要な事象の欠落を危険にさらす。
そこで本稿では,ユーザプロンプトに基づいてキー映像のフラグメントを動的に選択する,非線形時空間自己回帰サンプリング手法であるSelfReSを提案する。
従来のアプローチとは異なり、SelfReSは、LVLMの本質的に疎い注意マップを利用してリフレクショントークンを定義し、追加のトレーニングや外部モジュールを必要とせずに、関連性を認識したトークンの選択を可能にする。
実験によると、SelfReSは強力なベースLVLMにシームレスに統合され、長時間のビデオタスクの精度が向上し、同じGPUメモリ予算で最大46%高速な推論速度を実現している。
関連論文リスト
- LV-MAE: Learning Long Video Representations through Masked-Embedding Autoencoders [9.996331443220651]
長ビデオマスク埋め込みオートエンコーダ(LV-MAE)を紹介する。
LV-MAEは長期表現のための自己教師型学習フレームワークである。
3つの長ビデオベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2025-04-04T14:56:27Z) - TIME: Temporal-sensitive Multi-dimensional Instruction Tuning and Benchmarking for Video-LLMs [55.23558461306722]
ビデオ大言語モデルは、ビデオ質問応答のようなタスクにおいて顕著なパフォーマンスを達成した。
我々のデータセットは5つの重要な次元にわたる時間的理解の向上に焦点を当てている。
本稿では,時間に敏感なタスクを既存の命令データセットにシームレスに統合するマルチタスクプロンプト微調整手法を提案する。
論文 参考訳(メタデータ) (2025-03-13T03:05:11Z) - BIMBA: Selective-Scan Compression for Long-Range Video Question Answering [46.199493246921435]
長いビデオにおけるビデオ質問回答(VQA)は、関連する情報を抽出する上で重要な課題である。
長大なビデオを扱うための効率的な状態空間モデルであるBIMBAを紹介する。
論文 参考訳(メタデータ) (2025-03-12T17:57:32Z) - Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Adaptive Keyframe Sampling for Long Video Understanding [75.7837692594814]
本稿では、適応鍵フレームサンプリング(AKS)という、単純だが効果的なアルゴリズムを提案する。
これはAdaptive Keyframe Sampling (AKS)と呼ばれるプラグインとプレイモジュールを挿入し、ビデオトークンの固定数で有用な情報を最大化することを目的としている。
2つの長いビデオ理解ベンチマークの実験は、AKSが情報的出会いを選択する際にビデオQA精度を改善することを検証する。
論文 参考訳(メタデータ) (2025-02-28T17:46:29Z) - SVBench: A Benchmark with Temporal Multi-Turn Dialogues for Streaming Video Understanding [56.78088668917983]
SVBenchは時間的マルチターン質問応答チェーンを用いた先駆的ベンチマークである。
半自動アノテーションパイプラインを設計し、49,979対のQA(QA)と1,353本のストリーミングビデオを取得する。
対話とストリーミング評価の14モデルから得られた実験結果から, クローズドソースのGPT-4oは他より優れているが, 大部分のオープンソースLVLMは, 長文のストリーミングビデオ理解に苦慮していることがわかった。
論文 参考訳(メタデータ) (2025-02-15T14:29:44Z) - Do Language Models Understand Time? [2.290956583394892]
大規模言語モデル(LLM)は、アクション認識、異常検出、要約を含む、ビデオベースのコンピュータビジョンアプリケーションに革命をもたらした。
本研究は,ビデオ処理におけるLLMの役割を,時間的推論能力に着目して批判的に考察する。
LLMの時間的理解を制限するため、バイアス、時間的アノテーションの欠如、ドメイン固有の制限など、既存のビデオデータセットによる課題を分析します。
論文 参考訳(メタデータ) (2024-12-18T13:38:06Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - Too Many Frames, Not All Useful: Efficient Strategies for Long-Form Video QA [40.21221568678641]
広い時間間隔にまたがるロングフォームビデオは、非常に冗長な情報である。
正しい応答を生成するために必要な全ての情報は、しばしばフレームの小さなサブセットに含まれる。
近年の文献では、LVQAベンチマークにおける大きな言語モデルの使用を探求し、例外的な性能を達成している。
論文 参考訳(メタデータ) (2024-06-13T17:59:16Z) - Video-based Person Re-identification with Long Short-Term Representation
Learning [101.62570747820541]
ビデオベースの人物再識別(V-ReID)は、オーバーラップしないカメラで撮影した生のビデオから特定の人物を回収することを目的としている。
本稿では,V-ReIDのためのLong Short-Term Representation Learning(LSTRL)という新しいディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-07T16:22:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。