論文の概要: Iterative Zoom-In: Temporal Interval Exploration for Long Video Understanding
- arxiv url: http://arxiv.org/abs/2507.02946v1
- Date: Sat, 28 Jun 2025 15:24:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.459249
- Title: Iterative Zoom-In: Temporal Interval Exploration for Long Video Understanding
- Title(参考訳): 反復ズームイン:長時間ビデオ理解のための時間間隔探索
- Authors: Chenglin Li, Qianglong Chen, fengtao, Yin Zhang,
- Abstract要約: 時間探索(Temporal Search)は、MLLMが時間領域を探索し、長いビデオの理解を反復的に改善する訓練不要のフレームワークである。
モデルの生成信頼度は、時間間隔によって異なるため、予測精度と高い相関関係がある。
よりきめ細かな時間間隔に注意を移し、長いビデオの理解を深めることで、モデルの焦点を洗練させる。
- 参考スコア(独自算出の注目度): 18.027290155746112
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have shown strong performance in video understanding tasks. However, they continue to struggle with long-form videos because of an inefficient perception of temporal intervals. Unlike humans, who can dynamically adjust their temporal focus to locate query-relevant moments, current MLLMs often rely on dense, uniform sampling across the video timeline, leading to high memory consumption and a risk of missing crucial information. To address this challenge, we introduce Temporal Search, a training-free framework that enables MLLMs to explore temporal regions for improved long video understanding iteratively. TS is based on a key observation: the model's generation confidence across different temporal intervals is highly correlated with prediction accuracy. TS operates through two main iterative stages. First, the MLLM proposes a temporal interval that is likely to contain task-relevant information. Then, it samples a fixed number of frames from the interval, regardless of length, and feeds them into the model to produce a refined response and confidence score. TS refines the focus of the model by iteratively shifting attention to more fine-grained temporal intervals, improving its understanding of long videos. Additionally, keyframe-level descriptions are collected to facilitate cross-interval perception throughout the video. To further improve efficiency, we introduce TS-BFS, a best-first search strategy over a tree. Each node represents a candidate interval and is expanded via two methods: self-driven proposals and uniform partitioning. Nodes are scored based on confidence and self-evaluation, and the most promising one is selected for continued exploration.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は,ビデオ理解タスクにおいて高い性能を示す。
しかし、彼らは時間間隔の非効率な認識のため、長めのビデオと闘い続けている。
クエリ関連モーメントを見つけるために時間的焦点を動的に調整できる人間とは異なり、現在のMLLMはビデオタイムラインをまたいだ密集した均一なサンプリングに依存しており、高いメモリ消費と重要な情報が欠落するリスクがある。
この課題に対処するために、MLLMが時間領域を探索し、長時間ビデオ理解を反復的に改善する訓練不要のフレームワークであるTemporal Searchを紹介した。
TSは重要な観測に基づいており、時間間隔の異なるモデルの生成信頼度は予測精度と非常に相関している。
TSは2つの主要な反復段階を通り抜ける。
まず、MLLMはタスク関連情報を含む可能性のある時間間隔を提案する。
そして、長さに関係なく間隔から一定数のフレームをサンプリングし、それらをモデルに供給し、洗練された応答と信頼スコアを生成する。
TSは、注意をよりきめ細かな時間間隔に反復的にシフトすることで、モデルの焦点を洗練し、長いビデオの理解を改善します。
さらに、キーフレームレベルの記述が収集され、ビデオ全体のインターバルな認識が容易になる。
効率をさらに向上するため,木上の最良探索戦略であるTS-BFSを導入する。
各ノードは候補間隔を表し、自己駆動の提案と均一なパーティショニングという2つの方法によって拡張される。
ノードは信頼と自己評価に基づいてスコアされ、最も有望なノードは継続的な調査のために選択される。
関連論文リスト
- TSPO: Temporal Sampling Policy Optimization for Long-form Video Language Understanding [26.463523465270097]
MLLM(Multi- Language Large Language Models)は、視覚に基づくタスクにおいて大きな進歩を見せている。
本稿では、MLLMの長文ビデオ言語理解を強化学習により促進する時間ポリシーサンプリング最適化(TSPO)を提案する。
我々のTSPOは、複数の長大ビデオ理解ベンチマークで最先端のパフォーマンスを達成し、異なる最先端ビデオMLLM間での転送能力を示す。
論文 参考訳(メタデータ) (2025-08-06T12:03:36Z) - Tempo-R0: A Video-MLLM for Temporal Video Grounding through Efficient Temporal Sensing Reinforcement Learning [6.9627404612894335]
時間的ビデオグラウンド(TVG)は、言語クエリに基づいて、ビデオから関連する時間的セグメントをピンポイントする必要がある。
本稿では,時間的ビデオグラウンド処理のためのビデオマルチモーダル大言語モデルであるTempo-R0を提案する。
本手法は,元のQVHighlightsテストベンチの約3.5%でSOTAソリューションに対する顕著な優位性を実現する。
論文 参考訳(メタデータ) (2025-07-07T06:51:40Z) - VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文 参考訳(メタデータ) (2025-06-05T17:59:29Z) - TimeSearch: Hierarchical Video Search with Spotlight and Reflection for Human-like Long Video Understanding [24.52604124233087]
大規模ビデオ言語モデル(LVLM)は、様々なビデオ言語タスクで顕著なパフォーマンスを示している。
長いビデオを空間的にも時間的にもダウンサンプリングすることは視覚幻覚を引き起こす可能性があるため、長いビデオを正確に解釈することは困難である。
TimeSearchは2つの人間のようなプリミティブを統合された自己回帰型LVLMに統合する。
論文 参考訳(メタデータ) (2025-04-02T06:47:19Z) - Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Can Multimodal LLMs do Visual Temporal Understanding and Reasoning? The answer is No! [22.75945626401567]
本稿では,TemporalVQAという評価ベンチマークを提案する。
第1部では、時間的に連続するビデオフレームを分析してイベントのシーケンスを決定するためにMLLMが必要である。
第2部では、複数選択の質問としてフレーム化された時間差のある画像ペアを提示し、MLLMに秒から数年のオプションで画像間のタイムラプスを見積もる。
GPT-4o や Gemini-1.5-Pro などのモデルを含む先進MLLM の評価は,重要な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-01-18T06:41:48Z) - TimeRefine: Temporal Grounding with Time Refining Video LLM [75.99665302872901]
ビデオの時間的接地は、テキストのプロンプトが与えられたビデオの中で、関連する時間的境界をローカライズすることを目的としている。
我々は時間的接地タスクを時間的精錬タスクとして再構成する。
我々は、予測セグメントが基底真理からさらに逸脱した場合、モデルをよりペナルティ化する補助予測ヘッドを組み込む。
論文 参考訳(メタデータ) (2024-12-12T18:59:11Z) - TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。
ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。
GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。