Fugu-MT 論文翻訳(概要): VideoStir: Understanding Long Videos via Spatio-Temporally Structured and Intent-Aware RAG

論文の概要: VideoStir: Understanding Long Videos via Spatio-Temporally Structured and Intent-Aware RAG

arxiv url: http://arxiv.org/abs/2604.05418v2
Date: Sun, 12 Apr 2026 12:15:51 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-14 14:47:45.590163
Title: VideoStir: Understanding Long Videos via Spatio-Temporally Structured and Intent-Aware RAG
Title（参考訳）: VideoStir: 時空間構造とインテント認識RAGによるロングビデオの理解
Authors: Honghao Fu, Miao Xu, Yiwei Wang, Dailing Zhang, Liu Jun, Yujun Cai,
Abstract要約: VideoStirは、意図を認識した長ビデオRAGのためのフレームワークである。ビデオは、クリップレベルでテンポラルグラフとして構成され、エビデンスを集約するマルチホップ検索を実行する。 MLLMが支援するインテント関連スコアラは、クエリの推論インテントとのアライメントに基づいてフレームを検索する。
参考スコア（独自算出の注目度）: 29.392396411435254
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scaling multimodal large language models (MLLMs) to long videos is constrained by limited context windows. While retrieval-augmented generation (RAG) is a promising remedy by organizing query-relevant visual evidence into a compact context, most existing methods (i) flatten videos into independent segments, breaking their inherent spatio-temporal structure, and (ii) depend on explicit semantic matching, which can miss cues that are implicitly relevant to the query's intent. To overcome these limitations, we propose VideoStir, a structured and intent-aware long-video RAG framework. It firstly structures a video as a spatio-temporal graph at clip level, and then performs multi-hop retrieval to aggregate evidence across distant yet contextually related events. Furthermore, it introduces an MLLM-backed intent-relevance scorer that retrieves frames based on their alignment with the query's reasoning intent. To support this capability, we curate IR-600K, a large-scale dataset tailored for learning frame-query intent alignment. Experiments show that VideoStir is competitive with state-of-the-art baselines without relying on auxiliary information, highlighting the promise of shifting long-video RAG from flattened semantic matching to structured, intent-aware reasoning. Codes and checkpoints are available at Github.
Abstract（参考訳）: マルチモーダル大言語モデル(MLLM)を長いビデオに拡張することは、限られたコンテキストウィンドウによって制限される。検索強化世代(RAG)は,クエリ関連視覚的証拠をコンパクトな文脈に整理することで,有望な対策である。 (i)動画を独立したセグメントに平らにし、それら固有の時空間構造を破り、 (ii) 明示的なセマンティックマッチングに依存しており、クエリの意図に暗黙的に関係しているキューを見逃す可能性がある。これらの制限を克服するために,構造化された意図対応長ビデオRAGフレームワークであるVideoStirを提案する。まずビデオは、クリップレベルで時空間グラフとして構成され、その後、複数のホップ検索を行い、遠方でもコンテキストに関連のあるイベントに証拠を集約する。さらに、MLLMが支援するインテント関連スコアラを導入し、クエリの推論インテントとのアライメントに基づいてフレームを検索する。この機能をサポートするために、フレームクエリーインテントアライメントの学習に適した大規模データセットIR-600Kをキュレートする。実験によると、VideoStirは補助情報に頼ることなく最先端のベースラインと競合し、フラットなセマンティックマッチングから構造化された意図認識推論に移行するという約束を強調している。コードとチェックポイントはGithubで公開されている。

関連論文リスト

SeViCES: Unifying Semantic-Visual Evidence Consensus for Long Video Understanding [36.30263540665245]
本稿では,効果的で信頼性の高いロングビデオ理解のためのフレームワークを提案する。 SeViCESはトレーニング不要でモデルに依存しない2つの重要なコンポーネントを導入している。長いビデオ理解ベンチマークの実験によると、SeViCESは精度と堅牢性の両方で最先端の手法を一貫して上回っている。
論文参考訳（メタデータ） (2025-10-23T14:55:28Z)
Vgent: Graph-based Retrieval-Reasoning-Augmented Generation For Long Video Understanding [56.45689495743107]
Vgentは、長いビデオ理解のためにLVLMを強化するグラフベースの検索推論拡張生成フレームワークである。我々は,3つの長ビデオ理解ベンチマークを用いて,様々なオープンソースLVLMを用いてフレームワークの評価を行った。
論文参考訳（メタデータ） (2025-10-15T19:14:58Z)
Enhancing Long Video Question Answering with Scene-Localized Frame Grouping [19.83545369186771]
現在のMultimodal Large Language Models (MLLMs) は、長いビデオ理解ではよく機能しない。本稿では,ビデオ質問応答タスクであるSceneQAの新たなシナリオを提案する。本研究では,個々のフレームを意味的に一貫性のあるシーンフレームに結合する,SLFGと呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2025-08-05T02:28:58Z)
AdaVideoRAG: Omni-Contextual Adaptive Retrieval-Augmented Efficient Long Video Understanding [73.60257070465377]
AdaVideoRAGは、軽量なインテント分類器を使用して、クエリ複雑性に基づいた検索に適応する新しいフレームワークである。我々のフレームワークは、Omni-Knowledge Indexingモジュールを使用して、テキスト(キャプション、ASR、OCR)、視覚的特徴、セマンティックグラフから階層データベースを構築する。実験では、既存のMLLMにシームレスに統合することで、長時間ビデオ理解のための効率と精度の向上が示されている。
論文参考訳（メタデータ） (2025-06-16T15:18:15Z)
SceneRAG: Scene-level Retrieval-Augmented Generation for Video Understanding [6.980340270823506]
SceneRAGは,映像を物語に一貫性のあるシーンに分割するフレームワークである。各シーンについて、このフレームワークは視覚とテキストの両方のモダリティから情報を融合し、エンティティ関係を抽出する。 LongerVideosベンチマークの実験では、134時間以上の多様なコンテンツがあり、SceneRAGが以前のベースラインを大幅に上回っていることを確認した。
論文参考訳（メタデータ） (2025-06-09T10:00:54Z)
Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding [60.88843818016968]
長時間のビデオ理解は時間空間の複雑さと質問応答の難しさによって大きな課題を呈する。セグメント化されたビデオクリップ上でのエージェント検索戦略を活用するために,Deep Video Discovery (DVD) エージェントを提案する。当社のDVDエージェントは,LVBenchデータセット上での最先端性能を実現し,74.2%の精度を実現した。
論文参考訳（メタデータ） (2025-05-23T16:37:36Z)
RAVU: Retrieval Augmented Video Understanding with Compositional Reasoning over Graph [3.1671311914949545]
RAVUは、時間グラフ上の推論による検索によるビデオ強化理解のためのフレームワークである。我々は,エンティティ間の空間的および時間的関係の両方をキャプチャーするグラフ表現を構築した。複雑なクエリに答えるために、クエリを推論ステップのシーケンスに分解し、グラフ上でこれらのステップを実行する。提案手法により,長いビデオのより正確な理解が可能となり,特にフレーム間のマルチホップ推論やオブジェクトの追跡を必要とするクエリに対して有効である。
論文参考訳（メタデータ） (2025-05-06T04:38:09Z)
VideoRAG: Retrieval-Augmented Generation with Extreme Long-Context Videos [25.770675590118547]
VideoRAGは、非常に長いコンテキストのビデオの処理と理解に特化して設計された最初の検索拡張生成フレームワークである。我々の中心となる革新は、(i)グラフベースのテキスト知識をシームレスに統合し、(ii)視覚的特徴を効率的に保存するマルチモーダルコンテキストエンコーディングである。
論文参考訳（メタデータ） (2025-02-03T17:30:19Z)
VideoRAG: Retrieval-Augmented Generation over Video Corpus [57.68536380621672]
VideoRAGは、クエリによる関連性に基づいて、動的にビデオを取得するフレームワークである。 VideoRAGは近年のLVLM(Large Video Language Models)を利用している。我々は,ビデオRAGの有効性を実験的に検証し,関連するベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2025-01-10T11:17:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。