論文の概要: SagaQA: A Multi-hop Reasoning Benchmark for Long-form Narrative Understanding in TV Series
- arxiv url: http://arxiv.org/abs/2606.03301v1
- Date: Tue, 02 Jun 2026 08:14:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.856259
- Title: SagaQA: A Multi-hop Reasoning Benchmark for Long-form Narrative Understanding in TV Series
- Title(参考訳): テレビシリーズの長文物語理解のためのマルチホップ推論ベンチマーク「SagaQA」
- Authors: Galann Pennec, Zhengyuan Liu, Nicholas Asher, Philippe Muller, Nancy F. Chen,
- Abstract要約: フル長テレビシリーズに対するマルチホップ推論のベンチマークであるSagaQAを紹介する。
SagaQAの際立った特徴は、その推論ステップの粒度である。
異なる計画戦略がこのような複雑な推論をどのように扱うかを研究する。
- 参考スコア(独自算出の注目度): 42.11774699832131
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce SagaQA, a long-form video benchmark for multi-hop reasoning over full-length TV series. Existing video reasoning benchmarks often emphasize local understanding of adjacent frames or clips. SagaQA addresses this gap by requiring high-level comprehension of extended multimodal narratives in entire TV shows. A distinguishing feature of SagaQA is the granularity of its reasoning steps. Our dataset necessitates long-range reasoning hops to connect information across completely different episodes. This requires models to reason over entire events and actions, demanding a deep understanding of the show's narration and progression at a multimodal level. Motivated by recent progress in agentic methods, we further study how different planning strategies handle such complex reasoning. We categorize these approaches into three classes-Parallel, Sequential, and Hybrid planners-and evaluate their ability to generate coherent and complete reasoning plans. Our results on SagaQA suggest that hybrid planners consistently produce higher-quality plans and exhibit stronger capabilities for complex, high-level narrative understanding in TV shows.
- Abstract(参考訳): 本稿では,長編テレビシリーズに対するマルチホップ推論のための長編ビデオベンチマークであるSagaQAを紹介する。
既存のビデオ推論ベンチマークでは、隣接するフレームやクリップの局所的な理解を強調していることが多い。
SagaQAはこのギャップに対処するため、テレビ番組全体において、拡張マルチモーダル物語のハイレベルな理解を必要とする。
SagaQAの際立った特徴は、その推論ステップの粒度である。
我々のデータセットは、全く異なるエピソードにまたがる情報を接続するために、長距離推論ホップを必要とする。
これは、イベントとアクション全体を推論するモデルが必要であり、マルチモーダルレベルでの番組のナレーションと進行を深く理解する必要がある。
近年のエージェント的手法の進歩により,このような複雑な推論にどのように対処するかをさらに研究する。
本稿では,これらの手法を3つのクラス(Parallel,Sequential,Hybrid Planner)に分類し,コヒーレントで完全な推論計画を生成する能力を評価する。
また,SagaQAの結果から,ハイブリットプランナーは高品質な企画を一貫して作成し,テレビドラマの複雑な物語理解能力を高めることが示唆された。
関連論文リスト
- Narrative Aligned Long Form Video Question Answering [12.805359127629215]
NA-VQA(NA-VQA)は、長大なビデオにおける時間的・物語的推論を評価するためのベンチマークである。
NA-VQAには88本のフル長の映画と4.4Kのオープンエンドの質問応答ペアが含まれており、それぞれがショート、ミディアム、ファーとラベル付けされた複数のエビデンスに根拠を置いている。
本稿では、イベントレベルの連鎖を構築し、推論中の検索のための構造化メモリに格納する、物語中心のフレームワークであるVideo-NaRAを提案する。
論文 参考訳(メタデータ) (2026-03-19T21:23:15Z) - Conan: Progressive Learning to Reason Like a Detective over Multi-Scale Visual Evidence [56.40380810755929]
コナンはエビデンスに基づくマルチステップビデオ推論のためのフレームワークである。
コナンはQwen2.5-VL-7B-インストラクションを平均10%以上精度で上回る。
論文 参考訳(メタデータ) (2025-10-23T12:11:46Z) - Thinking With Videos: Multimodal Tool-Augmented Reinforcement Learning for Long Video Reasoning [39.6349428129868]
マルチモーダル大言語モデル(MLLM)は、ビデオ質問応答や時間的接地といった下流タスクに不可欠である。
本稿では,ツール・アグリゲード・ラーニング(VITAL)による映像インテリジェンスを提案する。
ビジュアルツールボックスを使うことで、モデルは必要に応じて新しいビデオフレームを密にサンプリングし、正確なロングビデオ推論のためのマルチモーダルCoTを生成することができる。
論文 参考訳(メタデータ) (2025-08-06T13:03:21Z) - Infinite Video Understanding [50.78256932424239]
Infinite Video Understandingをブルースキー研究の目的とするフレーミングは、マルチメディアにとって重要な北の星となると我々は主張する。
我々は、この変革能力を達成するための主要な課題と研究の方向性を概説する。
論文 参考訳(メタデータ) (2025-07-11T23:07:04Z) - ImplicitQA: Going beyond frames towards Implicit Video Reasoning [39.63171940350552]
ImplicitQAは、人間のような暗黙の推論でビデオQAモデルをテストするために設計された新しいベンチマークである。
ImplicitQAは、1Kの高品質なクリエイティビティビデオクリップから引き出された1Kの微妙な注釈付きQAペアからなる。
論文 参考訳(メタデータ) (2025-06-26T19:53:54Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - Video as Conditional Graph Hierarchy for Multi-Granular Question
Answering [80.94367625007352]
ビデオはフレームシーケンスで表現されるが、視覚要素はシーケンシャルではなく、セマンティック空間において階層的である。
本稿では,異なる粒度の視覚的事実をレベルワイドに織り込む条件付きグラフ階層として,動画をモデル化することを提案する。
論文 参考訳(メタデータ) (2021-12-12T10:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。