論文の概要: VideoForest: Person-Anchored Hierarchical Reasoning for Cross-Video Question Answering
- arxiv url: http://arxiv.org/abs/2508.03039v1
- Date: Tue, 05 Aug 2025 03:33:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.756295
- Title: VideoForest: Person-Anchored Hierarchical Reasoning for Cross-Video Question Answering
- Title(参考訳): VideoForest: クロスビデオ質問応答のための人物アンコール階層推論
- Authors: Yiran Meng, Junhong Ye, Wei Zhou, Guanghui Yue, Xudong Mao, Ruomei Wang, Baoquan Zhao,
- Abstract要約: ビデオ間の質問応答は、従来のシングルビデオ理解以上の大きな課題を提示する。
我々は、人による階層的推論を通じてこれらの課題に対処する、新しいフレームワークであるVideoForestを紹介する。
提案手法では,ビデオ間の自然なブリッジポイントとして人間レベルの特徴を活用し,エンドツーエンドのトレーニングを必要とせず,効果的にビデオ間の理解を可能にする。
- 参考スコア(独自算出の注目度): 14.039561301034848
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-video question answering presents significant challenges beyond traditional single-video understanding, particularly in establishing meaningful connections across video streams and managing the complexity of multi-source information retrieval. We introduce VideoForest, a novel framework that addresses these challenges through person-anchored hierarchical reasoning. Our approach leverages person-level features as natural bridge points between videos, enabling effective cross-video understanding without requiring end-to-end training. VideoForest integrates three key innovations: 1) a human-anchored feature extraction mechanism that employs ReID and tracking algorithms to establish robust spatiotemporal relationships across multiple video sources; 2) a multi-granularity spanning tree structure that hierarchically organizes visual content around person-level trajectories; and 3) a multi-agent reasoning framework that efficiently traverses this hierarchical structure to answer complex cross-video queries. To evaluate our approach, we develop CrossVideoQA, a comprehensive benchmark dataset specifically designed for person-centric cross-video analysis. Experimental results demonstrate VideoForest's superior performance in cross-video reasoning tasks, achieving 71.93% accuracy in person recognition, 83.75% in behavior analysis, and 51.67% in summarization and reasoning, significantly outperforming existing methods. Our work establishes a new paradigm for cross-video understanding by unifying multiple video streams through person-level features, enabling sophisticated reasoning across distributed visual information while maintaining computational efficiency.
- Abstract(参考訳): ビデオ間の質問応答は、特にビデオストリーム間の有意義なつながりを確立し、マルチソース情報検索の複雑さを管理する上で、従来のシングルビデオ理解以上の大きな課題を提示する。
我々は、人による階層的推論を通じてこれらの課題に対処する、新しいフレームワークであるVideoForestを紹介する。
提案手法は,動画間の自然なブリッジポイントとして人間レベルの特徴を活用し,エンドツーエンドのトレーニングを必要とせずに効果的にビデオ間の理解を可能にする。
VideoForestは3つの重要なイノベーションを統合している。
1) ReID と追跡アルゴリズムを用いて複数のビデオソースにまたがる堅牢な時空間関係を確立する人為的特徴抽出機構
2 人レベルの軌跡を取り巻く視覚的内容を階層的に整理する多粒性樹構造
3) 複雑なクロスビデオクエリに応答するために,この階層構造を効率的にトラバースするマルチエージェント推論フレームワーク。
提案手法を評価するために,人中心のクロスビデオ分析に特化して設計された総合ベンチマークデータセットであるCrossVideoQAを開発した。
実験結果から、ビデオフォレストの映像間推論における優れた性能、個人認識における71.93%の精度、行動分析における83.75%、要約と推論における51.67%が、既存の手法よりも大幅に優れていたことが示されている。
本研究は,複数の動画ストリームを個人レベルの特徴によって統合し,分散視覚情報間の高度な推論を可能にしながら,計算効率を保ちながら,クロスビデオ理解のための新たなパラダイムを確立する。
関連論文リスト
- A Challenge to Build Neuro-Symbolic Video Agents [5.243155799248514]
ニューロシンボリック・パースペクティブは、どのように解釈可能性を高め、構造化推論を可能にし、システム行動に対するより強力な保証を提供するかを示す。
我々は,次世代のインテリジェントビデオエージェントの開発という,研究コミュニティに大きな課題を提示する。
これらの柱に対処することで、受動的知覚から、推論、予測、行動を行うインテリジェントなビデオエージェントへの移行が可能になります。
論文 参考訳(メタデータ) (2025-05-20T02:53:21Z) - Understanding Long Videos via LLM-Powered Entity Relation Graphs [51.13422967711056]
GraphVideoAgentは、ビデオシーケンスを通して視覚的エンティティ間の進化する関係をマップし、監視するフレームワークである。
当社の手法は,業界ベンチマークと比較した場合,顕著な効果を示す。
論文 参考訳(メタデータ) (2025-01-27T10:57:24Z) - SEAL: Semantic Attention Learning for Long Video Representation [31.994155533019843]
本稿では,長編ビデオの新たな統一表現であるセマンティック・アテンション・ラーニング(SEAL)を紹介する。
計算複雑性を低減するために、長いビデオは3つの異なるタイプのセマンティックエンティティに分解される。
我々の表現は多用途であり、様々な長いビデオ理解タスクに応用できる。
論文 参考訳(メタデータ) (2024-12-02T18:46:12Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - Unsupervised Video Summarization with a Convolutional Attentive
Adversarial Network [32.90753137435032]
我々は,教師なしの方法で深層要約器を構築するために,畳み込み型敵ネットワーク(CAAN)を提案する。
具体的には、ビデオのグローバルな表現を抽出する完全畳み込みシーケンスネットワークと、正規化された重要度スコアを出力する注目ベースのネットワークを用いる。
その結果,提案手法の他の非教師なし手法に対する優位性を示した。
論文 参考訳(メタデータ) (2021-05-24T07:24:39Z) - DeepQAMVS: Query-Aware Hierarchical Pointer Networks for Multi-Video
Summarization [127.16984421969529]
DeepQAMVSと呼ばれるマルチビデオ要約のための新しいQuery-Aware階層型ポインタネットワークを紹介します。
DeepQAMVSは強化学習で訓練され、代表性、多様性、クエリ適応性、時間的コヒーレンスを捉えた報酬を取り入れている。
MVS1Kデータセットで最新の結果を達成し、入力されたビデオフレームの数と線形に推論時間をスケーリングします。
論文 参考訳(メタデータ) (2021-05-13T17:33:26Z) - Convolutional Hierarchical Attention Network for Query-Focused Video
Summarization [74.48782934264094]
本稿では、ユーザのクエリと長いビデオを入力として取り込む、クエリ中心のビデオ要約の課題に対処する。
本稿では,特徴符号化ネットワークとクエリ関連計算モジュールの2つの部分からなる畳み込み階層型注意ネットワーク(CHAN)を提案する。
符号化ネットワークでは,局所的な自己認識機構と問合せ対応のグローバルアテンション機構を備えた畳み込みネットワークを用いて,各ショットの視覚情報を学習する。
論文 参考訳(メタデータ) (2020-01-31T04:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。