論文の概要: 3rd Place at CVPR 2026 CASTLE Challenge: Agentic Multi-View Long-Context Video Understanding via Hierarchical Knowledge Graph Retrieval
- arxiv url: http://arxiv.org/abs/2606.01933v1
- Date: Mon, 01 Jun 2026 09:01:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.63607
- Title: 3rd Place at CVPR 2026 CASTLE Challenge: Agentic Multi-View Long-Context Video Understanding via Hierarchical Knowledge Graph Retrieval
- Title(参考訳): CVPR 2026 CASTLE Challenge 3rd Place: Agentic Multi-View Long-Context Video Understanding via Hierarchical Knowledge Graph Retrieval (英語)
- Authors: Raghad Albusayes, Munirah Alyahya,
- Abstract要約: 本稿では,CVPR 2026ワークショップにおけるCASTLE 2026 Challengeの優勝方法論について述べる。
我がチームは世界3位を獲得した。
ベースとなるデータセットは、エゴとエクソカメラのソースによって撮影された600時間以上の同期映像で構成されている。
- 参考スコア(独自算出の注目度): 0.8594140167290097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents our winning methodology for the CASTLE 2026 Challenge at the CVPR 2026 EgoVis Workshop, where our team secured third place globally. The challenge tasks participants with answering highly complex visual, spatiotemporal, and verbal questions, including visual counting, action localization, multi-view tracking and speaker temporal reasoning, within massive, multimodal video streams. The underlying dataset consists of over 600 hours synchronized footage captured by 15 ego and exo camera sources. To tackle the extreme scale and long-context demands of this environment, we introduce a training-free agentic framework optimized for long-form video understanding. Our framework introduces two core architectural components: i) a Video Knowledge Graph that maps static and dynamic entities, their temporal relationships, and intersecting events to enable multi-hop relational reasoning, and ii) an adaptive agentic workflow that resolves complex queries through a hierarchical retrieval and indexing. Empirical results demonstrate that our framework achieves high zero-shot reasoning accuracy on long-context multi-view streams. Our code will be released at https://github.com/RaghadKhaled/CASTLE-Challenge-Framework.
- Abstract(参考訳): 本稿では,CVPR 2026 EgoVis WorkshopにおけるCASTLE 2026 Challengeの優勝方法を紹介する。
課題タスクは、視覚的カウント、アクションローカライゼーション、多視点追跡、話者時間的推論など、非常に複雑な視覚的、時空間的、言語的な質問に答える。
ベースとなるデータセットは、エゴとエクソカメラのソースによって撮影された600時間以上の同期映像で構成されている。
この環境の極度のスケールと長文要求に対処するために,長文ビデオ理解に最適化された学習自由エージェントフレームワークを提案する。
私たちのフレームワークは2つのコアアーキテクチャコンポーネントを導入しています。
一 静的及び動的実体、その時間的関係及び交差イベントを地図化してマルチホップ関係推論を可能にするビデオ知識グラフ
二 階層的な検索及び索引付けにより複雑なクエリを解決する適応的なエージェントワークフロー。
実験により,長文マルチビューストリーム上での高ゼロショット推論精度が得られた。
私たちのコードはhttps://github.com/RaghadKhaled/CASTLE-Challenge-Framework.comでリリースされます。
関連論文リスト
- Understanding the Performance Plateau in Text-to-Video Retrieval: A Comprehensive Empirical and Linguistic Analysis [5.6902579988042135]
広く使われている3つのデータセットを対象とした14の最先端検索手法を評価した。
我々は,長さ,明瞭度,意味カテゴリー,アクション対シーンバランスなどのキャプション特性を分析した。
論文 参考訳(メタデータ) (2026-03-07T12:28:35Z) - Agentic Very Long Video Understanding [39.34545320553102]
EGAgentはエンティティシーングラフを中心とした強化されたエージェントフレームワークで、時間とともに人、場所、オブジェクト、それらの関係を表現する。
提案システムは,これらのグラフに対する構造化検索と推論のためのツールと,視覚と音声のハイブリッド検索機能を備えており,詳細な,横断的,時間的に整合した推論を可能にする。
EgoLifeQA と Video-MME (Long) のデータセットから,EgoLifeQA (57.5%) の最先端性能と,複雑な長手ビデオ理解タスクにおける Video-MME (74.1%) の競合性能が得られた。
論文 参考訳(メタデータ) (2026-01-26T05:20:47Z) - RAVU: Retrieval Augmented Video Understanding with Compositional Reasoning over Graph [3.1671311914949545]
RAVUは、時間グラフ上の推論による検索によるビデオ強化理解のためのフレームワークである。
我々は,エンティティ間の空間的および時間的関係の両方をキャプチャーするグラフ表現を構築した。
複雑なクエリに答えるために、クエリを推論ステップのシーケンスに分解し、グラフ上でこれらのステップを実行する。
提案手法により,長いビデオのより正確な理解が可能となり,特にフレーム間のマルチホップ推論やオブジェクトの追跡を必要とするクエリに対して有効である。
論文 参考訳(メタデータ) (2025-05-06T04:38:09Z) - HierarQ: Task-Aware Hierarchical Q-Former for Enhanced Video Understanding [14.464718780172582]
タスク対応の階層型Q-FormerベースのフレームワークであるHierarQを導入する。
ビデオ理解にタスク認識を組み込むために,軽量な2ストリーム言語誘導機能変調器を導入する。
ビデオ理解、質問応答、キャプションタスクにわたる10の動画ベンチマークの大規模な評価は、HierarQの最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-03-11T16:21:23Z) - Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning [56.873534081386]
ビデオ検索、モーメント検索、モーメントセグメンテーション、ステップキャプションを含む新しいトピックHIRESTが紹介されている。
3つのタスクに対して信頼性の高いマルチモーダル表現を構築するために,クエリ中心の音声視覚認知ネットワークを提案する。
これにより、ユーザが優先するコンテンツを認識し、3つのタスクに対してクエリ中心の音声視覚表現を実現することができる。
論文 参考訳(メタデータ) (2024-12-18T06:43:06Z) - SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - MINOTAUR: Multi-task Video Grounding From Multimodal Queries [70.08973664126873]
長文ビデオにおける問合せに基づくビデオ理解に一貫した単一のモデルを提案する。
特に、我々のモデルは、Ego4D Episodic Memoryベンチマークの3つのタスクすべてに対処できる。
論文 参考訳(メタデータ) (2023-02-16T04:00:03Z) - DeepQAMVS: Query-Aware Hierarchical Pointer Networks for Multi-Video
Summarization [127.16984421969529]
DeepQAMVSと呼ばれるマルチビデオ要約のための新しいQuery-Aware階層型ポインタネットワークを紹介します。
DeepQAMVSは強化学習で訓練され、代表性、多様性、クエリ適応性、時間的コヒーレンスを捉えた報酬を取り入れている。
MVS1Kデータセットで最新の結果を達成し、入力されたビデオフレームの数と線形に推論時間をスケーリングします。
論文 参考訳(メタデータ) (2021-05-13T17:33:26Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。