論文の概要: EgoGraph: Temporal Knowledge Graph for Egocentric Video Understanding
- arxiv url: http://arxiv.org/abs/2602.23709v1
- Date: Fri, 27 Feb 2026 06:20:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.275743
- Title: EgoGraph: Temporal Knowledge Graph for Egocentric Video Understanding
- Title(参考訳): EgoGraph:エゴセントリックなビデオ理解のための時間的知識グラフ
- Authors: Shitong Sun, Ke Han, Yukai Huang, Weitong Cai, Jifei Song,
- Abstract要約: EgoGraphはトレーニング不要でダイナミックな知識グラフ構築フレームワークで、エゴセントリックなビデオストリームにおける長期的、横断的な依存関係を明示的にエンコードする。
本研究では,エンティティ間の時間的依存を捕捉し,複数日間にわたって安定した長期記憶を蓄積し,複雑な時間的推論を可能にする時間的関係モデリング戦略を開発する。
- 参考スコア(独自算出の注目度): 11.51428438970598
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ultra-long egocentric videos spanning multiple days present significant challenges for video understanding. Existing approaches still rely on fragmented local processing and limited temporal modeling, restricting their ability to reason over such extended sequences. To address these limitations, we introduce EgoGraph, a training-free and dynamic knowledge-graph construction framework that explicitly encodes long-term, cross-entity dependencies in egocentric video streams. EgoGraph employs a novel egocentric schema that unifies the extraction and abstraction of core entities, such as people, objects, locations, and events, and structurally reasons about their attributes and interactions, yielding a significantly richer and more coherent semantic representation than traditional clip-based video models. Crucially, we develop a temporal relational modeling strategy that captures temporal dependencies across entities and accumulates stable long-term memory over multiple days, enabling complex temporal reasoning. Extensive experiments on the EgoLifeQA and EgoR1-bench benchmarks demonstrate that EgoGraph achieves state-of-the-art performance on long-term video question answering, validating its effectiveness as a new paradigm for ultra-long egocentric video understanding.
- Abstract(参考訳): 数日間にまたがる超長いエゴセントリックなビデオは、ビデオ理解にとって重要な課題である。
既存のアプローチはまだ断片化された局所処理と時間的モデリングに依存しており、そのような拡張シーケンスを推論する能力は制限されている。
この制限に対処するため、EgoGraphはトレーニング不要でダイナミックな知識グラフ構築フレームワークで、エゴセントリックなビデオストリームにおける長期的、横断的な依存関係を明示的にエンコードする。
EgoGraphは、人、オブジェクト、場所、イベントなどのコアエンティティの抽出と抽象化を統一する新しいエゴセントリックなスキーマを採用しており、それらの属性と相互作用に関する構造的理由により、従来のクリップベースのビデオモデルよりもはるかにリッチで一貫性のあるセマンティック表現が得られる。
重要なこととして、我々は、エンティティ間の時間的依存関係を捕捉し、複数日間にわたって安定した長期記憶を蓄積し、複雑な時間的推論を可能にする時間的関係モデリング戦略を開発した。
EgoLifeQAとEgoR1-benchベンチマークの大規模な実験により、EgoGraphは長期的なビデオ質問応答における最先端のパフォーマンスを達成し、その効果が超長期のエゴセントリックビデオ理解のための新しいパラダイムとして有効であることを実証した。
関連論文リスト
- Robust Egocentric Referring Video Object Segmentation via Dual-Modal Causal Intervention [58.05340906967343]
Egocentric Referring Video Object (Ego-RVOS)は、言語クエリで説明されているように、人間のアクションに積極的に関与する特定のオブジェクトを、一人称ビデオに分割することを目的としている。
既存の手法はしばしば苦労し、データセット内の歪んだオブジェクト-アクションのペアリングから急激な相関を学習する。
本稿では,強力なトレーニング済みRVOSをエゴセントリックドメインに適応させるプラグイン因果フレームワークであるCausal-Referring(CERES)を紹介する。
論文 参考訳(メタデータ) (2025-12-30T16:22:14Z) - EgoLCD: Egocentric Video Generation with Long Context Diffusion [11.039806330368153]
EgoLCDは、エゴセントリックな長文ビデオ生成のためのエンドツーエンドフレームワークである。
安定したグローバルコンテキストのための長期スパースKVキャッシュとアテンションベースの短期メモリを組み合わせる。
EgoLCDは知覚的品質と時間的一貫性の両方において最先端の性能を達成する。
論文 参考訳(メタデータ) (2025-12-04T06:53:01Z) - EgoThinker: Unveiling Egocentric Reasoning with Spatio-Temporal CoT [56.24624833924252]
EgoThinkerは、時間的連鎖管理と2段階の学習カリキュラムを通じて、堅牢なエゴセントリック推論能力を備えたMLを支援するフレームワークである。
EgoThinkerは、複数のエゴセントリックなベンチマークで既存のメソッドよりも優れており、微粒な時間的ローカライゼーションタスクで大幅に改善されている。
論文 参考訳(メタデータ) (2025-10-27T17:38:17Z) - Infinite Video Understanding [50.78256932424239]
Infinite Video Understandingをブルースキー研究の目的とするフレーミングは、マルチメディアにとって重要な北の星となると我々は主張する。
我々は、この変革能力を達成するための主要な課題と研究の方向性を概説する。
論文 参考訳(メタデータ) (2025-07-11T23:07:04Z) - Keystep Recognition using Graph Neural Networks [11.421362760480527]
我々は,エゴセントリックビデオにおけるキーステップ認識のためのフレキシブルなグラフ学習フレームワークを提案する。
構築されたグラフはスパースで計算効率が良く、既存のより大きなモデルを大幅に上回っている。
Ego-Exo4Dデータセット上で広範な実験を行い、提案したフレキシブルグラフベースのフレームワークが既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-06-01T17:54:58Z) - Omnia de EgoTempo: Benchmarking Temporal Understanding of Multi-Modal LLMs in Egocentric Videos [51.8995932557911]
EgoTempoは、エゴセントリックドメインにおける時間的理解を評価するために設計されたデータセットである。
本稿では,ベンチマークにおける最先端のマルチモーダル言語モデル (MLLM) が,テキストやフレームのみを入力として,驚くほど高い性能を実現していることを示す。
EgoTempoがこの分野の新たな研究を触媒し、時間的ダイナミクスの複雑さをよりよく捉えたモデルに刺激を与えることを期待している。
論文 参考訳(メタデータ) (2025-03-17T18:50:36Z) - Understanding Long Videos via LLM-Powered Entity Relation Graphs [51.13422967711056]
GraphVideoAgentは、ビデオシーケンスを通して視覚的エンティティ間の進化する関係をマップし、監視するフレームワークである。
当社の手法は,業界ベンチマークと比較した場合,顕著な効果を示す。
論文 参考訳(メタデータ) (2025-01-27T10:57:24Z) - Do Egocentric Video-Language Models Truly Understand Hand-Object Interactions? [48.702973928321946]
Egocentric Video-Language Pretrainingは、一対一のシナリオにおける手動対話の理解を促進するための重要なステップである。
既存のテストベッドでの成功にもかかわらず、現在のEgoVLMは簡単な修正によって容易に誤認できることがわかった。
EgoVLMは手動オブジェクトの相互作用を本当に理解していますか?
論文 参考訳(メタデータ) (2024-05-28T00:27:29Z) - Action Scene Graphs for Long-Form Understanding of Egocentric Videos [23.058999979457546]
Egocentric Action Scene Graphs (EASGs) は、Egocentric Videoの長期的理解のための新しい表現である。
EASGは、カメラ装着者が行うアクションの時間的に進化したグラフベースの記述を提供する。
実験とアノテーションを複製するデータセットとコードを公開します。
論文 参考訳(メタデータ) (2023-12-06T10:01:43Z) - TCGL: Temporal Contrastive Graph for Self-supervised Video
Representation Learning [79.77010271213695]
本稿では,TCGL(Temporal Contrastive Graph Learning)という,ビデオの自己教師型学習フレームワークを提案する。
TCGLは、フレームとスニペットの順序に関する以前の知識をグラフ構造、すなわち、インター/インタースニペットの時間トラストグラフ(TCG)に統合します。
ラベルなしビデオの監視信号を生成するために,適応スニペット順序予測(ASOP)モジュールを導入する。
論文 参考訳(メタデータ) (2021-12-07T09:27:56Z) - Temporal Relational Modeling with Self-Supervision for Action
Segmentation [38.62057004624234]
ビデオの時間関係をモデル化するための拡張時間グラフ推論モジュール(DTGRM)を紹介します。
特に,多レベル拡張時間グラフの構築により時間関係を捉え,モデル化する。
私たちのモデルは3つの挑戦的なデータセットで最先端のアクションセグメンテーションモデルよりも優れています。
論文 参考訳(メタデータ) (2020-12-14T13:41:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。