論文の概要: From Pixels to Graphs: using Scene and Knowledge Graphs for HD-EPIC VQA Challenge
- arxiv url: http://arxiv.org/abs/2506.08553v1
- Date: Tue, 10 Jun 2025 08:21:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:41.872101
- Title: From Pixels to Graphs: using Scene and Knowledge Graphs for HD-EPIC VQA Challenge
- Title(参考訳): ピクセルからグラフへ:HD-EPIC VQAチャレンジにおけるシーンと知識グラフの利用
- Authors: Agnese Taluzzi, Davide Gesualdi, Riccardo Santambrogio, Chiara Plizzari, Francesca Palermo, Simone Mentasti, Matteo Matteucci,
- Abstract要約: 本稿では,HD-EPIC VQA Challenge 2025のために開発されたSceneNetとKnowledgeNetについて述べる。
SceneNetは、マルチモーダルな大言語モデル(MLLM)で生成されたシーングラフを活用して、きめ細かいオブジェクトの相互作用、空間的関係、時間的接地イベントをキャプチャする。
並行して、KnowledgeNetはConceptNetの外部常識知識を取り入れ、エンティティ間の高レベルなセマンティックな接続を導入する。
- 参考スコア(独自算出の注目度): 5.705633002494439
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This report presents SceneNet and KnowledgeNet, our approaches developed for the HD-EPIC VQA Challenge 2025. SceneNet leverages scene graphs generated with a multi-modal large language model (MLLM) to capture fine-grained object interactions, spatial relationships, and temporally grounded events. In parallel, KnowledgeNet incorporates ConceptNet's external commonsense knowledge to introduce high-level semantic connections between entities, enabling reasoning beyond directly observable visual evidence. Each method demonstrates distinct strengths across the seven categories of the HD-EPIC benchmark, and their combination within our framework results in an overall accuracy of 44.21% on the challenge, highlighting its effectiveness for complex egocentric VQA tasks.
- Abstract(参考訳): 本稿では,HD-EPIC VQA Challenge 2025のために開発されたSceneNetとKnowledgeNetについて述べる。
SceneNetは、マルチモーダルな大言語モデル(MLLM)で生成されたシーングラフを活用して、きめ細かいオブジェクトの相互作用、空間的関係、時間的接地イベントをキャプチャする。
並行して、KnowledgeNetはConceptNetの外部コモンセンス知識を取り入れ、エンティティ間の高度なセマンティックな関係を導入し、直接的に観察可能な視覚的証拠以上の推論を可能にする。
それぞれの手法は、HD-EPICベンチマークの7つのカテゴリで異なる強度を示し、我々のフレームワーク内でのそれらの組み合わせにより、チャレンジの全体的な精度は44.21%となり、複雑なエゴセントリックなVQAタスクの有効性を強調している。
関連論文リスト
- PVUW 2025 Challenge Report: Advances in Pixel-level Understanding of Complex Videos in the Wild [164.8093566483583]
本報告では,CVPR 2025と共同で開催されている第4回PVUWチャレンジについて概観する。
課題は、複雑なシーンビデオオブジェクトセグメンテーションに焦点を当てたMOSEと、モーションガイドによる言語ベースのビデオセグメンテーションをターゲットとするMeViSの2つのトラックである。
論文 参考訳(メタデータ) (2025-04-15T16:02:47Z) - Understanding Long Videos via LLM-Powered Entity Relation Graphs [51.13422967711056]
GraphVideoAgentは、ビデオシーケンスを通して視覚的エンティティ間の進化する関係をマップし、監視するフレームワークである。
当社の手法は,業界ベンチマークと比較した場合,顕著な効果を示す。
論文 参考訳(メタデータ) (2025-01-27T10:57:24Z) - HIG: Hierarchical Interlacement Graph Approach to Scene Graph Generation in Video Understanding [8.10024991952397]
既存の手法は単純な関係モデルを活用しながら複雑な相互作用に焦点を当てている。
階層構造内の統一層とグラフを利用する階層型インターレースグラフ (HIG) という新しい手法を提案する。
提案手法は,様々なシナリオで実施された広範囲な実験を通じて,他の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-05T18:47:19Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - ASOD60K: Audio-Induced Salient Object Detection in Panoramic Videos [79.05486554647918]
本研究では,パノラマビデオから有能な物体を分離する新しいタスクであるPV-SODを提案する。
既存の固定レベルやオブジェクトレベルの塩分濃度検出タスクとは対照的に,多モードの塩分濃度検出(SOD)に焦点を当てる。
AsOD60Kという,6レベル階層の4K解像度ビデオフレームを含む,最初の大規模データセットを収集する。
論文 参考訳(メタデータ) (2021-07-24T15:14:20Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z) - ORD: Object Relationship Discovery for Visual Dialogue Generation [60.471670447176656]
視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。
階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。
実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2020-06-15T12:25:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。