論文の概要: ESCA: Contextualizing Embodied Agents via Scene-Graph Generation
- arxiv url: http://arxiv.org/abs/2510.15963v2
- Date: Mon, 27 Oct 2025 17:51:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:21.895791
- Title: ESCA: Contextualizing Embodied Agents via Scene-Graph Generation
- Title(参考訳): ESCA: シーングラフ生成による身体的エージェントのコンテキスト化
- Authors: Jiani Huang, Amish Sethi, Matthew Kuo, Mayank Keoliya, Neelay Velingker, JungHo Jung, Ser-Nam Lim, Ziyang Li, Mayur Naik,
- Abstract要約: 本研究では,空間的時間的シーングラフの認識を基盤として,エンボディーズエージェントを文脈的に認識するフレームワークであるESCAを提案する。
コアとなるSGCLIPは、シーングラフを生成するための、新しく、オープンドメインで、プロンプト可能な基盤モデルである。
SGCLIPは、プロンプトベースの推論とタスク固有の微調整の両方で優れており、シーングラフ生成とアクションローカライゼーションベンチマークにおける最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 47.008144510161486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal large language models (MLLMs) are making rapid progress toward general-purpose embodied agents. However, existing MLLMs do not reliably capture fine-grained links between low-level visual features and high-level textual semantics, leading to weak grounding and inaccurate perception. To overcome this challenge, we propose ESCA, a framework that contextualizes embodied agents by grounding their perception in spatial-temporal scene graphs. At its core is SGCLIP, a novel, open-domain, promptable foundation model for generating scene graphs that is based on CLIP. SGCLIP is trained on 87K+ open-domain videos using a neurosymbolic pipeline that aligns automatically generated captions with scene graphs produced by the model itself, eliminating the need for human-labeled annotations. We demonstrate that SGCLIP excels in both prompt-based inference and task-specific fine-tuning, achieving state-of-the-art results on scene graph generation and action localization benchmarks. ESCA with SGCLIP improves perception for embodied agents based on both open-source and commercial MLLMs, achieving state of-the-art performance across two embodied environments. Notably, ESCA significantly reduces agent perception errors and enables open-source models to surpass proprietary baselines. We release the source code for SGCLIP model training at https://github.com/video-fm/LASER and for the embodied agent at https://github.com/video-fm/ESCA.
- Abstract(参考訳): MLLM(Multi-modal large language model)は汎用的なエンボディエージェントに向けて急速に進歩している。
しかし、既存のMLLMは、低レベルの視覚的特徴と高レベルのテキスト意味論の間のきめ細かいリンクを確実に捉えておらず、弱い接地と不正確な知覚をもたらす。
この課題を克服するために,時空間のシーングラフにその知覚を基盤として,具体化エージェントを文脈的に認識するフレームワークであるESCAを提案する。
コアとなるSGCLIPは、CLIPに基づいたシーングラフを生成するための、新しく、オープンドメインで、プロンプト可能な基盤モデルである。
SGCLIPは、ニューロシンボリックパイプラインを使用して87K以上のオープンドメインビデオでトレーニングされている。
そこで我々は,SGCLIPがプロンプトベース推論とタスク固有の微調整の両方で優れており,シーングラフ生成およびアクションローカライゼーションベンチマークにおける最先端の結果が得られていることを示す。
SGCLIPを用いたESCAは、オープンソースのMLLMと商用MLLMの両方に基づくエンボディエージェントの認識を改善し、2つのエボダイド環境における最先端のパフォーマンスを実現する。
特に、ESCAはエージェントの認識エラーを著しく減らし、オープンソースモデルがプロプライエタリなベースラインを超えることを可能にする。
我々は、https://github.com/video-fm/LASERでSGCLIPモデルトレーニングのソースコードをリリースし、https://github.com/video-fm/ESCAで実施した。
関連論文リスト
- GILT: An LLM-Free, Tuning-Free Graph Foundational Model for In-Context Learning [50.40400074353263]
グラフニューラルネットワーク(GNN)は、リレーショナルデータを先行する強力なツールであるが、しばしば目に見えないグラフに一般化するのに苦労する。
textbfGraph textbfIn-context textbfL textbfTransformer (GILT)を導入する。
論文 参考訳(メタデータ) (2025-10-06T08:09:15Z) - Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - From Data to Modeling: Fully Open-vocabulary Scene Graph Generation [29.42202665594218]
OvSGTRは、完全にオープンなシーングラフ生成のためのトランスフォーマーベースのフレームワークである。
我々のアプローチは、事前に定義されたカテゴリを超えて、オブジェクト(ノード)とその相互関係(エッジ)を共同で予測する。
論文 参考訳(メタデータ) (2025-05-26T15:11:23Z) - GMLM: Bridging Graph Neural Networks and Language Models for Heterophilic Node Classification [0.0]
本稿では,事前学習したテキストエンコーダとグラフ畳み込みネットワーク(R-GCN)を効果的に融合するフレームワークを提案する。
5つのヘテロ親和性ベンチマークの実験により、我々の積分法は最先端の結果が得られることを示した。
これらの結果は,テキストリッチグラフ表現学習における融合戦略の有効性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-02-24T07:44:01Z) - HIP: Hierarchical Point Modeling and Pre-training for Visual Information Extraction [24.46493675079128]
OCRに依存した手法はオフラインのOCRエンジンに依存し、OCRに依存しない手法は解釈性に欠ける出力や幻覚的内容を含む出力を生成する。
我々は, 階層的視点をモデルとしたHIPを提案し, エンドツーエンドのVIEタスクの階層的性質をよりよく適合させる。
具体的には、このような階層的な点は柔軟に符号化され、その後所望のテキスト書き起こし、地域の中心、エンティティのカテゴリにデコードされる。
論文 参考訳(メタデータ) (2024-11-02T05:00:13Z) - Bridging Large Language Models and Graph Structure Learning Models for Robust Representation Learning [22.993015048941444]
グラフ表現学習は現実世界のアプリケーションには不可欠だが、広範にわたるノイズに遭遇することが多い。
本稿では,事前学習された言語モデルとグラフ構造学習モデルの相補的な長所を統合するフレームワークであるLangGSLを紹介する。
論文 参考訳(メタデータ) (2024-10-15T22:43:32Z) - A Pure Transformer Pretraining Framework on Text-attributed Graphs [50.833130854272774]
グラフ構造を先行として扱うことで,特徴中心の事前学習の視点を導入する。
我々のフレームワークであるGraph Sequence Pretraining with Transformer (GSPT)はランダムウォークを通してノードコンテキストをサンプリングする。
GSPTはノード分類とリンク予測の両方に容易に適応でき、様々なデータセットで有望な経験的成功を示す。
論文 参考訳(メタデータ) (2024-06-19T22:30:08Z) - Constructing Holistic Spatio-Temporal Scene Graph for Video Semantic
Role Labeling [96.64607294592062]
Video Semantic Label Roleing (VidSRL)は、与えられたビデオから健全なイベントを検出することを目的としている。
近年、VidSRLの手法が提案されているが、2つの重要な欠点を負う可能性がある。
論文 参考訳(メタデータ) (2023-08-09T17:20:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。