論文の概要: GaLa: Hypergraph-Guided Visual Language Models for Procedural Planning
- arxiv url: http://arxiv.org/abs/2604.17241v1
- Date: Sun, 19 Apr 2026 04:04:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.411561
- Title: GaLa: Hypergraph-Guided Visual Language Models for Procedural Planning
- Title(参考訳): GaLa: 手続き計画のためのハイパーグラフ型ビジュアル言語モデル
- Authors: Kun Wang, Yiming Li, Mingcheng Qu, Aqiang Zhang, Guang Yang, Tonghua Su,
- Abstract要約: オブジェクト属性に符号化された暗黙的な空間関係と深い意味構造は、具体化されたAIシステムにおける手続き的計画に不可欠である。
マルチモーダルな手続き計画のための視覚言語フレームワークであるGaLaを提案する。
GaLaは,実行成功率,LCS,計画正当性において,既存手法よりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 14.265218749993956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Implicit spatial relations and deep semantic structures encoded in object attributes are crucial for procedural planning in embodied AI systems. However, existing approaches often over rely on the reasoning capabilities of vision language models (VLMs) themselves, while overlooking the rich structured semantic information that can be mined from multimodal inputs. As a result, models struggle to effectively understand functional spatial relationships in complex scenes. To fully exploit implicit spatial relations and deep semantic structures in multimodal data, we propose GaLa, a vision language framework for multimodal procedural planning. GaLa introduces a hypergraph-based representation, where object instances in the image are modeled as nodes, and region-level hyperedges are constructed by aggregating objects according to their attributes and functional semantics. This design explicitly captures implicit semantic relations among objects as well as the hierarchical organization of functional regions. Furthermore, we design a TriView HyperGraph Encoder that enforces semantic consistency across the node view, area view, and node area association view via contrastive learning, enabling hypergraph semantics to be more effectively injected into downstream VLM reasoning. Extensive experiments on the ActPlan1K and ALFRED benchmarks demonstrate that GaLa significantly outperforms existing methods in terms of execution success rate, LCS, and planning correctness.
- Abstract(参考訳): オブジェクト属性に符号化された暗黙的な空間関係と深い意味構造は、具体化されたAIシステムにおける手続き的計画に不可欠である。
しかしながら、既存のアプローチは視覚言語モデル(VLM)自体の推論能力に頼らず、マルチモーダル入力からマイニングできるリッチな構造化されたセマンティック情報を見越すことが多い。
その結果、複雑なシーンにおける機能的空間的関係を効果的に理解するのに、モデルは苦労する。
マルチモーダルデータにおける暗黙的空間関係と深い意味構造を完全に活用するために,多モーダルな手続き計画のための視覚言語フレームワークであるGaLaを提案する。
GaLaはハイパーグラフベースの表現を導入し、画像内のオブジェクトインスタンスをノードとしてモデル化し、領域レベルのハイパーエッジは、属性と機能的セマンティクスに基づいてオブジェクトを集約することによって構築する。
この設計は、対象間の暗黙的な意味関係と機能領域の階層的構造を明示的に捉えている。
さらに,TriView HyperGraph Encoderを設計し,ノードビュー,エリアビュー,ノードエリアアソシエーションビュー間のセマンティック一貫性をコントラスト学習により実現し,ハイパーグラフセマンティクスをより効果的に下流VLM推論に注入できるようにする。
ActPlan1K と ALFRED ベンチマークの大規模な実験により、GaLa は実行成功率、LCS、計画正当性において既存の手法を大幅に上回っていることが示された。
関連論文リスト
- TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。
我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。
トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。
埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文 参考訳(メタデータ) (2026-03-03T13:28:07Z) - Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - Enhanced Multimodal RAG-LLM for Accurate Visual Question Answering [10.505845766495128]
MLLM(Multimodal large language model)は、視覚とテキストのモダリティの統合において大きな進歩を遂げた。
マルチモーダル検索拡張生成(RAG)に基づく新しいフレームワークを提案する。
RAGは、画像内のオブジェクト認識、関係識別、空間的理解を強化するために構造化されたシーングラフを導入している。
論文 参考訳(メタデータ) (2024-12-30T13:16:08Z) - Distilling Spectral Graph for Object-Context Aware Open-Vocabulary Semantic Segmentation [47.047267066525265]
画像にオブジェクトレベルの文脈知識を取り入れた新しいアプローチを導入する。
提案手法は,多種多様なデータセットにまたがる高い一般化性を有する最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-26T06:34:48Z) - GrootVL: Tree Topology is All You Need in State Space Model [66.36757400689281]
GrootVLは、視覚的タスクとテキストタスクの両方に適用できる多目的マルチモーダルフレームワークである。
本手法は, 画像分類, オブジェクト検出, セグメンテーションにおいて, 既存の構造化状態空間モデルよりも大幅に優れる。
大規模言語モデルの微調整により,本手法は訓練コストの少ない複数のテキストタスクにおいて一貫した改善を実現する。
論文 参考訳(メタデータ) (2024-06-04T15:09:29Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。