論文の概要: CRAFT-E: A Neuro-Symbolic Framework for Embodied Affordance Grounding
- arxiv url: http://arxiv.org/abs/2512.04231v1
- Date: Wed, 03 Dec 2025 19:54:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.856519
- Title: CRAFT-E: A Neuro-Symbolic Framework for Embodied Affordance Grounding
- Title(参考訳): CRAFT-E:脳卒中治療のための神経シンボリック・フレームワーク(CRAFT-E)
- Authors: Zhou Chen, Joe Lin, Carson Bulgin, Sathyanarayanan N. Aakur,
- Abstract要約: CRAFT-Eは、視覚言語アライメントとエネルギーベースの把握推論を備えた構造化動詞・目的知識グラフを構成する、ニューロシンボリックなフレームワークである。
静的シーン、ImageNetベースの機能検索、20の動詞と39のオブジェクトを含む現実世界での試行において、競合的なパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 9.03899860279948
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Assistive robots operating in unstructured environments must understand not only what objects are, but what they can be used for. This requires grounding language-based action queries to objects that both afford the requested function and can be physically retrieved. Existing approaches often rely on black-box models or fixed affordance labels, limiting transparency, controllability, and reliability for human-facing applications. We introduce CRAFT-E, a modular neuro-symbolic framework that composes a structured verb-property-object knowledge graph with visual-language alignment and energy-based grasp reasoning. The system generates interpretable grounding paths that expose the factors influencing object selection and incorporates grasp feasibility as an integral part of affordance inference. We further construct a benchmark dataset with unified annotations for verb-object compatibility, segmentation, and grasp candidates, and deploy the full pipeline on a physical robot. CRAFT-E achieves competitive performance in static scenes, ImageNet-based functional retrieval, and real-world trials involving 20 verbs and 39 objects. The framework remains robust under perceptual noise and provides transparent, component-level diagnostics. By coupling symbolic reasoning with embodied perception, CRAFT-E offers an interpretable and customizable alternative to end-to-end models for affordance-grounded object selection, supporting trustworthy decision-making in assistive robotic systems.
- Abstract(参考訳): 非構造環境で動作している補助ロボットは、オブジェクトが何であるかだけでなく、何のために使えるのかを理解する必要がある。
これは、要求された機能と物理的に取得できるオブジェクトに言語ベースのアクションクエリを接地する必要がある。
既存のアプローチはしばしばブラックボックスモデルや固定価格ラベルに依存しており、透明性、制御性、信頼性を制限している。
CRAFT-Eは,視覚言語アライメントとエネルギーに基づく把握推論を備えた構造化動詞・目的知識グラフを構成するモジュール型ニューロシンボリックフレームワークである。
本システムは、対象選択に影響を与える要因を明らかにするための解釈可能な接地経路を生成し、可読性推論の不可欠な部分として把握可能性を取り込む。
さらに、動詞オブジェクトの互換性、セグメンテーション、および候補の把握のための統一アノテーションを備えたベンチマークデータセットを構築し、物理的なロボットに完全なパイプラインをデプロイする。
CRAFT-Eは、静的シーン、ImageNetベースの機能検索、20の動詞と39のオブジェクトを含む実世界のトライアルにおいて、競合的なパフォーマンスを達成する。
このフレームワークは、知覚ノイズの下でも堅牢であり、透明でコンポーネントレベルの診断を提供する。
CRAFT-Eは、記号的推論と具体的知覚を結合することにより、補助ロボットシステムにおける信頼性の高い意思決定をサポートする、手頃な対象選択のためのエンドツーエンドモデルの解釈可能でカスタマイズ可能な代替手段を提供する。
関連論文リスト
- Kinematify: Open-Vocabulary Synthesis of High-DoF Articulated Objects [59.51185639557874]
本稿では,任意のRGB画像やテキスト記述から直接音声オブジェクトを合成するフレームワークであるKinematifyを紹介する。
提案手法は, 高DoFオブジェクトに対する運動的トポロジの推測と静的幾何からの関節パラメータの推定という2つの課題に対処する。
論文 参考訳(メタデータ) (2025-11-03T07:21:42Z) - Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。
本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。
G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-09T09:08:33Z) - CRAFT: A Neuro-Symbolic Framework for Visual Functional Affordance Grounding [6.281229317487581]
CRAFT(CRAFT)は、可買性グラウンドの解釈のための神経象徴的枠組みである。
与えられたアクション(例えば「カット」)を可能にするシーン内のオブジェクトを識別する。
論文 参考訳(メタデータ) (2025-07-19T01:06:29Z) - IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - Context-Aware Semantic Segmentation: Enhancing Pixel-Level Understanding with Large Language Models for Advanced Vision Applications [0.0]
本稿では,Large Language Models (LLM) と最先端のビジョンバックボーンを統合する新しいコンテキスト認識セマンティックフレームワークを提案する。
視覚と言語の特徴を整合させるクロスアテンションメカニズムを導入し、モデルがコンテキストをより効果的に推論できるようにする。
この研究は視覚と言語の間のギャップを埋め、自律運転、医療画像、ロボット工学などの応用における、よりインテリジェントでコンテキスト対応の視覚システムへの道を開く。
論文 参考訳(メタデータ) (2025-03-25T02:12:35Z) - From Objects to Events: Unlocking Complex Visual Understanding in Object Detectors via LLM-guided Symbolic Reasoning [71.41062111470414]
現在のオブジェクト検出器は、エンティティのローカライゼーションと分類において優れているが、イベント認識機能には固有の制限がある。
本稿では,単なるオブジェクト認識以上の標準オブジェクト検出能力を,複雑なイベント理解に拡張する新しいフレームワークを提案する。
私たちの重要なイノベーションは、高価なタスク固有のトレーニングを必要とせずに、オブジェクト検出とイベント理解のセマンティックなギャップを埋めることです。
論文 参考訳(メタデータ) (2025-02-09T10:30:54Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - Phrase-Based Affordance Detection via Cyclic Bilateral Interaction [17.022853987801877]
我々は、視覚言語の観点から、手当を知覚し、困難なフレーズベースの手当検出問題を考察する。
言語と視覚の特徴を段階的に整合させるために,循環的二元整合性向上ネットワーク(CBCE-Net)を提案する。
具体的には、CBCE-Netは、視覚と言語の共通した特徴を進歩的に更新する相互指導型視覚言語モジュールと、循環的に物体との相互作用の認識を容易にする循環的相互作用モジュール(CIM)から構成される。
論文 参考訳(メタデータ) (2022-02-24T13:02:27Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。