論文の概要: Probing a Vision-Language-Action Model for Symbolic States and Integration into a Cognitive Architecture
- arxiv url: http://arxiv.org/abs/2502.04558v1
- Date: Thu, 06 Feb 2025 23:11:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 18:29:32.962067
- Title: Probing a Vision-Language-Action Model for Symbolic States and Integration into a Cognitive Architecture
- Title(参考訳): シンボル状態に対する視覚・言語・アクションモデルの提案と認知アーキテクチャへの統合
- Authors: Hong Lu, Hengxu Li, Prithviraj Singh Shahani, Stephanie Herbers, Matthias Scheutz,
- Abstract要約: 我々はOpenVLAの隠された層を探索し、オブジェクトの特性、関係、動作状態の象徴的表現を明らかにする。
実時間状態監視にこれらのシンボル表現を利用する統合DIARC-OpenVLAシステムについて述べる。
- 参考スコア(独自算出の注目度): 6.319871822298699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language-action (VLA) models hold promise as generalist robotics solutions by translating visual and linguistic inputs into robot actions, yet they lack reliability due to their black-box nature and sensitivity to environmental changes. In contrast, cognitive architectures (CA) excel in symbolic reasoning and state monitoring but are constrained by rigid predefined execution. This work bridges these approaches by probing OpenVLA's hidden layers to uncover symbolic representations of object properties, relations, and action states, enabling integration with a CA for enhanced interpretability and robustness. Through experiments on LIBERO-spatial pick-and-place tasks, we analyze the encoding of symbolic states across different layers of OpenVLA's Llama backbone. Our probing results show consistently high accuracies (> 0.90) for both object and action states across most layers, though contrary to our hypotheses, we did not observe the expected pattern of object states being encoded earlier than action states. We demonstrate an integrated DIARC-OpenVLA system that leverages these symbolic representations for real-time state monitoring, laying the foundation for more interpretable and reliable robotic manipulation.
- Abstract(参考訳): ビジョン・ランゲージ・アクション(VLA)モデルは、視覚的および言語的な入力をロボットのアクションに翻訳することで、汎用的なロボティクスソリューションとして期待できるが、ブラックボックスの性質と環境変化への敏感さのために信頼性に欠ける。
対照的に、認知アーキテクチャ(CA)は象徴的推論や状態監視に優れるが、厳格な事前定義された実行によって制約される。
この研究は、オブジェクトプロパティ、リレーション、アクション状態のシンボル表現を明らかにするためにOpenVLAの隠されたレイヤを探索することで、これらのアプローチを橋渡しし、解釈可能性と堅牢性を高めるためにCAとの統合を可能にする。
LIBERO-spatial pick-and-placeタスクの実験を通じて、OpenVLAのLlamaバックボーンの異なる層にまたがるシンボル状態の符号化を分析する。
その結果,ほとんどの層にまたがるオブジェクト状態とアクション状態の双方に対して,常に高い精度(> 0.90)が得られたが,その仮説とは対照的に,動作状態よりも早くコード化されるオブジェクト状態の予測パターンは観察されなかった。
我々は、これらのシンボル表現をリアルタイムな状態監視に活用したDIARC-OpenVLAシステムを実証し、より解釈可能で信頼性の高いロボット操作の基礎を築いた。
関連論文リスト
- CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [56.424032454461695]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction [95.6266030753644]
Vision-Language-Action(VLA)モデルは、視覚的な観察と言語指示に基づいてロボット行動を予測することを目的としている。
既存のアプローチでは、視覚的特徴と言語的特徴が独立して下流ポリシーに供給されるため、微調整済みの視覚言語モデル(VLM)が必要である。
本稿では,テキスト認識による視覚的特徴抽出によって既存のアライメントを活用する新しいVLAアーキテクチャOTTERを提案する。
論文 参考訳(メタデータ) (2025-03-05T18:44:48Z) - From Objects to Events: Unlocking Complex Visual Understanding in Object Detectors via LLM-guided Symbolic Reasoning [71.41062111470414]
オープンボキャブラリ検出器を用いたプラグアンドプレイフレームワークインタフェースの提案。
提案手法は, 検出された実体間の関係パターンを探索する記号的回帰機構を組み合わせたものである。
トレーニング不要のフレームワークを、さまざまなアプリケーションドメインにまたがる特別なイベント認識システムと比較した。
論文 参考訳(メタデータ) (2025-02-09T10:30:54Z) - Structured Spatial Reasoning with Open Vocabulary Object Detectors [2.089191490381739]
オブジェクト間の空間的関係に関する推論は多くの実世界のロボット作業において不可欠である。
我々は、リッチな3次元幾何学的特徴と最先端のオープンボキャブラリオブジェクト検出器を統合する構造的確率的アプローチを導入する。
この手法は、空間推論タスクにおける最先端ビジョン・言語モデル(VLM)のゼロショット性能を評価・比較する。
論文 参考訳(メタデータ) (2024-10-09T19:37:01Z) - Do Pre-trained Vision-Language Models Encode Object States? [13.4206464539947]
視覚言語モデル(VLM)がWebスケールデータにオブジェクト状態をエンコードするかどうかを検討する。
コントラストおよび生成目的を訓練したモデルを含む,9つのオープンソースVLMを評価した。
オブジェクト状態のエンコードを改善するための3つの領域を同定する。
論文 参考訳(メタデータ) (2024-09-16T17:22:18Z) - Grounding Language Plans in Demonstrations Through Counterfactual Perturbations [25.19071357445557]
物理領域におけるLarge Language Models(LLM)の常識的推論は、具体化されたAIにとって重要な問題でありながら未解決である。
提案手法は,2次元ナビゲーションによる模倣学習の解釈性と反応性を向上し,シミュレーションおよび実ロボット操作タスクを実現する。
論文 参考訳(メタデータ) (2024-03-25T19:04:59Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - Learning with Language-Guided State Abstractions [58.199148890064826]
高次元観測空間における一般化可能なポリシー学習は、よく設計された状態表現によって促進される。
我々の手法であるLGAは、自然言語の監視と言語モデルからの背景知識を組み合わせて、目に見えないタスクに適した状態表現を自動構築する。
シミュレーションされたロボットタスクの実験では、LGAは人間によって設計されたものと同様の状態抽象化をもたらすが、そのほんの少しの時間で得られる。
論文 参考訳(メタデータ) (2024-02-28T23:57:04Z) - OSCaR: Object State Captioning and State Change Representation [52.13461424520107]
本稿では,OSCaR(Object State Captioning and State Change Representation)データセットとベンチマークを紹介する。
OSCaRは14,084の注釈付きビデオセグメントで構成され、様々なエゴセントリックなビデオコレクションから1,000近いユニークなオブジェクトが集められている。
マルチモーダル大言語モデル(MLLM)を評価するための新しいテストベッドを設定する。
論文 参考訳(メタデータ) (2024-02-27T01:48:19Z) - Enhancing Interpretability and Interactivity in Robot Manipulation: A
Neurosymbolic Approach [0.0]
本稿では,言語誘導型視覚推論とロボット操作を結合したニューロシンボリックアーキテクチャを提案する。
非熟練の人間ユーザは、制約のない自然言語を用いてロボットに刺激を与え、参照表現(REF)、質問(VQA)、把握動作指示を提供する。
シミュレーション環境では,3次元視覚と言語によるテーブルトップシーンの合成データセットを作成し,我々のアプローチを訓練し,合成シーンと実世界のシーンの両方で広範な評価を行う。
論文 参考訳(メタデータ) (2022-10-03T12:21:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。