論文の概要: Validating Generalist Robots with Situation Calculus and STL Falsification
- arxiv url: http://arxiv.org/abs/2601.03038v1
- Date: Tue, 06 Jan 2026 14:13:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.968368
- Title: Validating Generalist Robots with Situation Calculus and STL Falsification
- Title(参考訳): 状況計算とSTLファルシフィケーションを用いた汎用ロボットの検証
- Authors: Changwen Li, Rongjie Yan, Chih-Hong Cheng, Jian Zhang,
- Abstract要約: 汎用ロボットは現実になりつつあり、自然言語の命令を解釈し、多様な操作を実行することができる。
本稿では,抽象的推論と具体的なシステムファルシフィケーションを組み合わせた2層検証フレームワークを提案する。
テーブルトップ操作タスクの実験により、私たちのフレームワークはNVIDIA GR00Tコントローラの障害ケースを効果的に発見することを示した。
- 参考スコア(独自算出の注目度): 6.728104012295723
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Generalist robots are becoming a reality, capable of interpreting natural language instructions and executing diverse operations. However, their validation remains challenging because each task induces its own operational context and correctness specification, exceeding the assumptions of traditional validation methods. We propose a two-layer validation framework that combines abstract reasoning with concrete system falsification. At the abstract layer, situation calculus models the world and derives weakest preconditions, enabling constraint-aware combinatorial testing to systematically generate diverse, semantically valid world-task configurations with controllable coverage strength. At the concrete layer, these configurations are instantiated for simulation-based falsification with STL monitoring. Experiments on tabletop manipulation tasks show that our framework effectively uncovers failure cases in the NVIDIA GR00T controller, demonstrating its promise for validating general-purpose robot autonomy.
- Abstract(参考訳): 汎用ロボットは現実になりつつあり、自然言語の命令を解釈し、多様な操作を実行することができる。
しかし、各タスクは従来の検証手法の仮定を超え、独自の運用コンテキストと正確性仕様を導き出すため、検証は依然として困難である。
本稿では,抽象的推論と具体的なシステムファルシフィケーションを組み合わせた2層検証フレームワークを提案する。
抽象層において、状況計算は世界をモデル化し、最も弱い前提条件を導出し、制約を意識した組合せテストにより、制御可能なカバレッジ強度を持つ多種多様な意味論的に有効な世界タスク構成を体系的に生成することができる。
コンクリート層では、これらの構成はSTLモニタリングによるシミュレーションベースのファルシフィケーションのためにインスタンス化される。
テーブルトップ操作タスクの実験では、私たちのフレームワークがNVIDIA GR00Tコントローラの障害事例を効果的に発見し、汎用ロボットの自律性を検証することの確証を示している。
関連論文リスト
- Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。
本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。
G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-09T09:08:33Z) - Manipulating Transformer-Based Models: Controllability, Steerability, and Robust Interventions [0.2864713389096699]
トランスフォーマーベースの言語モデルは、NLPタスクでは優れているが、きめ細かい制御は依然として難しい。
本稿では,3段階の介入(プロンプト,アクティベーション,ウェイト)を通じてトランスフォーマーモデルを操作する手法について検討する。
本稿では,プロンプトレベルのステアリング,アクティベーション介入,重み空間編集を含む統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-04T17:32:56Z) - Leveraging LLM Agents and Digital Twins for Fault Handling in Process Plants [0.6990493129893112]
本稿では,Large Language Model (LLM)エージェントとDigital Twin環境を統合するフレームワークを提案する。
Digital Twinは、エージェントプロンプトのための植物特有のエンジニアリング知識の構造化されたリポジトリとして機能する。
提案するフレームワークは, 混合モジュールを自律的に制御するだけでなく, 効果的な補正作用も生成できる。
論文 参考訳(メタデータ) (2025-05-04T12:02:21Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - Integrating Expert Knowledge into Logical Programs via LLMs [3.637365301757111]
ExKLoPは、大規模言語モデルが専門家の知識を論理的推論システムに統合する方法を評価するために設計されたフレームワークである。
この能力は特にエンジニアリングにおいて有用であり、製造業者が推奨する運用範囲などの専門家の知識を、自動化された監視システムに直接組み込むことができる。
論文 参考訳(メタデータ) (2025-02-17T19:18:23Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - Meta-Control: Automatic Model-based Control Synthesis for Heterogeneous Robot Skills [10.43221469116584]
本稿では,特定のタスクに合わせて,カスタマイズされた状態表現と制御戦略を作成するメタコントロルを提案する。
私たちの中核的な洞察は、人間の専門家が制御システムの設計に使用する思考プロセスを自動化するために、メタ制御システムを構築することができるということです。
論文 参考訳(メタデータ) (2024-05-18T19:58:44Z) - Enabling Natural Zero-Shot Prompting on Encoder Models via Statement-Tuning [55.265138447400744]
ステートメントチューニングは、有限文の集合として識別タスクをモデル化し、エンコーダモデルを訓練し、潜在的なステートメントを識別してラベルを決定するテクニックである。
その結果, ステートメント・チューニングは, パラメータが著しく少ない最先端のLCMと比較して, 競争性能が向上することを示した。
この研究は、いくつかの設計選択が少ショットとゼロショットの一般化に与える影響を調査し、ステートメントチューニングが控えめなトレーニングデータで高いパフォーマンスを達成できることを明らかにした。
論文 参考訳(メタデータ) (2024-04-19T14:05:03Z) - A General Framework for Verification and Control of Dynamical Models via Certificate Synthesis [54.959571890098786]
システム仕様を符号化し、対応する証明書を定義するためのフレームワークを提供する。
コントローラと証明書を形式的に合成する自動化手法を提案する。
我々のアプローチは、ニューラルネットワークの柔軟性を利用して、制御のための安全な学習の幅広い分野に寄与する。
論文 参考訳(メタデータ) (2023-09-12T09:37:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。