論文の概要: A Physical Agentic Loop for Language-Guided Grasping with Execution-State Monitoring
- arxiv url: http://arxiv.org/abs/2604.07395v1
- Date: Wed, 08 Apr 2026 08:01:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.444419
- Title: A Physical Agentic Loop for Language-Guided Grasping with Execution-State Monitoring
- Title(参考訳): 実行状態モニタリングを用いた言語ガイドグラスピングのための物理エージェントループ
- Authors: Wenze Wang, Mehdi Hosseinzadeh, Feras Dayoub,
- Abstract要約: 我々は、接地された実行状態上で動作する有界な実施エージェントとして言語誘導の把握を再構築する。
未修正の学習操作プリミティブをラップする物理エージェントループを導入する。
眼内カメラD405を用いた移動マニピュレータのループを検証した。
- 参考スコア(独自算出の注目度): 5.437966695589128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robotic manipulation systems that follow language instructions often execute grasp primitives in a largely single-shot manner: a model proposes an action, the robot executes it, and failures such as empty grasps, slips, stalls, timeouts, or semantically wrong grasps are not surfaced to the decision layer in a structured way. Inspired by agentic loops in digital tool-using agents, we reformulate language-guided grasping as a bounded embodied agent operating over grounded execution states, where physical actions expose an explicit tool-state stream. We introduce a physical agentic loop that wraps an unmodified learned manipulation primitive (grasp-and-lift) with (i) an event-based interface and (ii) an execution monitoring layer, Watchdog, which converts noisy gripper telemetry into discrete outcome labels using contact-aware fusion and temporal stabilization. These outcome events, optionally combined with post-grasp semantic verification, are consumed by a deterministic bounded policy that finalizes, retries, or escalates to the user for clarification, guaranteeing finite termination. We validate the resulting loop on a mobile manipulator with an eye-in-hand D405 camera, keeping the underlying grasp model unchanged and evaluating representative scenarios involving visual ambiguity, distractors, and induced execution failures. Results show that explicit execution-state monitoring and bounded recovery enable more robust and interpretable behavior than open-loop execution, while adding minimal architectural overhead. For the source code and demo refer to our project page: https://wenzewwz123.github.io/Agentic-Loop/
- Abstract(参考訳): モデルがアクションを提案し、ロボットがそれを実行し、空のグリップ、スリップ、ストール、タイムアウト、意味的に間違ったグリップなどの障害が、構造化された方法で決定層に表面化されない。
デジタルツール使用エージェントのエージェントループにインスパイアされた我々は、言語誘導の把握を、接地された実行状態で動作する有界なエンボディエージェントとして再構成し、物理的なアクションが明示的なツール状態ストリームを露呈する。
未修正の学習操作プリミティブ(grasp-and-lift)をラップする物理エージェントループを導入する。
i) イベントベースのインターフェースと
(i) ノイズの多いグリップテレメトリを、接触認識融合と時間安定化を用いて離散的な結果ラベルに変換する実行監視層であるWatchdog。
これらの結果イベントは、選択的にポストグラフセマンティック検証と組み合わせられ、決定論的境界ポリシーによって消費され、有限終了を保証し、ユーザを確定、再試行、エスカレートする。
D405カメラを装着した移動マニピュレータのループを検証し、その基盤となる把握モデルを一定に保ち、視覚的曖昧さ、注意散らし、実行障害を誘発する代表的なシナリオを評価する。
その結果、明示的な実行状態の監視とバウンドリカバリにより、オープンループ実行よりも堅牢で解釈可能な動作が可能であり、アーキテクチャ上のオーバーヘッドは最小限であることがわかった。
ソースコードとデモについては、プロジェクトのページを参照してください。
関連論文リスト
- AgentHazard: A Benchmark for Evaluating Harmful Behavior in Computer-Use Agents [31.649268608215817]
コンピュータ利用エージェントの有害行動を評価するベンチマークである textbfAgentHazard を提案する。
我々は、Qwen3、Kim、GLM、DeepSeekファミリーのほとんどをオープンまたはオープンにデプロイ可能なモデルを使用して、Claude Code、OpenClaw、IFlowを評価した。
論文 参考訳(メタデータ) (2026-04-03T10:29:31Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - A Trace-Based Assurance Framework for Agentic AI Orchestration: Contracts, Testing, and Governance [0.22940141855172028]
本稿では,Large Language Models (LLM) を用いたエージェントAIシステムの保証フレームワークを提案する。
実行は、明示的なステップとトレースコントラクトを備えたメッセージ・アクション・トレース(MAT)として実装される。
このフレームワークは、有界摂動に対する予算付き反例探索として定式化されたストレステストを含む。
論文 参考訳(メタデータ) (2026-03-18T10:23:48Z) - AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - Beyond Input Guardrails: Reconstructing Cross-Agent Semantic Flows for Execution-Aware Attack Detection [32.301679396929536]
静的な入力フィルタリングから実行対応分析へ、防御パラダイムをシフトするフレームワークであるSysNameを提案する。
SysNameは断片化された操作プリミティブを連続した行動軌跡に合成し、システムアクティビティの全体像を可能にする。
実証的な評価により、SysNameは10以上の異なる複合攻撃ベクトルを効果的に検出し、それぞれノードレベルとパスレベルのエンドツーエンド攻撃検出に対して85.3%と66.7%のF1スコアを達成した。
論文 参考訳(メタデータ) (2026-03-04T01:59:16Z) - Mind the Gap: Learning Implicit Impedance in Visuomotor Policies via Intent-Execution Mismatch [7.078279704479455]
本稿では,学習目標を「インテント・クローン(マスター・コマンド)」にシフトさせるデュアルステート・コンディショニング・フレームワークを提案する。
マスター意図を予測することによって、我々の政策は「仮想平衡点」を生成することを学び、暗黙のインピーダンス制御を効果的に実現した。
これは、低コストハードウェアのための最小限の動作クローニングフレームワークを示し、明示的な力センシングに頼ることなく、力知覚と動的補償を可能にする。
論文 参考訳(メタデータ) (2026-02-09T15:18:12Z) - Real-Time Robot Execution with Masked Action Chunking [38.37108371991901]
ロボットのようなサイバー物理システムにはリアルタイム実行が不可欠である。
近年,リアルタイムロボット操作のためのシステムレベルのパラダイムとして,非同期推論が登場している。
本稿では,マスクされたアクションチャンキングによって事前訓練されたポリシーの修正を学習するREMACを提案する。
論文 参考訳(メタデータ) (2026-01-27T23:48:32Z) - The Bitter Lesson of Diffusion Language Models for Agentic Workflows: A Comprehensive Reality Check [54.08619694620588]
本稿では,2つの異なるエージェントパラダイムであるEmbodied AgentsとTool-Calling AgentsにまたがるdLLMの包括的評価を行う。
Agentboard と BFCL では,現在の dLLM が信頼できるエージェントバックボーンとして機能しないという,"ビットレッスン" が報告されている。
論文 参考訳(メタデータ) (2026-01-19T11:45:39Z) - DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [52.92354372596197]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。