Fugu-MT 論文翻訳(概要): Event-Driven Proactive Assistive Manipulation with Grounded Vision-Language Planning

論文の概要: Event-Driven Proactive Assistive Manipulation with Grounded Vision-Language Planning

arxiv url: http://arxiv.org/abs/2603.23950v1
Date: Wed, 25 Mar 2026 05:14:04 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-26 21:06:11.142723
Title: Event-Driven Proactive Assistive Manipulation with Grounded Vision-Language Planning
Title（参考訳）: 接地型ビジョンランゲージ計画を用いたイベント駆動型能動補助マニピュレーション
Authors: Fengkai Liu, Hao Su, Haozhuang Chi, Rui Geng, Congzhi Ren, Xuqing Liu, Yucheng Xu, Yuichi Ohsita, Liyun Zhang,
Abstract要約: リクエスト駆動型アシストからイベント駆動型プロアクティブアシストへの移行を紹介します。イベントモニタとのインタラクション進捗を追跡するイベント駆動フレームワークを提案する。我々は,実際のテーブルトップ数ブロック協調作業において,そのフレームワークを評価する。
参考スコア（独自算出の注目度）: 14.022917047438375
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Assistance in collaborative manipulation is often initiated by user instructions, making high-level reasoning request-driven. In fluent human teamwork, however, partners often infer the next helpful step from the observed outcome of an action rather than waiting for instructions. Motivated by this, we introduce a shift from request-driven assistance to event-driven proactive assistance, where robot actions are initiated by workspace state transitions induced by human--object interactions rather than user-provided task instructions. To this end, we propose an event-driven framework that tracks interaction progress with an event monitor and, upon event completion, extracts stabilized pre/post snapshots that characterize the resulting state transition. Given the stabilized snapshots, the planner analyzes the implied state transition to infer a task-level goal and decide whether to intervene; if so, it generates a sequence of assistive actions. To make outputs executable and verifiable, we restrict actions to a set of action primitives and reference objects via integer IDs. We evaluate the framework on a real tabletop number-block collaboration task, demonstrating that explicit pre/post state-change evidence improves proactive completion on solvable scenes and appropriate waiting on unsolvable ones.
Abstract（参考訳）: 協調操作の補助は、しばしばユーザ指示によって始められ、高いレベルの推論要求駆動を実現する。しかし、流動的な人間チームワークでは、パートナーは指示を待つのではなく、観察された行動の結果から次の有用なステップを推測することが多い。そこで我々は,要求駆動型支援からイベント駆動型プロアクティブ・アシストへ移行し,ロボットの動作は,ユーザが提供するタスク命令ではなく,人間とオブジェクトのインタラクションによって引き起こされるワークスペース状態遷移によって開始される。この目的のために、イベントモニタとのインタラクション進捗を追跡し、イベント完了時に、状態遷移を特徴付ける安定化されたプレ/ポストスナップショットを抽出するイベント駆動フレームワークを提案する。安定スナップショットが与えられた場合、プランナーは命令された状態遷移を分析してタスクレベルの目標を推測し、介入するかどうかを決定する。出力を実行可能で検証可能なものにするために、アクションプリミティブと参照オブジェクトのセットに、整数IDを介してアクションを制限します。本研究では,実際のテーブルトップナンバブロック協調作業におけるフレームワークの評価を行い,前/後状態変化の明確な証拠が解決可能なシーンのプロアクティブ完了を改善し,解決不可能なシーンを適切に待機することを示す。

関連論文リスト

Learning Semantic-Geometric Task Graph-Representations from Human Demonstrations [16.68801520494275]
対象の同一性や対象間の関係を符号化する意味幾何学的タスクグラフ表現と,その時間的幾何学的進化を人間の実演から導入する。意味幾何学的タスクグラフ表現は、高い動作とオブジェクトの可変性を持つタスクに特に有益であることを示す。
論文参考訳（メタデータ） (2026-01-16T17:35:00Z)
AnyPos: Automated Task-Agnostic Actions for Bimanual Manipulation [24.199522837278128]
本稿では,タスク固有の条件からアクション実行を分離するタスク非依存のアクションパラダイムを提案する。 ATARAはスケーラブルなセルフ教師付きフレームワークで、人間の遠隔操作と比較して30倍以上のコレクションを高速化する。我々はArm-Decoupled EstimationとDirection-Aware Decoderを備えた逆動的モデルであるAnyPosを提案する。
論文参考訳（メタデータ） (2025-07-17T03:48:57Z)
Towards Bridging the Gap between High-Level Reasoning and Execution on Robots [2.6107298043931206]
例えば、タスク計画やGologを使ったエージェントプログラミングによってアクションを推論する場合、ロボットのアクションは一般的に抽象的なレベルでモデル化される。しかし、そのような動作をロボットで実行すると、もはや原始的とは見なされない。本稿では,このギャップを埋めるためのいくつかのアプローチを提案する。
論文参考訳（メタデータ） (2023-12-30T12:26:12Z)
Unified Task and Motion Planning using Object-centric Abstractions of Motion Constraints [56.283944756315066]
本稿では,タスクとモーションプランニングを一つの検索に統一するTAMP手法を提案する。我々のアプローチは、オフザシェルフAIサーチの計算効率を活用して、物理的に実現可能な計画が得られるような、オブジェクト中心の動作制約の抽象化に基づいている。
論文参考訳（メタデータ） (2023-12-29T14:00:20Z)
ThinkBot: Embodied Instruction Following with Thought Chain Reasoning [66.09880459084901]
EIF(Embodied Instruction following)は、複雑な環境下でオブジェクトを相互作用させることで、エージェントが人間の指示を完了させる。我々は,人間の指導における思考連鎖を原因とした思考ボットを提案し,その不足した行動記述を復元する。私たちのThinkBotは、成功率と実行効率の両面で、最先端のEIFメソッドよりも大きなマージンで優れています。
論文参考訳（メタデータ） (2023-12-12T08:30:09Z)
Code Models are Zero-shot Precondition Reasoners [83.8561159080672]
シーケンシャルな意思決定タスクのために、コード表現を使ってアクションの前提条件を推論します。本稿では,政策によって予測される行動が前提条件と一致していることを保証する事前条件対応行動サンプリング戦略を提案する。
論文参考訳（メタデータ） (2023-11-16T06:19:27Z)
Proactive Human-Robot Interaction using Visuo-Lingual Transformers [0.0]
人間は人間の相互作用を通して文脈を推測するために、潜伏したビスオ・言語的手がかりを抽出する能力を持っている。本研究では,シーンからの視覚的手がかり,ユーザからの言語コマンド,事前オブジェクト間相互作用の知識を用いて,ユーザが達成しようとしている目標を積極的に予測する学習手法を提案する。
論文参考訳（メタデータ） (2023-10-04T00:50:21Z)
Event-Guided Procedure Planning from Instructional Videos with Text Supervision [31.82121743586165]
本研究は,テキスト管理による指導ビデオからの手順計画の課題に焦点をあてる。この課題の重要な課題は、観察された視覚状態と観測されていない中間動作の間の大きな意味的ギャップである。本稿では,まず観測された状態から事象を推定し,その状態と予測された事象の両方に基づいて行動計画を行う,新しいイベント誘導パラダイムを提案する。
論文参考訳（メタデータ） (2023-08-17T09:43:28Z)
A Persistent Spatial Semantic Representation for High-level Natural Language Instruction Execution [54.385344986265714]
本稿では,言語行動とロボット行動のギャップを埋めるために,永続的な空間意味表現法を提案する。一般的なステップバイステップ命令を完全に回避しながら、ALFREDベンチマークに対する我々のアプローチを評価し、最先端の結果を得る。
論文参考訳（メタデータ） (2021-07-12T17:47:19Z)
Instance-Aware Predictive Navigation in Multi-Agent Environments [93.15055834395304]
エージェント間の相互作用と将来のシーン構造を予測するIPC(Instance-Aware Predictive Control)アプローチを提案する。我々は,ego中心の視点でエージェント間のインタラクションを推定するために,新しいマルチインスタンスイベント予測モジュールを採用する。シーンレベルとインスタンスレベルの両方の予測状態をより有効活用するために、一連のアクションサンプリング戦略を設計します。
論文参考訳（メタデータ） (2021-01-14T22:21:25Z)
Inferring Temporal Compositions of Actions Using Probabilistic Automata [61.09176771931052]
本稿では,動作の時間的構成を意味正規表現として表現し,確率的オートマトンを用いた推論フレームワークを提案する。我々のアプローチは、長い範囲の複雑なアクティビティを、順序のないアトミックアクションのセットとして予測するか、自然言語文を使ってビデオを取得するという既存の研究とは異なる。
論文参考訳（メタデータ） (2020-04-28T00:15:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。