Fugu-MT 論文翻訳(概要): Phase-Conditioned Imitation Learning with Autonomous Failure Recovery for Robust Deformable Object Manipulation

論文の概要: Phase-Conditioned Imitation Learning with Autonomous Failure Recovery for Robust Deformable Object Manipulation

arxiv url: http://arxiv.org/abs/2605.29407v1
Date: Thu, 28 May 2026 05:59:53 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-30 02:45:55.831014
Title: Phase-Conditioned Imitation Learning with Autonomous Failure Recovery for Robust Deformable Object Manipulation
Title（参考訳）: ロバスト変形性物体マニピュレーションのための自律的故障回復による位相整合模倣学習
Authors: Dayuan Chen, Kai Tang, Yukuan Zhang, Kazuhiro Kosuge, Yasuhisa Hirata,
Abstract要約: 変形可能なオブジェクト操作のための位相条件付き力覚フレームワークを提案する。 FiLM条件のACTエンコーダは、現在のタスクフェーズに基づいて特徴抽出を変調する。視覚、力、ポーズフィードバックを融合させた多モード位相予測器は、視覚単独では見えない接触障害をリアルタイムで推定する。
参考スコア（独自算出の注目度）: 5.524438437366922
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: This paper presents a phase-conditioned, force-aware framework for robust deformable object manipulation. Standard imitation learning policies such as Action Chunking with Transformers (ACT) rely on a Markovian assumption at inference, causing state aliasing when visually similar observations require contradictory actions and preventing autonomous recovery from execution failures. We address this with a closed-loop hierarchical architecture. A FiLM-conditioned ACT encoder modulates feature extraction based on the current task phase, enabling a single unified policy to produce phase-specific behaviors while sharing action dynamics across phases. A multi-modal phase predictor fusing visual, force, and pose feedback estimates the phase in real time, detecting contact failures that are invisible to vision alone and autonomously triggering recovery trajectories. The system is completed by a hybrid impedance controller for compliant execution and a haptic teleoperation interface for force-aware data collection. Ablation studies show that FiLM-based modulation significantly outperforms both unconditioned and token-level conditioned baselines, and t-SNE analysis confirms that FiLM induces well-separated, phase-specific feature representations. Validated on hanging and removing a T-shirt with dual arms, the closed-loop system improves the hanging success rate from 56\% to 87\% through autonomous error recovery. Code and videos: https://leledeyuan00.github.io/phaser/
Abstract（参考訳）: 本稿では,頑健な変形可能なオブジェクト操作のための位相条件付き力覚フレームワークを提案する。 Action Chunking with Transformers (ACT)のような標準的な模倣学習ポリシーは、推論におけるマルコフの仮定に依存しており、視覚的に類似した観察が矛盾した行動を必要とし、実行失敗からの自律的な回復を妨げている。これをクローズドループ階層アーキテクチャで解決する。 FiLM条件のACTエンコーダは、現在のタスクフェーズに基づいて特徴抽出を変調し、単一の統一ポリシーにより、フェーズ間のアクションダイナミクスを共有しながら、フェーズ固有の振る舞いを生成できる。多モード位相予測器は、視覚、力、ポーズフィードバックを融合させ、リアルタイムで位相を推定し、視覚単独では見えない接触障害を検出し、回復軌道を自律的に引き起こす。システムは、適合実行のためのハイブリッドインピーダンスコントローラと、力覚データ収集のための触覚遠隔操作インタフェースで完結する。アブレーション研究では、FiLMに基づく変調は、無条件とトークンレベルの条件付きベースラインの両方で著しく優れており、t-SNE分析は、FiLMがよく分離された位相特異的な特徴表現を誘導することを確認した。 2本の腕を持つTシャツの吊り下げと取り外しを検証したクローズドループシステムは、自律的エラー回復により、吊り上げ成功率を56\%から87\%に改善する。コードとビデオ:https://leledeyuan00.github.io/phaser/

関連論文リスト

DeCoDrift: Stabilizing Decoder Coupling in Closed-Loop Foundation Segmentation [0.431493144418712]
フィードバックループは、マスクデコーダのクロスアテンションがターゲットオブジェクトとのアライメントを徐々に失い、繰り返しにわたってエラーが蓄積されるような、以前見過ごされた障害モード、デコーダ結合ドリフトを誘導できることを示す。 DeCoDriftは、トレーニング不要な推論時間安定化フレームワークで、更新の速やかな制限とイテレーション間のデコーダ結合の保存を行う。
論文参考訳（メタデータ） (2026-05-25T11:41:21Z)
VLA-ATTC: Adaptive Test-Time Compute for VLA Models with Relative Action Critic Model [54.35791816657227]
適応型テスト時間計算でVLAモデルを実現するフレームワークである textbfVLA-ATTC' を導入する。 VLA-ATTCは、不確実性に基づく認知クラッチ'を用いて、反射的実行からTTC熟考フェーズへ動的に移行する。 LIBERO-LONGベンチマークでは、VLA-ATTCはSOTAモデルPI0.5の故障率を50%以上削減する。
論文参考訳（メタデータ） (2026-05-02T02:13:11Z)
OneDrive: Unified Multi-Paradigm Driving with Vision-Language-Action Models [69.2503510410147]
予め訓練されたVLM上に構築した統合自動運転フレームワークを提案する。トレーニング済みのVLMアテンションは、純粋言語モデリング以上の強い伝達性を示すことを示す。エンドツーエンドの自動運転ベンチマークの実験は、最先端のパフォーマンスを示している。
論文参考訳（メタデータ） (2026-04-20T07:50:00Z)
Rewind-IL: Online Failure Detection and State Respawning for Imitation Learning [7.445072780282545]
提案するRewind-ILは,生成アクションチャンク模倣ポリシーのためのトレーニングフリーオンラインセーフガードフレームワークである。 Rewind-ILは、TIDE(Temporal Inter-chunk Discrepancy Estimate)に基づくゼロショット故障検知器と、状態再起動機構を結合する。オンラインのRewind-ILは、重複するアクションチャンクの自己整合性を監視し、チェックポイントライブラリと類似性を追跡し、失敗すると、実行を最新の検証された安全な状態に戻す。
論文参考訳（メタデータ） (2026-04-17T20:41:14Z)
A Physical Agentic Loop for Language-Guided Grasping with Execution-State Monitoring [5.437966695589128]
我々は、接地された実行状態上で動作する有界な実施エージェントとして言語誘導の把握を再構築する。未修正の学習操作プリミティブをラップする物理エージェントループを導入する。眼内カメラD405を用いた移動マニピュレータのループを検証した。
論文参考訳（メタデータ） (2026-04-08T08:01:35Z)
Training LLMs for Multi-Step Tool Orchestration with Constrained Data Synthesis and Graduated Rewards [76.49428173793386]
LLMは、中間出力を伝搬しながら、正しい順序で複数の依存APIを呼び出す必要がある。既存の環境は、シミュレーションデータを使った単純なターン毎の関数呼び出しとバイナリ報酬に重点を置いている。まず、実APIレスポンスの大規模キャッシュを背景とした強化学習環境を構築し、有効なマルチステップオーケストレーショントレースをサンプリングするデータ合成パイプラインを実現する。第二に、正当性を原子の妥当性とオーケストレーションに分解する、段階的な報酬設計を提案する。
論文参考訳（メタデータ） (2026-03-25T18:31:39Z)
See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation [59.07792608884117]
本稿では,See, Plan, Rewind (SPR)について紹介する。 SPRは、現在の状態と今後のマイルストーンを見て、次の2Dウェイポイントに向けて軌道を計画し、障害時に回復可能な状態に戻すという、継続的なコアサイクルを通じて運用される。 SPRは、OpenVLA-OFTとUniVLAを上回る最小のパフォーマンス低下で最先端のロバスト性を達成する。
論文参考訳（メタデータ） (2026-03-10T07:22:51Z)
Mind the Gap: Learning Implicit Impedance in Visuomotor Policies via Intent-Execution Mismatch [7.078279704479455]
本稿では,学習目標を「インテント・クローン(マスター・コマンド)」にシフトさせるデュアルステート・コンディショニング・フレームワークを提案する。マスター意図を予測することによって、我々の政策は「仮想平衡点」を生成することを学び、暗黙のインピーダンス制御を効果的に実現した。これは、低コストハードウェアのための最小限の動作クローニングフレームワークを示し、明示的な力センシングに頼ることなく、力知覚と動的補償を可能にする。
論文参考訳（メタデータ） (2026-02-09T15:18:12Z)
Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文参考訳（メタデータ） (2025-10-09T04:48:49Z)
Bench2Drive-R: Turning Real World Data into Reactive Closed-Loop Autonomous Driving Benchmark by Generative Model [63.336123527432136]
我々は,リアクティブ閉ループ評価を可能にする生成フレームワークであるBench2Drive-Rを紹介する。既存の自動運転用ビデオ生成モデルとは異なり、提案された設計はインタラクティブなシミュレーションに適したものである。我々は、Bench2Drive-Rの生成品質を既存の生成モデルと比較し、最先端の性能を達成する。
論文参考訳（メタデータ） (2024-12-11T06:35:18Z)
PIDformer: Transformer Meets Control Theory [28.10913642120948]
我々は、そのソリューションのスムーズさを本質的に促進する自律的状態空間モデルとして自己意識を公表する。モデルに参照点を持つPID(Proportional-Integral-Derivative)クローズドループフィードバック制御システムを導入し,ロバスト性や表現能力の向上を図る。この制御フレームワークにより、新しい変換器のクラス、PID制御変換器(PIDformer)を導出する。
論文参考訳（メタデータ） (2024-02-25T05:04:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。