Fugu-MT 論文翻訳(概要): ManiLong-Shot: Interaction-Aware One-Shot Imitation Learning for Long-Horizon Manipulation

論文の概要: ManiLong-Shot: Interaction-Aware One-Shot Imitation Learning for Long-Horizon Manipulation

arxiv url: http://arxiv.org/abs/2512.16302v1
Date: Thu, 18 Dec 2025 08:39:34 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:40.403567
Title: ManiLong-Shot: Interaction-Aware One-Shot Imitation Learning for Long-Horizon Manipulation
Title（参考訳）: ManiLong-Shot:長距離マニピュレーションのための対話型ワンショット模倣学習
Authors: Zixuan Chen, Chongkai Gao, Lin Shao, Jieqi Shi, Jing Huo, Yang Gao,
Abstract要約: ワンショットの模倣学習は、大規模なデータ収集なしにロボットに新しいスキルを教えるための有望な方法を提供する。 ManiLong-Shotは、長期的包括的操作に有効なOSILを実現する新しいフレームワークである。 ManiLong-Shotは、1ショットの模倣によって3つの難易度をまたいで20の長い水平タスクを一般化する。
参考スコア（独自算出の注目度）: 33.17872530931207
License: http://creativecommons.org/licenses/by/4.0/
Abstract: One-shot imitation learning (OSIL) offers a promising way to teach robots new skills without large-scale data collection. However, current OSIL methods are primarily limited to short-horizon tasks, thus limiting their applicability to complex, long-horizon manipulations. To address this limitation, we propose ManiLong-Shot, a novel framework that enables effective OSIL for long-horizon prehensile manipulation tasks. ManiLong-Shot structures long-horizon tasks around physical interaction events, reframing the problem as sequencing interaction-aware primitives instead of directly imitating continuous trajectories. This primitive decomposition can be driven by high-level reasoning from a vision-language model (VLM) or by rule-based heuristics derived from robot state changes. For each primitive, ManiLong-Shot predicts invariant regions critical to the interaction, establishes correspondences between the demonstration and the current observation, and computes the target end-effector pose, enabling effective task execution. Extensive simulation experiments show that ManiLong-Shot, trained on only 10 short-horizon tasks, generalizes to 20 unseen long-horizon tasks across three difficulty levels via one-shot imitation, achieving a 22.8% relative improvement over the SOTA. Additionally, real-robot experiments validate ManiLong-Shot's ability to robustly execute three long-horizon manipulation tasks via OSIL, confirming its practical applicability.
Abstract（参考訳）: ワンショット模倣学習(OSIL)は、大規模なデータ収集なしにロボットに新しいスキルを教えるための有望な方法を提供する。しかし、現在のOSIL法は主に短期水平操作に限られているため、複雑な長期水平操作に適用性は制限される。この制限に対処するために,長期的包括操作に有効なOSILを実現する新しいフレームワークであるManiLong-Shotを提案する。 ManiLong-Shotは、物理的な相互作用イベントに関する長い水平タスクを構成し、連続的な軌跡を直接模倣するのではなく、相互作用を意識したプリミティブをシークエンシングするものとして問題を解釈する。このプリミティブ分解は、視覚言語モデル(VLM)からの高レベル推論や、ロボットの状態変化に由来するルールベースのヒューリスティックによって駆動することができる。プリミティブごとに、ManiLong-Shotは相互作用に不可欠な不変領域を予測し、デモと現在の観測との対応を確立し、ターゲットのエンドエフェクタのポーズを計算し、効果的なタスク実行を可能にする。大規模なシミュレーション実験により、マニロンショットは10の短期水平タスクのみを訓練し、一発模倣により3つの難易度にわたって20の未確認長水平タスクを一般化し、SOTAに対して22.8%の相対的な改善を達成した。さらに、実ロボット実験は、ManiLong-ShotがOSILを介して3つの長距離操作タスクを堅牢に実行できることを評価し、実用性を確認した。

関連論文リスト

Toward Ultra-Long-Horizon Agentic Science: Cognitive Accumulation for Machine Learning Engineering [59.18634614089481]
超長距離機械学習工学(MLE)を習得する自律エージェントML-Master 2.0を提案する。文脈管理を認知的蓄積のプロセスとして考えることで、階層的認知キャッシング(HCC)を導入する。 HCCは、エージェントが短期的な実験戦略から即時実行を分離することを可能にする。オープンAIのMLE-Benchを24時間予算で評価すると、ML-Master 2.0は56.44%の最先端のメダルを獲得した。
論文参考訳（メタデータ） (2026-01-15T13:52:04Z)
PALM: Progress-Aware Policy Learning via Affordance Reasoning for Long-Horizon Robotic Manipulation [27.791908160098625]
PALMは、インタラクション中心のアベイランス推論とサブタスクプログレスキューに関するポリシー学習を構築する。 Palmはシミュレーションや実世界の実験において、一貫してベースラインを上回っている。
論文参考訳（メタデータ） (2026-01-11T21:00:58Z)
Single-Shot Learning of Stable Dynamical Systems for Long-Horizon Manipulation Tasks [48.54757719504994]
本稿では,必要なトレーニングデータ量を削減しつつ,タスク成功率の向上に焦点をあてる。提案手法では,長距離実証をウェイポイントとサブゴールで定義された離散ステップに分割する手法を提案する。シミュレーションと実世界の両方の実験を通して,本手法を検証し,シミュレーションから物理ロボットプラットフォームへの効果的移行を実証した。
論文参考訳（メタデータ） (2024-10-01T19:49:56Z)
SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation [62.58480650443393]
Segment Anything (SAM) は、一般化可能なシーン理解とシーケンス模倣のための視覚境界モデルである。我々は,単一パスにおけるアクションシーケンスの予測を可能にする,新しいマルチチャネルヒートマップを開発した。
論文参考訳（メタデータ） (2024-05-30T00:32:51Z)
NOD-TAMP: Generalizable Long-Horizon Planning with Neural Object Descriptors [16.475094344344512]
一般化可能なオブジェクト中心機能を生成するニューラルオブジェクト記述子(NOD)と,多段階タスクを解決するための短軸スキルをチェーンするタスク・アンド・モーション・プランニング(TAMP)フレームワークの2つのパラダイムを組み合わせることを提案する。我々は,少数の人間による実験から短い操作軌跡を抽出し,NOD特徴を用いてこれらの軌跡を適応させる,TAMPベースのフレームワークNOD-TAMPを紹介する。
論文参考訳（メタデータ） (2023-11-02T18:26:28Z)
LoHoRavens: A Long-Horizon Language-Conditioned Benchmark for Robotic Tabletop Manipulation [38.66406497318709]
この研究はテーブルトップ操作タスクに焦点を当て、色、サイズ、空間、算術、参照にまたがる様々なロングホライゾン推論側面をカバーするシミュレーションベンチマークである textitLoHoRavens をリリースする。 LLMに明示的および暗黙的な観察フィードバックを組み込むためのキャプション生成と学習可能なインタフェースの2つの方法を検討した。
論文参考訳（メタデータ） (2023-10-18T14:53:14Z)
Generalizable Long-Horizon Manipulations with Large Language Models [91.740084601715]
本研究は,Large Language Models (LLMs) の機能を活用して,汎用可能な長距離操作のための原始的なタスク条件を生成するフレームワークを導入する。我々は,Pybulletに基づくロボット操作タスクスイートを作成し,長期作業評価を行う。
論文参考訳（メタデータ） (2023-10-03T17:59:46Z)
Hierarchical Few-Shot Imitation with Skill Transition Models [66.81252581083199]
FIST(Few-shot Imitation with Skill Transition Models)は、オフラインデータからスキルを抽出し、それらを利用して見えないタスクに一般化するアルゴリズムである。本稿では,FISTが新たなタスクに一般化し,ナビゲーション実験において従来のベースラインを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2021-07-19T15:56:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。