論文の概要: TReF-6: Inferring Task-Relevant Frames from a Single Demonstration for One-Shot Skill Generalization
- arxiv url: http://arxiv.org/abs/2509.00310v1
- Date: Sat, 30 Aug 2025 01:54:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.171378
- Title: TReF-6: Inferring Task-Relevant Frames from a Single Demonstration for One-Shot Skill Generalization
- Title(参考訳): TReF-6:ワンショットスキル一般化のための単一デモからタスク関連フレームを推定する
- Authors: Yuxuan Ding, Shuangge Wang, Tesca Fitzgerald,
- Abstract要約: 本稿では,単純化された6DoFタスク関連フレームを単一軌道から推定するTReF-6を提案する。
提案手法は,DMP(Dynamic Movement Primitive)のパラメータ化の基準となる局所フレームの原点を定義するために,軌道形状から純粋に影響点を同定する。
推定フレームは視覚言語モデルを介して意味的に接地され、グラウンドド・SAMによって新しいシーンにローカライズされる。
- 参考スコア(独自算出の注目度): 5.067586574578241
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robots often struggle to generalize from a single demonstration due to the lack of a transferable and interpretable spatial representation. In this work, we introduce TReF-6, a method that infers a simplified, abstracted 6DoF Task-Relevant Frame from a single trajectory. Our approach identifies an influence point purely from the trajectory geometry to define the origin for a local frame, which serves as a reference for parameterizing a Dynamic Movement Primitive (DMP). This influence point captures the task's spatial structure, extending the standard DMP formulation beyond start-goal imitation. The inferred frame is semantically grounded via a vision-language model and localized in novel scenes by Grounded-SAM, enabling functionally consistent skill generalization. We validate TReF-6 in simulation and demonstrate robustness to trajectory noise. We further deploy an end-to-end pipeline on real-world manipulation tasks, showing that TReF-6 supports one-shot imitation learning that preserves task intent across diverse object configurations.
- Abstract(参考訳): ロボットはしばしば、伝達可能で解釈可能な空間表現がないため、単一のデモンストレーションから一般化するのに苦労する。
本研究では,単純化された6DoFタスク関連フレームを単一軌道から推定するTReF-6を提案する。
提案手法は,局所フレームの原点を定義するために,軌道形状から純粋に影響点を同定し,動的運動原始(DMP)のパラメータ化の基準として機能する。
この影響点はタスクの空間構造を捉え、標準DMPの定式化をスタートゴールの模倣を超えて拡張する。
推論フレームは視覚言語モデルを介してセマンティックグラウンド化され、グラウンデッドSAMによって新しいシーンにローカライズされ、機能的に一貫したスキルの一般化を可能にする。
我々は,TReF-6をシミュレーションで検証し,トラジェクティブノイズに対するロバスト性を実証した。
さらに、実世界の操作タスクに対してエンドツーエンドパイプラインをデプロイし、TReF-6がタスク意図を多様なオブジェクト構成で保持するワンショット模倣学習をサポートすることを示す。
関連論文リスト
- DINTR: Tracking via Diffusion-based Interpolation [12.130669304428565]
本研究は,トラッキングタスクを定式化するための拡散に基づく新しい手法を提案する。
我々のInterpolation TrackeR(DINTR)は、将来性のある新しいパラダイムを示し、5つの指標表現にまたがる7つのベンチマークにおいて優れた乗法を実現する。
論文 参考訳(メタデータ) (2024-10-14T00:41:58Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - FuncGrasp: Learning Object-Centric Neural Grasp Functions from Single
Annotated Example Object [14.138695935561433]
FuncGraspは、不明瞭なオブジェクトに対して、密度が高く信頼性の高い把握構成を推測できるフレームワークである。
筆者らのフレームワークは、生成した把握に対する密度と信頼性の観点から、いくつかの強力なベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2024-02-08T12:59:47Z) - Towards Real-World Aerial Vision Guidance with Categorical 6D Pose
Tracker [25.557500307143446]
オブジェクト6-DoFのポーズを追跡することは、さまざまな下流ロボットタスクや現実世界のアプリケーションに不可欠である。
頑健なカテゴリーレベル6-DoFポーズトラッカー(Robust6DoF)を導入する。
また,Pose-Aware Discrete Servo(PAD-Servo)戦略について述べる。
論文 参考訳(メタデータ) (2024-01-09T06:52:23Z) - POTLoc: Pseudo-Label Oriented Transformer for Point-Supervised Temporal Action Localization [26.506893363676678]
本稿ではPseudo-label Oriented Transformerを提案する。
POTLocは、自己学習戦略を通じて、継続的なアクション構造を特定し、追跡するように設計されている。
THUMOS'14とActivityNet-v1.2データセットでは、最先端のポイント管理手法よりも優れています。
論文 参考訳(メタデータ) (2023-10-20T15:28:06Z) - Manifold-Aware Self-Training for Unsupervised Domain Adaptation on
Regressing 6D Object Pose [69.14556386954325]
視覚的回帰における合成データと実データとのドメインギャップは,グローバルな特徴アライメントと局所的な改善によって橋渡しされる。
提案手法は明示的な自己教師付き多様体正規化を取り入れ,領域間の一貫した累積的対象依存性を明らかにする。
暗黙的ニューラルファンクションを学習して、最も近いクラスビンへの相対的な方向と目標の距離を推定し、ターゲット分類予測を洗練することを目的としている。
論文 参考訳(メタデータ) (2023-05-18T08:42:41Z) - STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action Recognition [50.064502884594376]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。
メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。
提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T16:19:27Z) - Latent Space Roadmap for Visual Action Planning of Deformable and Rigid
Object Manipulation [74.88956115580388]
プランニングは、イメージを埋め込んだ低次元の潜在状態空間で行われる。
我々のフレームワークは2つの主要なコンポーネントで構成されており、画像のシーケンスとして視覚的な計画を生成するビジュアル・フォレスト・モジュール(VFM)と、それら間のアクションを予測するアクション・プロポーザル・ネットワーク(APN)である。
論文 参考訳(メタデータ) (2020-03-19T18:43:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。