論文の概要: ConceptACT: Episode-Level Concepts for Sample-Efficient Robotic Imitation Learning
- arxiv url: http://arxiv.org/abs/2601.17135v1
- Date: Fri, 23 Jan 2026 19:24:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.301182
- Title: ConceptACT: Episode-Level Concepts for Sample-Efficient Robotic Imitation Learning
- Title(参考訳): ConceptACT: ロボット模倣学習のためのエピソードレベル概念
- Authors: Jakob Karalus, Friedhelm Schwenker,
- Abstract要約: ConceptACTはAction Chunking with Transformersの拡張で、トレーニング中にエピソードレベルのセマンティックな概念アノテーションを活用して学習効率を向上させる。
我々は、最終エンコーダ層が人間のアノテーションと整合するように調整された、概念認識のクロスアテンションを実装するトランスフォーマーアーキテクチャを用いて概念を統合する。
- 参考スコア(独自算出の注目度): 2.9277370836568264
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Imitation learning enables robots to acquire complex manipulation skills from human demonstrations, but current methods rely solely on low-level sensorimotor data while ignoring the rich semantic knowledge humans naturally possess about tasks. We present ConceptACT, an extension of Action Chunking with Transformers that leverages episode-level semantic concept annotations during training to improve learning efficiency. Unlike language-conditioned approaches that require semantic input at deployment, ConceptACT uses human-provided concepts (object properties, spatial relationships, task constraints) exclusively during demonstration collection, adding minimal annotation burden. We integrate concepts using a modified transformer architecture in which the final encoder layer implements concept-aware cross-attention, supervised to align with human annotations. Through experiments on two robotic manipulation tasks with logical constraints, we demonstrate that ConceptACT converges faster and achieves superior sample efficiency compared to standard ACT. Crucially, we show that architectural integration through attention mechanisms significantly outperforms naive auxiliary prediction losses or language-conditioned models. These results demonstrate that properly integrated semantic supervision provides powerful inductive biases for more efficient robot learning.
- Abstract(参考訳): 模倣学習は、ロボットが人間のデモンストレーションから複雑な操作スキルを習得することを可能にするが、現在の手法は、人間が自然にタスクについて持つ豊富な意味知識を無視しながら、低レベルの感覚運動者データのみに依存している。
本稿では,学習効率を向上させるために,エピソードレベルのセマンティック概念アノテーションを活用する,Transformersによるアクションチャンキングの拡張であるConceptACTを提案する。
デプロイ時に意味的な入力を必要とする言語条件のアプローチとは異なり、ConceptACTはデモコレクション中にのみ人間が提供する概念(プロパティ、空間的関係、タスク制約)を使用し、最小限のアノテーションの負担を課す。
我々は、最終エンコーダ層が人間のアノテーションと整合するように調整された、概念認識のクロスアテンションを実装するトランスフォーマーアーキテクチャを用いて概念を統合する。
論理的制約を伴う2つのロボット操作タスクの実験を通して、ConceptACTは標準ACTよりも早く収束し、より優れたサンプル効率を実現することを実証した。
重要なことは、注意機構によるアーキテクチャ統合が、補助的な予測損失や言語条件付きモデルよりも著しく優れていることを示している。
これらの結果は、適切に統合された意味的監督が、より効率的なロボット学習に強力な帰納的バイアスをもたらすことを示す。
関連論文リスト
- Generalizable Geometric Prior and Recurrent Spiking Feature Learning for Humanoid Robot Manipulation [90.90219129619344]
本稿では,スパイキング機能を備えたR-prior-S, Recurrent Geometric-priormodal Policyを提案する。
物理的現実の高レベル推論を基礎として、軽量な2次元幾何学的帰納バイアスを利用する。
ロボット行動生成におけるデータ効率問題に対して,再帰的適応スパイクネットワークを導入する。
論文 参考訳(メタデータ) (2026-01-13T23:36:30Z) - Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。
本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。
G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-09T09:08:33Z) - StaMo: Unsupervised Learning of Generalizable Robot Motion from Compact State Representation [56.996371714721995]
高度に圧縮された2つの状態表現を学習する教師なしの手法を提案する。
私たちの表現は効率的で解釈可能で、既存のVLAベースのモデルとシームレスに統合されます。
提案手法は,コンパクトな状態表現から一般化可能なロボットモーションを学習できることから,StaMoと命名する。
論文 参考訳(メタデータ) (2025-10-06T17:37:24Z) - Object-Centric Action-Enhanced Representations for Robot Visuo-Motor Policy Learning [21.142247150423863]
本稿では,意味的セグメンテーションと視覚表現生成を結合的に行うオブジェクト中心エンコーダを提案する。
これを実現するために、Slot Attentionメカニズムを活用し、大規模なドメイン外のデータセットで事前訓練されたSOLVモデルを使用する。
我々は、ドメイン外のデータセットで事前トレーニングされたモデルを活用することが、このプロセスの恩恵となり、人間のアクションを描写したデータセットの微調整により、パフォーマンスが大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-05-27T09:56:52Z) - A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning [67.72413262980272]
事前訓練された視覚モデル(PVM)は現代のロボティクスの基本であるが、その最適構成は定かではない。
セマンティック・ボトルネックを導入してオブジェクト中心の表現を誘導する手法であるSlotMIMを開発した。
提案手法は,画像認識,シーン理解,ロボット学習評価において,従来の作業よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-03-10T06:18:31Z) - From Real World to Logic and Back: Learning Generalizable Relational Concepts For Long Horizon Robot Planning [16.115874470700113]
本稿では,ロボットが少数の生・未分割・無注釈のデモから直接,記号的・関係的概念を創出することを可能にする方法を提案する。
我々のフレームワークは手動のシンボルモデルと同等のパフォーマンスを達成し、一方、トレーニングをはるかに超越した実行地平線へのスケーリングを実現している。
論文 参考訳(メタデータ) (2024-02-19T06:28:21Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - GoferBot: A Visual Guided Human-Robot Collaborative Assembly System [33.649596318580215]
GoferBot(ゴーファーボット)は、現実のアセンブリータスクのための新しい視覚ベースの意味的HRCシステムである。
GoferBotは、視覚的知覚から純粋に暗黙のセマンティック情報を活用することで、すべてのサブモジュールをシームレスに統合する新しいアセンブリシステムである。
論文 参考訳(メタデータ) (2023-04-18T09:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。