論文の概要: LACY: A Vision-Language Model-based Language-Action Cycle for Self-Improving Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2511.02239v1
- Date: Tue, 04 Nov 2025 04:02:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.802744
- Title: LACY: A Vision-Language Model-based Language-Action Cycle for Self-Improving Robotic Manipulation
- Title(参考訳): LACY:自己改善型ロボットマニピュレーションのための視覚言語モデルに基づく言語行動サイクル
- Authors: Youngjin Hong, Houjian Yu, Mingen Li, Changhyun Choi,
- Abstract要約: LACY(Language-Action Cycle)は、単一の視覚言語モデル内で双方向マッピングを学習する統合フレームワークである。
LACYはタスク成功率を平均56.46%改善し、ロボット操作のための堅牢な言語アクション基盤を提供する。
- 参考スコア(独自算出の注目度): 11.419077130835829
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning generalizable policies for robotic manipulation increasingly relies on large-scale models that map language instructions to actions (L2A). However, this one-way paradigm often produces policies that execute tasks without deeper contextual understanding, limiting their ability to generalize or explain their behavior. We argue that the complementary skill of mapping actions back to language (A2L) is essential for developing more holistic grounding. An agent capable of both acting and explaining its actions can form richer internal representations and unlock new paradigms for self-supervised learning. We introduce LACY (Language-Action Cycle), a unified framework that learns such bidirectional mappings within a single vision-language model. LACY is jointly trained on three synergistic tasks: generating parameterized actions from language (L2A), explaining observed actions in language (A2L), and verifying semantic consistency between two language descriptions (L2C). This enables a self-improving cycle that autonomously generates and filters new training data through an active augmentation strategy targeting low-confidence cases, thereby improving the model without additional human labels. Experiments on pick-and-place tasks in both simulation and the real world show that LACY improves task success rates by 56.46% on average and yields more robust language-action grounding for robotic manipulation. Project page: https://vla2026.github.io/LACY/
- Abstract(参考訳): ロボット操作のための一般化可能なポリシの学習は、言語命令をアクション(L2A)にマッピングする大規模モデルにますます依存している。
しかしながら、この一方的なパラダイムは、しばしば、より深い文脈的理解なしにタスクを実行するポリシーを生成し、それらの振る舞いを一般化または説明する能力を制限する。
我々は、アクションを言語(A2L)にマッピングする補完的なスキルが、より包括的基盤の開発に不可欠であると主張している。
行動と説明の両方が可能なエージェントは、よりリッチな内部表現を形成し、自己教師型学習のための新しいパラダイムを解き放つことができる。
LACY(Language-Action Cycle)は、単一の視覚言語モデル内でこのような双方向マッピングを学習する統合フレームワークである。
LACYは、言語からパラメータ化されたアクションを生成すること(L2A)、言語における観察されたアクションを説明すること(A2L)、言語記述間の意味的一貫性を検証すること(L2C)の3つの相乗的タスクで共同で訓練されている。
これにより、信頼性の低いケースをターゲットとしたアクティブな拡張戦略を通じて、新たなトレーニングデータを自律的に生成し、フィルタする自己改善サイクルが可能になり、人間のラベルを追加せずにモデルを改善することができる。
シミュレーションと実世界の両方でのピック・アンド・プレイス・タスクの実験では、LACYはタスクの成功率を平均56.46%改善し、ロボット操作のためのより堅牢な言語アクション基盤を提供する。
プロジェクトページ: https://vla2026.github.io/LACY/
関連論文リスト
- LUMOS: Language-Conditioned Imitation Learning with World Models [31.827127896338336]
ロボット工学のための言語条件付きマルチタスク模倣学習フレームワークであるLUMOSを紹介する。
LUMOSは、学習の世界モデルの潜在領域における多くの長い水平ロールアウトを実践することで、スキルを学ぶ。
我々は,オフライン世界モデルにおいて,実世界のロボットに対して,言語条件の連続的ビズモータ制御を初めて学習する。
論文 参考訳(メタデータ) (2025-03-13T13:48:24Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - Robotic Skill Acquisition via Instruction Augmentation with
Vision-Language Models [70.82705830137708]
言語条件制御のためのデータ駆動型インストラクション拡張(DIAL)について紹介する。
我々は,CLIPのセマンティック理解を利用したセミ言語ラベルを用いて,未知の実演データの大規模なデータセットに知識を伝達する。
DIALは、模倣学習ポリシーによって、新しい能力を獲得し、元のデータセットにない60の新しい命令を一般化することができる。
論文 参考訳(メタデータ) (2022-11-21T18:56:00Z) - Grounding Language with Visual Affordances over Unstructured Data [26.92329260907805]
本研究では,非構造化,オフライン,リセットのないデータから,言語条件のロボットスキルを効率的に学習するための新しい手法を提案する。
我々は、言語による全データの1%しか必要としない自己教師型ビジュオ言語割当モデルを利用する。
提案手法は,従来の手法よりも桁違いに少ないデータで,リアルタイムに長時間の多層タスクを完了できることがわかった。
論文 参考訳(メタデータ) (2022-10-04T21:16:48Z) - Learning Flexible Translation between Robot Actions and Language
Descriptions [16.538887534958555]
本稿では,ロボット動作と言語記述とのフレキシブルな変換のためのペアゲートオートエンコーダ(PGAE)を提案する。
我々は、各アクションを、翻訳方向に関する信号を含む適切な記述とペアリングすることで、エンド・ツー・エンドでモデルを訓練する。
事前訓練された言語モデルを言語エンコーダとして使用するオプションにより、我々のモデルは目に見えない自然言語入力を認識することができる。
論文 参考訳(メタデータ) (2022-07-15T12:37:05Z) - Do As I Can, Not As I Say: Grounding Language in Robotic Affordances [119.29555551279155]
大規模な言語モデルは、世界に関する豊富な意味知識を符号化することができる。
このような知識は、自然言語で表現された高レベルで時間的に拡張された命令を動作させようとするロボットにとって極めて有用である。
低レベルのスキルを大規模言語モデルと組み合わせることで,言語モデルが複雑かつ時間的に拡張された命令を実行する手順について高いレベルの知識を提供することを示す。
論文 参考訳(メタデータ) (2022-04-04T17:57:11Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。