論文の概要: Continuous Vision-Language-Action Co-Learning with Semantic-Physical Alignment for Behavioral Cloning
- arxiv url: http://arxiv.org/abs/2511.14396v1
- Date: Tue, 18 Nov 2025 12:01:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.087356
- Title: Continuous Vision-Language-Action Co-Learning with Semantic-Physical Alignment for Behavioral Cloning
- Title(参考訳): 行動クローニングのための意味的・身体的アライメントを用いた連続的視覚・言語・行動同時学習
- Authors: Xiuxiu Qi, Yu Yang, Jiannong Cao, Luyao Bai, Chongshan Fan, Chengtai Cao, Hongpeng Wang,
- Abstract要約: 我々は、時間的に一貫した実行ときめ細かなセマンティックグラウンドを確実にする新しいBCフレームワークである、セマンティック・フィジカルアライメント(CCoL)を用いた連続視覚-言語-アクション協調学習(Continuous Vision- Language-action Co-Learning)を提案する。
CCoLは3つのシミュレーションスイートで平均8.0%の相対的な改善を達成し、人為的なバイマニュアル挿入タスクでは19.2%の相対的な向上を達成している。
- 参考スコア(独自算出の注目度): 22.14625208769185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language-conditioned manipulation facilitates human-robot interaction via behavioral cloning (BC), which learns control policies from human demonstrations and serves as a cornerstone of embodied AI. Overcoming compounding errors in sequential action decisions remains a central challenge to improving BC performance. Existing approaches mitigate compounding errors through data augmentation, expressive representation, or temporal abstraction. However, they suffer from physical discontinuities and semantic-physical misalignment, leading to inaccurate action cloning and intermittent execution. In this paper, we present Continuous vision-language-action Co-Learning with Semantic-Physical Alignment (CCoL), a novel BC framework that ensures temporally consistent execution and fine-grained semantic grounding. It generates robust and smooth action execution trajectories through continuous co-learning across vision, language, and proprioceptive inputs (e.g., robot internal states). Meanwhile, we anchor language semantics to visuomotor representations by a bidirectional cross-attention to learn contextual information for action generation, successfully overcoming the problem of semantic-physical misalignment. Extensive experiments show that CCoL achieves an average 8.0% relative improvement across three simulation suites, with up to 19.2% relative gain in human-demonstrated bimanual insertion tasks. Real-world tests on a 7-DoF robot further confirm CCoL's generalization under unseen and noisy object states.
- Abstract(参考訳): 言語条件の操作は、行動クローニング(BC)を通じて人間とロボットの相互作用を促進する。
シーケンシャルなアクション決定における複雑なエラーを克服することは、BCのパフォーマンスを改善する上で重要な課題である。
既存のアプローチは、データ拡張、表現表現、時間的抽象化を通じて、複合的なエラーを軽減する。
しかし、それらは物理的不連続性と意味論的不一致に悩まされ、不正確な行動のクローン化と断続的な実行につながった。
本稿では、時間的に一貫した実行と微粒なセマンティックグラウンドを確実にする新しいBCフレームワーク、セマンティック・フィジカルアライメント(CCoL)を用いた連続視覚-言語-アクション協調学習を提案する。
視覚、言語、受容的入力(例えば、ロボットの内部状態)を横断する継続的なコラーニングを通じて、堅牢でスムーズな行動実行軌道を生成する。
一方,バイスモータ表現に言語意味論を固定し,行動生成のための文脈情報を学習し,意味的物理的ミスアライメントの問題を克服することに成功した。
大規模な実験により、CCoLは3つのシミュレーションスイートで平均8.0%の相対的な改善を達成し、人為的なバイマニュアル挿入タスクでは19.2%の相対的な向上が達成された。
7-DoFロボットの現実世界での試験は、CCoLの一般化をさらに確認する。
関連論文リスト
- Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。
本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。
G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-09T09:08:33Z) - CCL-LGS: Contrastive Codebook Learning for 3D Language Gaussian Splatting [53.15827818829865]
2Dプリンシパルに依存しているメソッドは、横断的なセマンティクスの不整合という重要な課題に陥る。
CCL-LGSは、多視点セマンティックキューを統合することで、ビューに一貫性のあるセマンティック監視を実現する新しいフレームワークである。
我々の枠組みは、カテゴリー識別性を維持しながら意味的対立を明示的に解決する。
論文 参考訳(メタデータ) (2025-05-26T19:09:33Z) - Provable Ordering and Continuity in Vision-Language Pretraining for Generalizable Embodied Agents [39.95793203302782]
本研究では,厳密な目標ベース制約を伴わずに,順序付きかつ連続的な視覚言語表現を学習するための行動時間的コヒーレンス学習(AcTOL)を提案する。
AcTOLは動画を連続的な軌跡として扱い、(1)フレーム間の意味的差異を対比して自然な順序を反映し、(2)中間フレーム間のスムーズな遷移を保証するために局所的なブラウン橋の制約を課す。
論文 参考訳(メタデータ) (2025-02-03T10:16:49Z) - Rethinking the Intermediate Features in Adversarial Attacks: Misleading Robotic Models via Adversarial Distillation [23.805401747928745]
本稿では,言語調和型ロボットモデルに適した,新たな対角攻撃を提案する。
本研究は,ロボット領域に直接移行した場合,既存の対角法が有効性に限界があることを実証する。
敵攻撃に対する中間的特徴の有益な影響を同定し,攻撃効果を高めるために,中間的自己意図的特徴の負の勾配を利用する。
論文 参考訳(メタデータ) (2024-11-21T02:46:04Z) - HC$^2$L: Hybrid and Cooperative Contrastive Learning for Cross-lingual Spoken Language Understanding [45.12153788010354]
言語間言語理解のための最先端モデルでは、言語間非教師付きコントラスト学習を行う。
この問題に対処するために,ハイブリッド・協調型コントラスト学習を提案する。
論文 参考訳(メタデータ) (2024-05-10T02:40:49Z) - ThinkBot: Embodied Instruction Following with Thought Chain Reasoning [66.09880459084901]
EIF(Embodied Instruction following)は、複雑な環境下でオブジェクトを相互作用させることで、エージェントが人間の指示を完了させる。
我々は,人間の指導における思考連鎖を原因とした思考ボットを提案し,その不足した行動記述を復元する。
私たちのThinkBotは、成功率と実行効率の両面で、最先端のEIFメソッドよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2023-12-12T08:30:09Z) - Controllable Human-Object Interaction Synthesis [77.56877961681462]
本研究では,3次元シーンにおける同期物体の動きと人間の動きを生成するための制御可能な人間-物体相互作用合成(CHOIS)を提案する。
ここでは,高レベルな計画から効果的に抽出できるスタイルや意図を言語記述が通知し,シーン内の動きをグラウンド化する。
我々のモジュールは経路計画モジュールとシームレスに統合され、3D環境における長期的相互作用の生成を可能にします。
論文 参考訳(メタデータ) (2023-12-06T21:14:20Z) - "No, to the Right" -- Online Language Corrections for Robotic
Manipulation via Shared Autonomy [70.45420918526926]
LILACは、実行中に自然言語の修正をオンラインで実施し、適応するためのフレームワークである。
LILACは人間とロボットを個別にターンテイクする代わりに、人間とロボットの間にエージェンシーを分割する。
提案手法は,タスク完了率が高く,ユーザによって主観的に好まれることを示す。
論文 参考訳(メタデータ) (2023-01-06T15:03:27Z) - ReAct: Synergizing Reasoning and Acting in Language Models [44.746116256516046]
大規模言語モデル (LLM) は, 推論トレースとタスク固有動作の両方を, インターリーブ方式で生成可能であることを示す。
我々はReActという名前のアプローチを多種多様な言語と意思決定タスクに適用する。
ReActは、単純なウィキペディアAPIと対話することで、チェーン・オブ・ソート推論でよく見られる幻覚やエラーの伝播の問題を克服する。
論文 参考訳(メタデータ) (2022-10-06T01:00:32Z) - Language-Conditioned Imitation Learning for Robot Manipulation Tasks [39.40937105264774]
本研究では,非構造化自然言語を模倣学習に組み込む手法を提案する。
訓練時には、専門家は、基礎となる意図を説明するために、言語記述とともにデモンストレーションを行うことができる。
トレーニングプロセスはこれらの2つのモードを相互に関連付け、言語、知覚、動きの相関を符号化する。
結果として得られた言語条件のvisuomotorポリシーは、実行時に新しいヒューマンコマンドと命令で条件付けできる。
論文 参考訳(メタデータ) (2020-10-22T21:49:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。