論文の概要: Bi-LAT: Bilateral Control-Based Imitation Learning via Natural Language and Action Chunking with Transformers
- arxiv url: http://arxiv.org/abs/2504.01301v1
- Date: Wed, 02 Apr 2025 02:21:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:55:41.437717
- Title: Bi-LAT: Bilateral Control-Based Imitation Learning via Natural Language and Action Chunking with Transformers
- Title(参考訳): Bi-LAT:自然言語によるバイラテラル制御に基づく模倣学習とトランスフォーマーによるアクションチャンキング
- Authors: Takumi Kobayashi, Masato Kobayashi, Thanpimon Buamanee, Yuki Uranishi,
- Abstract要約: Bi-LATは、自然言語処理と双方向制御を統合する新しい模倣学習フレームワークである。
Bi-LATは、現実世界のタスクにおけるニュアンスド・フォースの要求を区別することを学ぶ。
- 参考スコア(独自算出の注目度): 16.724380665811044
- License:
- Abstract: We present Bi-LAT, a novel imitation learning framework that unifies bilateral control with natural language processing to achieve precise force modulation in robotic manipulation. Bi-LAT leverages joint position, velocity, and torque data from leader-follower teleoperation while also integrating visual and linguistic cues to dynamically adjust applied force. By encoding human instructions such as "softly grasp the cup" or "strongly twist the sponge" through a multimodal Transformer-based model, Bi-LAT learns to distinguish nuanced force requirements in real-world tasks. We demonstrate Bi-LAT's performance in (1) unimanual cup-stacking scenario where the robot accurately modulates grasp force based on language commands, and (2) bimanual sponge-twisting task that requires coordinated force control. Experimental results show that Bi-LAT effectively reproduces the instructed force levels, particularly when incorporating SigLIP among tested language encoders. Our findings demonstrate the potential of integrating natural language cues into imitation learning, paving the way for more intuitive and adaptive human-robot interaction. For additional material, please visit: https://mertcookimg.github.io/bi-lat/
- Abstract(参考訳): 本稿では,ロボット操作の精密な力変調を実現するために,バイラル制御と自然言語処理を一体化した新しい模倣学習フレームワークBi-LATを提案する。
Bi-LATは、リーダ・フォロワー遠隔操作による関節位置、速度、トルクデータを活用すると同時に、視覚的および言語的手がかりを統合して、適応力を動的に調整する。
Bi-LATは、マルチモーダルトランスフォーマーベースのモデルで「カップをソフトにつかむ」、「スポンジを強くねじる」といった人間の指示を符号化することで、現実世界のタスクにおけるニュアンスな力の要求を識別することを学ぶ。
本研究では,(1)ロボットが言語コマンドに基づいてグリップフォースを正確に調整し,(2)コーディネート力制御を必要とするバイマニュアル・スポンジ・ツイスト・タスクにおいて,Bi-LATの性能を実証する。
実験の結果,試験言語エンコーダにSigLIPを組み込んだ場合,Bi-LATは強制力レベルを効果的に再現することがわかった。
我々の研究は、自然言語の手がかりを模倣学習に統合し、より直感的で適応的な人間とロボットのインタラクションを実現する可能性を示している。
追加資料については、https://mertcookimg.github.io/bi-lat/をご覧ください。
関連論文リスト
- STEER: Flexible Robotic Manipulation via Dense Language Grounding [16.97343810491996]
STEERは、高精度でフレキシブルな低レベル制御で高レベルの常識推論をブリッジする、ロボット学習フレームワークである。
本手法は, 複雑な状況認識を, 厳密なアノテーションによる言語基盤ポリシーの訓練を通じて, 行動可能な低レベル行動に変換する。
論文 参考訳(メタデータ) (2024-11-05T18:48:12Z) - Measuring and Controlling Instruction (In)Stability in Language Model Dialogs [72.38330196290119]
System-promptingは、言語モデルチャットボットをカスタマイズするツールで、特定の命令に従うことができる。
本稿では,仮説を検証し,セルフチャットによる命令安定性の評価を行うベンチマークを提案する。
我々は8ラウンドの会話で重要な指示ドリフトを明らかにした。
そこで本研究では,2つの強力なベースラインに対して良好に比較可能なsplit-softmaxという軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-02-13T20:10:29Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - BatGPT: A Bidirectional Autoregessive Talker from Generative Pre-trained
Transformer [77.28871523946418]
BatGPTは武漢大学と上海江東大学が共同で設計・訓練した大規模言語モデルである。
テキストプロンプト、画像、オーディオなど、さまざまなタイプの入力に応答して、非常に自然で、流動的なテキストを生成することができる。
論文 参考訳(メタデータ) (2023-07-01T15:10:01Z) - "No, to the Right" -- Online Language Corrections for Robotic
Manipulation via Shared Autonomy [70.45420918526926]
LILACは、実行中に自然言語の修正をオンラインで実施し、適応するためのフレームワークである。
LILACは人間とロボットを個別にターンテイクする代わりに、人間とロボットの間にエージェンシーを分割する。
提案手法は,タスク完了率が高く,ユーザによって主観的に好まれることを示す。
論文 参考訳(メタデータ) (2023-01-06T15:03:27Z) - LaTTe: Language Trajectory TransformEr [33.7939079214046]
本研究は、汎用的な3次元ロボット軌道を修正するための柔軟な言語ベースのフレームワークを提案する。
自然言語入力と文脈イメージを3次元軌跡の変化にマッピングするために,自動回帰変換器を用いる。
シミュレーションや実生活実験を通じて、モデルが人間の意図に従うことができることを示す。
論文 参考訳(メタデータ) (2022-08-04T22:43:21Z) - Learning Flexible Translation between Robot Actions and Language
Descriptions [16.538887534958555]
本稿では,ロボット動作と言語記述とのフレキシブルな変換のためのペアゲートオートエンコーダ(PGAE)を提案する。
我々は、各アクションを、翻訳方向に関する信号を含む適切な記述とペアリングすることで、エンド・ツー・エンドでモデルを訓練する。
事前訓練された言語モデルを言語エンコーダとして使用するオプションにより、我々のモデルは目に見えない自然言語入力を認識することができる。
論文 参考訳(メタデータ) (2022-07-15T12:37:05Z) - Reshaping Robot Trajectories Using Natural Language Commands: A Study of
Multi-Modal Data Alignment Using Transformers [33.7939079214046]
我々は、人間とロボットのコラボレーションのための柔軟な言語ベースのインタフェースを提供する。
我々は、ユーザコマンドをエンコードする大規模言語モデルの分野における最近の進歩を生かしている。
言語コマンドによって修正されたロボット軌跡を含むデータセット上で、模倣学習を用いてモデルを訓練する。
論文 参考訳(メタデータ) (2022-03-25T01:36:56Z) - Language Model-Based Paired Variational Autoencoders for Robotic Language Learning [18.851256771007748]
人間の幼児と同様、人工エージェントは環境と対話しながら言語を学ぶことができる。
本稿では,ロボットの動作と言語記述を双方向に結合するニューラルモデルを提案する。
次に, PVAE-BERTを導入し, 事前訓練された大規模言語モデルとモデルを同調する。
論文 参考訳(メタデータ) (2022-01-17T10:05:26Z) - LILA: Language-Informed Latent Actions [72.033770901278]
本稿では,自然言語インタフェースの学習フレームワークであるLanguage-Informed Latent Actions (LILA)を紹介する。
LILAは低次元のコントローラを変調するために言語を使うことを学び、ユーザに言語インフォームドコントロールスペースを提供する。
LILAモデルは、模擬学習やエンドエフェクタ制御ベースラインよりもサンプリング効率が高く、性能も高いだけでなく、ユーザによって定性的に好まれることを示す。
論文 参考訳(メタデータ) (2021-11-05T00:56:00Z) - Optimus: Organizing Sentences via Pre-trained Modeling of a Latent Space [109.79957125584252]
変分オートエンコーダ(VAE)は、強力な生成モデルであり、自然言語の効果的な表現学習フレームワークである。
本稿では,最初の大規模言語VAEモデルであるOptimusを提案する。
論文 参考訳(メタデータ) (2020-04-05T06:20:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。