論文の概要: In-Context Learning Enables Robot Action Prediction in LLMs
- arxiv url: http://arxiv.org/abs/2410.12782v1
- Date: Wed, 16 Oct 2024 17:56:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:41:49.898923
- Title: In-Context Learning Enables Robot Action Prediction in LLMs
- Title(参考訳): LLMにおけるロボット行動予測を可能にするインコンテキスト学習
- Authors: Yida Yin, Zekai Wang, Yuvan Sharma, Dantong Niu, Trevor Darrell, Roei Herzig,
- Abstract要約: 本稿では,ロボットの動作を直接予測する,オフザシェルフテキストのみの大規模言語モデルを実現するフレームワークであるRoboPromptを紹介する。
われわれのアプローチはまず、エピソードから重要な瞬間を捉えている。
我々は、初期オブジェクトのポーズだけでなく、エンドエフェクタアクションも抽出し、どちらもテキスト記述に変換する。
これにより、LLMはテスト時にロボットの動作を直接予測できる。
- 参考スコア(独自算出の注目度): 52.285739178561705
- License:
- Abstract: Recently, Large Language Models (LLMs) have achieved remarkable success using in-context learning (ICL) in the language domain. However, leveraging the ICL capabilities within LLMs to directly predict robot actions remains largely unexplored. In this paper, we introduce RoboPrompt, a framework that enables off-the-shelf text-only LLMs to directly predict robot actions through ICL without training. Our approach first heuristically identifies keyframes that capture important moments from an episode. Next, we extract end-effector actions from these keyframes as well as the estimated initial object poses, and both are converted into textual descriptions. Finally, we construct a structured template to form ICL demonstrations from these textual descriptions and a task instruction. This enables an LLM to directly predict robot actions at test time. Through extensive experiments and analysis, RoboPrompt shows stronger performance over zero-shot and ICL baselines in simulated and real-world settings.
- Abstract(参考訳): 近年,Large Language Models (LLMs) は,言語領域における文脈内学習 (ICL) を用いて,目覚ましい成功を収めている。
しかし、LSM内のICL機能を活用してロボットの動作を直接予測することは、ほとんど未検討のままである。
本稿では,市販のテキストのみのLLMが,ICLを介してロボットの動作を直接予測できるフレームワークであるRoboPromptを紹介する。
われわれのアプローチはまず、エピソードから重要な瞬間を捉えたキーフレームをヒューリスティックに識別する。
次に、これらのキーフレームと推定された初期オブジェクトポーズからエンドエフェクタアクションを抽出し、両方をテキスト記述に変換する。
最後に、これらのテキスト記述とタスク命令からICLデモを作成するための構造化テンプレートを構築する。
これにより、LLMはテスト時にロボットの動作を直接予測できる。
広範な実験と分析を通じて、RoboPromptは、シミュレーションおよび実世界の設定において、ゼロショットとICLベースラインよりも強力なパフォーマンスを示している。
関連論文リスト
- ROS-LLM: A ROS framework for embodied AI with task feedback and structured reasoning [74.58666091522198]
非専門家による直感的なロボットプログラミングのためのフレームワークを提案する。
ロボットオペレーティングシステム(ROS)からの自然言語のプロンプトと文脈情報を活用する
我々のシステムは,大規模言語モデル (LLM) を統合し,非専門家がチャットインタフェースを通じてシステムにタスク要求を記述できるようにする。
論文 参考訳(メタデータ) (2024-06-28T08:28:38Z) - CLMASP: Coupling Large Language Models with Answer Set Programming for Robotic Task Planning [9.544073786800706]
大規模言語モデル(LLM)には、幅広い基礎知識と適度な推論能力がある。
LLM生成したプランを一定の制約で特定のロボットに実行させることは困難である。
本稿では,LLM と Answer Set Programming (ASP) を結合して制限を克服するアプローチである CLMASP を紹介する。
論文 参考訳(メタデータ) (2024-06-05T15:21:44Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - Object-Centric Instruction Augmentation for Robotic Manipulation [29.491990994901666]
我々は,高度にセマンティックで情報に富んだ言語命令を位置情報で拡張するために,textitObject-Centric Instruction Augmentation (OCI)フレームワークを導入する。
MLLM(Multi-modal Large Language Model)を用いて,オブジェクト位置の知識を自然言語に織り込む。
我々は,ロボットマニピュレータの模倣政策が,従来の言語指導にのみ依存する者よりも優れていることを実証した。
論文 参考訳(メタデータ) (2024-01-05T13:54:45Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Exploring In-Context Learning of Textless Speech Language Model for Speech Classification Tasks [98.5311231450689]
インコンテキスト学習(ICL)は,大規模言語モデル(LLM)の利用において重要な役割を担っている。
本研究は,テキストレス音声 LM を用いた音声分類タスクのための ICL を探索する最初の研究である。
論文 参考訳(メタデータ) (2023-10-19T05:31:45Z) - Language Models as Zero-Shot Trajectory Generators [10.572264780575564]
大規模言語モデル(LLM)は最近、ロボットのハイレベルプランナーとして約束されている。
LLMは低レベルの軌道自体に使用する十分な知識を持っていないとしばしば仮定される。
本研究は,LLMが操作タスクに対して,エンドエフェクタの高密度なシーケンスを直接予測できるかどうかを考察する。
論文 参考訳(メタデータ) (2023-10-17T21:57:36Z) - ProgPrompt: Generating Situated Robot Task Plans using Large Language
Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。
本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文 参考訳(メタデータ) (2022-09-22T20:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。