論文の概要: Robo-Instruct: Simulator-Augmented Instruction Alignment For Finetuning CodeLLMs
- arxiv url: http://arxiv.org/abs/2405.20179v2
- Date: Sat, 05 Oct 2024 23:27:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:42:09.016229
- Title: Robo-Instruct: Simulator-Augmented Instruction Alignment For Finetuning CodeLLMs
- Title(参考訳): Robo-Instruct: CodeLLMのためのシミュレータ拡張型インストラクションアライメント
- Authors: Zichao Hu, Junyi Jessy Li, Arjun Guha, Joydeep Biswas,
- Abstract要約: ROBO-INSTRUCTは、シミュレータベースのチェックの正確性を提供しながら、LCMによって生成されたプログラムの多様性を保存する。
我々の微調整モデルでは、オリジナルのベースモデルよりも28.75%のpass@1が改善され、SELF-INSTRUCTの微細化モデルに比べて13.75%の改善が達成された。
- 参考スコア(独自算出の注目度): 42.31298987176411
- License:
- Abstract: Open-weight LLMs are particularly appealing choices to generate training data for fine-tuning Code LLMs on domain-specific service robot applications because they are cost-effective, customizable, and offer better privacy protection. However, unlike proprietary LLMs, open-weight models are more error-prone and often produce programs that violate domain-specific constraints. A promising solution is to incorporate a robot simulator with a well-defined environment to verify program correctness. Yet, these environments require pre-enumeration of relevant entities and their states, which limits the diversity of programs that can be effectively verified. In this work, we introduce ROBO-INSTRUCT that preserves the diversity of programs generated by an LLM while providing the correctness of simulator-based checking. ROBO-INSTRUCT introduces ROBOSIM to dynamically synthesize consistent simulation environments for each generated program. Moreover, ROBO-INSTRUCT handles subtler instruction-program inconsistencies that do not result in a constraint violation via INSTALIGN, an LLM-aided instruction-program alignment process. Given domain-specific APIs and a few seed examples, ROBO-INSTRUCT can leverage an 8B Llama3 model to generate a training dataset for fine-tuning a 7B CodeLlama model. Our fine-tuned model achieves a 28.75% improvement in pass@1 over the original base model and a 13.75% improvement compared to its SELF-INSTRUCT-finetuned counterparts, even surpassing the performance of a few proprietary LLMs, such as GPT-3.5-Turbo and Gemini-Pro.
- Abstract(参考訳): オープンウェイトなLLMは、コスト効率が高く、カスタマイズ可能で、プライバシー保護の改善を提供するため、ドメイン固有のサービスロボットアプリケーション上で、微調整されたコードLLMのためのトレーニングデータを生成するために、特に魅力的な選択である。
しかし、プロプライエタリなLLMとは異なり、オープンウェイトモデルはエラーを起こしやすく、ドメイン固有の制約に反するプログラムを生成することが多い。
有望な解決策は、プログラムの正確性を検証するために、ロボットシミュレータを明確に定義された環境に組み込むことである。
しかし、これらの環境は関連エンティティとその状態の事前列挙を必要とし、効果的に検証できるプログラムの多様性を制限する。
本研究では,シミュレータによるチェックの正確性を提供しながら,LLMが生成するプログラムの多様性を保ったROBO-INSTRUCTを提案する。
ROBO-INSTRUCTはROBOSIMを導入し、生成されたプログラムごとに一貫したシミュレーション環境を動的に合成する。
さらに、ROBO-INSTRUCTは、命令プログラムアライメントプロセスであるINSTALIGNを介して制約違反を生じさせない、より微妙な命令プログラム不整合を処理する。
ドメイン固有のAPIといくつかのシード例があれば,ROBO-INSTRUCTは8BのLlama3モデルを使用して,7BのCodeLlamaモデルを微調整するトレーニングデータセットを生成することができる。
GPT-3.5-Turbo や Gemini-Pro など,いくつかの独自 LLM の性能を超越した,SELF-INSTRUCT ファインチュードモデルに比べて 28.75% のパス@1 の改善,13.75% の改善を実現している。
関連論文リスト
- LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
大規模言語モデル(LLM)は、広い世界知識と強力な推論スキルを備えており、ドメイン間の多様なタスクに対処することができる。
LLaRA:Large Language and Robotics Assistantは,ロボットの行動ポリシーを会話として定式化するフレームワークである。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - Empowering Large Language Models on Robotic Manipulation with Affordance Prompting [23.318449345424725]
大規模な言語モデルは、制御シーケンスを適切に生成することで物理世界と相互作用することができない。
既存のLLMベースのアプローチでは、事前定義されたスキルや事前訓練されたサブ政治に頼ることでこの問題を回避することができる。
サブタスクプランナとモーションコントローラの両方をLLM+A(ffordance)と呼ぶフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-17T03:06:32Z) - Verifiably Following Complex Robot Instructions with Foundation Models [16.564788361518197]
人々は、柔軟に制約を表現し、任意のランドマークを参照し、ロボットに指示する際の検証を望みます。
本稿では,ロボットが表現的かつ複雑なオープンエンド命令を確実に追従できるような,動き計画のための言語指導基盤を提案する。
LIMは、インストラクターの意図したロボットのアライメントを明らかにする象徴的な指示表現を構築する。
論文 参考訳(メタデータ) (2024-02-18T08:05:54Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions
with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。
我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。
我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文 参考訳(メタデータ) (2023-05-18T17:59:49Z) - ProgPrompt: Generating Situated Robot Task Plans using Large Language
Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。
本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文 参考訳(メタデータ) (2022-09-22T20:29:49Z) - Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。
我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-06-04T22:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。