論文の概要: Robo-Instruct: Simulator-Augmented Instruction Alignment For Finetuning CodeLLMs
- arxiv url: http://arxiv.org/abs/2405.20179v2
- Date: Sat, 05 Oct 2024 23:27:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:42:09.016229
- Title: Robo-Instruct: Simulator-Augmented Instruction Alignment For Finetuning CodeLLMs
- Title(参考訳): Robo-Instruct: CodeLLMのためのシミュレータ拡張型インストラクションアライメント
- Authors: Zichao Hu, Junyi Jessy Li, Arjun Guha, Joydeep Biswas,
- Abstract要約: ROBO-INSTRUCTは、シミュレータベースのチェックの正確性を提供しながら、LCMによって生成されたプログラムの多様性を保存する。
我々の微調整モデルでは、オリジナルのベースモデルよりも28.75%のpass@1が改善され、SELF-INSTRUCTの微細化モデルに比べて13.75%の改善が達成された。
- 参考スコア(独自算出の注目度): 42.31298987176411
- License:
- Abstract: Open-weight LLMs are particularly appealing choices to generate training data for fine-tuning Code LLMs on domain-specific service robot applications because they are cost-effective, customizable, and offer better privacy protection. However, unlike proprietary LLMs, open-weight models are more error-prone and often produce programs that violate domain-specific constraints. A promising solution is to incorporate a robot simulator with a well-defined environment to verify program correctness. Yet, these environments require pre-enumeration of relevant entities and their states, which limits the diversity of programs that can be effectively verified. In this work, we introduce ROBO-INSTRUCT that preserves the diversity of programs generated by an LLM while providing the correctness of simulator-based checking. ROBO-INSTRUCT introduces ROBOSIM to dynamically synthesize consistent simulation environments for each generated program. Moreover, ROBO-INSTRUCT handles subtler instruction-program inconsistencies that do not result in a constraint violation via INSTALIGN, an LLM-aided instruction-program alignment process. Given domain-specific APIs and a few seed examples, ROBO-INSTRUCT can leverage an 8B Llama3 model to generate a training dataset for fine-tuning a 7B CodeLlama model. Our fine-tuned model achieves a 28.75% improvement in pass@1 over the original base model and a 13.75% improvement compared to its SELF-INSTRUCT-finetuned counterparts, even surpassing the performance of a few proprietary LLMs, such as GPT-3.5-Turbo and Gemini-Pro.
- Abstract(参考訳): オープンウェイトなLLMは、コスト効率が高く、カスタマイズ可能で、プライバシー保護の改善を提供するため、ドメイン固有のサービスロボットアプリケーション上で、微調整されたコードLLMのためのトレーニングデータを生成するために、特に魅力的な選択である。
しかし、プロプライエタリなLLMとは異なり、オープンウェイトモデルはエラーを起こしやすく、ドメイン固有の制約に反するプログラムを生成することが多い。
有望な解決策は、プログラムの正確性を検証するために、ロボットシミュレータを明確に定義された環境に組み込むことである。
しかし、これらの環境は関連エンティティとその状態の事前列挙を必要とし、効果的に検証できるプログラムの多様性を制限する。
本研究では,シミュレータによるチェックの正確性を提供しながら,LLMが生成するプログラムの多様性を保ったROBO-INSTRUCTを提案する。
ROBO-INSTRUCTはROBOSIMを導入し、生成されたプログラムごとに一貫したシミュレーション環境を動的に合成する。
さらに、ROBO-INSTRUCTは、命令プログラムアライメントプロセスであるINSTALIGNを介して制約違反を生じさせない、より微妙な命令プログラム不整合を処理する。
ドメイン固有のAPIといくつかのシード例があれば,ROBO-INSTRUCTは8BのLlama3モデルを使用して,7BのCodeLlamaモデルを微調整するトレーニングデータセットを生成することができる。
GPT-3.5-Turbo や Gemini-Pro など,いくつかの独自 LLM の性能を超越した,SELF-INSTRUCT ファインチュードモデルに比べて 28.75% のパス@1 の改善,13.75% の改善を実現している。
関連論文リスト
- DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。
オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。
この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文 参考訳(メタデータ) (2024-10-09T01:25:10Z) - Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。
実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文 参考訳(メタデータ) (2024-09-27T08:20:59Z) - Applying RLAIF for Code Generation with API-usage in Lightweight LLMs [15.366324461797582]
Reinforcement Learning from AI Feedback (RLAIF)は、さまざまな領域で大きな可能性を証明している。
本稿では,軽量 (1B パラメータ) LLM のコード生成能力を改善するための RLAIF フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-28T17:16:03Z) - Trust the PRoC3S: Solving Long-Horizon Robotics Problems with LLMs and Constraint Satisfaction [38.683780057806516]
ロボット工学を応用した事前学習型大規模言語モデル(LLM)の最近の進歩は、単純なロボットタスクにおいてオープンな目標を達成するために、個々のスキルのセットをシークエンシングする能力を示している。
本稿では,機械的,幾何学的,物理的制約の集合の違反を避けることが必要な,連続パラメータ化スキルの集合に対するLLM計画の課題について検討する。
3つの異なる3次元領域にわたる実験により、提案手法であるPRoC3Sは、既存のベースラインよりもはるかに効率的かつ効果的に、連続パラメータに現実的な制約を課した幅広い複雑な操作タスクを解くことができることを示した。
論文 参考訳(メタデータ) (2024-06-08T20:56:14Z) - ORLM: Training Large Language Models for Optimization Modeling [16.348267803499404]
大規模言語モデル(LLM)は複雑なオペレーションリサーチ(OR)問題に対処するための強力なツールとして登場した。
この問題に対処するために、最適化モデリングのためのオープンソースのLLMのトレーニングを提案する。
我々は,NL4OPT,MAMO,IndustrialORベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-05-28T01:55:35Z) - LLM4PLC: Harnessing Large Language Models for Verifiable Programming of
PLCs in Industrial Control Systems [9.946058168276744]
LLM(Large Language Models)は、PLC(Programmable Logic Controllers)が運用する産業制御システム(ICS)のための有効なプログラムを作成できない。
本稿では,ユーザフィードバックと文法チェック,コンパイラ,SMV検証などの外部検証ツールを活用したユーザガイド型反復パイプラインを提案する。
GPT-3.5, GPT-4, Code Llama-7B, Code Llama-34B, Code Llama-34Bで完全なテストスイートを実行する。
論文 参考訳(メタデータ) (2024-01-08T23:52:42Z) - Federated Full-Parameter Tuning of Billion-Sized Language Models with Communication Cost under 18 Kilobytes [53.4856038354195]
事前訓練された大規模言語モデル(LLM)は、自然言語命令に対する応答性を改善するために微調整が必要である。
FedKSeedは、ランダムシードの有限セットによるゼロ階最適化を採用している。
サーバとクライアント間の通信要求を大幅に減らし、ランダムなシードをわずかに減らします。
論文 参考訳(メタデータ) (2023-12-11T13:03:21Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z) - Resource-Aware Pareto-Optimal Automated Machine Learning Platform [1.6746303554275583]
新プラットフォーム Resource-Aware AutoML (RA-AutoML)
RA-AutoMLは、フレキシブルで一般化されたアルゴリズムで、複数の目的に合わせた機械学習モデルを構築することができる。
論文 参考訳(メタデータ) (2020-10-30T19:37:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。