Fugu-MT 論文翻訳(概要): Robo-Instruct: Simulator-Augmented Instruction Alignment For Finetuning CodeLLMs

論文の概要: Robo-Instruct: Simulator-Augmented Instruction Alignment For Finetuning CodeLLMs

arxiv url: http://arxiv.org/abs/2405.20179v2
Date: Sat, 05 Oct 2024 23:27:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 21:39:38.682826
Title: Robo-Instruct: Simulator-Augmented Instruction Alignment For Finetuning CodeLLMs
Title（参考訳）: Robo-Instruct: CodeLLMのためのシミュレータ拡張型インストラクションアライメント
Authors: Zichao Hu, Junyi Jessy Li, Arjun Guha, Joydeep Biswas,
Abstract要約: ROBO-INSTRUCTは、シミュレータベースのチェックの正確性を提供しながら、LCMによって生成されたプログラムの多様性を保存する。我々の微調整モデルでは、オリジナルのベースモデルよりも28.75%のpass@1が改善され、SELF-INSTRUCTの微細化モデルに比べて13.75%の改善が達成された。
参考スコア（独自算出の注目度）: 42.31298987176411
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Open-weight LLMs are particularly appealing choices to generate training data for fine-tuning Code LLMs on domain-specific service robot applications because they are cost-effective, customizable, and offer better privacy protection. However, unlike proprietary LLMs, open-weight models are more error-prone and often produce programs that violate domain-specific constraints. A promising solution is to incorporate a robot simulator with a well-defined environment to verify program correctness. Yet, these environments require pre-enumeration of relevant entities and their states, which limits the diversity of programs that can be effectively verified. In this work, we introduce ROBO-INSTRUCT that preserves the diversity of programs generated by an LLM while providing the correctness of simulator-based checking. ROBO-INSTRUCT introduces ROBOSIM to dynamically synthesize consistent simulation environments for each generated program. Moreover, ROBO-INSTRUCT handles subtler instruction-program inconsistencies that do not result in a constraint violation via INSTALIGN, an LLM-aided instruction-program alignment process. Given domain-specific APIs and a few seed examples, ROBO-INSTRUCT can leverage an 8B Llama3 model to generate a training dataset for fine-tuning a 7B CodeLlama model. Our fine-tuned model achieves a 28.75% improvement in pass@1 over the original base model and a 13.75% improvement compared to its SELF-INSTRUCT-finetuned counterparts, even surpassing the performance of a few proprietary LLMs, such as GPT-3.5-Turbo and Gemini-Pro.
Abstract（参考訳）: オープンウェイトなLLMは、コスト効率が高く、カスタマイズ可能で、プライバシー保護の改善を提供するため、ドメイン固有のサービスロボットアプリケーション上で、微調整されたコードLLMのためのトレーニングデータを生成するために、特に魅力的な選択である。しかし、プロプライエタリなLLMとは異なり、オープンウェイトモデルはエラーを起こしやすく、ドメイン固有の制約に反するプログラムを生成することが多い。有望な解決策は、プログラムの正確性を検証するために、ロボットシミュレータを明確に定義された環境に組み込むことである。しかし、これらの環境は関連エンティティとその状態の事前列挙を必要とし、効果的に検証できるプログラムの多様性を制限する。本研究では,シミュレータによるチェックの正確性を提供しながら,LLMが生成するプログラムの多様性を保ったROBO-INSTRUCTを提案する。 ROBO-INSTRUCTはROBOSIMを導入し、生成されたプログラムごとに一貫したシミュレーション環境を動的に合成する。さらに、ROBO-INSTRUCTは、命令プログラムアライメントプロセスであるINSTALIGNを介して制約違反を生じさせない、より微妙な命令プログラム不整合を処理する。ドメイン固有のAPIといくつかのシード例があれば,ROBO-INSTRUCTは8BのLlama3モデルを使用して,7BのCodeLlamaモデルを微調整するトレーニングデータセットを生成することができる。 GPT-3.5-Turbo や Gemini-Pro など,いくつかの独自 LLM の性能を超越した,SELF-INSTRUCT ファインチュードモデルに比べて 28.75% のパス@1 の改善,13.75% の改善を実現している。

関連論文リスト

VerifyLLM: LLM-Based Pre-Execution Task Plan Verification for Robots [44.99833362998488]
本研究では,シミュレータや実環境で実行する前に,タスクプランを自動的に検証するアーキテクチャを提案する。このモジュールは、Large Language Modelsの推論機能を使用して、論理的一貫性を評価し、計画の潜在的なギャップを特定する。我々は,タスク計画の信頼性と効率の向上に寄与し,自律システムにおける堅牢な事前実行検証の必要性に対処する。
論文参考訳（メタデータ） (2025-07-07T15:31:36Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
Interactive and Expressive Code-Augmented Planning with Large Language Models [62.799579304821826]
大きな言語モデル(LLM)は、常識的推論と対話的な意思決定において強力な能力を示す。近年,制御フローなどのコード・アジャセント技術を用いてLCM出力を構造化し,計画性能を向上させる技術が提案されている。完全コード表現で動的なLEM計画手法であるREPL-Planを提案する。
論文参考訳（メタデータ） (2024-11-21T04:23:17Z)
DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。 DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文参考訳（メタデータ） (2024-11-04T18:26:08Z)
LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文参考訳（メタデータ） (2024-10-09T01:25:10Z)
Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文参考訳（メタデータ） (2024-09-27T08:20:59Z)
Applying RLAIF for Code Generation with API-usage in Lightweight LLMs [15.366324461797582]
Reinforcement Learning from AI Feedback (RLAIF)は、さまざまな領域で大きな可能性を証明している。本稿では,軽量 (1B パラメータ) LLM のコード生成能力を改善するための RLAIF フレームワークを提案する。
論文参考訳（メタデータ） (2024-06-28T17:16:03Z)
Trust the PRoC3S: Solving Long-Horizon Robotics Problems with LLMs and Constraint Satisfaction [38.683780057806516]
ロボット工学を応用した事前学習型大規模言語モデル(LLM)の最近の進歩は、単純なロボットタスクにおいてオープンな目標を達成するために、個々のスキルのセットをシークエンシングする能力を示している。本稿では,機械的,幾何学的,物理的制約の集合の違反を避けることが必要な,連続パラメータ化スキルの集合に対するLLM計画の課題について検討する。 3つの異なる3次元領域にわたる実験により、提案手法であるPRoC3Sは、既存のベースラインよりもはるかに効率的かつ効果的に、連続パラメータに現実的な制約を課した幅広い複雑な操作タスクを解くことができることを示した。
論文参考訳（メタデータ） (2024-06-08T20:56:14Z)
ORLM: A Customizable Framework in Training Large Models for Automated Optimization Modeling [15.673219028826173]
本稿では,OR-Instruct という,最適化モデル問題のための半自動データ合成フレームワークを提案する。我々は、70億のパラメータ(ORLM)を持つ様々なオープンソースのLDMを訓練する。結果として得られたモデルは、NL4OPT、MAMO、IndustrialORベンチマークにまたがって最先端のパフォーマンスを達成し、大幅な最適化モデリング能力を示す。
論文参考訳（メタデータ） (2024-05-28T01:55:35Z)
Empowering Large Language Models on Robotic Manipulation with Affordance Prompting [23.318449345424725]
大規模な言語モデルは、制御シーケンスを適切に生成することで物理世界と相互作用することができない。既存のLLMベースのアプローチでは、事前定義されたスキルや事前訓練されたサブ政治に頼ることでこの問題を回避することができる。サブタスクプランナとモーションコントローラの両方をLLM+A(ffordance)と呼ぶフレームワークを提案する。
論文参考訳（メタデータ） (2024-04-17T03:06:32Z)
LLM4PLC: Harnessing Large Language Models for Verifiable Programming of PLCs in Industrial Control Systems [9.946058168276744]
LLM(Large Language Models)は、PLC(Programmable Logic Controllers)が運用する産業制御システム(ICS)のための有効なプログラムを作成できない。本稿では,ユーザフィードバックと文法チェック,コンパイラ,SMV検証などの外部検証ツールを活用したユーザガイド型反復パイプラインを提案する。 GPT-3.5, GPT-4, Code Llama-7B, Code Llama-34B, Code Llama-34Bで完全なテストスイートを実行する。
論文参考訳（メタデータ） (2024-01-08T23:52:42Z)
Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。 LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文参考訳（メタデータ） (2023-12-11T22:54:44Z)
Federated Full-Parameter Tuning of Billion-Sized Language Models with Communication Cost under 18 Kilobytes [53.4856038354195]
事前訓練された大規模言語モデル(LLM)は、自然言語命令に対する応答性を改善するために微調整が必要である。 FedKSeedは、ランダムシードの有限セットによるゼロ階最適化を採用している。サーバとクライアント間の通信要求を大幅に減らし、ランダムなシードをわずかに減らします。
論文参考訳（メタデータ） (2023-12-11T13:03:21Z)
TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文参考訳（メタデータ） (2023-11-30T18:02:44Z)
Language to Rewards for Robotic Skill Synthesis [37.21434094015743]
我々は,大規模言語モデル(LLM)を利用して,様々なロボットタスクを最適化し,達成可能な報酬パラメータを定義する新しいパラダイムを提案する。 LLMが生成する中間インタフェースとして報酬を用いることで、ハイレベルな言語命令と修正のギャップを、低レベルなロボット動作に効果的に埋めることができる。
論文参考訳（メタデータ） (2023-06-14T17:27:10Z)
ProgPrompt: Generating Situated Robot Task Plans using Large Language Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文参考訳（メタデータ） (2022-09-22T20:29:49Z)
CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文参考訳（メタデータ） (2022-07-05T02:42:15Z)
Resource-Aware Pareto-Optimal Automated Machine Learning Platform [1.6746303554275583]
新プラットフォーム Resource-Aware AutoML (RA-AutoML) RA-AutoMLは、フレキシブルで一般化されたアルゴリズムで、複数の目的に合わせた機械学習モデルを構築することができる。
論文参考訳（メタデータ） (2020-10-30T19:37:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。