Fugu-MT 論文翻訳(概要): Robo-Instruct: Simulator-Augmented Instruction Alignment For Finetuning CodeLLMs

論文の概要: Robo-Instruct: Simulator-Augmented Instruction Alignment For Finetuning CodeLLMs

arxiv url: http://arxiv.org/abs/2405.20179v1
Date: Thu, 30 May 2024 15:47:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-31 13:39:08.965276
Title: Robo-Instruct: Simulator-Augmented Instruction Alignment For Finetuning CodeLLMs
Title（参考訳）: Robo-Instruct: CodeLLMのためのシミュレータ拡張型インストラクションアライメント
Authors: Zichao Hu, Junyi Jessy Li, Arjun Guha, Joydeep Biswas,
Abstract要約: 本稿では,シミュレータによるチェックの正確性を提供しながら,自己指示の多様性を促進するRobo-Instructを紹介する。 Robo-Instructは、小さなオープンウェイトモデルのみを使用してトレーニングデータセットを生成することができる。
参考スコア（独自算出の注目度）: 42.31298987176411
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have shown great promise at generating robot programs from natural language given domain-specific robot application programming interfaces (APIs). However, the performance gap between proprietary LLMs and smaller open-weight LLMs remains wide. This raises a question: Can we fine-tune smaller open-weight LLMs for generating domain-specific robot programs to close the performance gap with proprietary LLMs? While Self-Instruct is a promising solution by generating a diverse set of training data, it cannot verify the correctness of these programs. In contrast, a robot simulator with a well-defined world can identify execution errors but limits the diversity of programs that it can verify. In this work, we introduce Robo-Instruct, which brings the best of both worlds -- it promotes the diversity of Self-Instruct while providing the correctness of simulator-based checking. Robo-Instruct introduces RoboSim to synthesize a consistent world state on the fly by inferring properties relevant to the program being checked, and simulating actions accordingly. Furthermore, the instructions and programs generated by Self-Instruct may be subtly inconsistent -- such as the program missing a step implied by the instruction. Robo-Instruct further addresses this with InstAlign, an instruction-program alignment procedure that revises the task instruction to reflect the actual results of the generated program. Given a few seed task descriptions and the robot APIs, Robo-Instruct is capable of generating a training dataset using only a small open-weight model. This dataset can then be used to fine-tune small open-weight language models, enabling them to match or even exceed the performance of several proprietary LLMs, such as GPT-3.5-Turbo and Gemini-Pro.
Abstract（参考訳）: 大規模言語モデル(LLM)は、ドメイン固有のロボットアプリケーションプログラミングインタフェース(API)が与えられた自然言語からロボットプログラムを生成することを非常に約束している。しかし、プロプライエタリなLLMとより小さなオープンウェイトなLLMの間の性能差は依然として広いままである。ドメイン固有のロボットプログラムを生成するために、より小さなオープンウェイト LLM を微調整して、プロプライエタリ LLM のパフォーマンスギャップを埋めることができるか? Self-Instructは、多様なトレーニングデータを生成することで有望なソリューションであるが、これらのプログラムの正確性を検証することはできない。対照的に、明確に定義された世界を持つロボットシミュレータは、実行エラーを特定することができるが、検証可能なプログラムの多様性を制限することができる。シミュレータベースのチェックの正確性を提供しながら、セルフインストラクトの多様性を促進します。 Robo-InstructはRoboSimを導入して、チェック中のプログラムに関連するプロパティを推論し、それに従ってアクションをシミュレートすることで、一貫した世界状態をオンザフライで合成する。さらに、Self-Instructによって生成された命令やプログラムは微妙に矛盾する可能性がある。 Robo-Instructは、生成したプログラムの実際の結果を反映するようにタスク命令を更新する命令-プログラムアライメント手順であるInstAlignで、さらにこの問題に対処する。いくつかのシードタスク記述とロボットAPIを与えられたRobo-Instructは、小さなオープンウェイトモデルのみを使用してトレーニングデータセットを生成することができる。このデータセットは、小さなオープンウェイト言語モデルを微調整するために使用することができ、GPT-3.5-TurboやGemini-Proなど、いくつかのプロプライエタリなLLMのパフォーマンスにマッチまたは超えることができる。

関連論文リスト

An LLM-powered Natural-to-Robotic Language Translation Framework with Correctness Guarantees [40.31829665216206]
大規模言語モデル(LLM)は、特定のユーザタスクのためのロボット制御プログラムを生成するために、ロボット工学にますます導入されている。本稿では,生成した制御プログラムの正当性検証を行う自然言語翻訳フレームワークを提案する。
論文参考訳（メタデータ） (2025-08-26T14:32:49Z)
VerifyLLM: LLM-Based Pre-Execution Task Plan Verification for Robots [44.99833362998488]
本研究では,シミュレータや実環境で実行する前に,タスクプランを自動的に検証するアーキテクチャを提案する。このモジュールは、Large Language Modelsの推論機能を使用して、論理的一貫性を評価し、計画の潜在的なギャップを特定する。我々は,タスク計画の信頼性と効率の向上に寄与し,自律システムにおける堅牢な事前実行検証の必要性に対処する。
論文参考訳（メタデータ） (2025-07-07T15:31:36Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
Interactive and Expressive Code-Augmented Planning with Large Language Models [62.799579304821826]
大きな言語モデル(LLM)は、常識的推論と対話的な意思決定において強力な能力を示す。近年,制御フローなどのコード・アジャセント技術を用いてLCM出力を構造化し,計画性能を向上させる技術が提案されている。完全コード表現で動的なLEM計画手法であるREPL-Planを提案する。
論文参考訳（メタデータ） (2024-11-21T04:23:17Z)
DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。 DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文参考訳（メタデータ） (2024-11-04T18:26:08Z)
LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文参考訳（メタデータ） (2024-10-09T01:25:10Z)
Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文参考訳（メタデータ） (2024-09-27T08:20:59Z)
Applying RLAIF for Code Generation with API-usage in Lightweight LLMs [15.366324461797582]
Reinforcement Learning from AI Feedback (RLAIF)は、さまざまな領域で大きな可能性を証明している。本稿では,軽量 (1B パラメータ) LLM のコード生成能力を改善するための RLAIF フレームワークを提案する。
論文参考訳（メタデータ） (2024-06-28T17:16:03Z)
Trust the PRoC3S: Solving Long-Horizon Robotics Problems with LLMs and Constraint Satisfaction [38.683780057806516]
ロボット工学を応用した事前学習型大規模言語モデル(LLM)の最近の進歩は、単純なロボットタスクにおいてオープンな目標を達成するために、個々のスキルのセットをシークエンシングする能力を示している。本稿では,機械的,幾何学的,物理的制約の集合の違反を避けることが必要な,連続パラメータ化スキルの集合に対するLLM計画の課題について検討する。 3つの異なる3次元領域にわたる実験により、提案手法であるPRoC3Sは、既存のベースラインよりもはるかに効率的かつ効果的に、連続パラメータに現実的な制約を課した幅広い複雑な操作タスクを解くことができることを示した。
論文参考訳（メタデータ） (2024-06-08T20:56:14Z)
ORLM: A Customizable Framework in Training Large Models for Automated Optimization Modeling [15.673219028826173]
本稿では,OR-Instruct という,最適化モデル問題のための半自動データ合成フレームワークを提案する。我々は、70億のパラメータ(ORLM)を持つ様々なオープンソースのLDMを訓練する。結果として得られたモデルは、NL4OPT、MAMO、IndustrialORベンチマークにまたがって最先端のパフォーマンスを達成し、大幅な最適化モデリング能力を示す。
論文参考訳（メタデータ） (2024-05-28T01:55:35Z)
Empowering Large Language Models on Robotic Manipulation with Affordance Prompting [23.318449345424725]
大規模な言語モデルは、制御シーケンスを適切に生成することで物理世界と相互作用することができない。既存のLLMベースのアプローチでは、事前定義されたスキルや事前訓練されたサブ政治に頼ることでこの問題を回避することができる。サブタスクプランナとモーションコントローラの両方をLLM+A(ffordance)と呼ぶフレームワークを提案する。
論文参考訳（メタデータ） (2024-04-17T03:06:32Z)
LLM4PLC: Harnessing Large Language Models for Verifiable Programming of PLCs in Industrial Control Systems [9.946058168276744]
LLM(Large Language Models)は、PLC(Programmable Logic Controllers)が運用する産業制御システム(ICS)のための有効なプログラムを作成できない。本稿では,ユーザフィードバックと文法チェック,コンパイラ,SMV検証などの外部検証ツールを活用したユーザガイド型反復パイプラインを提案する。 GPT-3.5, GPT-4, Code Llama-7B, Code Llama-34B, Code Llama-34Bで完全なテストスイートを実行する。
論文参考訳（メタデータ） (2024-01-08T23:52:42Z)
Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。 LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文参考訳（メタデータ） (2023-12-11T22:54:44Z)
Federated Full-Parameter Tuning of Billion-Sized Language Models with Communication Cost under 18 Kilobytes [53.4856038354195]
事前訓練された大規模言語モデル(LLM)は、自然言語命令に対する応答性を改善するために微調整が必要である。 FedKSeedは、ランダムシードの有限セットによるゼロ階最適化を採用している。サーバとクライアント間の通信要求を大幅に減らし、ランダムなシードをわずかに減らします。
論文参考訳（メタデータ） (2023-12-11T13:03:21Z)
TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文参考訳（メタデータ） (2023-11-30T18:02:44Z)
Language to Rewards for Robotic Skill Synthesis [37.21434094015743]
我々は,大規模言語モデル(LLM)を利用して,様々なロボットタスクを最適化し,達成可能な報酬パラメータを定義する新しいパラダイムを提案する。 LLMが生成する中間インタフェースとして報酬を用いることで、ハイレベルな言語命令と修正のギャップを、低レベルなロボット動作に効果的に埋めることができる。
論文参考訳（メタデータ） (2023-06-14T17:27:10Z)
ProgPrompt: Generating Situated Robot Task Plans using Large Language Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文参考訳（メタデータ） (2022-09-22T20:29:49Z)
CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文参考訳（メタデータ） (2022-07-05T02:42:15Z)
Resource-Aware Pareto-Optimal Automated Machine Learning Platform [1.6746303554275583]
新プラットフォーム Resource-Aware AutoML (RA-AutoML) RA-AutoMLは、フレキシブルで一般化されたアルゴリズムで、複数の目的に合わせた機械学習モデルを構築することができる。
論文参考訳（メタデータ） (2020-10-30T19:37:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。