論文の概要: Prompt Selection and Augmentation for Few Examples Code Generation in Large Language Model and its Application in Robotics Control
- arxiv url: http://arxiv.org/abs/2403.12999v1
- Date: Mon, 11 Mar 2024 04:13:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 07:17:26.080916
- Title: Prompt Selection and Augmentation for Few Examples Code Generation in Large Language Model and its Application in Robotics Control
- Title(参考訳): 大規模言語モデルにおけるコード生成のプロンプト選択と拡張とロボット制御への応用
- Authors: On Tai Wu, Frodo Kin Sun Chan, Zunhao Zhang, Yan Nei Law, Benny Drescher, Edmond Shiao Bun Lai,
- Abstract要約: プロンプトとステップバイステップ推論は、Large Language Models(LLMs)の機能を強化した。
本稿では,数学的推論とロボットアーム操作の改善を目的とした,迅速な選択と拡張アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Few-shot prompting and step-by-step reasoning have enhanced the capabilities of Large Language Models (LLMs) in tackling complex tasks including code generation. In this paper, we introduce a prompt selection and augmentation algorithm aimed at improving mathematical reasoning and robot arm operations. Our approach incorporates a multi-stage example augmentation scheme combined with an example selection scheme. This algorithm improves LLM performance by selecting a set of examples that increase diversity, minimize redundancy, and increase relevance to the question. When combined with the Program-of-Thought prompting, our algorithm demonstrates an improvement in performance on the GSM8K and SVAMP benchmarks, with increases of 0.3% and 1.1% respectively. Furthermore, in simulated tabletop environments, our algorithm surpasses the Code-as-Policies approach by achieving a 3.4% increase in successful task completions and a decrease of over 70% in the number of examples used. Its ability to discard examples that contribute little to solving the problem reduces the inferencing time of an LLM-powered robotics system. This algorithm also offers important benefits for industrial process automation by streamlining the development and deployment process, reducing manual programming effort, and enhancing code reusability.
- Abstract(参考訳): ステップバイステップのプロンプトとステップバイステップ推論は、コード生成を含む複雑なタスクに対処する際のLarge Language Models(LLM)の機能を強化した。
本稿では,数学的推論とロボットアーム操作の改善を目的とした,迅速な選択と拡張アルゴリズムを提案する。
提案手法では,多段階のサンプル拡張スキームとサンプル選択スキームを組み合わせる。
このアルゴリズムは,多様性を高め,冗長性を最小限に抑え,問題への関連性を高める一連の例を選択することにより,LCM性能を向上させる。
プログラム・オブ・ワットのプロンプトと組み合わせることで,GSM8KとSVAMPベンチマークのパフォーマンスが改善し,それぞれ0.3%,1.1%向上した。
さらに,シミュレーション表環境においては,タスク完了率の3.4%,使用例数の70%以上を達成し,Code-as-Policiesアプローチを超越した。
問題を解くのにほとんど貢献しない例を捨てる能力は、LLM駆動ロボットシステムの推論時間を短縮する。
このアルゴリズムはまた、開発とデプロイメントプロセスの合理化、手作業によるプログラミングの労力の削減、コードの再利用性の向上によって、産業プロセスの自動化に重要なメリットを提供する。
関連論文リスト
- Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - What Makes Large Language Models Reason in (Multi-Turn) Code Generation? [28.614888506962988]
思考の連鎖は、大規模言語モデル(LLM)の出力を改善するための一般的な手段として確立されている。
本稿では,複数回にまたがる自動再プロンプトに焦点をあてて,幅広いプロンプト戦略の効果について検討する。
本研究は, 小型かつ大規模なサンプリング予算を持つ全モデルにおいて, 継続的に性能を向上させる戦略を明らかにする。
論文 参考訳(メタデータ) (2024-10-10T16:53:10Z) - Efficient Multi-agent Reinforcement Learning by Planning [33.51282615335009]
マルチエージェント強化学習(MARL)アルゴリズムは、大規模意思決定タスクの解決において、目覚ましいブレークスルーを達成している。
既存のMARLアルゴリズムの多くはモデルフリーであり、サンプル効率を制限し、より困難なシナリオでの適用を妨げている。
政策探索のための集中型モデルとモンテカルロ木探索(MCTS)を組み合わせたMAZeroアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-20T04:36:02Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - Solution to Advanced Manufacturing Process Problems using Cohort
Intelligence Algorithm with Improved Constraint Handling Approaches [0.07989135005592125]
コホートインテリジェンス(CI)アルゴリズムは、設計、製造、サプライチェーン、医療などの領域から制約のない現実の問題を解決するために、社会にインスパイアされた最適化手法である。
論文 参考訳(メタデータ) (2023-10-16T05:40:23Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - A study on a Q-Learning algorithm application to a manufacturing
assembly problem [0.8937905773981699]
本研究では,対象物の集合問題に対する強化学習アルゴリズムの実装に焦点を当てた。
環境との連続的な相互作用からQ値の行列(Q-table)を学習することを考慮して,モデルフリーQ-Learningアルゴリズムを適用した。
最適化アプローチは、98.3%の時間で最適なアセンブリシーケンスを学習することで、非常に有望な結果を得た。
論文 参考訳(メタデータ) (2023-04-17T15:38:34Z) - Reconfigurable Intelligent Surface Assisted Mobile Edge Computing with
Heterogeneous Learning Tasks [53.1636151439562]
モバイルエッジコンピューティング(MEC)は、AIアプリケーションに自然なプラットフォームを提供します。
再構成可能なインテリジェントサーフェス(RIS)の助けを借りて、MECで機械学習タスクを実行するインフラストラクチャを提示します。
具体的には,モバイルユーザの送信パワー,基地局のビームフォーミングベクトル,risの位相シフト行列を共同で最適化することにより,参加ユーザの学習誤差を最小化する。
論文 参考訳(メタデータ) (2020-12-25T07:08:50Z) - Iterative Algorithm Induced Deep-Unfolding Neural Networks: Precoding
Design for Multiuser MIMO Systems [59.804810122136345]
本稿では,AIIDNN(ディープ・アンフォールディング・ニューラルネット)を一般化した,ディープ・アンフォールディングのためのフレームワークを提案する。
古典的重み付き最小二乗誤差(WMMSE)反復アルゴリズムの構造に基づく効率的なIAIDNNを提案する。
提案したIAIDNNは,計算複雑性を低減した反復WMMSEアルゴリズムの性能を効率よく向上することを示す。
論文 参考訳(メタデータ) (2020-06-15T02:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。