論文の概要: Direct Behavior Optimization: Unlocking the Potential of Lightweight LLMs
- arxiv url: http://arxiv.org/abs/2506.06401v1
- Date: Fri, 06 Jun 2025 02:40:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.260005
- Title: Direct Behavior Optimization: Unlocking the Potential of Lightweight LLMs
- Title(参考訳): 直接挙動最適化:軽量LLMの可能性を解き放つ
- Authors: Hongming Yang, Shi Lin, Jun Shao, Changting Lin, Donghai Zhu, Meng Han, Qinglei Kong,
- Abstract要約: DeBoPはLwLLMの動作を直接最適化する自動最適化手法である。
現状のLLMが優れているが、LwLLMは一般的に性能が劣る7つの課題についてDeBoPを評価した。
DeBoPに最適化されたLwLLMは、ほとんどのタスクでGPT-3.5を超え、計算時間を約60%削減した。
- 参考スコア(独自算出の注目度): 9.085280547983091
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lightweight Large Language Models (LwLLMs) are reduced-parameter, optimized models designed to run efficiently on consumer-grade hardware, offering significant advantages in resource efficiency, cost-effectiveness, and data privacy. However, these models often struggle with limited inference and reasoning capabilities, which restrict their performance on complex tasks and limit their practical applicability. Moreover, existing prompt optimization methods typically rely on extensive manual effort or the meta-cognitive abilities of state-of-the-art LLMs, making them less effective for LwLLMs. To address these challenges, we introduce DeBoP, a new Direct Behavior Optimization Paradigm, original from the Chain-of-Thought (CoT) prompting technique. Unlike CoT Prompting, DeBoP is an automatic optimization method, which focuses on the optimization directly on the behavior of LwLLMs. In particular, DeBoP transforms the optimization of complex prompts into the optimization of discrete, quantifiable execution sequences using a gradient-free Monte Carlo Tree Search. We evaluate DeBoP on seven challenging tasks where state-of-the-art LLMs excel but LwLLMs generally underperform. Experimental results demonstrate that DeBoP significantly outperforms recent prompt optimization methods on most tasks. In particular, DeBoP-optimized LwLLMs surpass GPT-3.5 on most tasks while reducing computational time by approximately 60% compared to other automatic prompt optimization methods.
- Abstract(参考訳): 軽量大規模言語モデル (LwLLMs) は、リソース効率、費用対効果、データプライバシにおいて大きな利点をもたらす、コンシューマグレードのハードウェア上で効率的に動作するよう設計された最適化されたモデルである。
しかしながら、これらのモデルは推論と推論能力の制限に苦しむことが多く、複雑なタスクのパフォーマンスを制限し、実用性を制限する。
さらに、既存のプロンプト最適化手法は、通常、広範囲な手作業や、最先端のLLMのメタ認知能力に依存しており、LwLLMでは効果が低い。
これらの課題に対処するために、我々は、CoT(Chain-of-Thought)プロンプト技術から派生した、新しいダイレクトビヘイビア最適化パラダイムであるDeBoPを紹介した。
CoT Promptingとは異なり、DeBoPはLwLLMの動作を直接最適化する自動最適化手法である。
特に、DeBoPは複雑なプロンプトの最適化を、勾配のないモンテカルロ木探索を用いて離散的に定量化された実行シーケンスの最適化に変換する。
現状のLLMが優れているが、LwLLMは一般的に性能が劣る7つの課題についてDeBoPを評価した。
実験結果から,DeBoPは近年,多くのタスクにおいて最適化手法を著しく上回っていることがわかった。
特に、DeBoP最適化LwLLMは、他の自動プロンプト最適化手法と比較して計算時間を約60%削減しながら、ほとんどのタスクにおいてGPT-3.5を上回っている。
関連論文リスト
- ORPP: Self-Optimizing Role-playing Prompts to Enhance Language Model Capabilities [64.24517317344959]
複雑なタスクにおいて、大きな言語モデルから優れたパフォーマンスを引き出すためには、高品質なプロンプトが不可欠である。
本稿では,ロールプレイングプロンプトの最適化と生成によりモデル性能を向上させるフレームワークORPPを提案する。
ORPPは一致しただけでなく、ほとんどの場合、性能の点で既存の主流のプロンプト最適化手法を上回ります。
論文 参考訳(メタデータ) (2025-06-03T05:51:35Z) - CAPO: Cost-Aware Prompt Optimization [3.0290544952776854]
大規模言語モデル(LLM)は、単にプロンプトによって導かれる幅広いタスクを解くことで、自然言語処理に革命をもたらした。
本稿では,AutoML技術を統合することにより,迅速な最適化効率を向上させるアルゴリズムCAPOを紹介する。
実験の結果,CAPOは11/15例において21%pの精度向上を達成し,最先端の離散的プロンプト最適化法よりも優れていた。
論文 参考訳(メタデータ) (2025-04-22T16:14:31Z) - GReaTer: Gradients over Reasoning Makes Smaller Language Models Strong Prompt Optimizers [52.17222304851524]
本稿では,タスク固有の推論よりも勾配情報を直接組み込む新しいプロンプト最適化手法であるGReaTerを紹介する。
GReaTerはタスク損失勾配を利用して、オープンソースの軽量言語モデルのためのプロンプトの自己最適化を可能にする。
GReaTerは、従来の最先端のプロンプト最適化手法を一貫して上回っている。
論文 参考訳(メタデータ) (2024-12-12T20:59:43Z) - Optima: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System [75.25394449773052]
大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は協調的問題解決において顕著な可能性を示している。
通信効率の低下、スケーラビリティの低下、効果的なパラメータ更新方法の欠如などです。
本稿では,コミュニケーション効率とタスク効率を両立させ,これらの課題に対処する新しいフレームワークOptimaを提案する。
論文 参考訳(メタデータ) (2024-10-10T17:00:06Z) - Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - Revisiting OPRO: The Limitations of Small-Scale LLMs as Optimizers [15.809293135844756]
比較的小規模な言語モデル(LLM)を用いた自動プロンプトのためのOPROを再検討する。
OPROは小規模なLLMにおいて限られた有効性を示し、推論能力は最適化能力を制限している。
我々は,モデル能力と計算コストの両方を考慮するために,将来的な自動プロンプトエンジニアリングを提案する。
論文 参考訳(メタデータ) (2024-05-16T17:33:50Z) - Pretrained Optimization Model for Zero-Shot Black Box Optimization [16.391389860521134]
多様なタスクの最適化から得られた知識を活用する事前学習最適化モデル(POM)を提案する。
POMは、直接アプリケーションや数発のサンプルによる微調整を通じて、ゼロショット最適化の効率的なソリューションを提供する。
少数のサンプルと予算を持つ微調整POMは、大幅な性能改善をもたらす。
論文 参考訳(メタデータ) (2024-05-06T09:11:49Z) - Are Large Language Models Good Prompt Optimizers? [65.48910201816223]
我々は,LLMに基づくPrompt Optimizationの実際のメカニズムを明らかにするために研究を行っている。
以上の結果から, LLMは, 反射中の誤差の真の原因を特定するのに苦慮し, 自己の事前知識に偏っていることが明らかとなった。
我々は、より制御可能な方法でターゲットモデルの振舞いを直接最適化する新しい「自動振舞い最適化」パラダイムを導入する。
論文 参考訳(メタデータ) (2024-02-03T09:48:54Z) - Large Language Models as Optimizers [106.52386531624532]
本稿では,大規模言語モデル (LLM) をプロンプトとして活用するためのシンプルで効果的な手法である Prompting (OPRO) を提案する。
各最適化ステップにおいて、LLMは、前述した値を含むプロンプトから新しい解を生成する。
OPROにより最適化された最良のプロンプトは、GSM8Kで最大8%、Big-Bench Hardタスクで最大50%向上することを示した。
論文 参考訳(メタデータ) (2023-09-07T00:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。