論文の概要: Direct Behavior Optimization: Unlocking the Potential of Lightweight LLMs
- arxiv url: http://arxiv.org/abs/2506.06401v1
- Date: Fri, 06 Jun 2025 02:40:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.260005
- Title: Direct Behavior Optimization: Unlocking the Potential of Lightweight LLMs
- Title(参考訳): 直接挙動最適化:軽量LLMの可能性を解き放つ
- Authors: Hongming Yang, Shi Lin, Jun Shao, Changting Lin, Donghai Zhu, Meng Han, Qinglei Kong,
- Abstract要約: DeBoPはLwLLMの動作を直接最適化する自動最適化手法である。
現状のLLMが優れているが、LwLLMは一般的に性能が劣る7つの課題についてDeBoPを評価した。
DeBoPに最適化されたLwLLMは、ほとんどのタスクでGPT-3.5を超え、計算時間を約60%削減した。
- 参考スコア(独自算出の注目度): 9.085280547983091
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lightweight Large Language Models (LwLLMs) are reduced-parameter, optimized models designed to run efficiently on consumer-grade hardware, offering significant advantages in resource efficiency, cost-effectiveness, and data privacy. However, these models often struggle with limited inference and reasoning capabilities, which restrict their performance on complex tasks and limit their practical applicability. Moreover, existing prompt optimization methods typically rely on extensive manual effort or the meta-cognitive abilities of state-of-the-art LLMs, making them less effective for LwLLMs. To address these challenges, we introduce DeBoP, a new Direct Behavior Optimization Paradigm, original from the Chain-of-Thought (CoT) prompting technique. Unlike CoT Prompting, DeBoP is an automatic optimization method, which focuses on the optimization directly on the behavior of LwLLMs. In particular, DeBoP transforms the optimization of complex prompts into the optimization of discrete, quantifiable execution sequences using a gradient-free Monte Carlo Tree Search. We evaluate DeBoP on seven challenging tasks where state-of-the-art LLMs excel but LwLLMs generally underperform. Experimental results demonstrate that DeBoP significantly outperforms recent prompt optimization methods on most tasks. In particular, DeBoP-optimized LwLLMs surpass GPT-3.5 on most tasks while reducing computational time by approximately 60% compared to other automatic prompt optimization methods.
- Abstract(参考訳): 軽量大規模言語モデル (LwLLMs) は、リソース効率、費用対効果、データプライバシにおいて大きな利点をもたらす、コンシューマグレードのハードウェア上で効率的に動作するよう設計された最適化されたモデルである。
しかしながら、これらのモデルは推論と推論能力の制限に苦しむことが多く、複雑なタスクのパフォーマンスを制限し、実用性を制限する。
さらに、既存のプロンプト最適化手法は、通常、広範囲な手作業や、最先端のLLMのメタ認知能力に依存しており、LwLLMでは効果が低い。
これらの課題に対処するために、我々は、CoT(Chain-of-Thought)プロンプト技術から派生した、新しいダイレクトビヘイビア最適化パラダイムであるDeBoPを紹介した。
CoT Promptingとは異なり、DeBoPはLwLLMの動作を直接最適化する自動最適化手法である。
特に、DeBoPは複雑なプロンプトの最適化を、勾配のないモンテカルロ木探索を用いて離散的に定量化された実行シーケンスの最適化に変換する。
現状のLLMが優れているが、LwLLMは一般的に性能が劣る7つの課題についてDeBoPを評価した。
実験結果から,DeBoPは近年,多くのタスクにおいて最適化手法を著しく上回っていることがわかった。
特に、DeBoP最適化LwLLMは、他の自動プロンプト最適化手法と比較して計算時間を約60%削減しながら、ほとんどのタスクにおいてGPT-3.5を上回っている。
関連論文リスト
- Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - Revisiting OPRO: The Limitations of Small-Scale LLMs as Optimizers [15.809293135844756]
比較的小規模な言語モデル(LLM)を用いた自動プロンプトのためのOPROを再検討する。
OPROは小規模なLLMにおいて限られた有効性を示し、推論能力は最適化能力を制限している。
我々は,モデル能力と計算コストの両方を考慮するために,将来的な自動プロンプトエンジニアリングを提案する。
論文 参考訳(メタデータ) (2024-05-16T17:33:50Z) - Large Language Models as Optimizers [106.52386531624532]
本稿では,大規模言語モデル (LLM) をプロンプトとして活用するためのシンプルで効果的な手法である Prompting (OPRO) を提案する。
各最適化ステップにおいて、LLMは、前述した値を含むプロンプトから新しい解を生成する。
OPROにより最適化された最良のプロンプトは、GSM8Kで最大8%、Big-Bench Hardタスクで最大50%向上することを示した。
論文 参考訳(メタデータ) (2023-09-07T00:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。