論文の概要: Tournament of Prompts: Evolving LLM Instructions Through Structured Debates and Elo Ratings
- arxiv url: http://arxiv.org/abs/2506.00178v1
- Date: Fri, 30 May 2025 19:33:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.482783
- Title: Tournament of Prompts: Evolving LLM Instructions Through Structured Debates and Elo Ratings
- Title(参考訳): プロンプトのトーナメント:構造化ディベートとエロレーティングによるLCM指導の展開
- Authors: Anirudh Nair, Adi Banerjee, Laurent Mombaerts, Matthew Hagen, Tarik Borogovac,
- Abstract要約: 我々は,エロの選考による議論駆動評価を通じて,進化を促す新しいフレームワークであるDEEVOを紹介する。
Eloの格付けをフィットネスプロキシとして利用することで、DEEVOは同時に改善を推進し、迅速な人口の貴重な多様性を保ちます。
- 参考スコア(独自算出の注目度): 0.9437165725355702
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt engineering represents a critical bottleneck to harness the full potential of Large Language Models (LLMs) for solving complex tasks, as it requires specialized expertise, significant trial-and-error, and manual intervention. This challenge is particularly pronounced for tasks involving subjective quality assessment, where defining explicit optimization objectives becomes fundamentally problematic. Existing automated prompt optimization methods falter in these scenarios, as they typically require well-defined task-specific numerical fitness functions or rely on generic templates that cannot capture the nuanced requirements of complex use cases. We introduce DEEVO (DEbate-driven EVOlutionary prompt optimization), a novel framework that guides prompt evolution through a debate-driven evaluation with an Elo-based selection. Contrary to prior work, DEEVOs approach enables exploration of the discrete prompt space while preserving semantic coherence through intelligent crossover and strategic mutation operations that incorporate debate-based feedback, combining elements from both successful and unsuccessful prompts based on identified strengths rather than arbitrary splicing. Using Elo ratings as a fitness proxy, DEEVO simultaneously drives improvement and preserves valuable diversity in the prompt population. Experimental results demonstrate that DEEVO significantly outperforms both manual prompt engineering and alternative state-of-the-art optimization approaches on open-ended tasks and close-ended tasks despite using no ground truth feedback. By connecting LLMs reasoning capabilities with adaptive optimization, DEEVO represents a significant advancement in prompt optimization research by eliminating the need of predetermined metrics to continuously improve AI systems.
- Abstract(参考訳): プロンプトエンジニアリングは、専門的な専門知識、重要なトライ・アンド・エラー、手動による介入を必要とするため、複雑なタスクを解決するためにLarge Language Models(LLM)の潜在能力を最大限に活用する上で、重要なボトルネックとなっている。
この課題は、明示的な最適化目標の定義が根本的な問題となる主観的品質評価を含むタスクに対して特に顕著である。
既存の自動プロンプト最適化手法は、よく定義されたタスク固有の数値適合関数を必要とする場合や、複雑なユースケースのニュアンスな要求を捉えることができない一般的なテンプレートに依存する場合が多いため、これらのシナリオでは不適当である。
Elo-based selectionによる議論駆動評価を通じて進化を促す新しいフレームワークであるDEEVO(Debate-driven EVOlutionary prompt optimization)を紹介する。
以前の研究とは対照的に、DEEVOsアプローチは、インテリジェントなクロスオーバーと戦略的な突然変異操作を通じて意味的コヒーレンスを維持しながら、離散的なプロンプト空間の探索を可能にし、任意のスプライシングではなく、特定強度に基づいて、成功と失敗の両方のプロンプトの要素を組み合わせる。
Eloの格付けをフィットネスプロキシとして利用することで、DEEVOは同時に改善を推進し、迅速な人口の貴重な多様性を保ちます。
実験結果から,DeEVOは,基礎的真理フィードバックを使わずとも,手動のプロンプト工学と,オープンエンドタスクとクローズエンドタスクに対する代替技術最適化アプローチの両方を著しく上回っていることがわかった。
LLMの推論能力と適応最適化を結びつけることで、DeEVOはAIシステムを継続的に改善するための所定のメトリクスを不要にすることで、迅速な最適化研究の大幅な進歩を示している。
関連論文リスト
- MARS: A Multi-Agent Framework Incorporating Socratic Guidance for Automated Prompt Optimization [30.748085697067154]
ソクラティックガイダンス(MARS)を取り入れたマルチエージェントフレームワークを提案する。
MARSは7つのエージェントから構成され、それぞれ異なる機能を持ち、Plannerを自律的に使用して最適化パスを設計する。
提案手法の有効性を検証するため,様々なデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2025-03-21T06:19:55Z) - Towards more Contextual Agents: An extractor-Generator Optimization Framework [0.0]
LLM(Large Language Model)ベースのエージェントは、幅広い汎用アプリケーションにわたる複雑なタスクの解決に顕著な成功を収めている。
しかしながら、それらのパフォーマンスは、専門産業や研究領域のようなコンテキスト固有のシナリオで劣化することが多い。
この課題に対処するため,本研究では,LLMエージェントの文脈適応性を高めるための体系的アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-18T15:07:06Z) - Think Beyond Size: Adaptive Prompting for More Effective Reasoning [0.0]
本稿では,動的かつ反復的なフレームワークであるAdaptive Promptingを紹介する。
その結果、Adaptive Promptingは、算術的推論(GSM8K、MultiArithm)、論理的推論、コモンセンスタスクなど、様々な推論ベンチマークのパフォーマンスを著しく向上させることを示した。
提案手法は,計算効率を維持しつつ,GPT-4などの大規模モデルと競合する性能を実現する。
論文 参考訳(メタデータ) (2024-10-10T17:14:36Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - PhaseEvo: Towards Unified In-Context Prompt Optimization for Large
Language Models [9.362082187605356]
本稿では、LLMの生成能力と進化アルゴリズムのグローバル検索能力を組み合わせた効率的な自動プロンプト最適化フレームワークであるPhaseEvoについて述べる。
PhaseEvoは、優れた効率を維持しながら、最先端のベースライン手法を大きなマージンで大幅に上回っている。
論文 参考訳(メタデータ) (2024-02-17T17:47:10Z) - EvoPrompt: Connecting LLMs with Evolutionary Algorithms Yields Powerful Prompt Optimizers [67.64162164254809]
EvoPromptは離散的なプロンプト最適化のためのフレームワークである。
進化的アルゴリズム(EA)の概念は、優れた性能と高速収束を示すものである。
人為的なプロンプトと既存の方法で自動プロンプト生成を著しく上回っている。
論文 参考訳(メタデータ) (2023-09-15T16:50:09Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。