論文の概要: Enhancing LLM Instruction Following: An Evaluation-Driven Multi-Agentic Workflow for Prompt Instructions Optimization
- arxiv url: http://arxiv.org/abs/2601.03359v1
- Date: Tue, 06 Jan 2026 19:02:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:22.980146
- Title: Enhancing LLM Instruction Following: An Evaluation-Driven Multi-Agentic Workflow for Prompt Instructions Optimization
- Title(参考訳): LLMインストラクションの強化: Promptインストラクション最適化のための評価駆動型マルチエージェントワークフロー
- Authors: Alberto Purpura, Li Wang, Sahil Badyal, Eugenio Beaufrand, Adam Faulkner,
- Abstract要約: 大規模言語モデル(LLM)は、しばしば実質的な関連性のあるコンテンツを生成するが、形式的な制約に従わない。
本稿では,その制約からタスク記述の最適化を分離する,新しいマルチエージェントワークフローを提案する。
- 参考スコア(独自算出の注目度): 2.9203730377983654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) often generate substantively relevant content but fail to adhere to formal constraints, leading to outputs that are conceptually correct but procedurally flawed. Traditional prompt refinement approaches focus on rephrasing the description of the primary task an LLM has to perform, neglecting the granular constraints that function as acceptance criteria for its response. We propose a novel multi-agentic workflow that decouples optimization of the primary task description from its constraints, using quantitative scores as feedback to iteratively rewrite and improve them. Our evaluation demonstrates this method produces revised prompts that yield significantly higher compliance scores from models like Llama 3.1 8B and Mixtral-8x 7B.
- Abstract(参考訳): 大規模言語モデル(LLM)は、しばしば実質的な関連コンテンツを生成するが、形式的な制約に従わないため、概念的には正しいが手続き的に欠陥のある出力につながる。
従来の即時改善アプローチは、LLMが実行しなければならない主要なタスクの記述を言い換えることに重点を置いており、その応答の受け入れ基準として機能する粒度の制約を無視している。
本稿では,その制約から主タスク記述の最適化を分離し,定量的スコアをフィードバックとして繰り返し書き直し,改善する,新しいマルチエージェントワークフローを提案する。
評価の結果,Llama 3.1 8B や Mixtral-8x 7B などのモデルでは,コンプライアンススコアが大幅に向上する修正プロンプトが得られた。
関連論文リスト
- In-Place Feedback: A New Paradigm for Guiding LLMs in Multi-Turn Reasoning [10.138497038893096]
LLMの以前の応答を直接編集する新しいインタラクションパラダイムであるin-place feedbackを導入する。
推論集約型ベンチマークの実証評価により、インプレースフィードバックは従来のマルチターンフィードバックよりも優れたパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2025-10-01T11:16:04Z) - Rethinking Prompt Optimization: Reinforcement, Diversification, and Migration in Blackbox LLMs [10.434732630519377]
本稿では,フィードバック機構の強化を主眼とした新しい自動プロンプト最適化(APO)フレームワークを提案する。
LLM生成したフィードバックに固有のノイズを軽減するため,フィードバックの多様化という手法を導入する。
我々のアプローチは、強いベースラインを一貫して上回り、大幅な精度の向上、より高速な収束、計算コストの低減を実現している。
論文 参考訳(メタデータ) (2025-07-14T00:20:14Z) - Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [65.18157595903124]
本研究では任意のプロンプトの反復的近似評価について検討する。
Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。
MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文 参考訳(メタデータ) (2025-07-07T03:20:52Z) - Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models [48.15777554876988]
伝統的なアライメント手法では、しばしば大きな事前訓練されたモデルを再訓練する必要がある。
本稿では,アライメント処理を重要サンプリングの一種として形式化する新しいtextitResidual Alignment Model (textitRAM) を提案する。
本稿では,トークンレベルの復号化を反復的に行う再サンプリングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-05-26T08:53:02Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Towards Hierarchical Multi-Agent Workflows for Zero-Shot Prompt Optimization [19.200989737492595]
大規模言語モデル(LLM)は、ユーザの質問に答える上で大きな進歩を見せている。
LLMの出力の品質はプロンプト設計に大きく依存しており、優れたプロンプトによってLLMが非常に難しい問題に正しく答えられる可能性がある。
LLMの階層構造を提案し、まず、正確な指示と正確な単語を階層的に生成し、次に、このプロンプトを用いてユーザクエリの最終回答を生成する。
論文 参考訳(メタデータ) (2024-05-30T17:05:45Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。