論文の概要: When Gradients Collide: Failure Modes of Multi-Objective Prompt Optimization for LLM Judges
- arxiv url: http://arxiv.org/abs/2605.26046v1
- Date: Mon, 25 May 2026 17:08:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.538232
- Title: When Gradients Collide: Failure Modes of Multi-Objective Prompt Optimization for LLM Judges
- Title(参考訳): 衝突時の勾配: LLM判事のための多目的プロンプト最適化の故障モード
- Authors: Parth Darshan, Abhishek Divekar,
- Abstract要約: テキスト勾配法は多目的テキスト勾配設定には適用されないことを示す。
勾配特異性は、勾配が複数の基準を共同で処理するときに59%(9.0から3.7まで)低下する。
最適化時勾配解法と推論時命令干渉の2つの分離可能な障害モードを同定する。
- 参考スコア(独自算出の注目度): 0.3580891736370874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Customizing an LLM judge to a specific task or domain often involves optimizing its prompt across multiple evaluation criteria simultaneously. Textual gradient methods automate this for a single judge criterion, however they produce natural-language critiques, not numerical vectors. Thus, the conflict-resolution toolkit of multi-task learning (PCGrad, MGDA) doesn't apply to the multi-objective textual gradient setting. We test five decomposition modes of textual gradient optimizers by varying how much cross-task information the loss, gradient and optimizer LLMs share. In 6 of 10 configurations, we observe that optimization never improves over the initial prompt. Gradient specificity drops by 59% (from 9.0 to 3.7) when the gradient LLM processes multiple criteria jointly. Separately, we observe that naively combining per-task instructions into a single prompt degrades Spearman's rho by -5.3%. These results identify two separable failure modes: optimization-time gradient dilution and inference-time instruction interference, which together constrain the design space for multi-objective judge customization using textual feedback.
- Abstract(参考訳): LLMの判断を特定のタスクやドメインにカスタマイズするには、複数の評価基準をまたいでプロンプトを最適化する必要があることが多い。
テキスト勾配法は、これを1つの判断基準に対して自動化するが、数値ベクトルではなく自然言語批判を生成する。
したがって、マルチタスク学習(PCGrad, MGDA)のコンフリクト分解ツールキットは、多目的テキスト勾配設定には適用されない。
我々は,テキスト勾配最適化器の5つの分解モードを,損失,勾配,最適化器がどの程度の確率で共有されているかによって検証する。
10のコンフィグレーションのうち6つでは、初期プロンプトよりも最適化が改善されないことが観察される。
勾配 LLM が複数の基準を共同で処理すると、勾配特異度は59%低下する(9.0から3.7)。
個別に、タスク毎の命令を1つのプロンプトに鼻で組み合わせることで、スピアマンのローを5.3%低下させる。
これらの結果から,最適化時勾配解法と推論時命令干渉法という2つの分離可能な障害モードが同定された。
関連論文リスト
- DetPO: In-Context Learning with Multi-Modal LLMs for Few-Shot Object Detection [39.153744982595036]
勾配のないテスト時間最適化手法である検出プロンプト最適化(DetPO)を提案する。
提案手法は,Roboflow20-VLおよびLVIS上の一般MLLMに対して一貫した改善をもたらす。
論文 参考訳(メタデータ) (2026-03-24T17:26:55Z) - AIME: AI System Optimization via Multiple LLM Evaluators [79.03422337674664]
AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。
コード生成タスクにおける AIME のベースラインメソッドのパフォーマンスは,LeetCodeHard と HumanEval データセットの単一 LLM 評価プロトコルよりも最大 62% 高いエラー検出率,最大 16% 高い成功率で向上している。
論文 参考訳(メタデータ) (2024-10-04T04:03:24Z) - LLM as a Complementary Optimizer to Gradient Descent: A Case Study in Prompt Tuning [69.95292905263393]
グラデーションベースとハイレベルなLLMは、協調最適化フレームワークを効果的に組み合わせることができることを示す。
本稿では,これらを相互に補完し,組み合わせた最適化フレームワークを効果的に連携させることができることを示す。
論文 参考訳(メタデータ) (2024-05-30T06:24:14Z) - PRompt Optimization in Multi-Step Tasks (PROMST): Integrating Human Feedback and Heuristic-based Sampling [20.0605311279483]
マルチステップタスク(PROMST)におけるPRompt Optimizationを導入する。
人間が設計したフィードバックルールを組み込んで、改善のための直接提案を自動的に提供する。
これは、人間工学的なプロンプトと、他のいくつかのプロンプト最適化手法の両方において、11の代表的なマルチステップタスクよりも大幅に優れている。
論文 参考訳(メタデータ) (2024-02-13T16:38:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。