論文の概要: Bi-Level Prompt Optimization for Multimodal LLM-as-a-Judge
- arxiv url: http://arxiv.org/abs/2602.11340v1
- Date: Wed, 11 Feb 2026 20:22:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.525283
- Title: Bi-Level Prompt Optimization for Multimodal LLM-as-a-Judge
- Title(参考訳): マルチモーダルLCM-as-a-Judgeのバイレベルプロンプト最適化
- Authors: Bo Pan, Xuan Kan, Kaitai Zhang, Yan Yan, Shunwen Tan, Zihao He, Zixin Ding, Junjie Wu, Liang Zhao,
- Abstract要約: 大規模言語モデル(LLM)はAI生成コンテンツを評価するための自動判断器として広く採用されている。
彼らの成功にもかかわらず、LLMに基づく評価と人間の判断を合わせることは依然として困難である。
評価関連視覚的手がかりを保ちながら、画像をテキスト表現に変換する双方向プロンプト最適化フレームワークBLPOを提案する。
- 参考スコア(独自算出の注目度): 21.61898421774144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have become widely adopted as automated judges for evaluating AI-generated content. Despite their success, aligning LLM-based evaluations with human judgments remains challenging. While supervised fine-tuning on human-labeled data can improve alignment, it is costly and inflexible, requiring new training for each task or dataset. Recent progress in auto prompt optimization (APO) offers a more efficient alternative by automatically improving the instructions that guide LLM judges. However, existing APO methods primarily target text-only evaluations and remain underexplored in multimodal settings. In this work, we study auto prompt optimization for multimodal LLM-as-a-judge, particularly for evaluating AI-generated images. We identify a key bottleneck: multimodal models can only process a limited number of visual examples due to context window constraints, which hinders effective trial-and-error prompt refinement. To overcome this, we propose BLPO, a bi-level prompt optimization framework that converts images into textual representations while preserving evaluation-relevant visual cues. Our bi-level optimization approach jointly refines the judge prompt and the I2T prompt to maintain fidelity under limited context budgets. Experiments on four datasets and three LLM judges demonstrate the effectiveness of our method.
- Abstract(参考訳): 大規模言語モデル(LLM)はAI生成コンテンツを評価するための自動判断器として広く採用されている。
彼らの成功にもかかわらず、LLMに基づく評価と人間の判断を合わせることは依然として困難である。
人間のラベル付きデータの教師付き微調整はアライメントを改善することができるが、コストと柔軟性は高く、各タスクやデータセットに新たなトレーニングが必要になる。
自動プロンプト最適化(APO)の最近の進歩は、LCMの判断を導く命令を自動的に改善することで、より効率的な代替手段を提供する。
しかし、既存のAPOメソッドは主にテキストのみの評価を対象とし、マルチモーダル設定では未探索のままである。
本研究では,マルチモーダルLLM-as-a-judgeの自動プロンプト最適化,特にAI生成画像の評価について検討する。
マルチモーダルモデルは、コンテキストウインドウの制約によって限られた数の視覚的例しか処理できないため、効果的な試行錯誤処理が妨げられる。
これを解決するために,評価関連視覚的手がかりを保存しながら,画像をテキスト表現に変換する双方向プロンプト最適化フレームワークBLPOを提案する。
我々の二段階最適化アプローチは、限られた文脈予算下での公平性を維持するための判断のプロンプトとI2Tのプロンプトを共同で洗練する。
4つのデータセットと3つのLCM審査員による実験により,本手法の有効性が示された。
関連論文リスト
- UniAPO: Unified Multimodal Automated Prompt Optimization [37.74430773789572]
提案するUniAPO: Unified Multimodal Automated Prompt Optimizationは,マルチモーダルAPOに適した最初のフレームワークである。
UniAPOはテキスト、画像、ビデオベンチマーク間の一貫性のあるゲインを緩和し、効率的かつ転送可能なプロンプト最適化のための統一されたフレームワークを確立する。
論文 参考訳(メタデータ) (2025-08-25T10:56:39Z) - ProAPO: Progressively Automatic Prompt Optimization for Visual Classification [5.4945777628593016]
視覚言語モデル(VLM)は、大規模なペア画像テキストデータを用いた訓練により、画像分類に大きな進歩をもたらした。
近年の手法では,大型言語モデル(LLM)が生成する視覚的記述がVLMの一般化を促進することが示されているが,クラス固有のプロンプトはLLMの幻覚によって不正確あるいは識別に欠ける可能性がある。
本稿では,最小限の監督を要さず,かつループを含まない細粒度カテゴリに対して,視覚的に識別可能なプロンプトを見つけることを目的とする。
論文 参考訳(メタデータ) (2025-02-27T07:39:23Z) - CHiP: Cross-modal Hierarchical Direct Preference Optimization for Multimodal LLMs [107.21334626890713]
MLLM(Multimodal Large Language Models)は、その優れた能力にもかかわらず、幻覚に苦しむ。
本稿では,これらの制約に対処するクロスモーダル階層型直接選好最適化(CHiP)を提案する。
定量的および定性的な分析によってCHiPを評価し,幻覚の低減効果を複数のベンチマークで実証した。
論文 参考訳(メタデータ) (2025-01-28T02:05:38Z) - AIME: AI System Optimization via Multiple LLM Evaluators [79.03422337674664]
AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。
コード生成タスクにおける AIME のベースラインメソッドのパフォーマンスは,LeetCodeHard と HumanEval データセットの単一 LLM 評価プロトコルよりも最大 62% 高いエラー検出率,最大 16% 高い成功率で向上している。
論文 参考訳(メタデータ) (2024-10-04T04:03:24Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - On Speeding Up Language Model Evaluation [48.51924035873411]
我々はこの空間を探索するために$textitadaptive$アプローチを提案する。
我々は、マルチアームの包帯に頼り、次の(メソッド、バリデーションサンプル)ペアを順次識別して評価する。
典型的資源の5~15%のみを用いて,トップパフォーマンスの手法を同定できることを示す。
論文 参考訳(メタデータ) (2024-07-08T17:48:42Z) - Leveraging LLMs for Dialogue Quality Measurement [27.046917937460798]
大規模言語モデル(LLM)は、NLPタスク全体で堅牢なゼロショットと少数ショットの機能を提供する。
モデルサイズ,文脈内例,選択手法などの操作要因を考察し,CoT推論とラベル抽出手法について検討する。
この結果から,適切な微調整と十分な推論能力を有するLCMを自動対話評価に活用できることが示唆された。
論文 参考訳(メタデータ) (2024-06-25T06:19:47Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - PRompt Optimization in Multi-Step Tasks (PROMST): Integrating Human Feedback and Heuristic-based Sampling [20.0605311279483]
マルチステップタスク(PROMST)におけるPRompt Optimizationを導入する。
人間が設計したフィードバックルールを組み込んで、改善のための直接提案を自動的に提供する。
これは、人間工学的なプロンプトと、他のいくつかのプロンプト最適化手法の両方において、11の代表的なマルチステップタスクよりも大幅に優れている。
論文 参考訳(メタデータ) (2024-02-13T16:38:01Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。