論文の概要: UniAPO: Unified Multimodal Automated Prompt Optimization
- arxiv url: http://arxiv.org/abs/2508.17890v1
- Date: Mon, 25 Aug 2025 10:56:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.739722
- Title: UniAPO: Unified Multimodal Automated Prompt Optimization
- Title(参考訳): UniAPO: 統一マルチモーダル自動プロンプト最適化
- Authors: Qipeng Zhu, Yanzhe Chen, Huasong Zhong, Yan Li, Jie Chen, Zhixin Zhang, Junping Zhang, Zhenheng Yang,
- Abstract要約: 提案するUniAPO: Unified Multimodal Automated Prompt Optimizationは,マルチモーダルAPOに適した最初のフレームワークである。
UniAPOはテキスト、画像、ビデオベンチマーク間の一貫性のあるゲインを緩和し、効率的かつ転送可能なプロンプト最適化のための統一されたフレームワークを確立する。
- 参考スコア(独自算出の注目度): 37.74430773789572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompting is fundamental to unlocking the full potential of large language models. To automate and enhance this process, automatic prompt optimization (APO) has been developed, demonstrating effectiveness primarily in text-only input scenarios. However, extending existing APO methods to multimodal tasks, such as video-language generation introduces two core challenges: (i) visual token inflation, where long visual token sequences restrict context capacity and result in insufficient feedback signals; (ii) a lack of process-level supervision, as existing methods focus on outcome-level supervision and overlook intermediate supervision, limiting prompt optimization. We present UniAPO: Unified Multimodal Automated Prompt Optimization, the first framework tailored for multimodal APO. UniAPO adopts an EM-inspired optimization process that decouples feedback modeling and prompt refinement, making the optimization more stable and goal-driven. To further address the aforementioned challenges, we introduce a short-long term memory mechanism: historical feedback mitigates context limitations, while historical prompts provide directional guidance for effective prompt optimization. UniAPO achieves consistent gains across text, image, and video benchmarks, establishing a unified framework for efficient and transferable prompt optimization.
- Abstract(参考訳): プロンプティングは、大きな言語モデルの完全な可能性を解き放つための基本である。
このプロセスを自動化し、強化するために、自動プロンプト最適化(APO)が開発され、主にテキストのみの入力シナリオにおいて効果が示された。
しかし、ビデオ言語生成など、既存のAPOメソッドをマルチモーダルタスクに拡張することは、2つの主要な課題をもたらす。
一 長期の視覚的トークンシーケンスが文脈容量を制限し、フィードバック信号が不十分な視覚的トークンインフレーション
(II)プロセスレベルの監督の欠如。既存の手法は結果レベルの監督に焦点を合わせ、中間的な監督を見落とし、迅速な最適化を制限している。
提案するUniAPO: Unified Multimodal Automated Prompt Optimizationは,マルチモーダルAPOに適した最初のフレームワークである。
UniAPOはEMにインスパイアされた最適化プロセスを採用しており、フィードバックのモデリングと改善の促進を両立させ、最適化をより安定して目標駆動にしている。
上記の課題にさらに対処するために,過去フィードバックがコンテキスト制限を緩和する一方,過去のプロンプトは効果的なプロンプト最適化のための方向性ガイダンスを提供するという,短期記憶機構を導入する。
UniAPOはテキスト、画像、ビデオのベンチマークで一貫したゲインを実現し、効率的な転送可能なプロンプト最適化のための統一されたフレームワークを確立する。
関連論文リスト
- P3: Prompts Promote Prompting [26.16464064171255]
大規模言語モデル(LLM)アプリケーションはシステムとユーザの両方のプロンプトを含む複数のコンポーネントのプロンプトを使用することが多い。
本稿では,システムとユーザの両方のプロンプトを同時に最適化する,新しい自己改善フレームワークであるP3を紹介する。
一般タスクに関する大規模な実験は、P3が自動的なプロンプト最適化の領域で優れた性能を発揮することを示した。
論文 参考訳(メタデータ) (2025-07-21T14:37:46Z) - Rethinking Prompt Optimization: Reinforcement, Diversification, and Migration in Blackbox LLMs [10.434732630519377]
本稿では,フィードバック機構の強化を主眼とした新しい自動プロンプト最適化(APO)フレームワークを提案する。
LLM生成したフィードバックに固有のノイズを軽減するため,フィードバックの多様化という手法を導入する。
我々のアプローチは、強いベースラインを一貫して上回り、大幅な精度の向上、より高速な収束、計算コストの低減を実現している。
論文 参考訳(メタデータ) (2025-07-14T00:20:14Z) - ORPP: Self-Optimizing Role-playing Prompts to Enhance Language Model Capabilities [64.24517317344959]
複雑なタスクにおいて、大きな言語モデルから優れたパフォーマンスを引き出すためには、高品質なプロンプトが不可欠である。
本稿では,ロールプレイングプロンプトの最適化と生成によりモデル性能を向上させるフレームワークORPPを提案する。
ORPPは一致しただけでなく、ほとんどの場合、性能の点で既存の主流のプロンプト最適化手法を上回ります。
論文 参考訳(メタデータ) (2025-06-03T05:51:35Z) - GAPO: Learning Preferential Prompt through Generative Adversarial Policy Optimization [28.85371253733727]
本稿では,GAPO(Generative Adversarial Policy Optimization)を紹介する。GAPOは,GANベースのトレーニングダイナミクスとエンコーダのみの報酬モデルを組み合わせた新しいフレームワークである。
大規模な実験では、GAPOは複数のベンチマークで優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-03-26T03:37:52Z) - M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。
本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T01:40:24Z) - mDPO: Conditional Preference Optimization for Multimodal Large Language Models [52.607764280030196]
直接選好最適化(DPO)は,大規模言語モデル(LLM)のアライメントに有効な手法であることが示されている。
最近の研究は、DPOをマルチモーダルシナリオに適用しようと試みているが、一貫した改善を達成することは困難である。
画像の嗜好を最適化することで、言語のみの嗜好の過度な優先順位付けを防止するマルチモーダルDPOであるmDPOを提案する。
論文 参考訳(メタデータ) (2024-06-17T17:59:58Z) - SEE: Strategic Exploration and Exploitation for Cohesive In-Context Prompt Optimization [8.975505323004427]
大規模言語モデル(LLM)のための新しい結合型インコンテキストプロンプト最適化フレームワークを提案する。
SEEは、メタヒューリスティック最適化の原則を採用し、戦略的に探索と活用を行うスケーラブルで効率的なプロンプト最適化フレームワークである。
SEEは最先端のベースライン法を大幅に上回り、平均性能は13.94、計算コストは58.67である。
論文 参考訳(メタデータ) (2024-02-17T17:47:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。