論文の概要: Vision-Driven Prompt Optimization for Large Language Models in Multimodal Generative Tasks
- arxiv url: http://arxiv.org/abs/2501.02527v1
- Date: Sun, 05 Jan 2025 13:01:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:07:16.392611
- Title: Vision-Driven Prompt Optimization for Large Language Models in Multimodal Generative Tasks
- Title(参考訳): マルチモーダル生成タスクにおける大規模言語モデルの視覚駆動型プロンプト最適化
- Authors: Leo Franklin, Apiradee Boonmee, Kritsada Wongsuwan,
- Abstract要約: 視覚駆動型プロンプト最適化(VDPO)は、高忠実度画像合成を導く視覚入力からテキストプロンプトを生成する。
VDPOは既存の手法を一貫して上回り、FID、LPIPS、BLEU/CIDErスコアを大幅に改善した。
人間の評価は、視覚的に魅力的でセマンティックにコヒーレントな出力を生成する上で、VDPOの実用的優位性をさらに検証する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Vision generation remains a challenging frontier in artificial intelligence, requiring seamless integration of visual understanding and generative capabilities. In this paper, we propose a novel framework, Vision-Driven Prompt Optimization (VDPO), that leverages Large Language Models (LLMs) to dynamically generate textual prompts from visual inputs, guiding high-fidelity image synthesis. VDPO combines a visual embedding prompt tuner, a textual instruction generator, and a vision generation module to achieve state-of-the-art performance in diverse vision generation tasks. Extensive experiments on benchmarks such as COCO and Sketchy demonstrate that VDPO consistently outperforms existing methods, achieving significant improvements in FID, LPIPS, and BLEU/CIDEr scores. Additional analyses reveal the scalability, robustness, and generalization capabilities of VDPO, making it a versatile solution for in-domain and out-of-domain tasks. Human evaluations further validate the practical superiority of VDPO in generating visually appealing and semantically coherent outputs.
- Abstract(参考訳): 視覚生成は、人工知能における挑戦的なフロンティアであり、視覚的理解と生成能力のシームレスな統合を必要としている。
本稿では,Large Language Models (LLM) を利用して視覚入力からテキストプロンプトを動的に生成し,高忠実度画像合成を導く,視覚駆動型プロンプト最適化(VDPO)を提案する。
VDPOは、様々な視覚生成タスクで最先端のパフォーマンスを達成するために、視覚埋め込みプロンプトチューナー、テキスト命令生成器、およびビジョン生成モジュールを組み合わせる。
COCOやSketchyのようなベンチマークの大規模な実験は、VDPOが既存の手法より一貫して優れており、FID、LPIPS、BLEU/CIDErのスコアを大幅に改善していることを示している。
さらなる分析により、VDPOのスケーラビリティ、堅牢性、一般化能力が明らかになり、ドメイン内およびドメイン外タスクに汎用的なソリューションとなった。
人間の評価は、視覚的に魅力的でセマンティックにコヒーレントな出力を生成する上で、VDPOの実用的優位性をさらに検証する。
関連論文リスト
- VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。
VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。
様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2024-10-21T18:10:26Z) - VL-GLUE: A Suite of Fundamental yet Challenging Visuo-Linguistic Reasoning Tasks [48.67062958311173]
VL-GLUEは、自然言語理解のためのマルチタスクベンチマークである。
既存の大規模視覚言語モデルでは,このベンチマークは非常に難しい。
論文 参考訳(メタデータ) (2024-10-17T15:27:17Z) - Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - Question Aware Vision Transformer for Multimodal Reasoning [14.188369270753347]
マルチモーダル推論のための質問認識型視覚変換器QA-ViTを提案する。
視覚エンコーダに直接質問認識を埋め込む。
この統合により、仮定された問題に関連性のある画像の側面に焦点を当てた動的視覚的特徴が得られる。
論文 参考訳(メタデータ) (2024-02-08T08:03:39Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - Delving into Multimodal Prompting for Fine-grained Visual Classification [57.12570556836394]
細粒度視覚分類(FGVC)は、より広いカテゴリーの細分化を分類する。
事前学習型視覚言語モデルの最近の進歩は、様々なハイレベル視覚タスクにおいて顕著な性能を示している。
対照的な言語画像サブカテゴリ(CLIP)モデルに基づいて,MP-FGVCと呼ばれる新しいマルチモーダルプロンプトソリューションを提案する。
論文 参考訳(メタデータ) (2023-09-16T07:30:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。