論文の概要: VisuCraft: Enhancing Large Vision-Language Models for Complex Visual-Guided Creative Content Generation via Structured Information Extraction
- arxiv url: http://arxiv.org/abs/2508.02890v1
- Date: Mon, 04 Aug 2025 20:36:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.679242
- Title: VisuCraft: Enhancing Large Vision-Language Models for Complex Visual-Guided Creative Content Generation via Structured Information Extraction
- Title(参考訳): VisuCraft:構造化情報抽出による複雑な視覚誘導創造コンテンツ生成のための大規模ビジョンランゲージモデルの実現
- Authors: Rongxin Jiang, Robert Long, Chenghao Gu, Mingrui Yan,
- Abstract要約: VisuCraftは、複雑な視覚誘導のクリエイティブコンテンツ生成におけるLVLM(Large Vision-Language Models)の機能を強化するために設計された、新しいフレームワークである。
この結果から,創造性や指示の順応性,視覚的基盤,ユーザ整合性のある長文の創造的テキスト作成における VisuCraft の有効性を検証した。
- 参考スコア(独自算出の注目度): 1.8880253210887832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces VisuCraft, a novel framework designed to significantly enhance the capabilities of Large Vision-Language Models (LVLMs) in complex visual-guided creative content generation. Existing LVLMs often exhibit limitations in maintaining high visual fidelity, genuine creativity, and precise adherence to nuanced user instructions when generating long-form texts. VisuCraft addresses these challenges by integrating a multimodal structured information extractor (E) and a dynamic prompt generation module (G). The extractor distills fine-grained visual attributes from input images into a rich, structured representation, which the dynamic prompt module then combines with user instructions to create highly optimized prompts for underlying LVLMs (e.g., LLaVA, InstructBLIP). Evaluated on the self-constructed ImageStoryGen-500K dataset using VisuGen Metrics (Visual Grounding, Creativity, and Instruction Adherence), VisuCraft consistently outperforms baseline LVLMs across tasks like story generation and poetry composition. Our results demonstrate remarkable improvements, particularly in creativity and instruction adherence, validating VisuCraft's effectiveness in producing imaginative, visually grounded, and user-aligned long-form creative text. This work unlocks new potential for LVLMs in sophisticated creative AI applications.
- Abstract(参考訳): 本稿では,複雑な視覚誘導型クリエイティブコンテンツ生成におけるLVLM(Large Vision-Language Models)の機能向上を目的とした,新しいフレームワークであるVisuCraftを紹介する。
既存のLVLMは、長い形式のテキストを生成する際に、高い視覚的忠実さ、真の創造性、微妙なユーザー指示への厳密な固執の限界をしばしば示している。
VisuCraftは、マルチモーダル構造化情報抽出器(E)と動的プロンプト生成モジュール(G)を統合することで、これらの課題に対処する。
抽出器は入力画像からのきめ細かい視覚特性をリッチで構造化された表現に蒸留し、それを動的プロンプトモジュールがユーザ命令と組み合わせて、基礎となるLVLM(例えば、LLaVA、InstructBLIP)に対して高度に最適化されたプロンプトを生成する。
VisuGen Metrics(Visual Grounding, Creativity, Instruction Adherence)を使用して、自作のImageStoryGen-500Kデータセットを評価し、ストーリー生成や詩の合成といったタスクで、ベースラインのLVLMを一貫して上回ります。
この結果から,創造性や指示の順応性,視覚的基盤,ユーザ整合性のある長文の創造的テキスト作成における VisuCraft の有効性を検証した。
この作業は、洗練されたクリエイティブAIアプリケーションにおけるLVLMの新たなポテンシャルを解放する。
関連論文リスト
- Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning [125.79428219851289]
Inst-ITは、明示的な視覚的プロンプトインストラクションチューニングを通じてインスタンス理解におけるLMMを強化するソリューションである。
Inst-ITは、マルチモーダルなインスタンスレベルの理解を診断するためのベンチマーク、大規模命令チューニングデータセット、継続的命令チューニングトレーニングパラダイムで構成されている。
論文 参考訳(メタデータ) (2024-12-04T18:58:10Z) - GLDesigner: Leveraging Multi-Modal LLMs as Designer for Enhanced Aesthetic Text Glyph Layouts [53.568057283934714]
本稿では,コンテンツ対応のテキストロゴレイアウトを生成するVLM(Vision-Language Model)ベースのフレームワークを提案する。
本稿では,複数のグリフ画像を同時に処理するための計算コストを削減する2つのモデル手法を提案する。
本モデルでは,既存の公開データセットの5倍の広義のテキストロゴデータセットを2つ構築する。
論文 参考訳(メタデータ) (2024-11-18T10:04:10Z) - LLaVA-SG: Leveraging Scene Graphs as Visual Semantic Expression in Vision-Language Models [9.936172224069036]
大規模視覚言語モデル(VLM)におけるシーングラフ表現(SGE)モジュールについて紹介する。
SGEモジュールは、画像内の複雑な意味情報を抽出し、構造的に表現する。
SGEモジュールの統合は視覚言語タスクにおけるVLMの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-08-29T02:43:20Z) - Instruction Tuning-free Visual Token Complement for Multimodal LLMs [51.138806401996696]
マルチモーダルな大言語モデル(MLLM)は、視覚と言語の間のエレガントな橋渡しを約束している。
本稿では,MLLM が欠落した視覚機能を取り戻すのに役立つ Visual Token Complement フレームワーク (VTC) を提案する。
我々のVTCは、テキスト不関連特徴を特定するためのガイドとしてテキスト・ツー・イメージ生成を統合し、視覚的セレクタを開発し、補完的な視覚的トークンを生成する。
論文 参考訳(メタデータ) (2024-08-09T12:13:01Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々はDraw-and-Understandフレームワークを提案し、視覚的プロンプト理解機能をMLLM(Multimodal Large Language Models)に統合する方法を探る。
視覚的なプロンプトにより、ユーザーはマルチモーダルなインストラクションを通じて対話することができ、モデルの対話性ときめ細かなイメージ理解を高めることができる。
本稿では,様々な学習済みMLLMに適応し,様々な視覚的プロンプトを認識可能な汎用アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。