論文の概要: MiniGPT-Reverse-Designing: Predicting Image Adjustments Utilizing MiniGPT-4
- arxiv url: http://arxiv.org/abs/2406.00971v2
- Date: Fri, 30 Aug 2024 01:50:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 19:51:26.072226
- Title: MiniGPT-Reverse-Designing: Predicting Image Adjustments Utilizing MiniGPT-4
- Title(参考訳): MiniGPT-Reverse-Designing: MiniGPT-4を用いた画像調整予測
- Authors: Vahid Azizi, Fatemeh Koochaki,
- Abstract要約: VLM(Vision-Language Models)は近年,LLM(Large Language Models)との統合によって,大幅な進歩を遂げている。
本稿では,逆設計タスクのためにMiniGPT-4を拡張し,微調整する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) have recently seen significant advancements through integrating with Large Language Models (LLMs). The VLMs, which process image and text modalities simultaneously, have demonstrated the ability to learn and understand the interaction between images and texts across various multi-modal tasks. Reverse designing, which could be defined as a complex vision-language task, aims to predict the edits and their parameters, given a source image, an edited version, and an optional high-level textual edit description. This task requires VLMs to comprehend the interplay between the source image, the edited version, and the optional textual context simultaneously, going beyond traditional vision-language tasks. In this paper, we extend and fine-tune MiniGPT-4 for the reverse designing task. Our experiments demonstrate the extensibility of off-the-shelf VLMs, specifically MiniGPT-4, for more complex tasks such as reverse designing. Code is available at this \href{https://github.com/VahidAz/MiniGPT-Reverse-Designing}
- Abstract(参考訳): VLM(Vision-Language Models)は近年,LLM(Large Language Models)との統合によって,大幅な進歩を遂げている。
画像とテキストのモダリティを同時に処理するVLMは、様々なマルチモーダルタスクにおける画像とテキスト間の相互作用を学習し、理解する能力を示している。
複雑な視覚言語タスクとして定義できるリバースデザインは、ソースイメージ、編集バージョン、オプションの高レベルテキスト編集記述を与えられたときに、編集とそのパラメータを予測することを目的としている。
このタスクでは、VLMは、ソースイメージ、編集されたバージョン、オプションのテキストコンテキスト間の相互作用を、従来の視覚言語タスクを超えて同時に理解する必要がある。
本稿では,逆設計タスクのためにMiniGPT-4を拡張し,微調整する。
本実験では, 逆設計などの複雑なタスクに対して, 市販VLM, 特にMiniGPT-4の拡張性を示す。
code is available at this \href{https://github.com/VahidAz/MiniGPT-Reverse-Designing}
関連論文リスト
- Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
Leopardは、複数のテキストリッチイメージを含む視覚言語タスクを扱うビジョン言語モデルである。
まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。
第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを開発した。
論文 参考訳(メタデータ) (2024-10-02T16:55:01Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - Joint Visual and Text Prompting for Improved Object-Centric Perception with Multimodal Large Language Models [22.545127591893028]
GPT-4VやGemini Proのようなマルチモーダル大言語モデル(MLLM)は、視覚質問回答(VQA)における人間レベルの認識の実現に課題に直面している。
これは主に、複雑な視覚的手がかりをテキスト情報や潜在的対象幻覚と効果的に統合する能力に制限があるためである。
本稿では,VQAにおけるMLLMの能力を高めるために,きめ細かい視覚情報を利用する新しいアプローチであるジョイント・ビジュアル・テキスト・プロンプティング(VTPrompt)を提案する。
論文 参考訳(メタデータ) (2024-04-06T05:59:02Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - Scaffolding Coordinates to Promote Vision-Language Coordination in Large
Multi-Modal Models [18.772045053892885]
最先端のLMM(Large Multi-Modal Models)は、視覚言語タスクにおいて例外的な機能を示す。
LMMの既存のプロンプト技術は、テキスト推論の改善や画像前処理のためのツールの活用に重点を置いている。
視覚言語コーディネートを促進するために,足場座標の促進を促すScaffoldを提案する。
論文 参考訳(メタデータ) (2024-02-19T11:23:53Z) - Vision-by-Language for Training-Free Compositional Image Retrieval [78.60509831598745]
合成画像検索(CIR)は、データベース内の関連する対象画像を検索することを目的としている。
大規模視覚言語モデル(VLM)を用いた最近の研究動向
我々は、CIReVL(Vision-by-Language)による学習自由なCIRへの取り組みを提案する。
論文 参考訳(メタデータ) (2023-10-13T17:59:38Z) - InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。
InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文 参考訳(メタデータ) (2023-09-30T14:26:43Z) - MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large
Language Models [41.84885546518666]
GPT-4は、手書きテキストから直接Webサイトを生成するなど、驚くべきマルチモーダル能力を示している。
凍結型ビジュアルエンコーダと凍結型大規模言語モデルとを協調するMiniGPT-4を提案する。
また,MiniGPT-4の新たな特徴として,与えられた画像にインスパイアされた物語や詩を書くことが挙げられる。
論文 参考訳(メタデータ) (2023-04-20T18:25:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。