論文の概要: Harmonizing Visual Text Comprehension and Generation
- arxiv url: http://arxiv.org/abs/2407.16364v1
- Date: Tue, 23 Jul 2024 10:11:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 17:36:04.722210
- Title: Harmonizing Visual Text Comprehension and Generation
- Title(参考訳): 視覚テキストの理解と生成の調和
- Authors: Zhen Zhao, Jingqun Tang, Binghong Wu, Chunhui Lin, Shu Wei, Hao Liu, Xin Tan, Zhizhong Zhang, Can Huang, Yuan Xie,
- Abstract要約: 視覚テキストの理解と生成に長けた,統一的で汎用的なマルチモーダル生成モデルであるTextHarmonyを提案する。
我々は,多モード生成空間を部分的に分離して,モダリティ特化およびモダリティ非依存のLoRAエキスパートを集約するSlide-LoRAを提案する。
Slide-LoRAは特異モデルインスタンス内の視覚と言語の生成を調和させ、より統一された生成プロセスを促進する。
- 参考スコア(独自算出の注目度): 31.605599298507293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present TextHarmony, a unified and versatile multimodal generative model proficient in comprehending and generating visual text. Simultaneously generating images and texts typically results in performance degradation due to the inherent inconsistency between vision and language modalities. To overcome this challenge, existing approaches resort to modality-specific data for supervised fine-tuning, necessitating distinct model instances. We propose Slide-LoRA, which dynamically aggregates modality-specific and modality-agnostic LoRA experts, partially decoupling the multimodal generation space. Slide-LoRA harmonizes the generation of vision and language within a singular model instance, thereby facilitating a more unified generative process. Additionally, we develop a high-quality image caption dataset, DetailedTextCaps-100K, synthesized with a sophisticated closed-source MLLM to enhance visual text generation capabilities further. Comprehensive experiments across various benchmarks demonstrate the effectiveness of the proposed approach. Empowered by Slide-LoRA, TextHarmony achieves comparable performance to modality-specific fine-tuning results with only a 2% increase in parameters and shows an average improvement of 2.5% in visual text comprehension tasks and 4.0% in visual text generation tasks. Our work delineates the viability of an integrated approach to multimodal generation within the visual text domain, setting a foundation for subsequent inquiries.
- Abstract(参考訳): 本研究では,視覚テキストの理解と生成に熟練した,統一的で汎用的な多モード生成モデルであるTextHarmonyを提案する。
画像とテキストを同時に生成すると、視覚と言語モダリティの固有の矛盾により、パフォーマンスが劣化する。
この課題を克服するため、既存のアプローチでは、個別のモデルインスタンスを必要とする、教師付き微調整のためのモダリティ固有のデータを活用している。
マルチモーダル生成空間を部分的に分離し,モダリティ特化およびモダリティ非依存のLoRAエキスパートを動的に集約するSlide-LoRAを提案する。
Slide-LoRAは特異モデルインスタンス内の視覚と言語の生成を調和させ、より統一された生成プロセスを促進する。
さらに,高品質な画像キャプションデータセットであるDetailedTextCaps-100Kを開発した。
様々なベンチマークによる総合的な実験により,提案手法の有効性が示された。
Slide-LoRAにインスパイアされたTextHarmonyは、パラメータがわずか2%増加し、ビジュアルテキスト理解タスクが2.5%、ビジュアルテキスト生成タスクが4.0%改善した。
本研究は,視覚テキスト領域におけるマルチモーダル生成への統合的アプローチの実現可能性について述べる。
関連論文リスト
- TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - Towards Multi-Task Multi-Modal Models: A Video Generative Perspective [5.495245220300184]
この論文は、さまざまな条件下でビデオやその他のモダリティを生成するマルチタスクモデルを構築するために、我々の努力を年代記している。
我々は、視覚的観察と解釈可能な語彙の双方向マッピングのための新しいアプローチを公表する。
私たちのスケーラブルなビジュアルトークン表現は、生成、圧縮、理解タスクで有益であることが証明されます。
論文 参考訳(メタデータ) (2024-05-26T23:56:45Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - COSMO: COntrastive Streamlined MultimOdal Model with Interleaved
Pre-Training [119.03392147066093]
近年の自己回帰視覚言語モデルは, テキスト生成タスクでは優れているが, アライメントタスクでは課題に直面している。
テキスト生成モデルに対照的な損失を導入し,言語モデルを専用テキスト処理と適応型マルチモーダルデータ処理コンポーネントに分割する。
このギャップを埋めるために、この研究は、包括的なキャプションを備えた最初のインターリーブ付きビデオテキストデータセットであるVideoDatasetNameを導入した。
論文 参考訳(メタデータ) (2024-01-01T18:58:42Z) - MiniGPT-5: Interleaved Vision-and-Language Generation via Generative Vokens [22.802963850131306]
生成ボケンの概念を主軸とした,新たなインターリーブ型視覚・言語生成手法を提案する。
本手法は,記述自由なマルチモーダル生成のためのユニークな2段階学習戦略によって特徴付けられる。
我々のモデルであるMiniGPT-5は、マルチモーダル生成データセットのベースラインモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-10-03T17:49:04Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - ZRIGF: An Innovative Multimodal Framework for Zero-Resource
Image-Grounded Dialogue Generation [17.310200022696016]
ZRIGFは2段階の学習戦略を実装し、対照的な事前学習と生成的事前学習を含む。
テキストベースと画像グラウンドの対話データセットを用いた総合的な実験は、ZRIGFが文脈的に関連する情報的応答を生成するのに有効であることを示す。
論文 参考訳(メタデータ) (2023-08-01T09:28:36Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - MuRAG: Multimodal Retrieval-Augmented Generator for Open Question
Answering over Images and Text [58.655375327681774]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。
MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。
以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-10-06T13:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。