Fugu-MT 論文翻訳(概要): A High-Quality Text-Rich Image Instruction Tuning Dataset via Hybrid Instruction Generation

論文の概要: A High-Quality Text-Rich Image Instruction Tuning Dataset via Hybrid Instruction Generation

arxiv url: http://arxiv.org/abs/2412.16364v1
Date: Fri, 20 Dec 2024 21:55:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-24 19:42:47.877875
Title: A High-Quality Text-Rich Image Instruction Tuning Dataset via Hybrid Instruction Generation
Title（参考訳）: ハイブリッドインストラクション生成による高画質テキストリッチ画像インストラクションチューニングデータセット
Authors: Shijie Zhou, Ruiyi Zhang, Yufan Zhou, Changyou Chen,
Abstract要約: 大規模なマルチモーダルモデルは、不十分なトレーニングデータのために、まだテキストリッチなイメージに苦戦している。 Self-Instructは、命令データを生成するためのアノテーションのない方法を提供するが、その品質は劣っている。
参考スコア（独自算出の注目度）: 45.40016648498223
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large multimodal models still struggle with text-rich images because of inadequate training data. Self-Instruct provides an annotation-free way for generating instruction data, but its quality is poor, as multimodal alignment remains a hurdle even for the largest models. In this work, we propose LLaVAR-2, to enhance multimodal alignment for text-rich images through hybrid instruction generation between human annotators and large language models. Specifically, it involves detailed image captions from human annotators, followed by the use of these annotations in tailored text prompts for GPT-4o to curate a dataset. It also implements several mechanisms to filter out low-quality data, and the resulting dataset comprises 424k high-quality pairs of instructions. Empirical results show that models fine-tuned on this dataset exhibit impressive enhancements over those trained with self-instruct data.
Abstract（参考訳）: 大規模なマルチモーダルモデルは、不十分なトレーニングデータのために、まだテキストリッチなイメージに苦戦している。 Self-Instructは、命令データを生成するためのアノテーションのない方法を提供するが、その品質は劣っている。本研究では,人間のアノテータと大規模言語モデルとのハイブリッド命令生成により,テキストリッチな画像のマルチモーダルアライメントを向上させるLLaVAR-2を提案する。具体的には、人間のアノテーションからの詳細な画像キャプションと、GPT-4oがデータセットをキュレートするための調整されたテキストプロンプトにこれらのアノテーションが使用される。また、低品質データをフィルタリングするいくつかのメカニズムを実装し、その結果のデータセットは424kの高品質な命令からなる。実験結果から、このデータセットに微調整されたモデルでは、自己インストラクションデータでトレーニングされたモデルよりも大幅に強化されていることが示されている。

関連論文リスト

Towards Visual Text Grounding of Multimodal Large Language Model [88.0588924255417]
本稿では,テキストリッチな画像グラウンドのベンチマークを行うための命令データセットを新たに設計した新しいタスクであるTRIGを紹介する。具体的には,OCR-LLM-ヒューマンインタラクションパイプラインを提案し,800の注釈付き質問応答ペアをベンチマークとして作成する。提案したベンチマークによる各種MLLMの包括的評価は,テキストリッチな画像上でのグラウンド化能力の大幅な制限を明らかにする。
論文参考訳（メタデータ） (2025-04-07T12:01:59Z)
FullAnno: A Data Engine for Enhancing Image Comprehension of MLLMs [58.95386070800286]
FullAnnoは、大規模で高品質できめ細かい画像アノテーションを生成するデータエンジンである。我々はFullAnnoシステムを用いてCOCOデータセットとVisual Genomeデータセットを再注釈した。実験により、再生したアノテーションは、複数のベンチマークでLLaVA-v1.5の能力を著しく向上できることが示された。
論文参考訳（メタデータ） (2024-09-20T14:33:17Z)
DOCCI: Descriptions of Connected and Contrasting Images [58.377060316967864]
Connected and Contrasting Images (DOCCI) は、15k画像のための長い人間の注釈付き英語記述のデータセットである。我々は、画像毎の包括的な記述を作成するよう、人間のアノテータに指示する。 DOCCIはテキスト・画像生成に有用なテストベッドであることを示す。
論文参考訳（メタデータ） (2024-04-30T17:56:24Z)
Paragraph-to-Image Generation with Information-Enriched Diffusion Model [67.9265336953134]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文参考訳（メタデータ） (2023-11-24T05:17:01Z)
Leveraging Unpaired Data for Vision-Language Generative Models via Cycle Consistency [47.3163261953469]
現在の視覚言語生成モデルは、最適な性能と一般化能力を達成するために、ペア画像テキストデータの拡張コーパスに依存している。サイクル整合性の概念に基づく革新的なトレーニングパラダイムであるITITを導入する。 ITITは、分離された画像とテキストデコーダを備えたジョイントな画像テキストエンコーダで構成され、単一のフレームワークで双方向の画像テキスト生成とテキスト画像生成を可能にする。
論文参考訳（メタデータ） (2023-10-05T17:55:19Z)
LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding [85.39419609430453]
この作業は、テキストリッチなイメージで現在のビジュアルインストラクションチューニングパイプラインを強化する。まず、公開されたOCRツールを使用して、LAIONデータセットから422Kテキストリッチイメージの結果を収集します。我々は、認識されたテキストと画像キャプションを持つテキストのみのGPT-4に16Kの会話を生成するよう促す。
論文参考訳（メタデータ） (2023-06-29T17:08:16Z)
WuDaoMM: A large-scale Multi-Modal Dataset for Pre-training models [2.603259641572195]
我々はWuDaoMMという大規模マルチモーダルコーパスを導入し、6億5000万以上の画像テキストペアを網羅した。画像とキャプションの相関が弱い複数のWebページから、約6億のデータを収集する。また、WuDaoMMのベースバージョンを500万の強相関画像テキストペアでリリースし、一般的なクロスモーダルモデル事前トレーニングをサポートするのに十分です。
論文参考訳（メタデータ） (2022-03-22T06:12:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。