Fugu-MT 論文翻訳(概要): FTII-Bench: A Comprehensive Multimodal Benchmark for Flow Text with Image Insertion

論文の概要: FTII-Bench: A Comprehensive Multimodal Benchmark for Flow Text with Image Insertion

arxiv url: http://arxiv.org/abs/2410.12564v1
Date: Wed, 16 Oct 2024 13:38:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:36.337615
Title: FTII-Bench: A Comprehensive Multimodal Benchmark for Flow Text with Image Insertion
Title（参考訳）: FTII-Bench:画像挿入によるフローテキストの総合的マルチモーダルベンチマーク
Authors: Jiacheng Ruan, Yebin Yang, Zehao Lin, Feiyu Xiong, Zeyun Tang, Zhiyu Li,
Abstract要約: Flow Text with Image Insertion Taskでは、LVLMは画像理解、命令理解、長文解釈において優れた能力を持つ必要がある。 318の高品質な中国語画像テキストニュース記事と307の高品質な英語画像テキストニュース記事を含む、画像挿入ベンチマーク付きフローテキスト(FTII-Bench)を導入し、10の異なるニュースドメインをカバーする。 9つのオープンソースと2つのクローズドソースのLVLMと2つのCLIPベースのモデルを評価した。
参考スコア（独自算出の注目度）: 7.23608073306791
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Benefiting from the revolutionary advances in large language models (LLMs) and foundational vision models, large vision-language models (LVLMs) have also made significant progress. However, current benchmarks focus on tasks that evaluating only a single aspect of LVLM capabilities (e.g., recognition, detection, understanding). These tasks fail to fully demonstrate LVLMs' potential in complex application scenarios. To comprehensively assess the performance of existing LVLMs, we propose a more challenging task called the Flow Text with Image Insertion task (FTII). This task requires LVLMs to simultaneously possess outstanding abilities in image comprehension, instruction understanding, and long-text interpretation. Specifically, given several text paragraphs and a set of candidate images, as the text paragraphs accumulate, the LVLMs are required to select the most suitable image from the candidates to insert after the corresponding paragraph. Constructing a benchmark for such a task is highly challenging, particularly in determining the sequence of flowing text and images. To address this challenge, we turn to professional news reports, which naturally contain a gold standard for image-text sequences. Based on this, we introduce the Flow Text with Image Insertion Benchmark (FTII-Bench), which includes 318 high-quality Chinese image-text news articles and 307 high-quality English image-text news articles, covering 10 different news domains. Using these 625 high-quality articles, we construct problems of two different types with multiple levels of difficulty. Furthermore, we establish two different evaluation pipelines based on the CLIP model and existing LVLMs. We evaluate 9 open-source and 2 closed-source LVLMs as well as 2 CLIP-based models. Results indicate that even the most advanced models (e.g., GPT-4o) face significant challenges when tackling the FTII task.
Abstract（参考訳）: 大規模言語モデル(LLM)と基礎視覚モデル(LVLM)の革命的進歩から恩恵を受け、大規模視覚言語モデル(LVLM)も大きな進歩を遂げた。しかしながら、現在のベンチマークでは、LVLM機能(認識、検出、理解など)の単一側面のみを評価するタスクに焦点が当てられている。これらのタスクは、複雑なアプリケーションシナリオにおけるLVLMの可能性を完全に実証することができない。既存のLVLMの性能を総合的に評価するために,画像挿入タスク付きフローテキスト (FTII) という,より困難なタスクを提案する。このタスクでは、LVLMは画像理解、命令理解、長文解釈において優れた能力を同時に持つ必要がある。具体的には、複数のテキスト段落と候補画像の集合が蓄積されている場合、LVLMは、対応する段落の後に挿入する候補から最も適した画像を選択する必要がある。このようなタスクのベンチマークを構築することは、特にフローするテキストや画像のシーケンスを決定する上で非常に難しい。この課題に対処するため、私たちは、画像テキストシーケンスのゴールド標準を当然含んでいるプロのニュースレポートに目を向ける。そこで本研究では,高品質な中国語画像テキストニュース記事318件と,高品質な英語画像テキストニュース記事307件を含む,画像挿入ベンチマーク付きフローテキスト(FTII-Bench)を紹介する。これら625の高品質な記事を用いて、複数の難易度を有する2つの異なるタイプの問題を構築する。さらに,CLIPモデルと既存のLVLMに基づく2つの評価パイプラインを構築した。 9つのオープンソースと2つのクローズドソースのLVLMと2つのCLIPベースのモデルを評価した。その結果、FTIIタスクに対処する際、最も先進的なモデル(例: GPT-4o)でさえ重大な課題に直面していることが明らかとなった。

関連論文リスト

When Vision Meets Texts in Listwise Reranking [1.2691047660244335]
Rank-Nexusは、画像とテキストの両方を組み込んだ検索リスト上で、リストワイズで定性的な再ランクを行うマルチモーダルな画像テキスト文書再ランカである。私たちはまず、大量のテキストを再ランク付けしたデータを活用して、知識をテキストブランチに抽出する、という、モダリティを個別にトレーニングします。データが少ない画像に対しては,画像検索ベンチマーク上で,マルチモーダル大言語モデル(MLLM)キャプションから蒸留ペアを構築する。
論文参考訳（メタデータ） (2026-01-28T13:57:14Z)
Vision-Free Retrieval: Rethinking Multimodal Search with Textual Scene Descriptions [81.33113485830711]
視覚言語モデルに対して,視覚のない単一エンコーダ検索パイプラインを導入する。 VLLM生成した構造化画像記述の助けを借りてテキストからテキストへ移行する。提案手法は,複数検索および構成性ベンチマークにおいて,最先端のゼロショット性能を実現する。
論文参考訳（メタデータ） (2025-09-23T16:22:27Z)
Better Reasoning with Less Data: Enhancing VLMs Through Unified Modality Scoring [26.174094671736686]
視覚的調律データセットのための品質駆動型データ選択パイプラインを提案する。クロスモダリティアセスメントフレームワークを統合し、まず各データエントリを適切な視覚言語タスクに割り当てる。一般的なキャプションとタスク固有のキャプションを生成し、各エントリのアライメント、明度、タスクのラミリティ、テキストコヒーレンス、画像の明度を評価する。
論文参考訳（メタデータ） (2025-06-10T04:04:58Z)
MLLM-Guided VLM Fine-Tuning with Joint Inference for Zero-Shot Composed Image Retrieval [50.062817677022586]
Zero-Shot Image Retrieval (ZS-CIR) メソッドは通常、参照イメージを擬似テキストトークンに変換するアダプタを訓練する。 MLLM-Guided VLM Fine-Tuning with Joint Inference (MVFT-JI) を提案する。
論文参考訳（メタデータ） (2025-05-26T08:56:59Z)
Towards Visual Text Grounding of Multimodal Large Language Model [88.0588924255417]
本稿では,テキストリッチな画像グラウンドのベンチマークを行うための命令データセットを新たに設計した新しいタスクであるTRIGを紹介する。具体的には,OCR-LLM-ヒューマンインタラクションパイプラインを提案し,800の注釈付き質問応答ペアをベンチマークとして作成する。提案したベンチマークによる各種MLLMの包括的評価は,テキストリッチな画像上でのグラウンド化能力の大幅な制限を明らかにする。
論文参考訳（メタデータ） (2025-04-07T12:01:59Z)
VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文参考訳（メタデータ） (2025-02-25T23:36:19Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
Boosting Text-To-Image Generation via Multilingual Prompting in Large Multimodal Models [43.16111789538798]
大規模マルチモーダルモデル(LMM)の多言語機能を活用した並列多言語プロンプトを構築する。 3つのベンチマークにおける2つのLMM実験により,提案手法であるPMT2Iが,一般に優れた性能,構成,きめ細かな評価を達成できることが判明した。
論文参考訳（メタデータ） (2025-01-13T06:41:23Z)
MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文参考訳（メタデータ） (2024-10-16T07:52:57Z)
Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
Leopardは、複数のテキストリッチイメージを含む視覚言語タスクを扱うビジョン言語モデルである。まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを開発した。
論文参考訳（メタデータ） (2024-10-02T16:55:01Z)
Attention Prompting on Image for Large Vision-Language Models [63.794304207664176]
本稿では,画像上の注意喚起という新しいプロンプト手法を提案する。我々は,CLIPのような補助モデルを用いて,テキストクエリに依存する入力画像に対するアテンションヒートマップを生成する。各種バイソン言語ベンチマークの実験により,本手法の有効性が検証された。
論文参考訳（メタデータ） (2024-09-25T17:59:13Z)
MATE: Meet At The Embedding -- Connecting Images with Long Texts [37.27283238166393]
Meet At The Embedding (MATE)は、大型言語モデル(LLM)とビジョン言語モデル(VLM)の機能を組み合わせた、新しいアプローチである。我々は、VLMのテキストエンコーダを、長文の理解に優れたLLMベースのエンコーダに置き換える。画像と長いテキストを接続するタスクを評価するために,2つの新たなクロスモーダル検索ベンチマークを提案する。
論文参考訳（メタデータ） (2024-06-26T14:10:00Z)
VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文参考訳（メタデータ） (2024-06-14T17:59:40Z)
SEED-Bench-2-Plus: Benchmarking Multimodal Large Language Models with Text-Rich Visual Comprehension [62.40482764691584]
MLLMのテキストに富んだ視覚的理解を評価するためのベンチマークSEED-Bench-2-Plusを紹介する。私たちのベンチマークでは、チャート、マップ、ウェブの3つのカテゴリにまたがる、正確な人間のアノテーションによる2.3Kの多重選択質問で構成されています。我々は,34の著名なMLLMを包含する徹底的な評価を行い,テキストリッチ視覚理解におけるMLLMの現在の限界を強調した。
論文参考訳（メタデータ） (2024-04-25T17:39:35Z)
FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。 FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。 FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文参考訳（メタデータ） (2024-04-23T03:42:14Z)
BLIVA: A Simple Multimodal LLM for Better Handling of Text-Rich Visual Questions [41.825273034537204]
視覚言語モデル(VLM)は、テキストで注入された画像を正確に解釈することはできない。本稿では,Visual Assistantを用いたInstructBLIPの拡張版であるBLIVAを紹介する。我々のモデルは、テキストリッチなVQAベンチマークの処理や、一般的な(特にテキストリッチではない)VQAベンチマークの実行において、パフォーマンスを大幅に向上させる。
論文参考訳（メタデータ） (2023-08-19T07:53:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。