論文の概要: LLaVA-RE: Binary Image-Text Relevancy Evaluation with Multimodal Large Language Model
- arxiv url: http://arxiv.org/abs/2508.05602v1
- Date: Thu, 07 Aug 2025 17:42:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.973154
- Title: LLaVA-RE: Binary Image-Text Relevancy Evaluation with Multimodal Large Language Model
- Title(参考訳): LLaVA-RE:マルチモーダル大言語モデルによるバイナリ画像テキスト関連性評価
- Authors: Tao Sun, Oliver Liu, JinJin Li, Lan Ma,
- Abstract要約: マルチモーダル生成AIは通常、与えられた入力を他のモーダルで生成する。
画像テキスト関連性の評価は、応答品質やランキング候補の応答を測定するのに不可欠である。
MLLMを用いた2値画像-テキスト関連性評価のための最初の試みであるLLaVA-REを提案する。
- 参考スコア(独自算出の注目度): 6.949045392750526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal generative AI usually involves generating image or text responses given inputs in another modality. The evaluation of image-text relevancy is essential for measuring response quality or ranking candidate responses. In particular, binary relevancy evaluation, i.e., ``Relevant'' vs. ``Not Relevant'', is a fundamental problem. However, this is a challenging task considering that texts have diverse formats and the definition of relevancy varies in different scenarios. We find that Multimodal Large Language Models (MLLMs) are an ideal choice to build such evaluators, as they can flexibly handle complex text formats and take in additional task information. In this paper, we present LLaVA-RE, a first attempt for binary image-text relevancy evaluation with MLLM. It follows the LLaVA architecture and adopts detailed task instructions and multimodal in-context samples. In addition, we propose a novel binary relevancy data set that covers various tasks. Experimental results validate the effectiveness of our framework.
- Abstract(参考訳): マルチモーダル生成AIは通常、与えられた入力を他のモーダルで生成する。
画像テキスト関連性の評価は、応答品質やランキング候補の応答を測定するのに不可欠である。
特に、バイナリ関連性評価、すなわち ``Relevant' 対 ` ``Not Relevant'' は根本的な問題である。
しかし、テキストには様々な形式があり、関連性の定義は異なるシナリオで異なるため、これは難しい課題である。
MLLM(Multimodal Large Language Models)は、複雑なテキスト形式を柔軟に処理し、追加のタスク情報を取り込むことができるため、そのような評価器を構築するのに理想的な選択肢である。
本稿では,MLLMを用いた2値画像-テキスト関連性評価の最初の試みであるLLaVA-REを提案する。
LLaVAアーキテクチャに従い、詳細なタスク命令とマルチモーダルなインコンテキストサンプルを採用する。
さらに,様々なタスクをカバーする新しいバイナリ関連データセットを提案する。
実験により,本フレームワークの有効性が検証された。
関連論文リスト
- Evaluating Multimodal Large Language Models on Educational Textbook Question Answering [3.4729524020941063]
MLLM(Multimodal large language model)は、視覚言語タスクにおいて成功したが、複雑な教材を論じる能力はほとんど試験されていない。
本研究は、CK12-QAデータセットを用いた教科書質問応答(TQA)タスクにおいて、LLaVA-1.5やLLaMA 3.2-Visionを含む最先端MLLMの最初の評価を行う。
論文 参考訳(メタデータ) (2025-06-18T19:31:35Z) - Towards Visual Text Grounding of Multimodal Large Language Model [88.0588924255417]
本稿では,テキストリッチな画像グラウンドのベンチマークを行うための命令データセットを新たに設計した新しいタスクであるTRIGを紹介する。
具体的には,OCR-LLM-ヒューマンインタラクションパイプラインを提案し,800の注釈付き質問応答ペアをベンチマークとして作成する。
提案したベンチマークによる各種MLLMの包括的評価は,テキストリッチな画像上でのグラウンド化能力の大幅な制限を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T12:01:59Z) - Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。
このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。
MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文 参考訳(メタデータ) (2025-02-24T16:25:25Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Boosting Text-To-Image Generation via Multilingual Prompting in Large Multimodal Models [43.16111789538798]
大規模マルチモーダルモデル(LMM)の多言語機能を活用した並列多言語プロンプトを構築する。
3つのベンチマークにおける2つのLMM実験により,提案手法であるPMT2Iが,一般に優れた性能,構成,きめ細かな評価を達成できることが判明した。
論文 参考訳(メタデータ) (2025-01-13T06:41:23Z) - FTII-Bench: A Comprehensive Multimodal Benchmark for Flow Text with Image Insertion [7.322448493179106]
Flow Text with Image Insertion Taskでは、LVLMは画像理解、命令理解、長文解釈において優れた能力を持つ必要がある。
318の高品質な中国語画像テキストニュース記事と307の高品質な英語画像テキストニュース記事を含む、画像挿入ベンチマーク付きフローテキスト(FTII-Bench)を導入し、10の異なるニュースドメインをカバーする。
9つのオープンソースと2つのクローズドソースのLVLMと2つのCLIPベースのモデルを評価した。
論文 参考訳(メタデータ) (2024-10-16T13:38:31Z) - Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
複数のテキストリッチな画像を含む視覚言語タスクを扱うためのMLLMであるLeopardを提案する。
まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。
第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを提案する。
論文 参考訳(メタデータ) (2024-10-02T16:55:01Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - Interactive Text-to-Image Retrieval with Large Language Models: A Plug-and-Play Approach [33.231639257323536]
本稿では,対話型テキスト・画像検索タスクにおける対話型コンテキストクエリの問題に対処する。
対話形式のコンテキストを再構成することにより、既存の視覚的対話データから検索モデルを微調整する必要がなくなる。
対象画像の属性に関する非冗長な質問を生成するために,LLM質問機を構築した。
論文 参考訳(メタデータ) (2024-06-05T16:09:01Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。