論文の概要: MCiteBench: A Benchmark for Multimodal Citation Text Generation in MLLMs
- arxiv url: http://arxiv.org/abs/2503.02589v2
- Date: Wed, 05 Mar 2025 03:28:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 12:46:34.798032
- Title: MCiteBench: A Benchmark for Multimodal Citation Text Generation in MLLMs
- Title(参考訳): MCiteBench:MLLMにおけるマルチモーダル引用テキスト生成ベンチマーク
- Authors: Caiyu Hu, Yikai Zhang, Tinghui Zhu, Yiwei Ye, Yanghua Xiao,
- Abstract要約: MLLM(Multimodal Large Language Models)は多様なモダリティを統合するために進歩しているが、幻覚に悩まされることが多い。
既存の作業は、主にテキストのみのコンテンツのための引用を生成することに焦点を当て、マルチモーダルコンテキストの課題と機会を見下ろしている。
MLLMのマルチモーダル引用テキスト生成能力の評価と解析を目的とした,最初のベンチマークであるMCiteBenchを紹介する。
- 参考スコア(独自算出の注目度): 31.793037002996257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have advanced in integrating diverse modalities but frequently suffer from hallucination. A promising solution to mitigate this issue is to generate text with citations, providing a transparent chain for verification. However, existing work primarily focuses on generating citations for text-only content, overlooking the challenges and opportunities of multimodal contexts. To address this gap, we introduce MCiteBench, the first benchmark designed to evaluate and analyze the multimodal citation text generation ability of MLLMs. Our benchmark comprises data derived from academic papers and review-rebuttal interactions, featuring diverse information sources and multimodal content. We comprehensively evaluate models from multiple dimensions, including citation quality, source reliability, and answer accuracy. Through extensive experiments, we observe that MLLMs struggle with multimodal citation text generation. We also conduct deep analyses of models' performance, revealing that the bottleneck lies in attributing the correct sources rather than understanding the multimodal content.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は多様なモダリティを統合するために進歩してきたが、幻覚に悩まされることが多い。
この問題を緩和するための有望な解決策は、引用付きテキストを生成し、検証のための透過的な連鎖を提供することである。
しかし、既存の研究は主にテキストのみのコンテンツのための引用を生成することに焦点を当てており、マルチモーダルコンテキストの課題と機会を見越している。
このギャップに対処するために,MLLMのマルチモーダル引用テキスト生成能力の評価と解析を目的とした最初のベンチマークMCiteBenchを紹介する。
本ベンチマークは,学術論文から得られたデータと,多様な情報ソースとマルチモーダルコンテンツを特徴とするレビュー・リビュー・インタラクションから構成する。
我々は、引用品質、ソース信頼性、解答精度など、複数の次元のモデルを包括的に評価する。
大規模な実験により,MLLMは多モーダル引用テキスト生成に苦しむことが明らかとなった。
また、モデルの性能を深く分析し、ボトルネックはマルチモーダルコンテンツを理解することよりも、正しいソースに寄与することにあることを示した。
関連論文リスト
- M-DocSum: Do LVLMs Genuinely Comprehend Interleaved Image-Text in Document Summarization? [49.53982792497275]
本稿では,LVLM(Large Vision-Language Models)が文書中のインターリーブ画像テキストを真に理解しているかどうかを検討する。
既存の文書理解ベンチマークは、しばしば質問応答形式を用いてLVLMを評価する。
マルチモーダル文書要約ベンチマーク(M-DocSum-Bench)について紹介する。
M-DocSum-Benchは500の高品質なarXiv論文と、人間の好みに合わせたインターリーブされたマルチモーダル要約で構成されている。
論文 参考訳(メタデータ) (2025-03-27T07:28:32Z) - LLM-Fusion: A Novel Multimodal Fusion Model for Accelerated Material Discovery [1.4570888984947485]
本稿では, SMILES, SELFIES, テキスト記述, 分子指紋などの多言語モデル(LLM)を活用して, 高精度な特性予測を行う新しい多モーダル融合モデルを提案する。
提案手法では,マルチモーダル入力処理をサポートするフレキシブルLLMアーキテクチャを導入し,従来の手法よりも高い精度で材料特性の予測を可能にする。
論文 参考訳(メタデータ) (2025-03-02T21:13:04Z) - Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.30364248231053]
本稿では,M2RAG(Multi-Modal Retrieval-Augmented Generation)を紹介する。
M2RAGはマルチモーダル大言語モデル(MLLM)の有効性を評価するためのベンチマークである。
MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文 参考訳(メタデータ) (2025-02-24T16:25:25Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - VilBias: A Study of Bias Detection through Linguistic and Visual Cues , presenting Annotation Strategies, Evaluation, and Key Challenges [2.2751168722976587]
VLBiasは、最先端のLarge Language Models(LLM)とVision-Language Models(VLM)を活用して、ニュースコンテンツの言語的および視覚的バイアスを検出するフレームワークである。
本稿では,多様なニュースソースからのテキストコンテンツと対応する画像からなるマルチモーダルデータセットを提案する。
論文 参考訳(メタデータ) (2024-12-22T15:05:30Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models [0.42832989850721054]
MEL(Multimodal Entities Linking)は、ウィキペディアのようなマルチモーダル知識ベースの参照エンティティに、多モーダルコンテキスト内で曖昧な言及をリンクすることを目的とした重要なタスクである。
既存の方法はMELタスクを過度に複雑にし、視覚的意味情報を見渡す。
大規模言語モデルを用いたマルチモーダル・エンティティ・リンクタスクを処理するための新しいパラダイムを確立する統一フレームワークUniMELを提案する。
論文 参考訳(メタデータ) (2024-07-23T03:58:08Z) - Meta-Task Prompting Elicits Embeddings from Large Language Models [54.757445048329735]
本稿では,新しい教師なしテキスト埋め込み手法であるMeta-Task Prompting with Explicit One-Word Limitationを紹介する。
モデル微調整を必要とせずに,大規模言語モデルから高品質な文埋め込みを生成する。
提案法は,多種多様なシナリオにまたがって生成を組み込む汎用的で資源効率のよい手法を提供する。
論文 参考訳(メタデータ) (2024-02-28T16:35:52Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z) - On the Performance of Multimodal Language Models [4.677125897916577]
本研究は、異なるマルチモーダル命令チューニングアプローチの比較分析を行う。
大規模言語モデルにマルチモーダル機能を組み込む際に,アーキテクチャ選択を導く上で重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T23:33:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。