論文の概要: VLR-Bench: Multilingual Benchmark Dataset for Vision-Language Retrieval Augmented Generation
- arxiv url: http://arxiv.org/abs/2412.10151v1
- Date: Fri, 13 Dec 2024 14:11:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:04:26.468025
- Title: VLR-Bench: Multilingual Benchmark Dataset for Vision-Language Retrieval Augmented Generation
- Title(参考訳): VLR-Bench:Vision-Language Retrieval Augmented Generationのための多言語ベンチマークデータセット
- Authors: Hyeonseok Lim, Dongjae Shin, Seohyun Song, Inho Won, Minjun Kim, Junghun Yuk, Haneol Jang, KyungTae Lim,
- Abstract要約: 本稿では,視覚言語モデル(VLM)を検索拡張生成(RAG)に基づいて評価するための視覚質問応答(VQA)ベンチマークであるVLR-Benchを提案する。
既存の外部知識に基づくVQA評価データセットとは異なり、提案したVLR-Benchは5つの入力パスを含む。
提案手法は,VLR-IFと表される命令追従を自動生成する32,000のデータセットを構築した。
このデータセットは、入力パスに基づいて適切な回答を生成する方法を学ぶことによって、VLMのRAG能力を高めるように設計されている。
- 参考スコア(独自算出の注目度): 4.215195302673654
- License:
- Abstract: We propose the VLR-Bench, a visual question answering (VQA) benchmark for evaluating vision language models (VLMs) based on retrieval augmented generation (RAG). Unlike existing evaluation datasets for external knowledge-based VQA, the proposed VLR-Bench includes five input passages. This allows testing of the ability to determine which passage is useful for answering a given query, a capability lacking in previous research. In this context, we constructed a dataset of 32,000 automatically generated instruction-following examples, which we denote as VLR-IF. This dataset is specifically designed to enhance the RAG capabilities of VLMs by enabling them to learn how to generate appropriate answers based on input passages. We evaluated the validity of the proposed benchmark and training data and verified its performance using the state-of-the-art Llama3-based VLM, the Llava-Llama-3 model. The proposed VLR-Bench and VLR-IF datasets are publicly available online.
- Abstract(参考訳): 本稿では,視覚言語モデル(VLM)を検索拡張生成(RAG)に基づいて評価するための視覚質問応答(VQA)ベンチマークであるVLR-Benchを提案する。
既存の外部知識に基づくVQA評価データセットとは異なり、提案したVLR-Benchは5つの入力パスを含む。
これにより、あるクエリに応答するのにどのパスが有用なのかを判断する能力をテストすることができる。
そこで本稿では,VLR-IFと表記する命令追従例を自動生成する32,000のデータセットを構築した。
このデータセットは、入力パスに基づいて適切な回答を生成する方法を学ぶことによって、VLMのRAG能力を高めるように設計されている。
提案したベンチマークとトレーニングデータの有効性を評価し,Llava-Llama-3モデルである最先端のLlama3ベースのVLMを用いて評価を行った。
提案されているVLR-BenchデータセットとVLR-IFデータセットはオンラインで公開されている。
関連論文リスト
- ImageRef-VL: Enabling Contextual Image Referencing in Vision-Language Models [15.907584884933414]
会話コンテキストに基づいた検索文書からの関連画像の適切な参照を可能にするContextual Image Referenceを導入する。
本稿では,オープンソースのVLM画像参照機能を大幅に強化するImageRef-VLを提案する。
実験により、ImageRef-VLはプロプライエタリなモデルを上回るだけでなく、最先端のオープンソースVLMよりも88%の性能向上を実現していることが示された。
論文 参考訳(メタデータ) (2025-01-20T13:43:45Z) - Enhancing Table Recognition with Vision LLMs: A Benchmark and Neighbor-Guided Toolchain Reasoner [47.13805762269659]
我々は、非構造化テーブルを認識するための訓練不要推論パラダイムとして、視覚大言語モデル(VLLM)を採用している。
低画質の入力画像の問題を軽減するために,Nighbor-Guided Toolchain Reasoner (NGTR) フレームワークを提案する。
提案手法は,バニラVLLMの認識能力を著しく向上させる。
論文 参考訳(メタデータ) (2024-12-30T02:40:19Z) - VERA: Explainable Video Anomaly Detection via Verbalized Learning of Vision-Language Models [20.92507667350599]
本稿では、視覚言語モデルによるビデオ異常検出を可能にするVERAという言語学習フレームワークを提案する。
VERAは、VADに必要な複雑な推論を、よりシンプルでより焦点を絞った質問のリフレクションに分解する。
推論中、VERAは学習した質問をモデルプロンプトに埋め込んで、セグメントレベルの異常スコアを生成するVLMをガイドする。
論文 参考訳(メタデータ) (2024-12-02T04:10:14Z) - AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [65.92331309449015]
本稿では,モデル能力の特定の側面に基づいてLVLMをベンチマークする,オンデマンドで評価を行う自動フレームワークであるAutoBench-Vを紹介する。
5つの要求されたユーザ入力に対して9つの人気のあるLVLMを広範囲に評価することにより、このフレームワークの有効性と信頼性を示す。
論文 参考訳(メタデータ) (2024-10-28T17:55:08Z) - LOVA3: Learning to Visual Question Answering, Asking and Assessment [61.51687164769517]
質問への回答、質問、評価は、世界を理解し、知識を得るのに不可欠な3つの人間の特性である。
現在のMLLM(Multimodal Large Language Models)は主に質問応答に焦点を当てており、質問や評価スキルの可能性を無視することが多い。
LOVA3は、"Learning tO Visual Question Answering, Asking and Assessment"と名付けられた革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-05-23T18:21:59Z) - SearchLVLMs: A Plug-and-Play Framework for Augmenting Large Vision-Language Models by Searching Up-to-Date Internet Knowledge [56.772051051558215]
大規模視覚言語モデル(LVLM)は、LLaVAシリーズのような最新の知識を知らない。
本稿では,サーチLVLMと呼ばれる最新の知識に関する視覚的質問応答(VQA)を扱うために,既存のLVLMを増補するプラグイン・アンド・プレイフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-23T13:32:07Z) - Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。
まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。
我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。
結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2023-12-17T09:44:27Z) - Large Language Models as Automated Aligners for benchmarking
Vision-Language Models [48.4367174400306]
VLM(Vision-Language Models)は新しいレベルの高度化に達し、複雑な認知と推論タスクの実行において顕著な能力を示している。
既存の評価ベンチマークは、厳密で手作りのデータセットを主に頼りにしており、人為的なモデルと人間の知性との整合性を評価する上で、重大な制限に直面している。
本研究では,LLMを有能なキュレーションとして探求し,自動データキュレーションとアセスメントによってVLMと人間の知性と価値のアライメントを測定するAuto-Benchを用いて,その限界に対処する。
論文 参考訳(メタデータ) (2023-11-24T16:12:05Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。