Fugu-MT 論文翻訳(概要): VLR-Bench: Multilingual Benchmark Dataset for Vision-Language Retrieval Augmented Generation

論文の概要: VLR-Bench: Multilingual Benchmark Dataset for Vision-Language Retrieval Augmented Generation

arxiv url: http://arxiv.org/abs/2412.10151v1
Date: Fri, 13 Dec 2024 14:11:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-16 15:37:48.986552
Title: VLR-Bench: Multilingual Benchmark Dataset for Vision-Language Retrieval Augmented Generation
Title（参考訳）: VLR-Bench:Vision-Language Retrieval Augmented Generationのための多言語ベンチマークデータセット
Authors: Hyeonseok Lim, Dongjae Shin, Seohyun Song, Inho Won, Minjun Kim, Junghun Yuk, Haneol Jang, KyungTae Lim,
Abstract要約: 本稿では,視覚言語モデル(VLM)を検索拡張生成(RAG)に基づいて評価するための視覚質問応答(VQA)ベンチマークであるVLR-Benchを提案する。既存の外部知識に基づくVQA評価データセットとは異なり、提案したVLR-Benchは5つの入力パスを含む。提案手法は,VLR-IFと表される命令追従を自動生成する32,000のデータセットを構築した。このデータセットは、入力パスに基づいて適切な回答を生成する方法を学ぶことによって、VLMのRAG能力を高めるように設計されている。
参考スコア（独自算出の注目度）: 4.215195302673654
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose the VLR-Bench, a visual question answering (VQA) benchmark for evaluating vision language models (VLMs) based on retrieval augmented generation (RAG). Unlike existing evaluation datasets for external knowledge-based VQA, the proposed VLR-Bench includes five input passages. This allows testing of the ability to determine which passage is useful for answering a given query, a capability lacking in previous research. In this context, we constructed a dataset of 32,000 automatically generated instruction-following examples, which we denote as VLR-IF. This dataset is specifically designed to enhance the RAG capabilities of VLMs by enabling them to learn how to generate appropriate answers based on input passages. We evaluated the validity of the proposed benchmark and training data and verified its performance using the state-of-the-art Llama3-based VLM, the Llava-Llama-3 model. The proposed VLR-Bench and VLR-IF datasets are publicly available online.
Abstract（参考訳）: 本稿では,視覚言語モデル(VLM)を検索拡張生成(RAG)に基づいて評価するための視覚質問応答(VQA)ベンチマークであるVLR-Benchを提案する。既存の外部知識に基づくVQA評価データセットとは異なり、提案したVLR-Benchは5つの入力パスを含む。これにより、あるクエリに応答するのにどのパスが有用なのかを判断する能力をテストすることができる。そこで本稿では,VLR-IFと表記する命令追従例を自動生成する32,000のデータセットを構築した。このデータセットは、入力パスに基づいて適切な回答を生成する方法を学ぶことによって、VLMのRAG能力を高めるように設計されている。提案したベンチマークとトレーニングデータの有効性を評価し,Llava-Llama-3モデルである最先端のLlama3ベースのVLMを用いて評価を行った。提案されているVLR-BenchデータセットとVLR-IFデータセットはオンラインで公開されている。

関連論文リスト

4th PVUW MeViS 3rd Place Report: Sa2VA [105.88675577642204]
より強力なMLLM上でのテスト時間推定法を簡易に修正することで,MeVISのより強力な結果が得られることを示す。特に,画像とビデオの密接な理解のための統一モデルである,最近のSa2VAを採用する。
論文参考訳（メタデータ） (2025-04-01T07:06:47Z)
ImageRef-VL: Enabling Contextual Image Referencing in Vision-Language Models [15.907584884933414]
会話コンテキストに基づいた検索文書からの関連画像の適切な参照を可能にするContextual Image Referenceを導入する。本稿では,オープンソースのVLM画像参照機能を大幅に強化するImageRef-VLを提案する。実験により、ImageRef-VLはプロプライエタリなモデルを上回るだけでなく、最先端のオープンソースVLMよりも88%の性能向上を実現していることが示された。
論文参考訳（メタデータ） (2025-01-20T13:43:45Z)
Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文参考訳（メタデータ） (2025-01-08T18:31:16Z)
Enhancing Table Recognition with Vision LLMs: A Benchmark and Neighbor-Guided Toolchain Reasoner [47.13805762269659]
我々は、非構造化テーブルを認識するための訓練不要推論パラダイムとして、視覚大言語モデル(VLLM)を採用している。低画質の入力画像の問題を軽減するために,Nighbor-Guided Toolchain Reasoner (NGTR) フレームワークを提案する。提案手法は,バニラVLLMの認識能力を著しく向上させる。
論文参考訳（メタデータ） (2024-12-30T02:40:19Z)
VERA: Explainable Video Anomaly Detection via Verbalized Learning of Vision-Language Models [20.92507667350599]
本稿では、視覚言語モデルによるビデオ異常検出を可能にするVERAという言語学習フレームワークを提案する。 VERAは、VADに必要な複雑な推論を、よりシンプルでより焦点を絞った質問のリフレクションに分解する。推論中、VERAは学習した質問をモデルプロンプトに埋め込んで、セグメントレベルの異常スコアを生成するVLMをガイドする。
論文参考訳（メタデータ） (2024-12-02T04:10:14Z)
AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [55.14033256706175]
視覚・言語情報の統合を促進するためには,LVLM(Large Vision-Language Models)が不可欠である。本稿では,需要評価のための自動フレームワークであるAutoBench-Vを紹介する。 5つの要求されたユーザ入力にまたがる7つのLVLMの広範な評価を通じて、このフレームワークの有効性と信頼性を示す。
論文参考訳（メタデータ） (2024-10-28T17:55:08Z)
RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.4501863547618]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。事実の正確性に着目し, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文参考訳（メタデータ） (2024-08-02T13:35:11Z)
LOVA3: Learning to Visual Question Answering, Asking and Assessment [61.51687164769517]
質問への回答、質問、評価は、世界を理解し、知識を得るのに不可欠な3つの人間の特性である。現在のMLLM(Multimodal Large Language Models)は主に質問応答に焦点を当てており、質問や評価スキルの可能性を無視することが多い。 LOVA3は、"Learning tO Visual Question Answering, Asking and Assessment"と名付けられた革新的なフレームワークである。
論文参考訳（メタデータ） (2024-05-23T18:21:59Z)
Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文参考訳（メタデータ） (2023-12-17T09:44:27Z)
Leveraging VLM-Based Pipelines to Annotate 3D Objects [68.51034848207355]
本稿では,VLMの応答に影響を与える視点などの要因を疎外する代替アルゴリズムを提案する。テキストのみの応答をマージする代わりに、VLMの合同画像テキストの可能性を利用する。 VLMベースのパイプラインを使って764Kデータセットから764Kオブジェクトの信頼性の高いアノテーションを生成する方法を示す。
論文参考訳（メタデータ） (2023-11-29T17:54:22Z)
Large Language Models as Automated Aligners for benchmarking Vision-Language Models [48.4367174400306]
VLM(Vision-Language Models)は新しいレベルの高度化に達し、複雑な認知と推論タスクの実行において顕著な能力を示している。既存の評価ベンチマークは、厳密で手作りのデータセットを主に頼りにしており、人為的なモデルと人間の知性との整合性を評価する上で、重大な制限に直面している。本研究では,LLMを有能なキュレーションとして探求し,自動データキュレーションとアセスメントによってVLMと人間の知性と価値のアライメントを測定するAuto-Benchを用いて,その限界に対処する。
論文参考訳（メタデータ） (2023-11-24T16:12:05Z)
Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文参考訳（メタデータ） (2023-10-09T16:57:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。