論文の概要: ViDoRe Benchmark V2: Raising the Bar for Visual Retrieval
- arxiv url: http://arxiv.org/abs/2505.17166v1
- Date: Thu, 22 May 2025 16:13:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.62744
- Title: ViDoRe Benchmark V2: Raising the Bar for Visual Retrieval
- Title(参考訳): ViDoRe Benchmark V2: ビジュアル検索のためのバーのライジング
- Authors: Quentin Macé, António Loison, Manuel Faysse,
- Abstract要約: ViDoRe Benchmark V2では、視覚的なコンテキストクエリ、長いドキュメントクエリによる現実的で挑戦的な検索シナリオが導入されている。
4つの多言語データセットで構成され、明確な評価指示を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The ViDoRe Benchmark V1 was approaching saturation with top models exceeding 90% nDCG@5, limiting its ability to discern improvements. ViDoRe Benchmark V2 introduces realistic, challenging retrieval scenarios via blind contextual querying, long and cross-document queries, and a hybrid synthetic and human-in-the-loop query generation process. It comprises four diverse, multilingual datasets and provides clear evaluation instructions. Initial results demonstrate substantial room for advancement and highlight insights on model generalization and multilingual capability. This benchmark is designed as a living resource, inviting community contributions to maintain relevance through future evaluations.
- Abstract(参考訳): ViDoRe Benchmark V1は90%のnDCG@5を超えるトップモデルで飽和状態に近づき、改善を識別する能力が制限された。
ViDoRe Benchmark V2では、視覚的コンテクストクエリ、長期ドキュメントクエリ、ハイブリッド合成およびマルチループクエリ生成プロセスによる、現実的で挑戦的な検索シナリオが導入されている。
4つの多言語データセットで構成され、明確な評価指示を提供する。
初期の結果は、モデル一般化と多言語能力についての理解を深める余地を明らかにした。
このベンチマークは生きたリソースとして設計されており、今後の評価を通じてコミュニティのコントリビューションに関連性を維持するよう呼びかけている。
関連論文リスト
- OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning [72.57452266982642]
テキスト認識のための大規模バイリンガルテキスト中心ベンチマークであるOCRBench v2を紹介する。
その結果,22 LMM中20 LMMは50点未満(合計100点)で,5種類の制限があることがわかった。
論文 参考訳(メタデータ) (2024-12-31T07:32:35Z) - How Texts Help? A Fine-grained Evaluation to Reveal the Role of Language in Vision-Language Tracking [23.551036494221222]
視覚言語追跡(VLT)は、テキスト情報を組み込むことで、従来の単一のオブジェクト追跡を拡張する。
現行のVLTトラッカーは、複数のベンチマークでの単一モダリティ方式に比べて性能が劣ることが多い。
VLTトラッカーの最初のきめ細かい評価フレームワークであるVLTVerseを提案する。
論文 参考訳(メタデータ) (2024-11-23T16:31:40Z) - DARE: Diverse Visual Question Answering with Robustness Evaluation [16.87867803628065]
視覚言語モデル(VLM)は、テキストのみの大規模言語モデルと視覚のみのモデルの顕著な機能を拡張する。
彼らは数え上げや空間的推論といった重要な視覚言語(VL)推論能力に苦しむ。
本稿では,ロバストネス評価を用いたDARE,Diverse Visual Question Answeringを紹介する。
論文 参考訳(メタデータ) (2024-09-26T16:31:50Z) - VisEval: A Benchmark for Data Visualization in the Era of Large Language Models [12.077276008688065]
事前訓練された大規模言語モデル(LLM)の最近の進歩は、自然言語から可視化を生成するための新たな道を開いた。
本稿では,新しいNL2VISベンチマークであるVisEvalを提案する。
このデータセットには、146のデータベースをカバーする2,524の代表的なクエリが含まれており、正確にラベル付けされた基底真理とペアリングされている。
論文 参考訳(メタデータ) (2024-07-01T05:35:30Z) - Vibe-Eval: A hard evaluation suite for measuring progress of multimodal language models [67.62126108440003]
マルチモーダルチャットモデルを評価するための新しいオープンベンチマークとフレームワークであるVibe-Evalを紹介する。
Vibe-Evalは、100の難易度を含む269の視覚的理解プロンプトで構成され、専門家によって書かれたゴールド標準応答が完備している。
本稿では,人間と自動評価のトレードオフについて論じるとともに,Reka Coreを用いた自動モデル評価が人的判断と大まかに相関していることを示す。
論文 参考訳(メタデータ) (2024-05-03T17:59:55Z) - ViCLEVR: A Visual Reasoning Dataset and Hybrid Multimodal Fusion Model
for Visual Question Answering in Vietnamese [1.6340299456362617]
ベトナムにおける様々な視覚的推論能力を評価するための先駆的な収集であるViCLEVRデータセットを紹介した。
我々は、現代の視覚的推論システムの包括的な分析を行い、その強みと限界についての貴重な洞察を提供する。
PhoVITは、質問に基づいて画像中のオブジェクトを識別する総合的なマルチモーダル融合である。
論文 参考訳(メタデータ) (2023-10-27T10:44:50Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。
MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。
MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。