論文の概要: Revisiting Referring Expression Comprehension Evaluation in the Era of Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2406.16866v1
- Date: Mon, 24 Jun 2024 17:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 13:36:22.093419
- Title: Revisiting Referring Expression Comprehension Evaluation in the Era of Large Multimodal Models
- Title(参考訳): 大規模マルチモーダルモデルにおける参照表現の包括的評価の再検討
- Authors: Jierun Chen, Fangyun Wei, Jinjing Zhao, Sizhe Song, Bohuai Wu, Zhuoxuan Peng, S. -H. Gary Chan, Hongyang Zhang,
- Abstract要約: Referring Expression comprehension (REC)は、テキスト記述に基づいてターゲットインスタンスをローカライズする。
RECの最近の進歩は、CogVLMのような大規模なマルチモーダルモデル(LMM)によって推進され、RefCOCOでは92.44%の精度を達成した。
本稿では、最新のRECモデルを評価するために特別に設計された総合RECベンチマークであるRef-L4を紹介する。
- 参考スコア(独自算出の注目度): 26.474614702805894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring expression comprehension (REC) involves localizing a target instance based on a textual description. Recent advancements in REC have been driven by large multimodal models (LMMs) like CogVLM, which achieved 92.44% accuracy on RefCOCO. However, this study questions whether existing benchmarks such as RefCOCO, RefCOCO+, and RefCOCOg, capture LMMs' comprehensive capabilities. We begin with a manual examination of these benchmarks, revealing high labeling error rates: 14% in RefCOCO, 24% in RefCOCO+, and 5% in RefCOCOg, which undermines the authenticity of evaluations. We address this by excluding problematic instances and reevaluating several LMMs capable of handling the REC task, showing significant accuracy improvements, thus highlighting the impact of benchmark noise. In response, we introduce Ref-L4, a comprehensive REC benchmark, specifically designed to evaluate modern REC models. Ref-L4 is distinguished by four key features: 1) a substantial sample size with 45,341 annotations; 2) a diverse range of object categories with 365 distinct types and varying instance scales from 30 to 3,767; 3) lengthy referring expressions averaging 24.2 words; and 4) an extensive vocabulary comprising 22,813 unique words. We evaluate a total of 24 large models on Ref-L4 and provide valuable insights. The cleaned versions of RefCOCO, RefCOCO+, and RefCOCOg, as well as our Ref-L4 benchmark and evaluation code, are available at https://github.com/JierunChen/Ref-L4.
- Abstract(参考訳): Referring Expression comprehension (REC)は、テキスト記述に基づいてターゲットインスタンスをローカライズする。
RECの最近の進歩は、CogVLMのような大規模なマルチモーダルモデル(LMM)によって推進され、RefCOCOでは92.44%の精度を達成した。
しかし、この研究では、既存のベンチマークであるRefCOCO、RefCOCO+、RefCOCOgがLMMの包括的能力を捉えているかどうかを疑問視する。
RefCOCO+は14%、RefCOCO+は24%、RefCOCOgは5%であり、評価の信頼性を損なう。
本稿では、問題のある事例を除外し、RECタスクを処理できる複数のLMMを再評価することにより、精度が大幅に向上し、ベンチマークノイズの影響を浮き彫りにすることで、この問題に対処する。
そこで本研究では,最新のRECモデルを評価するための総合RECベンチマークであるRef-L4を紹介する。
Ref-L4は4つの重要な特徴によって区別される。
1)45,341のアノテーション付き実質的なサンプルサイズ
2)365の異なる型とインスタンスのスケールが30から3,767まで様々である多種多様な対象分類
3) 平均24.2ワードの長文参照表現
4) 22,813種類の単語からなる広範囲な語彙。
我々は、Ref-L4上で24の大規模モデルを評価し、貴重な洞察を提供する。
RefCOCO、RefCOCO+、RefCOCOgのクリーンバージョン、および我々のRef-L4ベンチマークと評価コードもhttps://github.com/JierunChen/Ref-L4で入手できる。
関連論文リスト
- What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。
まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Benchmarking Large Language Models on CFLUE -- A Chinese Financial Language Understanding Evaluation Dataset [7.954348293179786]
様々な次元にわたる大規模言語モデル(LLM)の能力を評価するためのベンチマークであるCFLUEを提案する。
知識評価では、38K以上の質問と関連する解法の説明からなる。
アプリケーションアセスメントでは、テキスト分類、機械翻訳、関係抽出、読解、テキスト生成など、異なるNLPタスクのグループにまたがる16K以上のテストインスタンスが特徴である。
論文 参考訳(メタデータ) (2024-05-17T05:03:40Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Continual Referring Expression Comprehension via Dual Modular
Memorization [133.46886428655426]
Referring Expression (REC) は、自然言語で記述された対象のイメージ領域をローカライズすることを目的としている。
既存のRECアルゴリズムは、モデルへのデータ供給のトレーニングを前もって行うと強く仮定する。
本稿では、入ってくるタスクのストリーム上でモデルが学習するRECの新しい設定である連続参照表現(CREC)を提案する。
学習済みの知識を忘れずに,スクラッチから繰り返し再学習することなく,逐次的タスクのモデルを継続的に改善するために,デュアルモジュール記憶法という効果的なベースライン手法を提案する。
論文 参考訳(メタデータ) (2023-11-25T02:58:51Z) - Benchmarking Large Language Models in Retrieval-Augmented Generation [53.504471079548]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。
我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。
RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文 参考訳(メタデータ) (2023-09-04T08:28:44Z) - Discriminative Triad Matching and Reconstruction for Weakly Referring
Expression Grounding [24.384777542958307]
従来の方法では、参照式に最もよくマッチするオブジェクト領域を抽出し、選択した領域からクエリ文を再構成する。
ここでは、問合せを1つまたは複数の識別三項に変換することができる解の基礎として識別三項が設計されている。
提案手法は、RefCOCO(39.21%)、RefCOCO+(39.18%)、RefCOCOg(43.24%)のデータセットで評価した場合、新しい最先端の精度を実現する。
論文 参考訳(メタデータ) (2021-06-08T02:15:11Z) - Multi-task Collaborative Network for Joint Referring Expression
Comprehension and Segmentation [135.67558811281984]
表現理解(REC)とセグメンテーション(RES)を併用した共同学習を実現するための新しいマルチタスク協調ネットワーク(MCN)を提案する。
MCNでは、RESはRECがよりよい言語ビジョンアライメントを達成するのに役立ち、RECはRESが参照者を見つけるのに役立ちます。
我々は,このマルチタスク・セットアップにおいて,一貫性エネルギー最大化 (Consistency Energy Maximization, CEM) と適応ソフト非局所抑制 (Adaptive Soft Non-Located Suppression, ASNLS) という2つのイノベーティブな設計による予測競合という重要な課題に対処する。
論文 参考訳(メタデータ) (2020-03-19T14:25:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。