論文の概要: Towards Fine-Grained Recognition with Large Visual Language Models: Benchmark and Optimization Strategies
- arxiv url: http://arxiv.org/abs/2512.10384v1
- Date: Thu, 11 Dec 2025 07:48:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.258506
- Title: Towards Fine-Grained Recognition with Large Visual Language Models: Benchmark and Optimization Strategies
- Title(参考訳): 大規模ビジュアル言語モデルを用いた微粒化認識に向けて:ベンチマークと最適化戦略
- Authors: Cong Pang, Hongtao Yu, Zixuan Chen, Lewei Lu, Xin Lou,
- Abstract要約: GPT-4o を用いた LVLM の詳細な評価を目的としたファイン粒度認識オープンワールド (FROW) ベンチマークを提案する。
私たちのデータセットには、複数の短問合せ応答と、現実世界の質問や回答から生成されるオープンワールドデータを組み合わせたモザイクデータが含まれています。
実験により、モザイクデータはカテゴリ認識の精度を1%向上し、オープンワールドデータはFROWベンチマークの精度を10%から20%向上させることが示された。
- 参考スコア(独自算出の注目度): 33.23137293090961
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision Language Models (LVLMs) have made remarkable progress, enabling sophisticated vision-language interaction and dialogue applications. However, existing benchmarks primarily focus on reasoning tasks, often neglecting fine-grained recognition, which is crucial for practical application scenarios. To address this gap, we introduce the Fine-grained Recognition Open World (FROW) benchmark, designed for detailed evaluation of LVLMs with GPT-4o. On the basis of that, we propose a novel optimization strategy from two perspectives: \textit{data construction} and \textit{training process}, to improve the performance of LVLMs. Our dataset includes mosaic data, which combines multiple short-answer responses, and open-world data, generated from real-world questions and answers using GPT-4o, creating a comprehensive framework for evaluating fine-grained recognition in LVLMs. Experiments show that mosaic data improves category recognition accuracy by 1\% and open-world data boosts FROW benchmark accuracy by 10\%-20\% and content accuracy by 6\%-12\%. Meanwhile, incorporating fine-grained data into the pre-training phase can improve the model's category recognition accuracy by up to 10\%. The benchmark will be available at https://github.com/pc-inno/FROW.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は目覚ましい進歩を遂げ、高度な視覚-言語相互作用と対話アプリケーションを実現している。
しかし、既存のベンチマークは主に推論タスクに重点を置いており、多くの場合、実際のアプリケーションシナリオにとって重要な粒度の認識を無視している。
このギャップに対処するために,GPT-4oを用いたLVLMの詳細な評価を目的とした,粒度認識オープンワールド(FROW)ベンチマークを導入する。
そこで本研究では,LVLMの性能向上を図るため,新しい最適化手法として,<textit{data construction} と \textit{training process} を提案する。
GPT-4o を用いた実世界の質問や回答から生成された複数の短応答とオープンワールドデータを組み合わせたモザイクデータから,LVLM におけるきめ細かい認識を評価するための総合的なフレームワークを構築した。
実験の結果、モザイクデータはカテゴリ認識精度を1\%向上し、オープンワールドデータはFROWベンチマーク精度を10\%-20\%、コンテンツ精度を6\%-12\%向上させることがわかった。
一方、事前学習フェーズにきめ細かいデータを組み込むことで、モデルのカテゴリ認識精度を最大10\%向上させることができる。
ベンチマークはhttps://github.com/pc-inno/FROW.comで公開される。
関連論文リスト
- Text2Vis: A Challenging and Diverse Benchmark for Generating Multimodal Visualizations from Text [30.74255946385862]
テキスト・ツー・ビジュアル化モデルを評価するためのベンチマークであるText2Visを紹介する。
1,985のサンプルからなり、それぞれにデータテーブル、自然言語クエリ、短い回答、視覚化コード、注釈付きチャートがある。
これは大きなパフォーマンスギャップを明らかにし、重要な課題を強調し、将来の進歩に対する洞察を提供する。
論文 参考訳(メタデータ) (2025-07-26T14:59:04Z) - STORM: Benchmarking Visual Rating of MLLMs with a Comprehensive Ordinal Regression Dataset [13.574832958298911]
STORMは、ユニバーサルビジュアルレーティングのためのMLLMの信頼に値する順序回帰能力を刺激するためのデータ収集とベンチマークである。
本稿では,ラベル候補を動的に考慮し,解釈可能な思考を提供する粗大な処理パイプラインを提案する。
本ベンチマークは,MLLMのオールインワンおよびゼロショット性能を,評価ラベルの基本的な共通順序関係の理解を必要とするシナリオで評価することを目的とする。
論文 参考訳(メタデータ) (2025-06-02T14:48:15Z) - MMKB-RAG: A Multi-Modal Knowledge-Based Retrieval-Augmented Generation Framework [15.410873298893817]
MMKB-RAG(Multi-Modal Knowledge-based Retrieval-Augmented Generation)を提案する。
このフレームワークは、モデル固有の知識境界を利用して、検索プロセスのセマンティックタグを動的に生成する。
知識に基づく視覚的質問応答タスクに関する大規模な実験は、我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2025-04-14T10:19:47Z) - MLLM-Selector: Necessity and Diversity-driven High-Value Data Selection for Enhanced Visual Instruction Tuning [69.7347209018861]
視覚的インストラクションのチューニングに有用なデータを自動的に識別するMLLM-Selectorを提案する。
モデル性能を向上させるために,VITデータプールの各サンプルの必要なスコアを算出し,サンプルのピボットを同定する。
以上の結果から,データ選択における必要条件と多様性の混合の重要性が指摘され,MLLMセレクタの創出につながった。
論文 参考訳(メタデータ) (2025-03-26T12:42:37Z) - Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。
我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。
実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-11-23T08:06:06Z) - ALLaVA: Harnessing GPT4V-Synthesized Data for Lite Vision-Language Models [45.040292339670096]
大規模視覚言語モデル(LVLM)は、その強力な推論と一般化能力を備えた幅広い視覚言語タスクの前提を示してきた。
本研究では,従来のLVLMとリソースフレンドリなライトバージョンのパフォーマンスギャップを,高品質なトレーニングデータを用いて橋渡しすることを目的とする。
論文 参考訳(メタデータ) (2024-02-18T19:26:49Z) - Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。
まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。
我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。
結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2023-12-17T09:44:27Z) - Recognize Any Regions [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - Selective In-Context Data Augmentation for Intent Detection using
Pointwise V-Information [100.03188187735624]
PLMとPVI(pointwise V-information)に基づく新しい手法を導入し,モデル学習におけるデータポイントの有用性を計測する。
提案手法はまず,学習データの小さなシード上でPLMを微調整し,与えられた意図に対応する発話を新たに生成する。
そこで本手法は,大規模言語モデルの表現力を活用し,多様な学習データを生成する。
論文 参考訳(メタデータ) (2023-02-10T07:37:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。