論文の概要: Deploying Tiny LVLM Judges for Real-World Evaluation of Chart Models: Lessons Learned and Best Practices
- arxiv url: http://arxiv.org/abs/2510.07545v1
- Date: Wed, 08 Oct 2025 21:02:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.731743
- Title: Deploying Tiny LVLM Judges for Real-World Evaluation of Chart Models: Lessons Learned and Best Practices
- Title(参考訳): チャートモデルの実世界評価のためのティニーLVLM審査員の配置:学習とベストプラクティス
- Authors: Md Tahmid Rahman Laskar, Mohammed Saidul Islam, Ridwan Mahbub, Mizanur Rahman, Amran Bhuiyan, Israt Jahan, Mir Tafseer Nayeem, Shafiq Joty, Enamul Hoque, Jimmy Huang,
- Abstract要約: 7Bパラメータしか持たないLVLM(Large Vision-Language Models)は、チャート理解タスクにおける自動判断として有望であることを示している。
しかし、小さなモデル(=2Bパラメータ)はいまだに判断として不十分であり、リソース制限された設定での実際の使用を制限する。
i) 評価基準を1つのクエリにまとめるマルチ基準プロンプトと(ii) ドメイン適応トランスファーラーニングの2つのアプローチを提案し、チャートデータセットの合成判断に2B-パラメータLVLMを微調整してChartJudgeを作成する。
- 参考スコア(独自算出の注目度): 43.58820960865236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) with only 7B parameters have shown promise as automated judges in chart comprehension tasks. However, tiny models (<=2B parameters) still perform poorly as judges, limiting their real-world use in resource-constrained settings. To address this, we propose two approaches to ensure cost-efficient evaluation: (i) multi-criteria prompting, which combines separate evaluation criteria into a single query, and (ii) domain-adaptive transfer learning, in which we fine-tune a 2B-parameter LVLM on synthetic judgments in a chart dataset to create the ChartJudge. Experiments show that multi-criteria prompting exposes robustness gaps, which led to a huge drop in performance for 7B models, including specialized LVLM judges like LLaVA-Critic. In addition, we find that our tiny LVLM (ChartJudge) can effectively transfer knowledge from one dataset to another to make it a more specialized model. Our fine-grained analysis across chart types and query complexities offers actionable insights into trade-offs between model size, prompt design, and transferability, enabling scalable, low-cost evaluation for chart reasoning tasks. Our code and the data will be made publicly available.
- Abstract(参考訳): 7Bパラメータしか持たないLVLM(Large Vision-Language Models)は、チャート理解タスクにおける自動判断として有望であることを示している。
しかし、小さなモデル (=2B パラメータ) はいまだに審査員として不十分であり、リソース制約された設定での実際の使用を制限する。
これを解決するために,コスト効率評価のための2つのアプローチを提案する。
(i)個別評価基準を単一のクエリに組み合わせた複数基準プロンプト
2BパラメータLVLMをグラフデータセットの合成判断に微調整してChartJudgeを作成するドメイン適応トランスファー学習。
LLaVA-Criticのような特殊なLVLM審査員を含む7Bモデルの性能は大幅に低下した。
さらに、私たちの小さなLVLM(ChartJudge)は、知識をあるデータセットから別のデータセットに効果的に転送し、より専門的なモデルにすることができます。
グラフの型やクエリの複雑さに関する詳細な分析は、モデルのサイズ、迅速な設計、転送可能性の間のトレードオフに関する実用的な洞察を与え、スケーラブルで低コストなグラフ推論タスクの評価を可能にします。
私たちのコードとデータは公開されます。
関連論文リスト
- Judging the Judges: Can Large Vision-Language Models Fairly Evaluate Chart Comprehension and Reasoning? [26.909604648952616]
13個のオープンソースのLVLMを多彩なチャート理解および推論タスクの判断として評価した。
我々は、事実の正しさ、情報性、関連性といった基準を網羅した、ペアワイズかつポイントワイズな評価タスクを設計する。
我々は、研究開発と商業利用の両方に適した費用対効果のLVLMに焦点を当てる。
論文 参考訳(メタデータ) (2025-05-13T11:50:08Z) - SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - Ranked from Within: Ranking Large Multimodal Models Without Labels [73.96543593298426]
ソフトマックス分布から導かれる不確実性スコアは,様々なタスクにまたがるランキングモデルに対して,ロバストな基礎となることを示す。
これにより、ラベルのないデータに対するLMMのランク付けが容易になり、手動のアノテーションを必要とせずに、多様なターゲットドメインのモデルを選択するための実践的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-12-09T13:05:43Z) - TALEC: Teach Your LLM to Evaluate in Specific Domain with In-house Criteria by Criteria Division and Zero-shot Plus Few-shot [3.0105173516143395]
本稿では,モデルに基づく評価手法 TALEC を提案する。
ユーザは自分の評価基準を柔軟に設定でき、インコンテキストラーニング(ICL)を使って審査員にこれらの評価基準を教えることができる。
TALECは人間の嗜好を正確に反映する強力な能力を示し、人間の判断と80%以上の相関を達成している。
論文 参考訳(メタデータ) (2024-06-25T10:02:42Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - Evaluating Representations with Readout Model Switching [19.907607374144167]
本稿では,最小記述長(MDL)の原理を用いて評価指標を考案する。
我々は、読み出しモデルのためのハイブリッド離散および連続値モデル空間を設計し、それらの予測を組み合わせるために切替戦略を用いる。
提案手法はオンライン手法で効率的に計算でき,様々なアーキテクチャの事前学習された視覚エンコーダに対する結果を示す。
論文 参考訳(メタデータ) (2023-02-19T14:08:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。