論文の概要: Can Argus Judge Them All? Comparing VLMs Across Domains
- arxiv url: http://arxiv.org/abs/2507.01042v1
- Date: Mon, 23 Jun 2025 09:58:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.786148
- Title: Can Argus Judge Them All? Comparing VLMs Across Domains
- Title(参考訳): アーガスの判断は全部可能か? ドメイン全体でのVLMの比較
- Authors: Harsh Joshi, Gautam Siddharth Kashyap, Rafiq Ali, Ebad Shabbir, Niharika Jain, Sarthak Jain, Jiechao Gao, Usman Naseem,
- Abstract要約: VLM(Vision-Language Models)は、マルチモーダルAIを推進しているが、タスク間のパフォーマンス一貫性は過小評価されている。
CLIP、BLIP、LXMERTを検索、キャプション、推論にまたがる多様なデータセットでベンチマークする。
我々の評価には、タスク精度、生成品質、効率、新しいクロスデータセット一貫性(CDC)メトリクスが含まれる。
- 参考スコア(独自算出の注目度): 12.641455083501954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) are advancing multimodal AI, yet their performance consistency across tasks is underexamined. We benchmark CLIP, BLIP, and LXMERT across diverse datasets spanning retrieval, captioning, and reasoning. Our evaluation includes task accuracy, generation quality, efficiency, and a novel Cross-Dataset Consistency (CDC) metric. CLIP shows strongest generalization (CDC: 0.92), BLIP excels on curated data, and LXMERT leads in structured reasoning. These results expose trade-offs between generalization and specialization, informing industrial deployment of VLMs and guiding development toward robust, task-flexible architectures.
- Abstract(参考訳): VLM(Vision-Language Models)は、マルチモーダルAIを推進しているが、タスク間のパフォーマンス一貫性は過小評価されている。
CLIP、BLIP、LXMERTを検索、キャプション、推論にまたがる多様なデータセットでベンチマークする。
我々の評価には、タスク精度、生成品質、効率、新しいクロスデータセット一貫性(CDC)メトリクスが含まれる。
CLIPは最強の一般化(CDC: 0.92)を示し、BLIPはキュレートされたデータに優れ、LXMERTは構造化された推論に導かれる。
これらの結果は、一般化と特殊化のトレードオフを明らかにし、VLMの産業展開と、堅牢でタスクフレキシブルなアーキテクチャに向けた開発を導く。
関連論文リスト
- Rethinking Multilingual Vision-Language Translation: Dataset, Evaluation, and Adaptation [45.551223552275424]
視覚言語翻訳は、画像に埋め込まれた多言語テキストを正確に認識する必要がある課題である。
本稿では,データ品質,モデルアーキテクチャ,評価指標の3つの重要な視点からVLTを総合的に検討する。
論文 参考訳(メタデータ) (2025-06-13T14:23:38Z) - Are Unified Vision-Language Models Necessary: Generalization Across Understanding and Generation [50.22361866757033]
統合視覚言語モデル(VLM)は、視覚的理解と生成機能の両方を統合する。
本稿では,統一VLMにおける理解・生成タスクの一般化を体系的に検討する。
論文 参考訳(メタデータ) (2025-05-29T03:40:21Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Empowering Large Language Models in Wireless Communication: A Novel Dataset and Fine-Tuning Framework [81.29965270493238]
我々は,無線通信アプリケーションのための大規模言語モデル(LLM)の評価と微調整を目的とした,特殊なデータセットを開発した。
データセットには、真/偽と複数選択型を含む、さまざまなマルチホップ質問が含まれている。
本稿では,PVI(Pointwise V-Information)に基づく微調整手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T16:19:53Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - Towards Reliable Detection of LLM-Generated Texts: A Comprehensive Evaluation Framework with CUDRT [9.682499180341273]
大規模言語モデル(LLM)はテキスト生成が大幅に進歩しているが、その出力の人間的な品質は大きな課題を呈している。
中国語と英語の総合的な評価フレームワークとバイリンガルベンチマークであるCUDRTを提案する。
このフレームワークは、スケーラブルで再現可能な実験をサポートし、運用の多様性、多言語トレーニングセット、LLMアーキテクチャが検出性能に与える影響を分析する。
論文 参考訳(メタデータ) (2024-06-13T12:43:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。