論文の概要: MarineEval: Assessing the Marine Intelligence of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2512.21126v1
- Date: Wed, 24 Dec 2025 11:57:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.772657
- Title: MarineEval: Assessing the Marine Intelligence of Vision-Language Models
- Title(参考訳): MarineEval: ビジョンランゲージモデルの海兵隊インテリジェンスを評価する
- Authors: YuK-Kwan Wong, Tuan-An To, Jipeng Zhang, Ziqiang Zheng, Sai-Kit Yeung,
- Abstract要約: 我々は,2000枚の画像に基づく質問応答ペアを用いた,最初の大規模海洋VLMデータセットとベンチマークであるMarineEvalを構築した。
我々は,MineEval上で17の既存のVLMをベンチマークし,海洋研究の質問に答える上での既存モデルの限界について検討する。
- 参考スコア(独自算出の注目度): 35.08637645476385
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We have witnessed promising progress led by large language models (LLMs) and further vision language models (VLMs) in handling various queries as a general-purpose assistant. VLMs, as a bridge to connect the visual world and language corpus, receive both visual content and various text-only user instructions to generate corresponding responses. Though great success has been achieved by VLMs in various fields, in this work, we ask whether the existing VLMs can act as domain experts, accurately answering marine questions, which require significant domain expertise and address special domain challenges/requirements. To comprehensively evaluate the effectiveness and explore the boundary of existing VLMs, we construct the first large-scale marine VLM dataset and benchmark called MarineEval, with 2,000 image-based question-answering pairs. During our dataset construction, we ensure the diversity and coverage of the constructed data: 7 task dimensions and 20 capacity dimensions. The domain requirements are specially integrated into the data construction and further verified by the corresponding marine domain experts. We comprehensively benchmark 17 existing VLMs on our MarineEval and also investigate the limitations of existing models in answering marine research questions. The experimental results reveal that existing VLMs cannot effectively answer the domain-specific questions, and there is still a large room for further performance improvements. We hope our new benchmark and observations will facilitate future research. Project Page: http://marineeval.hkustvgd.com/
- Abstract(参考訳): 我々は,大規模言語モデル (LLMs) と視覚言語モデル (VLMs) による,多種多様なクエリを汎用アシスタントとして扱うことによる有望な進歩を目撃してきた。
VLMは、視覚世界と言語コーパスを接続するブリッジとして、視覚コンテンツと様々なテキストのみのユーザー命令の両方を受け取り、対応する応答を生成する。
様々な分野でVLMが大きな成功を収めてきたが、本研究では、既存のVLMがドメインエキスパートとして機能し、重要なドメイン専門知識を必要とし、特別なドメイン課題や要求に対処する海洋問題に正確に答えられるかどうかを問う。
既存のVLMの有効性を総合的に評価し,その境界を探索するために,2000枚の画像に基づく質問応答ペアを用いて,最初の大規模海洋VLMデータセットとベンチマークであるMarineEvalを構築した。
データセット構築中に、構築されたデータの多様性とカバレッジを7つのタスクディメンションと20のキャパシティディメンションで保証します。
ドメイン要件は、データ構築に特別に統合され、対応する海洋ドメインの専門家によってさらに検証される。
我々は,MineEval上で17の既存のVLMを総合的にベンチマークし,海洋研究の質問に答える上での既存モデルの限界について検討する。
実験の結果,既存のVLMではドメイン固有の疑問に効果的に答えられず,さらなるパフォーマンス向上の余地がまだ残っていることが明らかとなった。
新しいベンチマークと観察が将来の研究を促進することを期待しています。
Project Page: http://marineeval.hkustvgd.com/
関連論文リスト
- UVLM: Benchmarking Video Language Model for Underwater World Understanding [11.475921633970977]
水中ビデオ観測のためのベンチマークであるUVLMを紹介する。
データセットには419種類の海洋動物と 様々な静的植物と地形が含まれています
2つの代表的なVidLMの実験により、UVLM上の微調整のVidLMは水中での世界の理解を著しく改善することが示された。
論文 参考訳(メタデータ) (2025-07-03T07:08:38Z) - SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding [64.15606979785355]
マルチモーダル大規模言語モデル(MLLM)は,質問応答タスクにおいて顕著な成功を収めているが,空間的理解能力は乏しい。
既存のMLLMは3次元空間認識と理解能力を持っているか?
論文 参考訳(メタデータ) (2025-05-22T17:59:03Z) - MME-Industry: A Cross-Industry Multimodal Evaluation Benchmark [20.642661835794975]
産業環境におけるMLLMの評価に特化して設計された新しいベンチマークであるMME-Industryを紹介する。
ベンチマークは21の異なるドメインを含み、1ドメインにつき50の質問と回答のペアが1050である。
ベンチマークの中国語版と英語版の両方を提供し、これらの言語間でMLLMの能力の比較分析を可能にする。
論文 参考訳(メタデータ) (2025-01-28T03:56:17Z) - EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents [57.4686961979566]
EmbodiedEvalは、組み込みタスクを持つMLLMの総合的かつインタラクティブな評価ベンチマークである。
多様性が大幅に向上した既存のAIタスクの幅広い範囲をカバーする。
EmbodiedEval における最先端MLLM の評価を行い,人体作業における人体レベルと比較して有意に不足していることがわかった。
論文 参考訳(メタデータ) (2025-01-21T03:22:10Z) - R-Eval: A Unified Toolkit for Evaluating Domain Knowledge of Retrieval Augmented Large Language Models [51.468732121824125]
大規模言語モデルは一般的なNLPタスクにおいて顕著な成功を収めてきたが、ドメイン固有の問題には不足する可能性がある。
既存の評価ツールは、ドメイン知識の深さを掘り下げることなく、いくつかのベースラインを提供し、様々なドメインで評価するのみである。
本稿では、R-Evalツールキット(R-Evalツールキット)を導入し、異なるRAGの評価を合理化することによるALLMの評価の課題に対処する。
論文 参考訳(メタデータ) (2024-06-17T15:59:49Z) - Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。
我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。
既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文 参考訳(メタデータ) (2024-06-11T13:09:16Z) - Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions [31.71954519657729]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といった複雑なタスクに対処できる高度なモデルである。
我々の分類では、VLMを視覚言語理解専用のモデル、マルチモーダル入力を処理するモデル、マルチモーダル入力とアウトプットの両方を受け付け、生成するモデルという3つのカテゴリに分類する。
我々は各モデルを慎重に識別し、基礎となるアーキテクチャ、データソースのトレーニング、および可能な限りの強度と限界を広範囲に分析する。
論文 参考訳(メタデータ) (2024-02-20T18:57:34Z) - MarineGPT: Unlocking Secrets of Ocean to the Public [32.17362940242431]
大規模言語モデル(LLM)は、AIアシスタントとしてのユーザエクスペリエンスを促進する強力なツールであることが証明されている。
我々は,海洋ドメイン用に特別に設計された最初の視覚言語モデルである textbfMarineGPT を提案し,海洋の秘密を一般に公開する。
論文 参考訳(メタデータ) (2023-10-20T15:45:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。