論文の概要: UVLM: Benchmarking Video Language Model for Underwater World Understanding
- arxiv url: http://arxiv.org/abs/2507.02373v1
- Date: Thu, 03 Jul 2025 07:08:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:15.785534
- Title: UVLM: Benchmarking Video Language Model for Underwater World Understanding
- Title(参考訳): UVLM:水中世界理解のためのビデオ言語モデルのベンチマーク
- Authors: Xizhe Xue, Yang Zhou, Dawei Yan, Ying Li, Haokui Zhang, Rong Xiao,
- Abstract要約: 水中ビデオ観測のためのベンチマークであるUVLMを紹介する。
データセットには419種類の海洋動物と 様々な静的植物と地形が含まれています
2つの代表的なVidLMの実験により、UVLM上の微調整のVidLMは水中での世界の理解を著しく改善することが示された。
- 参考スコア(独自算出の注目度): 11.475921633970977
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, the remarkable success of large language models (LLMs) has achieved a profound impact on the field of artificial intelligence. Numerous advanced works based on LLMs have been proposed and applied in various scenarios. Among them, video language models (VidLMs) are particularly widely used. However, existing works primarily focus on terrestrial scenarios, overlooking the highly demanding application needs of underwater observation. To overcome this gap, we introduce UVLM, an under water observation benchmark which is build through a collaborative approach combining human expertise and AI models. To ensure data quality, we have conducted in-depth considerations from multiple perspectives. First, to address the unique challenges of underwater environments, we selected videos that represent typical underwater challenges including light variations, water turbidity, and diverse viewing angles to construct the dataset. Second, to ensure data diversity, the dataset covers a wide range of frame rates, resolutions, 419 classes of marine animals, and various static plants and terrains. Next, for task diversity, we adopted a structured design where observation targets are categorized into two major classes: biological and environmental. Each category includes content observation and change/action observation, totaling 20 distinct task types. Finally, we designed several challenging evaluation metrics to enable quantitative comparison and analysis of different methods. Experiments on two representative VidLMs demonstrate that fine-tuning VidLMs on UVLM significantly improves underwater world understanding while also showing potential for slight improvements on existing in-air VidLM benchmarks, such as VideoMME and Perception text. The dataset and prompt engineering will be released publicly.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)の成功は人工知能の分野に大きな影響を与えている。
LLMに基づく多くの先進的な研究が様々なシナリオで提案され、適用されている。
中でもビデオ言語モデル(VidLM)は特に広く使われている。
しかし、既存の研究は主に地球上のシナリオに焦点を当てており、高度に要求される水中観測の応用ニーズを見越している。
このギャップを克服するために、人間の専門知識とAIモデルを組み合わせた協調的なアプローチによって構築される水中観測ベンチマークであるUVLMを紹介する。
データ品質を確保するため,複数の視点から詳細な検討を行った。
まず、水中環境のユニークな課題に対処するために、光の変動、濁度、そしてデータセットを構築するための多様な視角を含む典型的な水中課題を表すビデオを選択しました。
第二に、データの多様性を確保するために、データセットは幅広いフレームレート、解像度、419種類の海洋動物、および様々な静的植物や地形をカバーしている。
次に,課題多様性のために,観察対象を生物と環境の2つの主要なクラスに分類する構造設計を採用した。
各カテゴリは、コンテンツ観察と変更/アクション観察を含み、合計20のタスクタイプがある。
最後に、異なる手法の定量的比較と分析を可能にするために、いくつかの挑戦的な評価指標を設計した。
2つの代表的なVidLMの実験では、UVLM上の微調整のVidLMは水中での理解を著しく改善し、ビデオMMEや知覚テキストのような既存の空気中のVidLMベンチマークにわずかに改善する可能性を示している。
データセットとプロンプトエンジニアリングは一般公開される予定だ。
関連論文リスト
- AquaticCLIP: A Vision-Language Foundation Model for Underwater Scene Analysis [40.27548815196493]
AquaticCLIP(AquaticCLIP)は、水文シーン理解に適した、新しいコントラスト言語画像事前学習モデルである。
AquaticCLIPは、画像とテキストを水生環境で整列させる、教師なしの新たな学習フレームワークを提供する。
我々のモデルは水中環境における視覚言語アプリケーションのための新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2025-02-03T19:56:16Z) - HumanVBench: Exploring Human-Centric Video Understanding Capabilities of MLLMs with Synthetic Benchmark Data [55.739633494946204]
我々は,ビデオMLLMの評価において,ギャップを埋めるために巧みに構築された,革新的なベンチマークであるHumanVBenchを紹介する。
HumanVBenchは、内的感情と外的表現、静的、動的、基本的、複雑にまたがる2つの主要な側面と、単一モーダルとクロスモーダルという2つの側面を慎重に検討する16のタスクで構成されている。
22のSOTAビデオMLLMの総合評価では、特にクロスモーダルおよび感情知覚において、現在のパフォーマンスに顕著な制限が示される。
論文 参考訳(メタデータ) (2024-12-23T13:45:56Z) - DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects [84.73092715537364]
本稿では,多数のシーンタイプにおいて,多様な対象物にナビゲートする新たな課題について検討する。
我々は、模倣学習によりLVLM(Large Vision Language Model)を微調整することにより、エンドツーエンドのエンボディエージェントであるNatVLMを構築した。
我々のエージェントは、GPT-4oを超える成功率を20%以上達成する。
論文 参考訳(メタデータ) (2024-10-03T17:49:28Z) - Hypergraph Multi-modal Large Language Model: Exploiting EEG and Eye-tracking Modalities to Evaluate Heterogeneous Responses for Video Understanding [25.4933695784155]
ビデオの創造性と内容の理解はしばしば個人によって異なり、年齢、経験、性別によって焦点や認知レベルが異なる。
実世界のアプリケーションとのギャップを埋めるために,ビデオデータセット用の大規模主観応答指標を導入する。
我々は,異なるユーザ間での映像コンテンツの認知的理解度を分析し,評価するためのタスクとプロトコルを開発した。
論文 参考訳(メタデータ) (2024-07-11T03:00:26Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - End-To-End Underwater Video Enhancement: Dataset and Model [6.153714458213646]
水中ビデオエンハンスメント(UVE)は、水中ビデオの可視性とフレーム品質を改善することを目的としている。
既存の手法は主に、各フレームを独立して拡張する画像強調アルゴリズムの開発に重点を置いている。
この研究は、私たちの知識に対するUVEの総合的な探索である。
論文 参考訳(メタデータ) (2024-03-18T06:24:46Z) - SVAM: Saliency-guided Visual Attention Modeling by Autonomous Underwater
Robots [16.242924916178282]
本稿では,自律型水中ロボットの視覚的注意モデル(SVAM)に対する総合的なアプローチを提案する。
提案するSVAM-Netは,様々なスケールの深部視覚的特徴を統合し,自然水中画像に有効なSOD(Salient Object Detection)を実現する。
論文 参考訳(メタデータ) (2020-11-12T08:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。