論文の概要: MSC: A Marine Wildlife Video Dataset with Grounded Segmentation and Clip-Level Captioning
- arxiv url: http://arxiv.org/abs/2508.04549v1
- Date: Wed, 06 Aug 2025 15:34:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.789907
- Title: MSC: A Marine Wildlife Video Dataset with Grounded Segmentation and Clip-Level Captioning
- Title(参考訳): MSC:グラウンドドセグメンテーションとClip-Levelキャプションを備えた海洋野生生物のビデオデータセット
- Authors: Quang-Trung Truong, Yuk-Kwan Wong, Vo Hoang Kim Tuyen Dang, Rinaldi Gotama, Duc Thanh Nguyen, Sai-Kit Yeung,
- Abstract要約: 海洋ビデオは、ビデオ理解にとって重要な課題である。
既存のビデオキャプションデータセットは、しばしば海洋環境の複雑さを一般化するのに失敗する。
本稿では,2段階の海洋オブジェクト指向ビデオキャプションパイプラインを提案する。
- 参考スコア(独自算出の注目度): 15.968772405167877
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Marine videos present significant challenges for video understanding due to the dynamics of marine objects and the surrounding environment, camera motion, and the complexity of underwater scenes. Existing video captioning datasets, typically focused on generic or human-centric domains, often fail to generalize to the complexities of the marine environment and gain insights about marine life. To address these limitations, we propose a two-stage marine object-oriented video captioning pipeline. We introduce a comprehensive video understanding benchmark that leverages the triplets of video, text, and segmentation masks to facilitate visual grounding and captioning, leading to improved marine video understanding and analysis, and marine video generation. Additionally, we highlight the effectiveness of video splitting in order to detect salient object transitions in scene changes, which significantly enrich the semantics of captioning content. Our dataset and code have been released at https://msc.hkustvgd.com.
- Abstract(参考訳): 海洋ビデオは、海洋物体と周囲環境のダイナミックス、カメラの動き、水中のシーンの複雑さによる、映像理解の重大な課題を示す。
既存のビデオキャプションデータセットは、一般的に一般的なドメインや人間中心のドメインに焦点を当てているが、しばしば海洋環境の複雑さに一般化できず、海洋生物に関する洞察を得られなかった。
これらの制約に対処するために,2段階の海洋オブジェクト指向ビデオキャプションパイプラインを提案する。
本研究では,映像,テキスト,セグメンテーションマスクのトリプレットを利用した総合的映像理解ベンチマークを導入し,視覚的接地とキャプションの容易化を図った。
さらに,映像分割の有効性を強調し,シーン変化における顕著なオブジェクト遷移を検知し,キャプションの内容のセマンティクスを著しく強化する。
データセットとコードはhttps://msc.hkustvgd.comで公開されている。
関連論文リスト
- Controllable Hybrid Captioner for Improved Long-form Video Understanding [0.24578723416255746]
ビデオデータは極めて密度が高く、高次元である。
テキストベースの動画コンテンツの要約は、生よりはるかにコンパクトな方法でコンテンツを表現する方法を提供する。
静的なシーン記述でメモリを豊かにするビジョン言語モデル(VLM)を導入する。
論文 参考訳(メタデータ) (2025-07-22T22:09:00Z) - SAMA: Towards Multi-Turn Referential Grounded Video Chat with Large Language Models [80.3895950009792]
ビデオにおけるきめ細かい時間的理解の獲得は、現在のビデオ大マルチモデル(ビデオLMM)にとって大きな課題である。
私たちは、データセット、モデル、ベンチマークの3つの中核的な側面に貢献しています。
まず,ビデオ理解,グラウンドニング,マルチターンビデオチャットの共用学習を実現するため、15Kビデオからなる大規模データセットであるSAMA-239Kを紹介する。
第2に,広義の時間的コンテキストアグリゲータとセグメンションモデルを組み合わせたSAMAモデルを提案する。
論文 参考訳(メタデータ) (2025-05-24T18:13:16Z) - SMILE: Infusing Spatial and Motion Semantics in Masked Video Learning [50.98341607245458]
Masked Video Modelingはビデオ自己教師型学習(SSL)に有効なパラダイムである
本稿では,空間的意味論と動き的意味論を融合させることにより,SMILEと呼ばれるビデオ表現学習のための新しいSSL手法を提案する。
我々は、自然な映像データを必要とせず、強力な映像表現を学習できる、新しい自己教師型ビデオ学習パラダイムを確立した。
論文 参考訳(メタデータ) (2025-04-01T08:20:55Z) - Segment Any Motion in Videos [80.72424676419755]
本研究では,長距離軌道運動キューとDINOに基づく意味的特徴を組み合わせた移動物体セグメンテーションを提案する。
本モデルでは,動作を優先し,セマンティックサポートを統合しつつ,時空間軌道注意と動き・セマンティック・デカップリング・エンベディングを用いた。
論文 参考訳(メタデータ) (2025-03-28T09:34:11Z) - AUTV: Creating Underwater Video Datasets with Pixel-wise Annotations [27.609227883183713]
AUTVは,海洋ビデオデータをピクセル単位のアノテーションで合成するフレームワークである。
2つのビデオデータセットを構築することで、このフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2025-03-17T05:18:20Z) - OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。
これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。
このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文 参考訳(メタデータ) (2024-03-26T17:59:24Z) - MarineVRS: Marine Video Retrieval System with Explainability via
Semantic Understanding [11.878077736295863]
MarineVRSは、海洋ドメイン用に明示的に設計された、新しく柔軟なビデオ検索システムである。
MarineVRSは、視覚的および言語的オブジェクト表現のための最先端の手法を統合し、大量の水中ビデオデータの効率的かつ正確な検索と分析を可能にする。
MarineVRSは、海洋研究者や科学者が大量のデータを効率的に正確に処理し、海洋生物の行動や動きについて深い洞察を得るための強力なツールである。
論文 参考訳(メタデータ) (2023-06-07T16:46:44Z) - Marine Video Kit: A New Marine Video Dataset for Content-based Analysis
and Retrieval [10.526705651297146]
本稿では,水中環境における移動カメラから撮影したワンショット映像に着目した。
新しいMarine Video Kitの最初のシャードは、ビデオ検索やその他のコンピュータビジョンの課題に役立ちます。
論文 参考訳(メタデータ) (2022-09-23T10:57:50Z) - Spoken Moments: Learning Joint Audio-Visual Representations from Video
Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。
AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文 参考訳(メタデータ) (2021-05-10T16:30:46Z) - A Local-to-Global Approach to Multi-modal Movie Scene Segmentation [95.34033481442353]
我々は、150本の映画から21Kの注釈付きシーンセグメントを含む大規模なビデオデータセット、MovieScenesを構築した。
本稿では,クリップ,セグメント,映画の3段階にわたるマルチモーダル情報を統合するローカル・グローバルシーンセグメンテーションフレームワークを提案する。
実験の結果,提案するネットワークは,映画を高い精度でシーンに分割し,従来手法より一貫した性能を発揮することがわかった。
論文 参考訳(メタデータ) (2020-04-06T13:58:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。