Fugu-MT 論文翻訳(概要): LVOS: A Benchmark for Long-term Video Object Segmentation

論文の概要: LVOS: A Benchmark for Long-term Video Object Segmentation

arxiv url: http://arxiv.org/abs/2211.10181v1
Date: Fri, 18 Nov 2022 11:59:37 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-21 15:10:45.087229
Title: LVOS: A Benchmark for Long-term Video Object Segmentation
Title（参考訳）: LVOS: 長期ビデオオブジェクトセグメンテーションのためのベンチマーク
Authors: Lingyi Hong, Wenchao Chen, Zhongying Liu, Wei Zhang, Pinxue Guo, Zhaoyu Chen, Wenqiang Zhang
Abstract要約: LVOSと呼ばれる新しいベンチマークデータセットと評価手法を提案し、合計421分間の220の動画で構成されている。 LVOSのビデオは平均1.59分で、既存のVOSデータセットのビデオの20倍の長さです。本稿では,時間的情報を適切に活用するための3つの相補的メモリバンクからなる横動的メモリネットワーク(DDMemory)を提案する。
参考スコア（独自算出の注目度）: 17.095347896563243
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing video object segmentation (VOS) benchmarks focus on short-term videos which just last about 3-5 seconds and where objects are visible most of the time. These videos are poorly representative of practical applications, and the absence of long-term datasets restricts further investigation of VOS on the application in realistic scenarios. So, in this paper, we present a new benchmark dataset and evaluation methodology named LVOS, which consists of 220 videos with a total duration of 421 minutes. To the best of our knowledge, LVOS is the first densely annotated long-term VOS dataset. The videos in our LVOS last 1.59 minutes on average, which is 20 times longer than videos in existing VOS datasets. Each video includes various attributes, especially challenges deriving from the wild, such as long-term reappearing and cross-temporal similar objeccts. Moreover, we provide additional language descriptions to encourage the exploration of integrating linguistic and visual features for video object segmentation. Based on LVOS, we assess existing video object segmentation algorithms and propose a Diverse Dynamic Memory network (DDMemory) that consists of three complementary memory banks to exploit temporal information adequately. The experiment results demonstrate the strength and weaknesses of prior methods, pointing promising directions for further study. Our objective is to provide the community with a large and varied benchmark to boost the advancement of long-term VOS. Data and code are available at \url{https://lingyihongfd.github.io/lvos.github.io/}.
Abstract（参考訳）: 既存のvos(video object segmentation)ベンチマークでは、約3～5秒の短いビデオに焦点が当てられている。これらのビデオは実用性に乏しく、長期的なデータセットがないため、現実的なシナリオにおけるVOSのさらなる研究が制限される。そこで本稿では,本論文で提案するlvosというベンチマークデータセットと評価手法を提案する。我々の知る限りでは、LVOSは最初の高密度アノテーション付き長期VOSデータセットである。 LVOSのビデオは平均1.59分で、既存のVOSデータセットのビデオの20倍の長さです。それぞれのビデオには様々な属性が含まれており、特に長期の再登場や時空的類似のobjecctなど、野生から生じる課題がある。さらに,ビデオオブジェクトセグメンテーションのための言語的特徴と視覚的特徴の統合を奨励するために,追加の言語記述を提供する。 LVOSをベースとして,既存の映像オブジェクト分割アルゴリズムを評価し,時間情報を適切に活用するための3つの相補的メモリバンクからなる Diverse Dynamic Memory Network (DDMemory) を提案する。実験結果は,先行手法の強度と弱さを示し,今後の研究に有望な方向を示した。我々の目標は、長期VOSの進歩を促進するために、大規模で多様なベンチマークをコミュニティに提供することである。データとコードは \url{https://lingyihongfd.github.io/lvos.github.io/} で入手できる。

関連論文リスト

Flash-VStream: Efficient Real-Time Understanding for Long Video Streams [64.25549822010372]
Flash-VStreamは、非常に長いビデオを処理し、リアルタイムでユーザークエリに応答できるビデオ言語モデルである。既存のモデルと比較して、Flash-VStreamは推論遅延を大幅に削減する。
論文参考訳（メタデータ） (2025-06-30T13:17:49Z)
Unleashing Hour-Scale Video Training for Long Video-Language Understanding [61.717205915329664]
本稿では,大規模な時間長ビデオインストラクション追従データセットであるVideoMarathonを紹介する。このデータセットには、ビデオあたり3分から60分に及ぶ、さまざまなドメインからソースされた9,700時間の長いビデオが含まれている。時間スケールビデオ言語モデリングのための高効率ビデオLMMであるHour-LLaVAを提案する。
論文参考訳（メタデータ） (2025-06-05T17:59:04Z)
Long-RVOS: A Comprehensive Benchmark for Long-term Referring Video Object Segmentation [31.48914479058998]
本稿では,長期参照オブジェクトセグメンテーションのための大規模ベンチマークであるLongtextbf-RVOSを紹介する。 Long-RVOSには、平均時間60秒を超える2,000以上のビデオが含まれており、さまざまなオブジェクトをカバーしている。フレーム単位の空間評価にのみ依存する従来のベンチマークとは異なり、時間的・時間的整合性を評価するために2つの指標を導入する。
論文参考訳（メタデータ） (2025-05-19T04:52:31Z)
MomentSeeker: A Task-Oriented Benchmark For Long-Video Moment Retrieval [61.414236415351446]
長ビデオモーメント検索(LMVR)のための新しいベンチマークであるMomentSeekerを提案する。 MomentSeekerは、長く多様なビデオに基づいて作られ、平均1200秒以上持続する。グローバルレベル、イベントレベル、オブジェクトレベル、アクション認識、オブジェクトローカライゼーション、因果推論といった一般的なタスクをカバーする。
論文参考訳（メタデータ） (2025-02-18T05:50:23Z)
HLV-1K: A Large-scale Hour-Long Video Benchmark for Time-Specific Long Video Understanding [52.696422425058245]
我々は、長時間ビデオ理解モデルを評価するために、大規模な時間長ビデオベンチマークHLV-1Kを構築した。 HLV-1Kは、高品質質問応答(QA)とマルチチョイス質問応答(MCQA)を備えた1009時間ビデオからなる。我々は,既存の最先端手法を用いてベンチマークを評価し,様々なレベルでの深層ビデオ理解能力をテストすることの価値を実証した。
論文参考訳（メタデータ） (2025-01-03T05:32:37Z)
Vript: A Video Is Worth Thousands of Words [54.815686588378156]
Vriptは12Kの高解像度ビデオの注釈付きコーパスで、420Kのクリップで詳細な、密度の高い、スクリプトのようなキャプションを提供する。各クリップには145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。 Vriptは、長いビデオのための高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
論文参考訳（メタデータ） (2024-06-10T06:17:55Z)
Streaming Long Video Understanding with Large Language Models [83.11094441893435]
VideoStreamingは、ビデオ理解のための高度な視覚言語大モデル(VLLM)である。一定の数のビデオストリーミングトークンを符号化し、伝播的に選択した任意の長さのビデオを理解することができる。提案モデルは,長大なビデオベンチマークにおいて,優れた性能と高効率を実現する。
論文参考訳（メタデータ） (2024-05-25T02:22:09Z)
LVOS: A Benchmark for Large-scale Long-term Video Object Segmentation [29.07092353094942]
ビデオオブジェクトセグメンテーション(VOS)は、ビデオ内のターゲットオブジェクトの識別と追跡を目的としている。既存のベンチマークは主に、ほとんどの場合オブジェクトが見える短期的なビデオに焦点を当てている。 296,401フレームの720の動画と407,945の高品質アノテーションからなるLVOSという新しいベンチマークを提案する。 LVOSのビデオは平均1.14分であり、既存のデータセットのビデオの約5倍の長さである。
論文参考訳（メタデータ） (2024-04-30T07:50:29Z)
LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文参考訳（メタデータ） (2024-04-04T11:33:29Z)
Efficient Video Object Segmentation via Modulated Cross-Attention Memory [123.12273176475863]
頻繁なメモリ拡張を必要とせず、時間的滑らかさをモデル化するトランスフォーマーベースの手法MAVOSを提案する。我々のMAVOSは、単一のV100 GPU上で37フレーム/秒(FPS)で動作しながら、J&Fスコア63.3%を達成する。
論文参考訳（メタデータ） (2024-03-26T17:59:58Z)
MOSE: A New Dataset for Video Object Segmentation in Complex Scenes [106.64327718262764]
ビデオオブジェクトセグメンテーション(VOS)は、ビデオクリップシーケンス全体を通して特定のオブジェクトをセグメンテーションすることを目的としている。最先端のVOSメソッドは、既存のデータセット上で優れたパフォーマンス(例えば、90%以上のJ&F)を達成した。我々は、複雑な環境でのトラッキングとセグメンテーションを研究するために、coMplex video Object SEgmentation (MOSE)と呼ばれる新しいVOSデータセットを収集する。
論文参考訳（メタデータ） (2023-02-03T17:20:03Z)
Region Aware Video Object Segmentation with Deep Motion Modeling [56.95836951559529]
Region Aware Video Object (RAVOS) は、効率的なオブジェクトセグメンテーションとメモリストレージのための関心領域を予測する手法である。効率的なセグメンテーションのために、ROIに応じてオブジェクトの特徴を抽出し、オブジェクトレベルのセグメンテーションのためにオブジェクトデコーダを設計する。効率的なメモリ記憶のために,2つのフレーム間のオブジェクトの移動経路内の特徴を記憶することで,冗長なコンテキストをフィルタリングする動作パスメモリを提案する。
論文参考訳（メタデータ） (2022-07-21T01:44:40Z)
5th Place Solution for YouTube-VOS Challenge 2022: Video Object Segmentation [4.004851693068654]
ビデオオブジェクトセグメンテーション(VOS)は、ディープラーニングの台頭とともに大きな進歩を遂げた。類似の物体は容易に混同され、小さな物体を見つけるのが困難である。本稿では,この課題に対する単純かつ効果的な解決法を提案する。
論文参考訳（メタデータ） (2022-06-20T06:14:27Z)
Dual Temporal Memory Network for Efficient Video Object Segmentation [42.05305410986511]
ビデオオブジェクト(VOS)の基本的な課題の1つは、時間情報を最大限活用してパフォーマンスを向上する方法である。本稿では,現在のフレームに先行する短・長期のビデオシーケンス情報を時間記憶として格納するエンド・ツー・エンド・ネットワークを提案する。我々のネットワークは、短期記憶サブネットワークと長期記憶サブネットワークを含む2つの時間的サブネットワークで構成されている。
論文参考訳（メタデータ） (2020-03-13T06:07:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。