Fugu-MT 論文翻訳(概要): EPIC-KITCHENS VISOR Benchmark: VIdeo Segmentations and Object Relations

論文の概要: EPIC-KITCHENS VISOR Benchmark: VIdeo Segmentations and Object Relations

arxiv url: http://arxiv.org/abs/2209.13064v1
Date: Mon, 26 Sep 2022 23:03:26 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-28 14:22:20.053558
Title: EPIC-KITCHENS VISOR Benchmark: VIdeo Segmentations and Object Relations
Title（参考訳）: EPIC-KITCHENS VISORベンチマーク:Videoセグメンテーションとオブジェクト関係
Authors: Ahmad Darkhalil, Dandan Shan, Bin Zhu, Jian Ma, Amlan Kar, Richard Higgins, Sanja Fidler, David Fouhey, Dima Damen
Abstract要約: 我々は、新しいピクセルアノテーションのデータセットであるVISORと、エゴセントリックなビデオで手やアクティブなオブジェクトをセグメンテーションするためのベンチマークスイートを紹介する。具体的には、オブジェクトが変換的相互作用を行う場合、ピクセルレベルのアノテーションの短期的および長期的整合性を保証する必要がある。 VISORは、拡張性と品質のために、部分でAI駆動のアノテーションパイプラインを導入している。
参考スコア（独自算出の注目度）: 83.26326325568208
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce VISOR, a new dataset of pixel annotations and a benchmark suite for segmenting hands and active objects in egocentric video. VISOR annotates videos from EPIC-KITCHENS, which comes with a new set of challenges not encountered in current video segmentation datasets. Specifically, we need to ensure both short- and long-term consistency of pixel-level annotations as objects undergo transformative interactions, e.g. an onion is peeled, diced and cooked - where we aim to obtain accurate pixel-level annotations of the peel, onion pieces, chopping board, knife, pan, as well as the acting hands. VISOR introduces an annotation pipeline, AI-powered in parts, for scalability and quality. In total, we publicly release 272K manual semantic masks of 257 object classes, 9.9M interpolated dense masks, 67K hand-object relations, covering 36 hours of 179 untrimmed videos. Along with the annotations, we introduce three challenges in video object segmentation, interaction understanding and long-term reasoning. For data, code and leaderboards: http://epic-kitchens.github.io/VISOR
Abstract（参考訳）: 我々は、新しいピクセルアノテーションのデータセットであるVISORと、エゴセントリックビデオにおける手とアクティブオブジェクトのセグメンテーションのためのベンチマークスイートを紹介する。 VISORはEPIC-KITCHENSのビデオに注釈を付けている。具体的には、タマネギを剥がし、ダイクし、調理するなど、変形的な相互作用を行うオブジェクトとして、ピクセルレベルのアノテーションの短期的および長期的一貫性を確保する必要がある。 VISORは、拡張性と品質のために、部分でAI駆動のアノテーションパイプラインを導入している。対象のクラス257、補間された密閉マスク9.9M、67Kのハンドオブジェクト関係の合計272Kのセマンティックマスクを公開しました。アノテーションとともに,ビデオオブジェクトセグメンテーション,インタラクション理解,長期推論の3つの課題を紹介した。データ、コード、リーダーボード:http://epic-kitchens.github.io/VISOR

関連論文リスト

ViCaS: A Dataset for Combining Holistic and Pixel-level Video Understanding using Captions with Grounded Segmentation [14.534308478766476]
何千もの挑戦的なビデオを含む新しいデータセットであるViCaSを紹介します。本ベンチマークでは,全体的/高レベルの理解と言語誘導,画素精度のセグメンテーションに関するモデルを評価する。
論文参考訳（メタデータ） (2024-12-12T23:10:54Z)
VISA: Reasoning Video Object Segmentation via Large Language Models [64.33167989521357]
我々は新しいタスク、Reasoning Video Object(ReasonVOS)を導入する。このタスクは、複雑な推論能力を必要とする暗黙のテキストクエリに応答して、セグメンテーションマスクのシーケンスを生成することを目的としている。本稿では、ReasonVOSに取り組むためにVISA(ビデオベース大規模言語命令付きアシスタント)を導入する。
論文参考訳（メタデータ） (2024-07-16T02:29:29Z)
PM-VIS+: High-Performance Video Instance Segmentation without Video Annotation [15.9587266448337]
ビデオインスタンスのセグメンテーションには、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡する必要がある。本稿では,画像データセットを利用してビデオアノテーションを除去する手法を提案する。
論文参考訳（メタデータ） (2024-06-28T05:22:39Z)
Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文参考訳（メタデータ） (2024-06-08T14:25:57Z)
Point-VOS: Pointing Up Video Object Segmentation [16.359861197595986]
現在の最先端のビデオオブジェクト(VOS)メソッドは、トレーニングとテストの両方において、オブジェクトごとの密集したマスクアノテーションに依存している。本稿では,その労力を大幅に削減する疎時間的ポイントワイドアノテーションスキームを備えた新しいPoint-VOSタスクを提案する。ビデオナラティブグラウンドディング(VNG)タスクで評価することで、視覚と言語を接続するモデルを改善するために、我々のデータが利用できることを示す。
論文参考訳（メタデータ） (2024-02-08T18:52:23Z)
Sketch-based Video Object Segmentation: Benchmark and Analysis [55.79497833614397]
本稿では,スケッチベースのビデオオブジェクトセグメンテーション,関連するベンチマーク,強力なベースラインについて紹介する。私たちのベンチマークには、3つのデータセット、Sketch-DAVIS16、Sketch-DAVIS17、Sketch-YouTube-VOSが含まれています。実験の結果、スケッチは、フォトマスク、言語、スクリブルなど、他の参照よりも効果的であるが、アノテーション効率が高いことが示された。
論文参考訳（メタデータ） (2023-11-13T11:53:49Z)
Learning the What and How of Annotation in Video Object Segmentation [11.012995995497029]
ビデオオブジェクト(VOS)は、ビデオ編集からビデオデータ生成まで、いくつかのアプリケーションにとって不可欠である。従来のアノテート手法では、ビデオフレームごとにターゲットオブジェクトに詳細なセグメンテーションマスクを描く必要がある。ビデオオブジェクトセグメンテーションのためのヒューマン・イン・ザ・ループアノテーションフレームワークであるEVA-VOSを提案する。
論文参考訳（メタデータ） (2023-11-08T00:56:31Z)
EPIC Fields: Marrying 3D Geometry and Video Understanding [76.60638761589065]
EPIC Fieldsは、EPIC-KITCHENSの3Dカメラ情報の拡張である。これは、フォトグラムを使ってカメラを再構築する複雑で高価なステップを取り除く。 EPICKITCHENSのビデオの96%を再構築し、45のキッチンで99時間に19Mフレームを登録した。
論文参考訳（メタデータ） (2023-06-14T20:33:49Z)
Breaking the "Object" in Video Object Segmentation [36.20167854011788]
変換(VOST)に基づくビデオオブジェクトのデータセットを提案する。 700以上の高解像度ビデオで構成され、さまざまな環境で撮影され、平均21秒の長さで、マスクのインスタンスで密にラベル付けされている。これらのビデオは、複雑なオブジェクト変換に焦点を合わせ、その完全な時間的範囲を捉えるために、注意深いマルチステップのアプローチが採用されている。本研究は,本課題に適用した場合の既存手法の問題点と,その主な限界が,静的な外観上の過度な信頼にあることを示す。
論文参考訳（メタデータ） (2022-12-12T19:22:17Z)
VideoClick: Video Object Segmentation with a Single Click [93.7733828038616]
ビデオ中の各オブジェクトに対して1クリックずつのボトムアップアプローチを提案し,全ビデオ中の各オブジェクトのセグメンテーションマスクを取得する。特に、対象フレーム内の各ピクセルを基準フレーム内のオブジェクトまたは背景のいずれかに割り当てる相関ボリュームを構築します。この新しいCityscapesVideoデータセットの結果から、この困難な環境では、私たちのアプローチがすべてのベースラインを上回ります。
論文参考訳（メタデータ） (2021-01-16T23:07:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。