論文の概要: EPIC-KITCHENS VISOR Benchmark: VIdeo Segmentations and Object Relations
- arxiv url: http://arxiv.org/abs/2209.13064v1
- Date: Mon, 26 Sep 2022 23:03:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 14:22:20.053558
- Title: EPIC-KITCHENS VISOR Benchmark: VIdeo Segmentations and Object Relations
- Title(参考訳): EPIC-KITCHENS VISORベンチマーク:Videoセグメンテーションとオブジェクト関係
- Authors: Ahmad Darkhalil, Dandan Shan, Bin Zhu, Jian Ma, Amlan Kar, Richard
Higgins, Sanja Fidler, David Fouhey, Dima Damen
- Abstract要約: 我々は、新しいピクセルアノテーションのデータセットであるVISORと、エゴセントリックなビデオで手やアクティブなオブジェクトをセグメンテーションするためのベンチマークスイートを紹介する。
具体的には、オブジェクトが変換的相互作用を行う場合、ピクセルレベルのアノテーションの短期的および長期的整合性を保証する必要がある。
VISORは、拡張性と品質のために、部分でAI駆動のアノテーションパイプラインを導入している。
- 参考スコア(独自算出の注目度): 83.26326325568208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce VISOR, a new dataset of pixel annotations and a benchmark suite
for segmenting hands and active objects in egocentric video. VISOR annotates
videos from EPIC-KITCHENS, which comes with a new set of challenges not
encountered in current video segmentation datasets. Specifically, we need to
ensure both short- and long-term consistency of pixel-level annotations as
objects undergo transformative interactions, e.g. an onion is peeled, diced and
cooked - where we aim to obtain accurate pixel-level annotations of the peel,
onion pieces, chopping board, knife, pan, as well as the acting hands. VISOR
introduces an annotation pipeline, AI-powered in parts, for scalability and
quality. In total, we publicly release 272K manual semantic masks of 257 object
classes, 9.9M interpolated dense masks, 67K hand-object relations, covering 36
hours of 179 untrimmed videos. Along with the annotations, we introduce three
challenges in video object segmentation, interaction understanding and
long-term reasoning.
For data, code and leaderboards: http://epic-kitchens.github.io/VISOR
- Abstract(参考訳): 我々は、新しいピクセルアノテーションのデータセットであるVISORと、エゴセントリックビデオにおける手とアクティブオブジェクトのセグメンテーションのためのベンチマークスイートを紹介する。
VISORはEPIC-KITCHENSのビデオに注釈を付けている。
具体的には、タマネギを剥がし、ダイクし、調理するなど、変形的な相互作用を行うオブジェクトとして、ピクセルレベルのアノテーションの短期的および長期的一貫性を確保する必要がある。
VISORは、拡張性と品質のために、部分でAI駆動のアノテーションパイプラインを導入している。
対象のクラス257、補間された密閉マスク9.9M、67Kのハンドオブジェクト関係の合計272Kのセマンティックマスクを公開しました。
アノテーションとともに,ビデオオブジェクトセグメンテーション,インタラクション理解,長期推論の3つの課題を紹介した。
データ、コード、リーダーボード:http://epic-kitchens.github.io/VISOR
関連論文リスト
- Point-VOS: Pointing Up Video Object Segmentation [17.87197307395854]
現在の最先端のビデオオブジェクト(VOS)メソッドは、トレーニングとテストの両方において、オブジェクトごとの密集したマスクアノテーションに依存している。
本稿では,その労力を大幅に削減する疎時間的ポイントワイドアノテーションスキームを備えた新しいPoint-VOSタスクを提案する。
ビデオナラティブグラウンドディング(VNG)タスクで評価することで、視覚と言語を接続するモデルを改善するために、我々のデータが利用できることを示す。
論文 参考訳(メタデータ) (2024-02-08T18:52:23Z) - Sketch-based Video Object Segmentation: Benchmark and Analysis [55.79497833614397]
本稿では,スケッチベースのビデオオブジェクトセグメンテーション,関連するベンチマーク,強力なベースラインについて紹介する。
私たちのベンチマークには、3つのデータセット、Sketch-DAVIS16、Sketch-DAVIS17、Sketch-YouTube-VOSが含まれています。
実験の結果、スケッチは、フォトマスク、言語、スクリブルなど、他の参照よりも効果的であるが、アノテーション効率が高いことが示された。
論文 参考訳(メタデータ) (2023-11-13T11:53:49Z) - Learning the What and How of Annotation in Video Object Segmentation [11.012995995497029]
ビデオオブジェクト(VOS)は、ビデオ編集からビデオデータ生成まで、いくつかのアプリケーションにとって不可欠である。
従来のアノテート手法では、ビデオフレームごとにターゲットオブジェクトに詳細なセグメンテーションマスクを描く必要がある。
ビデオオブジェクトセグメンテーションのためのヒューマン・イン・ザ・ループアノテーションフレームワークであるEVA-VOSを提案する。
論文 参考訳(メタデータ) (2023-11-08T00:56:31Z) - EPIC Fields: Marrying 3D Geometry and Video Understanding [76.60638761589065]
EPIC Fieldsは、EPIC-KITCHENSの3Dカメラ情報の拡張である。
これは、フォトグラムを使ってカメラを再構築する複雑で高価なステップを取り除く。
EPICKITCHENSのビデオの96%を再構築し、45のキッチンで99時間に19Mフレームを登録した。
論文 参考訳(メタデータ) (2023-06-14T20:33:49Z) - Breaking the "Object" in Video Object Segmentation [36.20167854011788]
変換(VOST)に基づくビデオオブジェクトのデータセットを提案する。
700以上の高解像度ビデオで構成され、さまざまな環境で撮影され、平均21秒の長さで、マスクのインスタンスで密にラベル付けされている。
これらのビデオは、複雑なオブジェクト変換に焦点を合わせ、その完全な時間的範囲を捉えるために、注意深いマルチステップのアプローチが採用されている。
本研究は,本課題に適用した場合の既存手法の問題点と,その主な限界が,静的な外観上の過度な信頼にあることを示す。
論文 参考訳(メタデータ) (2022-12-12T19:22:17Z) - Fine-Grained Egocentric Hand-Object Segmentation: Dataset, Model, and
Applications [20.571026014771828]
11,243枚のエゴセントリックな画像からなるラベル付きデータセットを,手とオブジェクトのピクセルごとのセグメンテーションラベルで提供する。
私たちのデータセットは、ハンドオブジェクトの接触境界をラベル付けした最初のものです。
我々の堅牢なハンドオブジェクトセグメンテーションモデルとデータセットは、下流の視覚アプリケーションを強化または有効化するための基本的なツールとして機能することを示します。
論文 参考訳(メタデータ) (2022-08-07T21:43:40Z) - HODOR: High-level Object Descriptors for Object Re-segmentation in Video
Learned from Static Images [123.65233334380251]
オブジェクトの外観やシーンコンテキストを理解するために,注釈付き静的イメージを効果的に活用する新しい手法であるHODORを提案する。
その結果、HODORはDAVISとYouTube-VOSベンチマークで最先端のパフォーマンスを達成した。
アーキテクチャの変更なしに、HODORは単一の注釈付きビデオフレームに関するビデオコンテキストから学ぶこともできる。
論文 参考訳(メタデータ) (2021-12-16T18:59:53Z) - VideoClick: Video Object Segmentation with a Single Click [93.7733828038616]
ビデオ中の各オブジェクトに対して1クリックずつのボトムアップアプローチを提案し,全ビデオ中の各オブジェクトのセグメンテーションマスクを取得する。
特に、対象フレーム内の各ピクセルを基準フレーム内のオブジェクトまたは背景のいずれかに割り当てる相関ボリュームを構築します。
この新しいCityscapesVideoデータセットの結果から、この困難な環境では、私たちのアプローチがすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2021-01-16T23:07:48Z) - VIOLIN: A Large-Scale Dataset for Video-and-Language Inference [103.7457132841367]
ビデオとテキストのマルチモーダル理解のための新しいタスク, Video-and-Language Inferenceを導入する。
サブタイトルを前提としたビデオクリップと、そのビデオコンテンツに基づいて自然言語仮説とをペアリングすると、モデルは、その仮説が所定のビデオクリップに関連付けられているか、矛盾しているかを推測する必要がある。
このタスクには、Violin(VIdeO-and-Language Inference)という名の新しい大規模データセットが導入された。
論文 参考訳(メタデータ) (2020-03-25T20:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。