論文の概要: Panoptic Video Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2311.17058v1
- Date: Tue, 28 Nov 2023 18:59:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 17:01:43.564556
- Title: Panoptic Video Scene Graph Generation
- Title(参考訳): パン光学ビデオシーングラフ生成
- Authors: Jingkang Yang, Wenxuan Peng, Xiangtai Li, Zujin Guo, Liangyu Chen, Bo
Li, Zheng Ma, Kaiyang Zhou, Wayne Zhang, Chen Change Loy, Ziwei Liu
- Abstract要約: パン光学シーングラフ生成(PVSG)と呼ばれる新しい問題を提案し,研究する。
PVSGは、ビデオ内のバウンディングボックスで接地された人間とオブジェクト間の時間的相互作用に焦点を当てた、既存のビデオシーングラフ生成問題に関連している。
PVSGデータセットは400本(3人称289本+111本自撮り111本)からなり、合計150Kフレームに汎視的セグメンテーションマスクと微妙な時間的シーングラフをラベル付けした。
- 参考スコア(独自算出の注目度): 110.82362282102288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Towards building comprehensive real-world visual perception systems, we
propose and study a new problem called panoptic scene graph generation (PVSG).
PVSG relates to the existing video scene graph generation (VidSGG) problem,
which focuses on temporal interactions between humans and objects grounded with
bounding boxes in videos. However, the limitation of bounding boxes in
detecting non-rigid objects and backgrounds often causes VidSGG to miss key
details crucial for comprehensive video understanding. In contrast, PVSG
requires nodes in scene graphs to be grounded by more precise, pixel-level
segmentation masks, which facilitate holistic scene understanding. To advance
research in this new area, we contribute the PVSG dataset, which consists of
400 videos (289 third-person + 111 egocentric videos) with a total of 150K
frames labeled with panoptic segmentation masks as well as fine, temporal scene
graphs. We also provide a variety of baseline methods and share useful design
practices for future work.
- Abstract(参考訳): 実世界の総合的な視覚認識システムの構築に向けて,パン光学シーングラフ生成(PVSG)と呼ばれる新しい問題を提案し,研究する。
PVSGは既存のビデオシーングラフ生成(VidSGG)の問題に関連している。
しかし、厳密でない物体や背景を検出する際のバウンディングボックスの制限は、VidSGGが包括的ビデオ理解に不可欠な重要な詳細を見逃す原因となることが多い。
これとは対照的に、PVSGはシーングラフのノードに対して、より正確なピクセルレベルのセグメンテーションマスクで接地する必要がある。
この領域の研究を進めるために,400本のビデオ(289人,3人,111人,自我中心ビデオ)からなるPSVGデータセットに,汎視的セグメンテーションマスクと微妙な時間的シーングラフをラベル付けした合計150Kフレームをコントリビュートする。
さまざまなベースラインメソッドを提供し、将来の作業に有用な設計プラクティスを共有しています。
関連論文リスト
- 2nd Place Solution for PVUW Challenge 2024: Video Panoptic Segmentation [12.274092278786966]
ビデオパノプティクス(VPS)は、ビデオ内のすべてのオブジェクトを同時に分類、追跡、セグメンテーションすることを目的としている。
本稿では,ロバストな統合ビデオパノプティクスセグメンテーションソリューションを提案する。
本稿では,VPQ スコア56.36 と 57.12 の最先端性能を開発・試験段階で達成する。
論文 参考訳(メタデータ) (2024-06-01T17:03:16Z) - TextPSG: Panoptic Scene Graph Generation from Textual Descriptions [78.1140391134517]
我々は、純文記述(Caption-to-PSG)によるパノプティカルシーングラフ生成の新たな課題について検討する。
鍵となるアイデアは、Web上の大量の無料画像キャプチャーデータを活用して、パノラマシーングラフを生成することである。
本研究では,4つのモジュール,すなわちリージョングルーパー,エンティティグルーパー,セグメントマージ,ラベルジェネレータからなる新しいフレームワークであるTextPSGを提案する。
論文 参考訳(メタデータ) (2023-10-10T22:36:15Z) - PanoVOS: Bridging Non-panoramic and Panoramic Views with Transformer for Video Segmentation [39.269864548255576]
パノラマビデオデータセットPanoVOSを提案する。
データセットは150本のビデオに高解像度と多様なモーションを提供する。
パノラマ空間整合変換器(PSCFormer)は,従来のフレームのセマンティック境界情報を,現在のフレームとの画素レベルのマッチングに有効に利用することができる。
論文 参考訳(メタデータ) (2023-09-21T17:59:02Z) - Panoptic Scene Graph Generation [41.534209967051645]
パン光学シーングラフ生成(PSG)は、より包括的なシーングラフ表現を生成するためにモデルを必要とする新しい問題タスクである。
高品質のPSGデータセットには、COCOとVisual Genomeの49kのよく注釈付けされた重複画像が含まれている。
論文 参考訳(メタデータ) (2022-07-22T17:59:53Z) - Pano-AVQA: Grounded Audio-Visual Question Answering on 360$^\circ$
Videos [42.32743253830288]
そこで我々は,パノラマビデオを用いた大規模音声・視覚質問応答データセットとして,パノラマ画像を用いたPano-AVQAというベンチマークを提案する。
オンラインで収集した5.4K 360$circ$のビデオクリップを使用して、バウンディングボックスのグラウンド付き2種類の新しい質問応答ペアを収集する。
提案した球面空間埋め込みとマルチモーダルトレーニングの目的が,データセット上のパノラマ環境のセマンティック理解に有効であることを示す。
論文 参考訳(メタデータ) (2021-10-11T09:58:05Z) - Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in
Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。
得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。
追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-01-06T18:56:24Z) - Learning Joint Spatial-Temporal Transformations for Video Inpainting [58.939131620135235]
本稿では,ビデオインペイントのためのSTTN (Spatial-Temporal Transformer Network) を提案する。
我々は,全ての入力フレームの欠落領域を自己注意で同時に埋めるとともに,空間空間的対角損失によるSTTNの最適化を提案する。
論文 参考訳(メタデータ) (2020-07-20T16:35:48Z) - Learning Physical Graph Representations from Visual Scenes [56.7938395379406]
物理シーングラフ(PSG)はシーンを階層的なグラフとして表現し、ノードは異なるスケールのオブジェクト部品に直感的に対応し、部品間の物理的接続にエッジを持つ。
PSGNetは、低レベルの画像情報と高レベルの画像情報を組み合わせたリカレントフィードバック接続、空間的に均一な特徴マップをオブジェクト中心のグラフ構造に変換するグラフプーリングとベクトル化操作を含む、標準的なCNNを拡張している。
我々は,PSGNetがシーンセグメンテーションタスクにおいて,他の自己教師付きシーン表現アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-22T16:10:26Z) - Video Panoptic Segmentation [117.08520543864054]
我々は,ビデオパノプティクスセグメンテーションと呼ばれる,このタスクの新たな拡張手法を提案し,検討する。
この新しいタスクの研究を活性化するために,2種類のビデオパノプティクスデータセットを提示する。
本稿では,ビデオフレーム内のオブジェクトクラス,バウンディングボックス,マスク,インスタンスID追跡,セマンティックセマンティックセマンティックセマンティックセマンティクスを共同で予測する新しいビデオパノプティックセマンティクスネットワーク(VPSNet)を提案する。
論文 参考訳(メタデータ) (2020-06-19T19:35:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。