論文の概要: Memory Based Video Scene Parsing
- arxiv url: http://arxiv.org/abs/2109.00373v1
- Date: Wed, 1 Sep 2021 13:18:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-02 15:23:45.197845
- Title: Memory Based Video Scene Parsing
- Title(参考訳): メモリベースのビデオシーン解析
- Authors: Zhenchao Jin, Dongdong Yu, Kai Su, Zehuan Yuan, Changhu Wang
- Abstract要約: 57.44mIoUを達成し,第2位(チーム名はCharlesBLWX)を獲得した第1回ビデオシーンパーシング・イン・ザ・ワイルドチャレンジのソリューションを紹介した。
- 参考スコア(独自算出の注目度): 25.452807436316167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video scene parsing is a long-standing challenging task in computer vision,
aiming to assign pre-defined semantic labels to pixels of all frames in a given
video. Compared with image semantic segmentation, this task pays more attention
on studying how to adopt the temporal information to obtain higher predictive
accuracy. In this report, we introduce our solution for the 1st Video Scene
Parsing in the Wild Challenge, which achieves a mIoU of 57.44 and obtained the
2nd place (our team name is CharlesBLWX).
- Abstract(参考訳): ビデオシーン解析はコンピュータビジョンにおける長年の課題であり、所定のビデオ内の全フレームのピクセルに予め定義された意味ラベルを割り当てることを目的としている。
画像セマンティックセグメンテーションと比較して、このタスクは時間情報を用いて高い予測精度を得る方法の研究により多くの注意を払う。
本稿では,57.44mIoUを達成し,第2位(チーム名はCharlesBLWX)を獲得した第1回ビデオシーンパーシング・イン・ザ・ワイルドチャレンジのソリューションについて紹介する。
関連論文リスト
- 2nd Place Solution for MeViS Track in CVPR 2024 PVUW Workshop: Motion Expression guided Video Segmentation [8.20168024462357]
Motion Expression Guided Videoは、モーション記述付き自然言語表現に基づくビデオ内のオブジェクトのセグメンテーションを目的とした、挑戦的なタスクである。
本稿では、時間的拡張のための予備情報としてビデオインスタンス分割モデルから得られたマスク情報を紹介し、空間的洗練のためにSAMを用いる。
CVPR 2024 PVUW Challengeでは,試験段階では49.92 J &F,試験段階では54.20 J &F,MeViS Trackでは2位となった。
論文 参考訳(メタデータ) (2024-06-20T02:16:23Z) - Semi-supervised Video Semantic Segmentation Using Unreliable Pseudo Labels for PVUW2024 [12.274092278786966]
信頼できない擬似ラベルに基づく半教師付きビデオセマンティックセグメンテーション手法を採用する。
本手法では,mIoUが63.71%,67.83%,最終試験が67.83%であった。
CVPR 2024におけるワイルドチャレンジにおけるビデオ・シーン・パーシングの第1位を獲得した。
論文 参考訳(メタデータ) (2024-06-02T01:37:26Z) - 2nd Place Solution for PVUW Challenge 2024: Video Panoptic Segmentation [12.274092278786966]
ビデオパノプティクス(VPS)は、ビデオ内のすべてのオブジェクトを同時に分類、追跡、セグメンテーションすることを目的としている。
本稿では,ロバストな統合ビデオパノプティクスセグメンテーションソリューションを提案する。
本稿では,VPQ スコア56.36 と 57.12 の最先端性能を開発・試験段階で達成する。
論文 参考訳(メタデータ) (2024-06-01T17:03:16Z) - Multi-Modal Domain Adaptation Across Video Scenes for Temporal Video
Grounding [59.599378814835205]
時間的ビデオグラウンドリング(TVG)は、与えられた言語クエリに基づいて、特定のセグメントの時間的境界を未トリミングビデオにローカライズすることを目的としている。
そこで本研究では,対象データからの洞察を取り入れた新たなAMDA手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T07:49:27Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z) - Structured Video Tokens @ Ego4D PNR Temporal Localization Challenge 2022 [93.98605636451806]
本報告では、Ego4D Point of No Return (PNR) におけるSViTアプローチについて述べる。
トレーニング中にのみ利用できる少数の画像の構造を利用することで、ビデオモデルを改善することができる学習フレームワークを提案する。
SViTは、0.656の絶対時間的局所化誤差を持つチャレンジテストセットで強い性能を得る。
論文 参考訳(メタデータ) (2022-06-15T17:36:38Z) - End-to-end Dense Video Captioning as Sequence Generation [83.90502354328679]
本稿では,高密度ビデオキャプションの2つのサブタスクを1つのシーケンス生成タスクとして一緒にモデル化する方法を示す。
YouCook2 と ViTT の実験では,大規模な事前学習モデルに統合された複雑なタスクのトレーニングの実現可能性を示す。
論文 参考訳(メタデータ) (2022-04-18T01:30:54Z) - Semantic Segmentation on VSPW Dataset through Aggregation of Transformer
Models [10.478712332545854]
本報告では,ICCV2021 - Video Scene Parsing in the Wild Challengeのチーム"BetterThing"のソリューションを紹介する。
トランスフォーマーはビデオフレームの特徴を抽出するためのバックボーンとして使用され、最終的な結果は2つのトランスフォーマーモデルSWINとVOLOの出力の集約である。
この解は57.3% mIoUを達成し、ワイルドチャレンジのビデオ・シーン・パーシングでは3位にランクインした。
論文 参考訳(メタデータ) (2021-09-03T05:20:08Z) - Unsupervised Domain Adaptation for Video Semantic Segmentation [91.30558794056054]
セマンティックセグメンテーションのための教師なしドメイン適応は、シミュレーションからリアルに知識を伝達できるため、大きな人気を集めている。
本研究では,ビデオセマンティック・アプローチのための教師なし領域適応という,このタスクの新たなビデオ拡張について述べる。
提案手法は,画像レベル (mIoU) と映像レベル (VPQ) の両方において,従来の画像ベースUDA手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-07-23T07:18:20Z) - Video Panoptic Segmentation [117.08520543864054]
我々は,ビデオパノプティクスセグメンテーションと呼ばれる,このタスクの新たな拡張手法を提案し,検討する。
この新しいタスクの研究を活性化するために,2種類のビデオパノプティクスデータセットを提示する。
本稿では,ビデオフレーム内のオブジェクトクラス,バウンディングボックス,マスク,インスタンスID追跡,セマンティックセマンティックセマンティックセマンティックセマンティクスを共同で予測する新しいビデオパノプティックセマンティクスネットワーク(VPSNet)を提案する。
論文 参考訳(メタデータ) (2020-06-19T19:35:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。