論文の概要: Memory Based Video Scene Parsing
- arxiv url: http://arxiv.org/abs/2109.00373v1
- Date: Wed, 1 Sep 2021 13:18:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-02 15:23:45.197845
- Title: Memory Based Video Scene Parsing
- Title(参考訳): メモリベースのビデオシーン解析
- Authors: Zhenchao Jin, Dongdong Yu, Kai Su, Zehuan Yuan, Changhu Wang
- Abstract要約: 57.44mIoUを達成し,第2位(チーム名はCharlesBLWX)を獲得した第1回ビデオシーンパーシング・イン・ザ・ワイルドチャレンジのソリューションを紹介した。
- 参考スコア(独自算出の注目度): 25.452807436316167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video scene parsing is a long-standing challenging task in computer vision,
aiming to assign pre-defined semantic labels to pixels of all frames in a given
video. Compared with image semantic segmentation, this task pays more attention
on studying how to adopt the temporal information to obtain higher predictive
accuracy. In this report, we introduce our solution for the 1st Video Scene
Parsing in the Wild Challenge, which achieves a mIoU of 57.44 and obtained the
2nd place (our team name is CharlesBLWX).
- Abstract(参考訳): ビデオシーン解析はコンピュータビジョンにおける長年の課題であり、所定のビデオ内の全フレームのピクセルに予め定義された意味ラベルを割り当てることを目的としている。
画像セマンティックセグメンテーションと比較して、このタスクは時間情報を用いて高い予測精度を得る方法の研究により多くの注意を払う。
本稿では,57.44mIoUを達成し,第2位(チーム名はCharlesBLWX)を獲得した第1回ビデオシーンパーシング・イン・ザ・ワイルドチャレンジのソリューションについて紹介する。
関連論文リスト
- Subject-Oriented Video Captioning [64.08594243670296]
そこで本稿では,提案するビデオキャプションタスクである主観的ビデオキャプションを提案する。
我々は、MSVDとMSRVTTという2つの広く使われているビデオキャプションデータセットに基づいて、2つの主題指向ビデオキャプションデータセットを構築した。
最初の試みとして、最先端の4つの一般的なビデオキャプションモデルを評価し、大きな性能低下を観測した。
論文 参考訳(メタデータ) (2023-12-20T17:44:32Z) - Scene Summarization: Clustering Scene Videos into Spatially Diverse
Frames [24.614476456145255]
本稿では,映像に基づくシーン理解タスクとして要約を提案する。
シーンの長いウォークスルーを、空間的に多様な小さなフレームにまとめることを目的としている。
私たちのソリューションは、SceneSumという名前の2段階の自己管理パイプラインです。
論文 参考訳(メタデータ) (2023-11-28T22:18:26Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z) - The Second Place Solution for The 4th Large-scale Video Object
Segmentation Challenge--Track 3: Referring Video Object Segmentation [18.630453674396534]
ReferFormerは、すべてのビデオフレームで言語表現によって参照される所定のビデオでオブジェクトインスタンスをセグメントすることを目的としている。
本研究は, 循環学習率, 半教師付きアプローチ, テスト時間拡張推論など, さらなる向上策を提案する。
改良されたReferFormerはCVPR2022 Referring Youtube-VOS Challengeで2位にランクインした。
論文 参考訳(メタデータ) (2022-06-24T02:15:06Z) - Structured Video Tokens @ Ego4D PNR Temporal Localization Challenge 2022 [93.98605636451806]
本報告では、Ego4D Point of No Return (PNR) におけるSViTアプローチについて述べる。
トレーニング中にのみ利用できる少数の画像の構造を利用することで、ビデオモデルを改善することができる学習フレームワークを提案する。
SViTは、0.656の絶対時間的局所化誤差を持つチャレンジテストセットで強い性能を得る。
論文 参考訳(メタデータ) (2022-06-15T17:36:38Z) - End-to-end Dense Video Captioning as Sequence Generation [83.90502354328679]
本稿では,高密度ビデオキャプションの2つのサブタスクを1つのシーケンス生成タスクとして一緒にモデル化する方法を示す。
YouCook2 と ViTT の実験では,大規模な事前学習モデルに統合された複雑なタスクのトレーニングの実現可能性を示す。
論文 参考訳(メタデータ) (2022-04-18T01:30:54Z) - TBN-ViT: Temporal Bilateral Network with Vision Transformer for Video
Scene Parsing [6.841626173712077]
Video Scene Parsing in the Wildのデータセットには、よくトリミングされた長期的、密集したアノテーションと高解像度のクリップが含まれている。
VSPWに基づいて、視覚変換器を用いた時間的バイラテラルネットワークを設計する。
提案手法は, VSPW 2021 Challengeテストデータセットに対して, 49.85%の結合(mIoU)の平均交叉を達成できる。
論文 参考訳(メタデータ) (2021-12-02T07:53:36Z) - Semantic Segmentation on VSPW Dataset through Aggregation of Transformer
Models [10.478712332545854]
本報告では,ICCV2021 - Video Scene Parsing in the Wild Challengeのチーム"BetterThing"のソリューションを紹介する。
トランスフォーマーはビデオフレームの特徴を抽出するためのバックボーンとして使用され、最終的な結果は2つのトランスフォーマーモデルSWINとVOLOの出力の集約である。
この解は57.3% mIoUを達成し、ワイルドチャレンジのビデオ・シーン・パーシングでは3位にランクインした。
論文 参考訳(メタデータ) (2021-09-03T05:20:08Z) - Unsupervised Domain Adaptation for Video Semantic Segmentation [91.30558794056054]
セマンティックセグメンテーションのための教師なしドメイン適応は、シミュレーションからリアルに知識を伝達できるため、大きな人気を集めている。
本研究では,ビデオセマンティック・アプローチのための教師なし領域適応という,このタスクの新たなビデオ拡張について述べる。
提案手法は,画像レベル (mIoU) と映像レベル (VPQ) の両方において,従来の画像ベースUDA手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-07-23T07:18:20Z) - Video Panoptic Segmentation [117.08520543864054]
我々は,ビデオパノプティクスセグメンテーションと呼ばれる,このタスクの新たな拡張手法を提案し,検討する。
この新しいタスクの研究を活性化するために,2種類のビデオパノプティクスデータセットを提示する。
本稿では,ビデオフレーム内のオブジェクトクラス,バウンディングボックス,マスク,インスタンスID追跡,セマンティックセマンティックセマンティックセマンティックセマンティクスを共同で予測する新しいビデオパノプティックセマンティクスネットワーク(VPSNet)を提案する。
論文 参考訳(メタデータ) (2020-06-19T19:35:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。