Fugu-MT 論文翻訳(概要): Memory Based Video Scene Parsing

論文の概要: Memory Based Video Scene Parsing

arxiv url: http://arxiv.org/abs/2109.00373v1
Date: Wed, 1 Sep 2021 13:18:36 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-02 15:23:45.197845
Title: Memory Based Video Scene Parsing
Title（参考訳）: メモリベースのビデオシーン解析
Authors: Zhenchao Jin, Dongdong Yu, Kai Su, Zehuan Yuan, Changhu Wang
Abstract要約: 57.44mIoUを達成し,第2位(チーム名はCharlesBLWX)を獲得した第1回ビデオシーンパーシング・イン・ザ・ワイルドチャレンジのソリューションを紹介した。
参考スコア（独自算出の注目度）: 25.452807436316167
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Video scene parsing is a long-standing challenging task in computer vision, aiming to assign pre-defined semantic labels to pixels of all frames in a given video. Compared with image semantic segmentation, this task pays more attention on studying how to adopt the temporal information to obtain higher predictive accuracy. In this report, we introduce our solution for the 1st Video Scene Parsing in the Wild Challenge, which achieves a mIoU of 57.44 and obtained the 2nd place (our team name is CharlesBLWX).
Abstract（参考訳）: ビデオシーン解析はコンピュータビジョンにおける長年の課題であり、所定のビデオ内の全フレームのピクセルに予め定義された意味ラベルを割り当てることを目的としている。画像セマンティックセグメンテーションと比較して、このタスクは時間情報を用いて高い予測精度を得る方法の研究により多くの注意を払う。本稿では,57.44mIoUを達成し,第2位(チーム名はCharlesBLWX)を獲得した第1回ビデオシーンパーシング・イン・ザ・ワイルドチャレンジのソリューションについて紹介する。

関連論文リスト

PVUW 2025 Challenge Report: Advances in Pixel-level Understanding of Complex Videos in the Wild [164.8093566483583]
本報告では,CVPR 2025と共同で開催されている第4回PVUWチャレンジについて概観する。課題は、複雑なシーンビデオオブジェクトセグメンテーションに焦点を当てたMOSEと、モーションガイドによる言語ベースのビデオセグメンテーションをターゲットとするMeViSの2つのトラックである。
論文参考訳（メタデータ） (2025-04-15T16:02:47Z)
Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation [52.337472185022136]
我々は、静的な画像をテキスト記述に基づいてリアルな映像シーケンスに変換するI2V(Image-to-Video)生成の課題について検討する。 I2V生成を分解する2段階の合成フレームワークを提案する。 (i) 明示的な中間表現生成段階, (ii) この表現に条件付けされたビデオ生成段階。提案手法は,マルチオブジェクトおよびハイモーションシナリオを用いた挑戦的ベンチマークにおいて評価し,提案手法が最先端の整合性を実現することを実証的に示す。
論文参考訳（メタデータ） (2025-01-06T14:49:26Z)
2nd Place Solution for MeViS Track in CVPR 2024 PVUW Workshop: Motion Expression guided Video Segmentation [8.20168024462357]
Motion Expression Guided Videoは、モーション記述付き自然言語表現に基づくビデオ内のオブジェクトのセグメンテーションを目的とした、挑戦的なタスクである。本稿では、時間的拡張のための予備情報としてビデオインスタンス分割モデルから得られたマスク情報を紹介し、空間的洗練のためにSAMを用いる。 CVPR 2024 PVUW Challengeでは,試験段階では49.92 J &F,試験段階では54.20 J &F,MeViS Trackでは2位となった。
論文参考訳（メタデータ） (2024-06-20T02:16:23Z)
Semi-supervised Video Semantic Segmentation Using Unreliable Pseudo Labels for PVUW2024 [12.274092278786966]
信頼できない擬似ラベルに基づく半教師付きビデオセマンティックセグメンテーション手法を採用する。本手法では,mIoUが63.71%,67.83%,最終試験が67.83%であった。 CVPR 2024におけるワイルドチャレンジにおけるビデオ・シーン・パーシングの第1位を獲得した。
論文参考訳（メタデータ） (2024-06-02T01:37:26Z)
2nd Place Solution for PVUW Challenge 2024: Video Panoptic Segmentation [12.274092278786966]
ビデオパノプティクス(VPS)は、ビデオ内のすべてのオブジェクトを同時に分類、追跡、セグメンテーションすることを目的としている。本稿では,ロバストな統合ビデオパノプティクスセグメンテーションソリューションを提案する。本稿では,VPQ スコア56.36 と 57.12 の最先端性能を開発・試験段階で達成する。
論文参考訳（メタデータ） (2024-06-01T17:03:16Z)
Multi-Modal Domain Adaptation Across Video Scenes for Temporal Video Grounding [59.599378814835205]
時間的ビデオグラウンドリング(TVG)は、与えられた言語クエリに基づいて、特定のセグメントの時間的境界を未トリミングビデオにローカライズすることを目的としている。そこで本研究では,対象データからの洞察を取り入れた新たなAMDA手法を提案する。
論文参考訳（メタデータ） (2023-12-21T07:49:27Z)
HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文参考訳（メタデータ） (2023-01-05T21:53:19Z)
Structured Video Tokens @ Ego4D PNR Temporal Localization Challenge 2022 [93.98605636451806]
本報告では、Ego4D Point of No Return (PNR) におけるSViTアプローチについて述べる。トレーニング中にのみ利用できる少数の画像の構造を利用することで、ビデオモデルを改善することができる学習フレームワークを提案する。 SViTは、0.656の絶対時間的局所化誤差を持つチャレンジテストセットで強い性能を得る。
論文参考訳（メタデータ） (2022-06-15T17:36:38Z)
End-to-end Dense Video Captioning as Sequence Generation [83.90502354328679]
本稿では,高密度ビデオキャプションの2つのサブタスクを1つのシーケンス生成タスクとして一緒にモデル化する方法を示す。 YouCook2 と ViTT の実験では,大規模な事前学習モデルに統合された複雑なタスクのトレーニングの実現可能性を示す。
論文参考訳（メタデータ） (2022-04-18T01:30:54Z)
Semantic Segmentation on VSPW Dataset through Aggregation of Transformer Models [10.478712332545854]
本報告では,ICCV2021 - Video Scene Parsing in the Wild Challengeのチーム"BetterThing"のソリューションを紹介する。トランスフォーマーはビデオフレームの特徴を抽出するためのバックボーンとして使用され、最終的な結果は2つのトランスフォーマーモデルSWINとVOLOの出力の集約である。この解は57.3% mIoUを達成し、ワイルドチャレンジのビデオ・シーン・パーシングでは3位にランクインした。
論文参考訳（メタデータ） (2021-09-03T05:20:08Z)
Unsupervised Domain Adaptation for Video Semantic Segmentation [91.30558794056054]
セマンティックセグメンテーションのための教師なしドメイン適応は、シミュレーションからリアルに知識を伝達できるため、大きな人気を集めている。本研究では,ビデオセマンティック・アプローチのための教師なし領域適応という,このタスクの新たなビデオ拡張について述べる。提案手法は,画像レベル (mIoU) と映像レベル (VPQ) の両方において,従来の画像ベースUDA手法よりも有意に優れていた。
論文参考訳（メタデータ） (2021-07-23T07:18:20Z)
Video Panoptic Segmentation [117.08520543864054]
我々は,ビデオパノプティクスセグメンテーションと呼ばれる,このタスクの新たな拡張手法を提案し,検討する。この新しいタスクの研究を活性化するために,2種類のビデオパノプティクスデータセットを提示する。本稿では,ビデオフレーム内のオブジェクトクラス,バウンディングボックス,マスク,インスタンスID追跡,セマンティックセマンティックセマンティックセマンティックセマンティクスを共同で予測する新しいビデオパノプティックセマンティクスネットワーク(VPSNet)を提案する。
論文参考訳（メタデータ） (2020-06-19T19:35:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。