論文の概要: TBN-ViT: Temporal Bilateral Network with Vision Transformer for Video
Scene Parsing
- arxiv url: http://arxiv.org/abs/2112.01033v1
- Date: Thu, 2 Dec 2021 07:53:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 15:32:06.792023
- Title: TBN-ViT: Temporal Bilateral Network with Vision Transformer for Video
Scene Parsing
- Title(参考訳): TBN-ViT:ビデオシーン解析のための視覚変換器付きテンポラルバイラテラルネットワーク
- Authors: Bo Yan, Leilei Cao, Hongbin Wang
- Abstract要約: Video Scene Parsing in the Wildのデータセットには、よくトリミングされた長期的、密集したアノテーションと高解像度のクリップが含まれている。
VSPWに基づいて、視覚変換器を用いた時間的バイラテラルネットワークを設計する。
提案手法は, VSPW 2021 Challengeテストデータセットに対して, 49.85%の結合(mIoU)の平均交叉を達成できる。
- 参考スコア(独自算出の注目度): 6.841626173712077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video scene parsing in the wild with diverse scenarios is a challenging and
great significance task, especially with the rapid development of automatic
driving technique. The dataset Video Scene Parsing in the Wild(VSPW) contains
well-trimmed long-temporal, dense annotation and high resolution clips. Based
on VSPW, we design a Temporal Bilateral Network with Vision Transformer. We
first design a spatial path with convolutions to generate low level features
which can preserve the spatial information. Meanwhile, a context path with
vision transformer is employed to obtain sufficient context information.
Furthermore, a temporal context module is designed to harness the inter-frames
contextual information. Finally, the proposed method can achieve the mean
intersection over union(mIoU) of 49.85\% for the VSPW2021 Challenge test
dataset.
- Abstract(参考訳): 様々なシナリオの動画シーン解析は、特に自動走行技術の急速な開発において、挑戦的で非常に重要な課題である。
データセットのビデオシーン解析 in the wild(vspw)には、長時性、密集したアノテーション、高解像度のクリップが含まれている。
VSPWに基づいて視覚変換器を用いた時間的バイラテラルネットワークを設計する。
まず,空間情報を保存できる低レベル特徴を生成する畳み込みを伴う空間経路を設計する。
一方、視覚トランスフォーマを備えたコンテキストパスを用いて十分なコンテキスト情報を得る。
さらに、フレーム間コンテキスト情報を活用するためのテンポラリコンテキストモジュールも設計されている。
最後に,提案手法は, VSPW2021 Challengeテストデータセットに対して, 49.85\%の結合(mIoU)の平均交叉を達成できる。
関連論文リスト
- xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment [130.15775113897553]
フィンスタは微細な構造的時間的アライメント学習法である。
既存の13の強化されたビデオ言語モデルも一貫して改善されている。
論文 参考訳(メタデータ) (2024-06-27T15:23:36Z) - SViTT: Temporal Learning of Sparse Video-Text Transformers [65.93031164906812]
SViTTは,多フレーム推論が可能な疎ビデオテキストアーキテクチャであり,注目度の高い単純変換器よりもはるかに低コストである。
SViTTは、自己注意におけるトークン間のクエリキー通信を制限するエッジ空間と、非形式的視覚トークンを破棄する空間の2つの形式を採用している。
論文 参考訳(メタデータ) (2023-04-18T08:17:58Z) - Time-Space Transformers for Video Panoptic Segmentation [3.2489082010225494]
画素レベルのセマンティックスとクリップレベルのインスタンスセグメンテーションを同時に予測する手法を提案する。
我々のネットワークはVPS-Transformerと呼ばれ、単一フレームのパノプティクスセグメンテーションのための畳み込みアーキテクチャと、純粋なTransformerブロックのインスタンス化に基づくビデオモジュールを組み合わせる。
論文 参考訳(メタデータ) (2022-10-07T13:30:11Z) - Diverse Video Captioning by Adaptive Spatio-temporal Attention [7.96569366755701]
エンド・ツー・エンドのエンコーダ・デコーダ・ビデオキャプション・フレームワークには2つのトランスフォーマー・ベースのアーキテクチャが組み込まれている。
本稿では,必要なフレーム数を削減するための適応フレーム選択方式を提案する。
ビデオキャプションに関するセマンティックな概念を,各サンプルのすべての接頭辞の真実を集約することで推定する。
論文 参考訳(メタデータ) (2022-08-19T11:21:59Z) - TS2-Net: Token Shift and Selection Transformer for Text-Video Retrieval [42.0544426476143]
Token Shift and Selection Network (TS2-Net) を提案する。
詳細な実験に基づいて、提案したTS2-Netは、主要なテキストビデオ検索ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-07-16T06:50:27Z) - Structured Video Tokens @ Ego4D PNR Temporal Localization Challenge 2022 [93.98605636451806]
本報告では、Ego4D Point of No Return (PNR) におけるSViTアプローチについて述べる。
トレーニング中にのみ利用できる少数の画像の構造を利用することで、ビデオモデルを改善することができる学習フレームワークを提案する。
SViTは、0.656の絶対時間的局所化誤差を持つチャレンジテストセットで強い性能を得る。
論文 参考訳(メタデータ) (2022-06-15T17:36:38Z) - Spatial-Temporal Transformer for Dynamic Scene Graph Generation [34.190733855032065]
本研究では,(1)入力フレームを用いてフレーム内の視覚的関係を抽出する空間エンコーダと,(2)空間エンコーダの出力を入力とする時間デコーダの2つのコアモジュールからなるニューラルネットワークを提案する。
我々の方法はベンチマークデータセットAction Genome(AG)で検証されている。
論文 参考訳(メタデータ) (2021-07-26T16:30:30Z) - Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。
具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。
位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文 参考訳(メタデータ) (2021-03-30T02:01:03Z) - BiST: Bi-directional Spatio-Temporal Reasoning for Video-Grounded
Dialogues [95.8297116307127]
ビデオにおける高精細クエリのための視覚言語ニューラルフレームワークBi-directional Spatio-Temporal Learning (BiST)を提案する。
具体的には,空間的情報と時間的情報の両方を利用して,2つの特徴空間間の動的情報拡散を学習する。
BiSTは競争性能を達成し、大規模なAVSDベンチマークで適切な応答を生成する。
論文 参考訳(メタデータ) (2020-10-20T07:43:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。