論文の概要: Understanding Road Layout from Videos as a Whole
- arxiv url: http://arxiv.org/abs/2007.00822v1
- Date: Thu, 2 Jul 2020 00:59:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 14:18:25.534127
- Title: Understanding Road Layout from Videos as a Whole
- Title(参考訳): ビデオから道路のレイアウトを理解する
- Authors: Buyu Liu, Bingbing Zhuang, Samuel Schulter, Pan Ji, Manmohan
Chandraker
- Abstract要約: 我々はこれをトップビューの道路属性予測問題として定式化し、その目的は各フレームの属性を正確かつ一貫して予測することである。
我々は、ビデオにおけるカメラモーションの活用と、長期ビデオ情報の導入という3つの新しい側面を生かした。
- 参考スコア(独自算出の注目度): 82.30800791500869
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we address the problem of inferring the layout of complex road
scenes from video sequences. To this end, we formulate it as a top-view road
attributes prediction problem and our goal is to predict these attributes for
each frame both accurately and consistently. In contrast to prior work, we
exploit the following three novel aspects: leveraging camera motions in videos,
including context cuesand incorporating long-term video information.
Specifically, we introduce a model that aims to enforce prediction consistency
in videos. Our model consists of one LSTM and one Feature Transform Module
(FTM). The former implicitly incorporates the consistency constraint with its
hidden states, and the latter explicitly takes the camera motion into
consideration when aggregating information along videos. Moreover, we propose
to incorporate context information by introducing road participants, e.g.
objects, into our model. When the entire video sequence is available, our model
is also able to encode both local and global cues, e.g. information from both
past and future frames. Experiments on two data sets show that: (1)
Incorporating either globalor contextual cues improves the prediction accuracy
and leveraging both gives the best performance. (2) Introducing the LSTM and
FTM modules improves the prediction consistency in videos. (3) The proposed
method outperforms the SOTA by a large margin.
- Abstract(参考訳): 本稿では,複雑な道路シーンのレイアウトをビデオシーケンスから推定する問題に対処する。
この目的のために,道路属性予測問題として定式化し,その目的は各フレームの属性を正確かつ一貫して予測することである。
先行研究とは対照的に,映像中のカメラの動きを活用すること,長期的映像情報を取り入れることの3つの新しい側面を生かした。
具体的には,ビデオの予測一貫性を強制するモデルを提案する。
我々のモデルは1つのLSTMと1つの特徴変換モジュール(FTM)から構成される。
前者は隠された状態との一貫性の制約を暗黙的に含み、後者はビデオに沿って情報を集約する際にカメラの動きを明示的に考慮する。
さらに,道路参加者,例えばオブジェクトをモデルに組み込むことにより,文脈情報を組み込むことを提案する。
ビデオシーケンス全体が利用可能になると、私たちのモデルは、例えば過去と将来のフレームからの情報など、ローカルとグローバルの両方の手がかりをエンコードすることもできます。
1) グローバルまたは文脈的手がかりのいずれかを組み込むことで、予測精度が向上し、両方の活用が最高のパフォーマンスをもたらす。
2) LSTMおよびFTMモジュールの導入により,ビデオの予測一貫性が向上する。
(3)提案手法はSOTAよりも大きなマージンで優れている。
関連論文リスト
- AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction [88.70116693750452]
テキスト誘導ビデオ予測(TVP)は、命令に従って、初期フレームから将来のフレームの動きを予測する。
従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。
我々は、初期フレームとテキスト命令に基づいて、将来のビデオ状態を予測するためのMLLM(Multi-Modal Large Language Model)を導入する。
論文 参考訳(メタデータ) (2024-06-10T17:02:08Z) - Semantic Segmentation on VSPW Dataset through Masked Video Consistency [19.851665554201407]
PVUWコンペティションのソリューションとして,既存のモデルに基づくマスク付きビデオ(MVC)を紹介する。
MVCは、パッチが保持されないマスキングランダムフレームの予測間の一貫性を強制する。
VSPWデータセットでは,PVUW2024 VSSトラックの2位で67% mIoU性能を達成した。
論文 参考訳(メタデータ) (2024-06-07T14:41:24Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - STOA-VLP: Spatial-Temporal Modeling of Object and Action for
Video-Language Pre-training [30.16501510589718]
本研究では,空間的・時間的次元にまたがる対象情報と行動情報を協調的にモデル化する事前学習フレームワークを提案する。
我々は,ビデオ言語モデルの事前学習プロセスに,両方の情報をよりうまく組み込むための2つの補助タスクを設計する。
論文 参考訳(メタデータ) (2023-02-20T03:13:45Z) - Optimizing Video Prediction via Video Frame Interpolation [53.16726447796844]
本稿では,映像フレームスケープのフォトリアリスティックな結果にインスパイアされた,映像フレームによる映像予測のための新しい最適化フレームワークを提案する。
我々のフレームワークは、トレーニングデータセットを必要とせずに、事前訓練された差別化可能なビデオフレームモジュールによる最適化に基づいている。
我々の手法は、大量のトレーニングデータや余分な意味情報を必要とする他のビデオ予測手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-27T17:03:46Z) - Mutual Information Based Method for Unsupervised Disentanglement of
Video Representation [0.0]
ビデオ予測モデルは、マニキュア計画、ヘルスケア、自律ナビゲーション、シミュレーションに将来的な応用を見出した。
将来のフレーム生成における大きな課題の1つは、視覚データの高次元性によるものである。
我々は,高次元映像フレームの予測作業を削減する,相互情報予測自動エンコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-17T13:16:07Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z) - HERO: Hierarchical Encoder for Video+Language Omni-representation
Pre-training [75.55823420847759]
本稿では,大規模ビデオ+言語オムニ表現学習のための新しいフレームワークHEROを提案する。
HEROは階層構造でマルチモーダル入力を符号化し、ビデオフレームのローカルコンテキストをクロスモーダル変換器でキャプチャする。
HEROはHowTo100Mと大規模TVデータセットを共同でトレーニングし、マルチキャラクタインタラクションによる複雑な社会的ダイナミクスの理解を深める。
論文 参考訳(メタデータ) (2020-05-01T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。