論文の概要: Understanding Road Layout from Videos as a Whole
- arxiv url: http://arxiv.org/abs/2007.00822v1
- Date: Thu, 2 Jul 2020 00:59:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 14:18:25.534127
- Title: Understanding Road Layout from Videos as a Whole
- Title(参考訳): ビデオから道路のレイアウトを理解する
- Authors: Buyu Liu, Bingbing Zhuang, Samuel Schulter, Pan Ji, Manmohan
Chandraker
- Abstract要約: 我々はこれをトップビューの道路属性予測問題として定式化し、その目的は各フレームの属性を正確かつ一貫して予測することである。
我々は、ビデオにおけるカメラモーションの活用と、長期ビデオ情報の導入という3つの新しい側面を生かした。
- 参考スコア(独自算出の注目度): 82.30800791500869
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we address the problem of inferring the layout of complex road
scenes from video sequences. To this end, we formulate it as a top-view road
attributes prediction problem and our goal is to predict these attributes for
each frame both accurately and consistently. In contrast to prior work, we
exploit the following three novel aspects: leveraging camera motions in videos,
including context cuesand incorporating long-term video information.
Specifically, we introduce a model that aims to enforce prediction consistency
in videos. Our model consists of one LSTM and one Feature Transform Module
(FTM). The former implicitly incorporates the consistency constraint with its
hidden states, and the latter explicitly takes the camera motion into
consideration when aggregating information along videos. Moreover, we propose
to incorporate context information by introducing road participants, e.g.
objects, into our model. When the entire video sequence is available, our model
is also able to encode both local and global cues, e.g. information from both
past and future frames. Experiments on two data sets show that: (1)
Incorporating either globalor contextual cues improves the prediction accuracy
and leveraging both gives the best performance. (2) Introducing the LSTM and
FTM modules improves the prediction consistency in videos. (3) The proposed
method outperforms the SOTA by a large margin.
- Abstract(参考訳): 本稿では,複雑な道路シーンのレイアウトをビデオシーケンスから推定する問題に対処する。
この目的のために,道路属性予測問題として定式化し,その目的は各フレームの属性を正確かつ一貫して予測することである。
先行研究とは対照的に,映像中のカメラの動きを活用すること,長期的映像情報を取り入れることの3つの新しい側面を生かした。
具体的には,ビデオの予測一貫性を強制するモデルを提案する。
我々のモデルは1つのLSTMと1つの特徴変換モジュール(FTM)から構成される。
前者は隠された状態との一貫性の制約を暗黙的に含み、後者はビデオに沿って情報を集約する際にカメラの動きを明示的に考慮する。
さらに,道路参加者,例えばオブジェクトをモデルに組み込むことにより,文脈情報を組み込むことを提案する。
ビデオシーケンス全体が利用可能になると、私たちのモデルは、例えば過去と将来のフレームからの情報など、ローカルとグローバルの両方の手がかりをエンコードすることもできます。
1) グローバルまたは文脈的手がかりのいずれかを組み込むことで、予測精度が向上し、両方の活用が最高のパフォーマンスをもたらす。
2) LSTMおよびFTMモジュールの導入により,ビデオの予測一貫性が向上する。
(3)提案手法はSOTAよりも大きなマージンで優れている。
関連論文リスト
- M3T: Multi-Scale Memory Matching for Video Object Segmentation and
Tracking [36.87237664751979]
本稿では,上記の課題を体系的に解析し,対処することを目的とした,DETR方式のエンコーダデコーダアーキテクチャを提案する。
具体的には、映像をクリップに分割し、タイムコードメモリを用いてコンテキストを伝播することにより、長いビデオのオンライン推論を可能にする。
本稿では、短いクリップ長と学習時間符号化によるメモリ長が、最先端(SoTA)の性能を達成する上で重要な設計選択であることを示す。
論文 参考訳(メタデータ) (2023-12-13T21:02:03Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - STOA-VLP: Spatial-Temporal Modeling of Object and Action for
Video-Language Pre-training [30.16501510589718]
本研究では,空間的・時間的次元にまたがる対象情報と行動情報を協調的にモデル化する事前学習フレームワークを提案する。
我々は,ビデオ言語モデルの事前学習プロセスに,両方の情報をよりうまく組み込むための2つの補助タスクを設計する。
論文 参考訳(メタデータ) (2023-02-20T03:13:45Z) - Optimizing Video Prediction via Video Frame Interpolation [53.16726447796844]
本稿では,映像フレームスケープのフォトリアリスティックな結果にインスパイアされた,映像フレームによる映像予測のための新しい最適化フレームワークを提案する。
我々のフレームワークは、トレーニングデータセットを必要とせずに、事前訓練された差別化可能なビデオフレームモジュールによる最適化に基づいている。
我々の手法は、大量のトレーニングデータや余分な意味情報を必要とする他のビデオ予測手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-27T17:03:46Z) - Condensing a Sequence to One Informative Frame for Video Recognition [113.3056598548736]
本稿では,まず映像シーケンスを情報的「フレーム」に凝縮する2段階の代替手法について検討する。
有効な疑問は、どのように「有用な情報」を定義し、シーケンスから1つの合成フレームに蒸留するかである。
IFSは画像ベースの2Dネットワークとクリップベースの3Dネットワークを一貫して改善している。
論文 参考訳(メタデータ) (2022-01-11T16:13:43Z) - On Pursuit of Designing Multi-modal Transformer for Video Grounding [35.25323276744999]
ビデオグラウンディングは、未編集のビデオから文クエリに対応する時間セグメントをローカライズすることを目的としている。
本稿では,bfGTRと呼ばれる新しいエンド・ツー・エンドのマルチモーダルトランスフォーマーモデルを提案する。具体的には,GTRはビデオ符号化と言語符号化のための2つのエンコーダと,グラウンドディング予測のためのクロスモーダルデコーダを備える。
3つの典型的なGTR変種は、すべてのデータセットとメトリクスで記録破りのパフォーマンスを達成し、推論速度は数倍高速である。
論文 参考訳(メタデータ) (2021-09-13T16:01:19Z) - Mutual Information Based Method for Unsupervised Disentanglement of
Video Representation [0.0]
ビデオ予測モデルは、マニキュア計画、ヘルスケア、自律ナビゲーション、シミュレーションに将来的な応用を見出した。
将来のフレーム生成における大きな課題の1つは、視覚データの高次元性によるものである。
我々は,高次元映像フレームの予測作業を削減する,相互情報予測自動エンコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-17T13:16:07Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z) - HERO: Hierarchical Encoder for Video+Language Omni-representation
Pre-training [75.55823420847759]
本稿では,大規模ビデオ+言語オムニ表現学習のための新しいフレームワークHEROを提案する。
HEROは階層構造でマルチモーダル入力を符号化し、ビデオフレームのローカルコンテキストをクロスモーダル変換器でキャプチャする。
HEROはHowTo100Mと大規模TVデータセットを共同でトレーニングし、マルチキャラクタインタラクションによる複雑な社会的ダイナミクスの理解を深める。
論文 参考訳(メタデータ) (2020-05-01T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。