論文の概要: Overcoming Semantic Dilution in Transformer-Based Next Frame Prediction
- arxiv url: http://arxiv.org/abs/2501.16753v1
- Date: Tue, 28 Jan 2025 07:12:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:42:39.270948
- Title: Overcoming Semantic Dilution in Transformer-Based Next Frame Prediction
- Title(参考訳): 変圧器を用いた次フレーム予測における意味的希釈の克服
- Authors: Hy Nguyen, Srikanth Thudumu, Hung Du, Rajesh Vasa, Kon Mouzakis,
- Abstract要約: ビデオにおける次のフレーム予測は、自律運転、オブジェクトトラッキング、モーション予測といったアプリケーションにとって不可欠である。
トランスフォーマーベースの次世代の予測モデルは、注目すべき問題に直面している。
本稿では,意味的希釈を効果的に緩和するセマンティック集中型マルチヘッド自己認識アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 0.9776703963093367
- License:
- Abstract: Next-frame prediction in videos is crucial for applications such as autonomous driving, object tracking, and motion prediction. The primary challenge in next-frame prediction lies in effectively capturing and processing both spatial and temporal information from previous video sequences. The transformer architecture, known for its prowess in handling sequence data, has made remarkable progress in this domain. However, transformer-based next-frame prediction models face notable issues: (a) The multi-head self-attention (MHSA) mechanism requires the input embedding to be split into $N$ chunks, where $N$ is the number of heads. Each segment captures only a fraction of the original embeddings information, which distorts the representation of the embedding in the latent space, resulting in a semantic dilution problem; (b) These models predict the embeddings of the next frames rather than the frames themselves, but the loss function based on the errors of the reconstructed frames, not the predicted embeddings -- this creates a discrepancy between the training objective and the model output. We propose a Semantic Concentration Multi-Head Self-Attention (SCMHSA) architecture, which effectively mitigates semantic dilution in transformer-based next-frame prediction. Additionally, we introduce a loss function that optimizes SCMHSA in the latent space, aligning the training objective more closely with the model output. Our method demonstrates superior performance compared to the original transformer-based predictors.
- Abstract(参考訳): ビデオにおける次のフレーム予測は、自律運転、オブジェクトトラッキング、モーション予測といったアプリケーションにとって不可欠である。
次世代の予測における最大の課題は、以前のビデオシーケンスから空間的情報と時間的情報の両方を効果的にキャプチャし、処理することである。
シーケンシャルデータを扱う技術で知られているトランスフォーマーアーキテクチャは、この領域で顕著な進歩を遂げている。
しかし、トランスフォーマーベースの次世代の予測モデルは、注目すべき問題に直面している。
(a)MHSA(Multi-head self-attention)メカニズムは入力埋め込みを$N$チャンクに分割する必要がある。
各セグメントは、元の埋め込み情報のごく一部しか取得せず、埋め込みの表現を遅延空間に歪め、意味的な希釈問題を引き起こす。
b) これらのモデルはフレーム自体ではなく、次のフレームの埋め込みを予測するが、予測された埋め込みではなく、再構成されたフレームの誤りに基づく損失関数は、トレーニング目標とモデル出力との相違を生じさせる。
本稿では,SCMHSA(Semantic concentration Multi-Head Self-Attention)アーキテクチャを提案する。
さらに、潜在空間におけるSCMHSAを最適化する損失関数を導入し、トレーニング対象をモデル出力とより密に整合させる。
本手法は,従来の変圧器を用いた予測器に比べて優れた性能を示す。
関連論文リスト
- Fast and Efficient Transformer-based Method for Bird's Eye View Instance Prediction [0.8458547573621331]
本稿では,単純化されたパラダイムに基づく新しいBEVインスタンス予測アーキテクチャを提案する。
提案システムは,パラメータ数と推定時間を削減することを目的として,速度を優先する。
提案されたアーキテクチャの実装は、PyTorchバージョン2.1のパフォーマンス改善に最適化されている。
論文 参考訳(メタデータ) (2024-11-11T10:35:23Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - Layout Sequence Prediction From Noisy Mobile Modality [53.49649231056857]
軌道予測は、自律運転やロボット工学などの応用における歩行者運動を理解する上で重要な役割を担っている。
現在の軌道予測モデルは、視覚的モダリティからの長い、完全な、正確に観察されたシーケンスに依存する。
本稿では,物体の障害物や視界外を,完全に視認できる軌跡を持つものと同等に扱う新しいアプローチであるLTrajDiffを提案する。
論文 参考訳(メタデータ) (2023-10-09T20:32:49Z) - CoMusion: Towards Consistent Stochastic Human Motion Prediction via Motion Diffusion [6.862357145175449]
本稿では,単一段階の終端拡散型HMPフレームワークであるCoMusionを提案する。
CoMusionは、スムーズな将来のポーズ予測性能が空間予測性能を改善するという洞察から着想を得ている。
提案手法はTransformer-GCNモジュール設計と分散スケジューラによって促進され,精度,現実性,一貫した動作を予測する。
論文 参考訳(メタデータ) (2023-05-21T19:31:56Z) - STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action Recognition [50.064502884594376]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。
メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。
提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T16:19:27Z) - STDepthFormer: Predicting Spatio-temporal Depth from Video with a
Self-supervised Transformer Model [0.0]
ビデオ入力と空間的時間的注意ネットワークから,映像のフレーム列を同時に予測する自己教師型モデルを提案する。
提案モデルでは,物体形状やテクスチャなどの事前のシーン知識を,単一画像深度推定法に類似した手法で活用する。
マルチオブジェクト検出、セグメンテーション、トラッキングを含む複雑なモデルを必要とするのではなく、暗黙的にシーン内のオブジェクトの動きを予測することができる。
論文 参考訳(メタデータ) (2023-03-02T12:22:51Z) - Making Reconstruction-based Method Great Again for Video Anomaly
Detection [64.19326819088563]
ビデオの異常検出は重要な問題だが、難しい問題だ。
既存の再構成に基づく手法は、昔ながらの畳み込みオートエンコーダに依存している。
連続フレーム再構築のための新しいオートエンコーダモデルを提案する。
論文 参考訳(メタデータ) (2023-01-28T01:57:57Z) - Transformers predicting the future. Applying attention in next-frame and
time series forecasting [0.0]
繰り返しニューラルネットワークは、最近まで、シーケンス内のタイムリーな依存関係をキャプチャする最良の方法の1つでした。
トランスフォーマーの導入により、RNNのない注意機構しか持たないアーキテクチャが、様々なシーケンス処理タスクの結果を改善することが証明された。
論文 参考訳(メタデータ) (2021-08-18T16:17:29Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - RAIN: A Simple Approach for Robust and Accurate Image Classification
Networks [156.09526491791772]
既存の敵防衛手法の大部分は、予測精度を犠牲にして堅牢性を実現することが示されている。
本稿では,ロバストおよび高精度画像分類N(RAIN)と呼ぶ新しい前処理フレームワークを提案する。
RAINは入力に対してランダム化を適用して、モデルフォワード予測パスと後方勾配パスの関係を壊し、モデルロバスト性を改善する。
STL10 と ImageNet のデータセットを用いて、様々な種類の敵攻撃に対する RAIN の有効性を検証する。
論文 参考訳(メタデータ) (2020-04-24T02:03:56Z) - Motion Segmentation using Frequency Domain Transformer Networks [29.998917158604694]
本稿では,前景と背景を別々にモデル化することで,次のフレームを予測できる新しいエンドツーエンド学習アーキテクチャを提案する。
我々の手法は、ビデオラダーネットワークや予測ゲーテッドピラミドなど、広く使われているビデオ予測手法よりも優れた合成データが得られる。
論文 参考訳(メタデータ) (2020-04-18T15:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。