論文の概要: Advancing Semantic Future Prediction through Multimodal Visual Sequence Transformers
- arxiv url: http://arxiv.org/abs/2501.08303v1
- Date: Tue, 14 Jan 2025 18:34:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:29:05.729706
- Title: Advancing Semantic Future Prediction through Multimodal Visual Sequence Transformers
- Title(参考訳): マルチモーダル視覚系列変換器による意味的未来予測の高度化
- Authors: Efstathios Karypidis, Ioannis Kakogeorgiou, Spyros Gidaris, Nikos Komodakis,
- Abstract要約: 本稿では,統合的かつ効率的な視覚シーケンス変換器アーキテクチャを用いたマルチモーダルな将来の意味予測手法であるFUTURISTを紹介する。
計算複雑性を低減し,トレーニングパイプラインを合理化し,高解像度なマルチモーダル入力によるエンドツーエンドのトレーニングを可能にする,VAEフリー階層型トークン化プロセスを提案する。
我々は,Cityscapesデータセット上でFUTURISTを検証し,短期予測と中期予測の両方において将来的なセマンティックセグメンテーションにおける最先端性能を示す。
- 参考スコア(独自算出の注目度): 11.075247758198762
- License:
- Abstract: Semantic future prediction is important for autonomous systems navigating dynamic environments. This paper introduces FUTURIST, a method for multimodal future semantic prediction that uses a unified and efficient visual sequence transformer architecture. Our approach incorporates a multimodal masked visual modeling objective and a novel masking mechanism designed for multimodal training. This allows the model to effectively integrate visible information from various modalities, improving prediction accuracy. Additionally, we propose a VAE-free hierarchical tokenization process, which reduces computational complexity, streamlines the training pipeline, and enables end-to-end training with high-resolution, multimodal inputs. We validate FUTURIST on the Cityscapes dataset, demonstrating state-of-the-art performance in future semantic segmentation for both short- and mid-term forecasting. We provide the implementation code at https://github.com/Sta8is/FUTURIST .
- Abstract(参考訳): セマンティック未来予測は、動的環境をナビゲートする自律システムにとって重要である。
本稿では,統合的かつ効率的な視覚シーケンス変換器アーキテクチャを用いたマルチモーダルな将来の意味予測手法であるFUTURISTを紹介する。
本手法では,マルチモーダル・マスク付き視覚モデルと,マルチモーダル・トレーニング用に設計された新しいマスキング機構を取り入れた。
これにより、モデルは様々なモダリティから見える情報を効果的に統合し、予測精度を向上させることができる。
さらに、計算複雑性を低減し、トレーニングパイプラインを合理化し、高解像度のマルチモーダル入力によるエンドツーエンドのトレーニングを可能にする、VAEフリー階層型トークン化プロセスを提案する。
我々は,Cityscapesデータセット上でFUTURISTを検証し,短期予測と中期予測の両方において将来的なセマンティックセグメンテーションにおける最先端性能を示す。
実装コードはhttps://github.com/Sta8is/FUTURISTで提供します。
関連論文リスト
- Multi-Transmotion: Pre-trained Model for Human Motion Prediction [68.87010221355223]
マルチトランスモーション(Multi-Transmotion)は、モダリティ事前トレーニング用に設計された革新的なトランスフォーマーベースのモデルである。
提案手法は,下流タスクにおける各種データセット間の競合性能を示す。
論文 参考訳(メタデータ) (2024-11-04T23:15:21Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - ENTL: Embodied Navigation Trajectory Learner [37.43079415330256]
エンボディナビゲーションのための長いシーケンス表現を抽出する手法を提案する。
我々は,現在の行動に則った将来の状態のベクトル量子化予測を用いてモデルを訓練する。
提案手法の重要な特徴は、モデルが明示的な報酬信号なしで事前訓練されることである。
論文 参考訳(メタデータ) (2023-04-05T17:58:33Z) - IMKGA-SM: Interpretable Multimodal Knowledge Graph Answer Prediction via
Sequence Modeling [3.867363075280544]
マルチモーダル知識グラフリンク予測は,マルチモーダルデータに対するリンク予測タスクの精度と効率を向上させることを目的としている。
シーケンスモデリングによる解釈可能なマルチモーダル知識グラフアンサー予測(IMKGA-SM)の開発
モデルは、異なるサイズのマルチモーダルリンク予測データセットに基づいて、SOTAベースラインよりもはるかに優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-01-06T10:08:11Z) - i-Code: An Integrative and Composable Multimodal Learning Framework [99.56065789066027]
i-Codeは、視覚、音声、言語を統一的で汎用的なベクトル表現に柔軟に組み合わせられる自己教師型事前学習フレームワークである。
システム全体は、マスク付きモダリティ・ユニット・モデリングやクロスモダリティ・コントラスト・ラーニングなどの新しい目的により、エンドツーエンドで事前訓練されている。
実験の結果、i-Codeは5つのビデオ理解タスクとGLUE NLPベンチマークで最先端技術を上回る性能を示し、最大11%改善した。
論文 参考訳(メタデータ) (2022-05-03T23:38:50Z) - LatentFormer: Multi-Agent Transformer-Based Interaction Modeling and
Trajectory Prediction [12.84508682310717]
将来の車両軌道予測のためのトランスフォーマーモデルであるLatentFormerを提案する。
提案手法をnuScenesベンチマークデータセット上で評価し,提案手法が最先端性能を実現し,トラジェクトリ指標を最大40%向上することを示す。
論文 参考訳(メタデータ) (2022-03-03T17:44:58Z) - CCVS: Context-aware Controllable Video Synthesis [95.22008742695772]
プレゼンテーションでは、古いビデオクリップから新しいビデオクリップを合成するための自己教師付き学習アプローチを紹介している。
時間的連続性のための文脈情報と微妙な制御のための補助情報に基づいて合成過程を規定する。
論文 参考訳(メタデータ) (2021-07-16T17:57:44Z) - SMART: Simultaneous Multi-Agent Recurrent Trajectory Prediction [72.37440317774556]
本稿では,将来の軌道予測における2つの重要な課題に対処する手法を提案する。
エージェントの数に関係なく、トレーニングデータと予測と一定時間の推測の両方において、マルチモーダリティ。
論文 参考訳(メタデータ) (2020-07-26T08:17:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。