論文の概要: Orbis: Overcoming Challenges of Long-Horizon Prediction in Driving World Models
- arxiv url: http://arxiv.org/abs/2507.13162v1
- Date: Thu, 17 Jul 2025 14:29:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.536693
- Title: Orbis: Overcoming Challenges of Long-Horizon Prediction in Driving World Models
- Title(参考訳): Orbis:世界モデルを駆動する上での長距離予測の課題を克服する
- Authors: Arian Mousakhan, Sudhanshu Mittal, Silvio Galesso, Karim Farid, Thomas Brox,
- Abstract要約: 既存の世界モデルでは、長距離走行と挑戦シナリオへの一般化に苦戦している。
簡単な設計選択を用いて,地図,深度,複数カメラなどの追加の監視やセンサを使わずにモデルを開発する。
我々は469万のパラメータしか持たず、280hのビデオデータでトレーニングされているにもかかわらず、我々のモデルは最先端のパフォーマンスが得られることを示した。
- 参考スコア(独自算出の注目度): 28.127179660781838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing world models for autonomous driving struggle with long-horizon generation and generalization to challenging scenarios. In this work, we develop a model using simple design choices, and without additional supervision or sensors, such as maps, depth, or multiple cameras. We show that our model yields state-of-the-art performance, despite having only 469M parameters and being trained on 280h of video data. It particularly stands out in difficult scenarios like turning maneuvers and urban traffic. We test whether discrete token models possibly have advantages over continuous models based on flow matching. To this end, we set up a hybrid tokenizer that is compatible with both approaches and allows for a side-by-side comparison. Our study concludes in favor of the continuous autoregressive model, which is less brittle on individual design choices and more powerful than the model built on discrete tokens. Code, models and qualitative results are publicly available at https://lmb-freiburg.github.io/orbis.github.io/.
- Abstract(参考訳): 既存の世界モデルでは、長距離走行と挑戦シナリオへの一般化に苦戦している。
本研究では,地図,深度,複数カメラなどの監視・センサを付加せずに,シンプルな設計選択を用いたモデルを開発する。
我々は469万のパラメータしか持たず、280hのビデオデータでトレーニングされているにもかかわらず、我々のモデルは最先端のパフォーマンスが得られることを示した。
特に、機動や都市交通などの難しいシナリオで際立っている。
離散トークンモデルがフローマッチングに基づく連続モデルよりも優れているかどうかを検証する。
この目的のために,両アプローチに互換性があり,左右比較が可能なハイブリット・トークンライザを構築した。
我々の研究は、個々の設計選択に脆く、離散トークン上に構築されたモデルよりも強力である継続的自己回帰モデルを支持する。
コード、モデル、定性的な結果はhttps://lmb-freiburg.github.io/orbis.github.io/で公開されている。
関連論文リスト
- Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens [53.99177152562075]
視覚における自己回帰モデルのスケールアップは、大きな言語モデルほど有益でないことが証明されている。
モデルが離散トークンを使用するか、連続トークンを使用するか、BERTやGPTのようなトランスフォーマーアーキテクチャを用いてランダムまたは固定順序でトークンを生成するか、という2つの重要な要素に焦点を当てる。
その結果,すべてのモデルが検証損失の点で効果的にスケールしているのに対して,評価性能はFID,GenEvalスコア,視覚的品質などによって異なる傾向を呈することがわかった。
論文 参考訳(メタデータ) (2024-10-17T17:59:59Z) - Exploring Model Kinship for Merging Large Language Models [52.01652098827454]
本稿では,大規模言語モデル間の類似性や関連性の程度であるモデル親和性を紹介する。
モデル統合後の性能向上とモデル親和性の間には,一定の関係があることが判明した。
我々は新しいモデルマージ戦略を提案する。Top-k Greedy Merging with Model Kinship。
論文 参考訳(メタデータ) (2024-10-16T14:29:29Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Zero-Shot and Few-Shot Video Question Answering with Multi-Modal Prompts [14.610244867640471]
最近の視覚言語モデルは大規模事前訓練モデルによって駆動される。
本稿では,過剰適合,破滅的忘れ,視覚と言語間の相互的ギャップといった課題に対処するパラメータ効率の手法を提案する。
いくつかのビデオ質問応答ベンチマークの実験は、性能とパラメータ効率の点で、我々のアプローチの優位性を実証している。
論文 参考訳(メタデータ) (2023-09-27T18:00:09Z) - Constraining Generative Models for Engineering Design with Negative Data [11.432911164773488]
本稿では,制約を満たす出力に向けて生成モデルを導くための新しいトレーニング手法を提案する。
我々の負データ生成モデル(NDGM)の定式化は、古典的モデルよりも容易に優れている。
論文 参考訳(メタデータ) (2023-06-27T02:47:59Z) - Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion [54.33764537135906]
VideoQA Transformerモデルは標準ベンチマークで競合性能を示す。
これらのモデルはビデオとテキストからリッチなマルチモーダル構造とダイナミックスを一緒に捉えていますか?
彼らはバイアスと刺激的な特徴を利用して高いスコアを達成していますか?
論文 参考訳(メタデータ) (2023-06-15T06:45:46Z) - Machine Learning Model Attribution Challenge [2.6532805035238747]
微調整された機械学習モデルは、明らかな帰属特性のない他の訓練されたモデルに由来する可能性がある。
この課題において、参加者は匿名で微調整された大きな言語モデルの集合を成す公開ベースモデルを特定する。
論文 参考訳(メタデータ) (2023-02-13T22:05:27Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。