論文の概要: ETA: Efficiency through Thinking Ahead, A Dual Approach to Self-Driving with Large Models
- arxiv url: http://arxiv.org/abs/2506.07725v1
- Date: Mon, 09 Jun 2025 13:11:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.959397
- Title: ETA: Efficiency through Thinking Ahead, A Dual Approach to Self-Driving with Large Models
- Title(参考訳): ETA: 思考による効率性 - 大規模モデルによる自律運転への2つのアプローチ-
- Authors: Shadi Hamdan, Chonghao Sima, Zetong Yang, Hongyang Li, Fatma Güney,
- Abstract要約: 一般的なソリューションはデュアルシステムアーキテクチャであり、迅速かつリアクティブな決定に小さなモデル、より遅いがより情報的な分析により大きなモデルを採用する。
既存のデュアルシステム設計は、しばしば並列アーキテクチャを実装し、現在のフレームごとに大きなモデルを使って推論を行うか、以前に格納された推論結果から検索する。
私たちの重要な洞察は、現在のフレームの集中的な計算を以前のタイムステップにシフトし、複数のタイムステップのバッチ推論を実行し、大きなモデルを各タイムステップに迅速に応答させることです。
ETAは最先端の性能を8%向上させ、運転スコアは69.53。
- 参考スコア(独自算出の注目度): 21.645510959114326
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How can we benefit from large models without sacrificing inference speed, a common dilemma in self-driving systems? A prevalent solution is a dual-system architecture, employing a small model for rapid, reactive decisions and a larger model for slower but more informative analyses. Existing dual-system designs often implement parallel architectures where inference is either directly conducted using the large model at each current frame or retrieved from previously stored inference results. However, these works still struggle to enable large models for a timely response to every online frame. Our key insight is to shift intensive computations of the current frame to previous time steps and perform a batch inference of multiple time steps to make large models respond promptly to each time step. To achieve the shifting, we introduce Efficiency through Thinking Ahead (ETA), an asynchronous system designed to: (1) propagate informative features from the past to the current frame using future predictions from the large model, (2) extract current frame features using a small model for real-time responsiveness, and (3) integrate these dual features via an action mask mechanism that emphasizes action-critical image regions. Evaluated on the Bench2Drive CARLA Leaderboard-v2 benchmark, ETA advances state-of-the-art performance by 8% with a driving score of 69.53 while maintaining a near-real-time inference speed at 50 ms.
- Abstract(参考訳): 自動運転車の一般的なジレンマである推論速度を犠牲にすることなく、大規模なモデルのメリットをどうやって得るのか?
一般的なソリューションはデュアルシステムアーキテクチャであり、迅速かつリアクティブな決定に小さなモデル、より遅いがより情報的な分析により大きなモデルを採用する。
既存のデュアルシステム設計は、しばしば並列アーキテクチャを実装し、現在のフレームごとに大きなモデルを使って推論を行うか、以前に格納された推論結果から検索する。
しかし、これらの作業は、あらゆるオンラインフレームに対するタイムリーな応答のために、大きなモデルを可能にするのに依然として苦労している。
私たちの重要な洞察は、現在のフレームの集中的な計算を以前のタイムステップにシフトし、複数のタイムステップのバッチ推論を実行し、大きなモデルを各タイムステップに迅速に応答させることです。
このシフトを実現するために,(1)大規模モデルから将来の予測を用いて,過去から現在のフレームへ情報的特徴を伝達し,(2)小型モデルを用いて現在のフレーム特徴を抽出し,(3)アクションクリティカルな画像領域を強調するアクションマスク機構を通じて,これらの2つの特徴を統合する,非同期システムであるThinking Ahead(ETA)による効率性の導入を行った。
ETAはBench2Drive CARLA Leaderboard-v2ベンチマークで評価され、運転スコアは69.53で最先端の性能は8%向上し、ほぼリアルタイムの推論速度は50msである。
関連論文リスト
- TDFormer: A Top-Down Attention-Controlled Spiking Transformer [33.07648914591285]
本稿では,階層的に機能するトップダウンフィードバック構造を持つ新しいモデルであるTDFormerを紹介する。
これらのメカニズムは、複数のデータセット上でのモデル性能を大幅に改善する。
特に,画像ネットの最先端性能を86.83%の精度で達成している。
論文 参考訳(メタデータ) (2025-05-17T15:55:32Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - Trajeglish: Traffic Modeling as Next-Token Prediction [67.28197954427638]
自動運転開発における長年の課題は、記録された運転ログからシードされた動的運転シナリオをシミュレートすることだ。
車両、歩行者、サイクリストが運転シナリオでどのように相互作用するかをモデル化するために、離散シーケンスモデリングのツールを適用します。
我々のモデルはSim Agents Benchmarkを上回り、リアリズムメタメトリックの先行作業の3.3%、インタラクションメトリックの9.9%を上回ります。
論文 参考訳(メタデータ) (2023-12-07T18:53:27Z) - A Fast and Map-Free Model for Trajectory Prediction in Traffics [2.435517936694533]
本稿では,交通地図に依存しない効率的な軌道予測モデルを提案する。
注意機構、LSTM、グラフ畳み込みネットワーク、時間変換器を包括的に活用することにより、我々のモデルは全てのエージェントのリッチな動的および相互作用情報を学習することができる。
提案モデルでは,既存のマップフリー手法と比較して高い性能を達成し,Argoverseデータセット上のほとんどのマップベース最先端手法を超越する。
論文 参考訳(メタデータ) (2023-07-19T08:36:31Z) - Multi-Modal Temporal Convolutional Network for Anticipating Actions in
Egocentric Videos [22.90184887794109]
正確だが十分に速くないメソッドは、意思決定プロセスに高いレイテンシをもたらす。
これは、反応時間が重要である自律運転のようなドメインに問題を引き起こす。
本稿では,時間的畳み込みに基づくシンプルで効果的なマルチモーダルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-07-18T16:21:35Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - All at Once: Temporally Adaptive Multi-Frame Interpolation with Advanced
Motion Modeling [52.425236515695914]
最先端の手法は、一度に1つのフレームを補間する反復解である。
この研究は、真のマルチフレーム補間子を導入している。
時間領域のピラミッドスタイルのネットワークを使用して、複数フレームのタスクをワンショットで完了する。
論文 参考訳(メタデータ) (2020-07-23T02:34:39Z) - A Real-Time Deep Network for Crowd Counting [12.615660025855604]
群集カウントのためのコンパクト畳み込みニューラルネットワークを提案する。
入力画像の畳み込み動作をネットワークの前方で同時に行う3つの並列フィルタにより,我々のモデルはほぼリアルタイムに実現できる。
論文 参考訳(メタデータ) (2020-02-16T06:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。