論文の概要: DynRsl-VLM: Enhancing Autonomous Driving Perception with Dynamic Resolution Vision-Language Models
- arxiv url: http://arxiv.org/abs/2503.11265v1
- Date: Fri, 14 Mar 2025 10:19:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:07:12.750725
- Title: DynRsl-VLM: Enhancing Autonomous Driving Perception with Dynamic Resolution Vision-Language Models
- Title(参考訳): DynRsl-VLM:動的解像度ビジョンランゲージモデルによる自律走行知覚の強化
- Authors: Xirui Zhou, Lianlei Shan, Xiaolin Gui,
- Abstract要約: VQA(Visual Question Answering)モデルは、画像入力に対して複数のダウンサンプリング処理を実行し、計算効率とモデル性能のバランスをとる。
ダウンサンプリングは、歩行者、道路標識、障害物など、遠くまたは小さな物体を不適切な捕獲に導く可能性がある。
この特徴の喪失は、環境を正確に知覚する自律運転システムの能力に悪影響を及ぼす。
- 参考スコア(独自算出の注目度): 5.858709357808136
- License:
- Abstract: Visual Question Answering (VQA) models, which fall under the category of vision-language models, conventionally execute multiple downsampling processes on image inputs to strike a balance between computational efficiency and model performance. Although this approach aids in concentrating on salient features and diminishing computational burden, it incurs the loss of vital detailed information, a drawback that is particularly damaging in end-to-end autonomous driving scenarios. Downsampling can lead to an inadequate capture of distant or small objects such as pedestrians, road signs, or obstacles, all of which are crucial for safe navigation. This loss of features negatively impacts an autonomous driving system's capacity to accurately perceive the environment, potentially escalating the risk of accidents. To tackle this problem, we put forward the Dynamic Resolution Vision Language Model (DynRsl-VLM). DynRsl-VLM incorporates a dynamic resolution image input processing approach that captures all entity feature information within an image while ensuring that the image input remains computationally tractable for the Vision Transformer (ViT). Moreover, we devise a novel image-text alignment module to replace the Q-Former, enabling simple and efficient alignment with text when dealing with dynamic resolution image inputs. Our method enhances the environmental perception capabilities of autonomous driving systems without overstepping computational constraints.
- Abstract(参考訳): VQA(Visual Question Answering)モデルは視覚言語モデルに分類され、通常、画像入力に対して複数のダウンサンプリング処理を実行し、計算効率とモデル性能のバランスをとる。
このアプローチは、健全な特徴に集中し、計算負荷を減らしますが、特にエンドツーエンドの自動運転シナリオにおいて、深刻な詳細情報の喪失を引き起こします。
ダウンサンプリングは、歩行者、道路標識、障害物など、遠くまたは小さな物体の捕獲が不十分になる可能性がある。
この特徴の喪失は、自動運転システムの環境を正確に知覚する能力に悪影響を及ぼし、事故のリスクを増大させる可能性がある。
この問題に対処するため,我々は動的解像度ビジョン言語モデル(DynRsl-VLM)を提唱した。
DynRsl-VLMは動的解像度画像入力処理アプローチを取り入れ、画像内のすべてのエンティティ特徴情報をキャプチャし、画像入力がViT(Vision Transformer)に対して計算的にトラクタブルであることを保証する。
さらに,Q-Formerに代わる新しい画像テキストアライメントモジュールを考案し,動的解像度画像入力を扱う際に,テキストとのアライメントをシンプルかつ効率的に行えるようにした。
本手法は,計算制約を過小評価することなく,自律走行システムの環境認識能力を向上する。
関連論文リスト
- DAMamba: Vision State Space Model with Dynamic Adaptive Scan [51.81060691414399]
状態空間モデル(SSM)は近年、コンピュータビジョンにおいて大きな注目を集めている。
スキャン順序と領域を適応的に割り当てるデータ駆動型動的適応スキャン(DAS)を提案する。
DASをベースとしたビジョンバックボーンDAMambaの提案は,現在のビジョンタスクにおけるMambaモデルよりもはるかに優れている。
論文 参考訳(メタデータ) (2025-02-18T08:12:47Z) - Scalable and Explainable Verification of Image-based Neural Network Controllers for Autonomous Vehicles [3.2540854278211864]
自動運転車における画像ベースニューラルネットワークコントローラの既存の形式的検証手法は、高次元入力、計算の非効率性、説明可能性の欠如に悩むことが多い。
変動オートエンコーダ(VAE)を利用して高次元画像を低次元で説明可能な潜在空間に符号化するフレームワークである textbfSEVIN を提案する。
提案手法では, 実世界の摂動下でのロバスト性検証を, データセットを増強し, 環境変動を捉えるためにVAEを再訓練することで実現している。
論文 参考訳(メタデータ) (2025-01-23T16:46:45Z) - LaVida Drive: Vision-Text Interaction VLM for Autonomous Driving with Token Selection, Recovery and Enhancement [4.534832757549232]
本稿では,自律運転のための新しい,効率的なVQAフレームワークであるLaVida Driveを紹介する。
LaVida Driveは、詳細な視覚知覚のための高解像度入力を維持しながら、時間データをシームレスに統合する。
複雑な詳細のための高分解能データを保持し、時間解析のために低分解能入力を使用することで空間処理を最適化する。
論文 参考訳(メタデータ) (2024-11-20T02:14:07Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Exploring Latent Pathways: Enhancing the Interpretability of Autonomous Driving with a Variational Autoencoder [79.70947339175572]
バイオインスパイアされたニューラルサーキットポリシーモデルが革新的な制御モジュールとして登場した。
我々は、変分オートエンコーダとニューラルネットワークポリシーコントローラを統合することで、飛躍的に前進する。
本研究は,変分オートエンコーダへのアーキテクチャシフトに加えて,自動潜時摂動ツールを導入する。
論文 参考訳(メタデータ) (2024-04-02T09:05:47Z) - VmambaIR: Visual State Space Model for Image Restoration [36.11385876754612]
VmambaIRは、画像復元タスクに線形に複雑な状態空間モデル(SSM)を導入する。
VmambaIRは、より少ない計算資源とパラメータで最先端(SOTA)性能を達成する。
論文 参考訳(メタデータ) (2024-03-18T02:38:55Z) - Alignment-free HDR Deghosting with Semantics Consistent Transformer [76.91669741684173]
高ダイナミックレンジイメージングは、複数の低ダイナミックレンジ入力から情報を取得し、リアルな出力を生成することを目的としている。
既存の手法では、前景やカメラの動きによって引き起こされる入力フレーム間の空間的ずれに焦点を当てることが多い。
本研究では,SCTNet(Semantics Consistent Transformer)を用いたアライメントフリーネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:03:23Z) - Attention Mechanism for Contrastive Learning in GAN-based Image-to-Image
Translation [3.90801108629495]
本稿では,異なる領域にまたがって高品質な画像を生成可能なGANモデルを提案する。
実世界から取得した画像データと3Dゲームからのシミュレーション画像を用いて、Contrastive Learningを利用してモデルを自己指導的に訓練する。
論文 参考訳(メタデータ) (2023-02-23T14:23:23Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Reason induced visual attention for explainable autonomous driving [2.090380922731455]
ディープラーニング (DL) ベースのコンピュータビジョン (CV) モデルは一般的に、解釈性が悪いため、ブラックボックスと見なされる。
本研究の目的は,自律運転におけるDLモデルの解釈可能性を高めることにある。
提案手法は,視覚入力(画像)と自然言語を協調的にモデル化することにより,人間の運転者の学習過程を模倣する。
論文 参考訳(メタデータ) (2021-10-11T18:50:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。