論文の概要: JarvisIR: Elevating Autonomous Driving Perception with Intelligent Image Restoration
- arxiv url: http://arxiv.org/abs/2504.04158v1
- Date: Sat, 05 Apr 2025 12:38:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:11:36.600432
- Title: JarvisIR: Elevating Autonomous Driving Perception with Intelligent Image Restoration
- Title(参考訳): JarvisIR: インテリジェントなイメージ復元による自律走行知覚の高揚
- Authors: Yunlong Lin, Zixu Lin, Haoyu Chen, Panwang Pan, Chenxin Li, Sixiang Chen, Yeying Jin, Wenbo Li, Xinghao Ding,
- Abstract要約: 視覚中心の知覚システムは、野生の予測不能で複合的な天候劣化に苦しむ。
本稿では、VLMをコントローラとして活用し、複数の専門的復元モデルを管理するVLMエージェントであるJarvisIRを提案する。
システムの堅牢性を高め、幻覚を減らし、現実世界の悪天候における一般化性を向上させるため、JarvisIRは新たな2段階の枠組みを採用している。
- 参考スコア(独自算出の注目度): 41.84268137380846
- License:
- Abstract: Vision-centric perception systems struggle with unpredictable and coupled weather degradations in the wild. Current solutions are often limited, as they either depend on specific degradation priors or suffer from significant domain gaps. To enable robust and autonomous operation in real-world conditions, we propose JarvisIR, a VLM-powered agent that leverages the VLM as a controller to manage multiple expert restoration models. To further enhance system robustness, reduce hallucinations, and improve generalizability in real-world adverse weather, JarvisIR employs a novel two-stage framework consisting of supervised fine-tuning and human feedback alignment. Specifically, to address the lack of paired data in real-world scenarios, the human feedback alignment enables the VLM to be fine-tuned effectively on large-scale real-world data in an unsupervised manner. To support the training and evaluation of JarvisIR, we introduce CleanBench, a comprehensive dataset consisting of high-quality and large-scale instruction-responses pairs, including 150K synthetic entries and 80K real entries. Extensive experiments demonstrate that JarvisIR exhibits superior decision-making and restoration capabilities. Compared with existing methods, it achieves a 50% improvement in the average of all perception metrics on CleanBench-Real. Project page: https://cvpr2025-jarvisir.github.io/.
- Abstract(参考訳): 視覚中心の知覚システムは、野生の予測不能で複合的な天候劣化に苦しむ。
現在のソリューションは、特定の劣化の事前に依存するか、大きなドメインギャップに悩まされるため、しばしば制限される。
実環境下でのロバストかつ自律的な操作を実現するために,VLMをコントローラとして利用して複数の専門家復元モデルを管理するVLMエージェントであるJarvisIRを提案する。
システムの堅牢性をさらに強化し、幻覚を低減し、現実世界の悪天候における一般化性を向上させるために、JarvisIRは教師付き微調整と人間のフィードバックアライメントからなる新しい2段階のフレームワークを採用している。
具体的には、実世界のシナリオにおけるペアデータ不足に対処するため、人間のフィードバックアライメントにより、VLMは教師なしの方法で大規模な実世界のデータに対して効果的に微調整することができる。
JarvisIRのトレーニングと評価を支援するために,150Kの合成エントリと80Kの実エントリを含む高品質で大規模な命令応答対からなる包括的データセットであるCleanBenchを紹介した。
大規模な実験により、JarvisIRは優れた意思決定能力と回復能力を示すことが示された。
既存の手法と比較して、CleanBench-Real上のすべての知覚指標の平均を50%改善する。
プロジェクトページ: https://cvpr2025-jarvisir.github.io/
関連論文リスト
- HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation [54.03004125910057]
階層型視覚-言語-アクションモデルは、標準的なモノリシックVLAモデルよりも、ドメイン外のデータを利用するのに効果的であることを示す。
階層設計により、高レベルなVLMは、オフドメイン微調整データと実ロボットテストシナリオの間の重要なドメインギャップをまたいで転送可能であることを示す。
論文 参考訳(メタデータ) (2025-02-08T07:50:22Z) - BRIGHT-VO: Brightness-Guided Hybrid Transformer for Visual Odometry with Multi-modality Refinement Module [11.898515581215708]
視覚計測(VO)は、自律運転、ロボットナビゲーション、その他の関連するタスクにおいて重要な役割を果たす。
本稿では,トランスフォーマーアーキテクチャに基づく新しいVOモデルであるBrightVOを紹介し,フロントエンドの視覚的特徴抽出を行う。
ポーズグラフ最適化を用いて、このモジュールは、エラーを減らし、精度とロバスト性の両方を改善するために、ポーズ推定を反復的に洗練する。
論文 参考訳(メタデータ) (2025-01-15T08:50:52Z) - Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives [56.528835143531694]
視覚言語モデル(VLM)を評価するために設計されたベンチマークデータセットであるDriveBenchを紹介する。
以上の結果から, VLMは視覚的接地ではなく, 一般的な知識やテキストの手がかりから得られる, もっともらしい応答をしばしば生み出すことが明らかとなった。
本稿では,頑健な視覚的接地とマルチモーダル理解を優先する評価指標を提案する。
論文 参考訳(メタデータ) (2025-01-07T18:59:55Z) - LoRA-IR: Taming Low-Rank Experts for Efficient All-in-One Image Restoration [62.3751291442432]
高速なオールインワン画像復元を実現するために,コンパクトな低ランクの専門家を動的に活用する,フレキシブルなフレームワークであるLoRA-IRを提案する。
LoRA-IRは、劣化誘導前訓練とパラメータ効率の良い微調整の2つの訓練段階で構成されている。
実験により、LoRA-IRは計算効率を維持しつつ、14のIRタスクと29のベンチマークでSOTA性能を達成することが示された。
論文 参考訳(メタデータ) (2024-10-20T13:00:24Z) - Multi-Agent Deep Reinforcement Learning for Dynamic Avatar Migration in
AIoT-enabled Vehicular Metaverses with Trajectory Prediction [70.9337170201739]
本稿では,その歴史データに基づいて,知的車両の将来の軌跡を予測するモデルを提案する。
提案アルゴリズムは,予測なしでアバタータスクの実行遅延を約25%削減できることを示す。
論文 参考訳(メタデータ) (2023-06-26T13:27:11Z) - Investigating Tradeoffs in Real-World Video Super-Resolution [90.81396836308085]
実世界のビデオ超解像(VSR)モデルは、一般化性を改善するために様々な劣化で訓練されることが多い。
最初のトレードオフを軽減するために,性能を犠牲にすることなく,最大40%のトレーニング時間を削減できる劣化手法を提案する。
そこで本研究では,多種多様な実世界の低品質映像系列を含むビデオLQデータセットを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。