論文の概要: Enhancing Large Vision Model in Street Scene Semantic Understanding through Leveraging Posterior Optimization Trajectory
- arxiv url: http://arxiv.org/abs/2501.01710v1
- Date: Fri, 03 Jan 2025 09:10:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-06 15:11:55.405903
- Title: Enhancing Large Vision Model in Street Scene Semantic Understanding through Leveraging Posterior Optimization Trajectory
- Title(参考訳): 後部最適化軌跡の活用によるストリートシーン意味理解における大規模視覚モデルの強化
- Authors: Wei-Bin Kou, Qingfeng Lin, Ming Tang, Shuai Wang, Rongguang Ye, Guangxu Zhu, Yik-Chung Wu,
- Abstract要約: バックボーンおよび下流認識ヘッドとしてのLVM(Large Vision Models)は、ADセマンティック情報を理解するために使用される。
後最適化軌道(POT)誘導最適化スキーム(POTGui)は収束を加速する。
実験の結果,提案手法は66.48%以上の性能向上を実現し,6倍の速度で収束することがわかった。
- 参考スコア(独自算出の注目度): 29.646749372031593
- License:
- Abstract: To improve the generalization of the autonomous driving (AD) perception model, vehicles need to update the model over time based on the continuously collected data. As time progresses, the amount of data fitted by the AD model expands, which helps to improve the AD model generalization substantially. However, such ever-expanding data is a double-edged sword for the AD model. Specifically, as the fitted data volume grows to exceed the the AD model's fitting capacities, the AD model is prone to under-fitting. To address this issue, we propose to use a pretrained Large Vision Models (LVMs) as backbone coupled with downstream perception head to understand AD semantic information. This design can not only surmount the aforementioned under-fitting problem due to LVMs' powerful fitting capabilities, but also enhance the perception generalization thanks to LVMs' vast and diverse training data. On the other hand, to mitigate vehicles' computational burden of training the perception head while running LVM backbone, we introduce a Posterior Optimization Trajectory (POT)-Guided optimization scheme (POTGui) to accelerate the convergence. Concretely, we propose a POT Generator (POTGen) to generate posterior (future) optimization direction in advance to guide the current optimization iteration, through which the model can generally converge within 10 epochs. Extensive experiments demonstrate that the proposed method improves the performance by over 66.48\% and converges faster over 6 times, compared to the existing state-of-the-art approach.
- Abstract(参考訳): 自律運転(AD)知覚モデルの一般化を改善するために、車両は継続的に収集されたデータに基づいて、時間とともにモデルを更新する必要がある。
時が経つにつれて、ADモデルに適合するデータの量は増大し、ADモデルの一般化を大幅に改善するのに役立つ。
しかし、こうした拡張されたデータはADモデルにとっての二重刃の剣である。
特に、嵌合データボリュームがADモデルの嵌合容量を超えるほど、ADモデルは不適合になりがちである。
この問題に対処するため、我々は事前訓練されたLVM(Large Vision Models)を、下流認識ヘッドと結合したバックボーンとして使用し、ADセマンティック情報を理解することを提案する。
この設計は、LVMの強力なフィッティング能力により、前述の未適合問題を克服するだけでなく、LVMの広範で多様なトレーニングデータのおかげで、認識の一般化を高めることができる。
一方、LVMバックボーンを走らせながら知覚ヘッドを訓練する際の車両の計算負担を軽減するために、後最適化軌道(POT)誘導最適化スキーム(POTGui)を導入し、収束を加速する。
具体的には,後続(将来の)最適化方向を生成するPOTジェネレータ(POTGen)を提案する。
実験の結果,提案手法は従来の最先端手法に比べて66.48\%以上向上し,6倍の速度で収束することがわかった。
関連論文リスト
- Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。
データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文 参考訳(メタデータ) (2024-11-30T10:56:30Z) - VLFeedback: A Large-Scale AI Feedback Dataset for Large Vision-Language Models Alignment [55.7956150385255]
本稿では,視覚言語モデルの整合性向上のためのAIフィードバックの有効性について検討する。
最初の大規模視覚言語フィードバックデータセットであるVLFeedbackを紹介する。
我々は、VLFeedback上で直接選好最適化によって微調整されたLVLMであるSilkieを訓練する。
論文 参考訳(メタデータ) (2024-10-12T07:56:47Z) - Data Efficiency for Large Recommendation Models [4.799343040337817]
大規模なレコメンデーションモデル(LRMs)は、数十億ドル規模のオンライン広告業界にとって基本である。
膨大なデータのスケールは、計算コストと新しい手法を評価できる速度の両方に直接的な影響を及ぼす。
本稿では,データ要件を最適化する実践者を支援するための実行可能な原則と高レベルフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T22:18:00Z) - Structuring a Training Strategy to Robustify Perception Models with Realistic Image Augmentations [1.5723316845301678]
本報告では, モデルロバスト性, 性能を向上させるため, 強化したトレーニング手法を提案する。
機械学習モデルの弱点を特定し、適切な拡張を選択し、効果的なトレーニング戦略を考案する包括的フレームワークを提案する。
実験結果は,オープンソースオブジェクトの検出とセマンティックセグメンテーションモデルとデータセットに対する平均平均精度(mAP)や平均距離(mIoU)といった一般的な測定値によって測定されるモデル性能の改善を示す。
論文 参考訳(メタデータ) (2024-08-30T14:15:48Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Weak-to-Strong Extrapolation Expedites Alignment [135.12769233630362]
モデルと人間の嗜好との整合性を高めるために,ExPOと呼ばれる手法を提案する。
ExPOは市販のDPO/RLHFモデルを一貫して改善することを示した。
我々は、アライメントトレーニング中に学んだ報酬信号を増幅するExPOの本質に光を当てた。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - Enhancing Generalization in Medical Visual Question Answering Tasks via
Gradient-Guided Model Perturbation [16.22199565010318]
本稿では,事前学習と微調整の両段階における多モードモデルの視覚エンコーダに勾配誘導摂動を組み込む手法を提案する。
その結果,訓練前の画像キャプションデータセットが大幅に小さくても,本手法は競合的な結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-03-05T06:57:37Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。