Fugu-MT 論文翻訳(概要): CityLLaVA: Efficient Fine-Tuning for VLMs in City Scenario

論文の概要: CityLLaVA: Efficient Fine-Tuning for VLMs in City Scenario

arxiv url: http://arxiv.org/abs/2405.03194v1
Date: Mon, 6 May 2024 06:38:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-07 14:35:25.595541
Title: CityLLaVA: Efficient Fine-Tuning for VLMs in City Scenario
Title（参考訳）: CityLLaVA: 都市シナリオにおけるVLMの効率的なファインチューニング
Authors: Zhizhao Duan, Hao Cheng, Duo Xu, Xi Wu, Xiangxie Zhang, Xi Ye, Zhen Xie,
Abstract要約: 交通安全記述・分析は、保険検査から事故防止まで幅広い分野で重要な役割を担っている。本稿では,都市シナリオ用に設計されたビジュアル言語モデル(VLM)のための新しい微調整フレームワークであるCityLLaVAを紹介する。
参考スコア（独自算出の注目度）: 19.730287885060633
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the vast and dynamic landscape of urban settings, Traffic Safety Description and Analysis plays a pivotal role in applications ranging from insurance inspection to accident prevention. This paper introduces CityLLaVA, a novel fine-tuning framework for Visual Language Models (VLMs) designed for urban scenarios. CityLLaVA enhances model comprehension and prediction accuracy through (1) employing bounding boxes for optimal visual data preprocessing, including video best-view selection and visual prompt engineering during both training and testing phases; (2) constructing concise Question-Answer sequences and designing textual prompts to refine instruction comprehension; (3) implementing block expansion to fine-tune large VLMs efficiently; and (4) advancing prediction accuracy via a unique sequential questioning-based prediction augmentation. Demonstrating top-tier performance, our method achieved a benchmark score of 33.4308, securing the leading position on the leaderboard. The code can be found: https://github.com/alibaba/AICITY2024_Track2_AliOpenTrek_CityLLaVA
Abstract（参考訳）: 都市環境の広大かつダイナミックな状況において、交通安全記述・分析は、保険検査から事故防止に至るまで、アプリケーションにおいて重要な役割を担っている。本稿では,都市シナリオ用に設計されたビジュアル言語モデル(VLM)のための新しい微調整フレームワークであるCityLLaVAを紹介する。 CityLLaVA は,(1) 最適視覚データ前処理のためのバウンディングボックス,(2) 訓練および試験段階におけるビデオベストビュー選択と視覚的プロンプトエンジニアリング,(2) 簡潔な質問応答シーケンスの構築,および命令の理解を洗練するためのテキストプロンプトの設計,(3) 大規模VLM へのブロック拡張の効率向上,(4) 独自のシーケンシャル質問に基づく予測拡張による予測精度の向上により,モデル理解と予測精度を向上する。トップレベル性能を示すベンチマークスコア33.4308を達成し,リーダボード上でのリードポジションを確保した。 https://github.com/alibaba/AICITY2024_Track2_AliOpenTrek_CityLLaVA

関連論文リスト

Impromptu VLA: Open Weights and Open Data for Driving Vision-Language-Action Models [31.566051946153802]
自律走行のためのVLA(Vision-Language-Action)モデルは、非構造的なコーナーケースのシナリオにおいて、将来性を示す。 Inmpromptu VLA: 8万以上の細かなキュレートされたビデオクリップを紹介します。このデータセットは,4つの挑戦的未構造化カテゴリの新たな分類に基づいて構築され,リッチで計画指向の質問応答アノテーションと行動軌跡を特徴とする。
論文参考訳（メタデータ） (2025-05-29T17:59:46Z)
VPO: Aligning Text-to-Video Generation Models with Prompt Optimization [80.86205966195593]
ビデオ生成モデルは、通常、高度に詳細で慎重に記述されたテキストとビデオのペアで訓練される。 VPOは3つの基本原則(無害性、正確性、有用性)に基づいてプロンプトを最適化する、原則化されたフレームワークです。実験の結果,VPOは基準法に比べて安全性,アライメント,画質を著しく向上することがわかった。
論文参考訳（メタデータ） (2025-03-26T12:28:20Z)
OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。 OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文参考訳（メタデータ） (2024-09-14T07:44:22Z)
VisionTrap: Vision-Augmented Trajectory Prediction Guided by Textual Descriptions [10.748597086208145]
本研究では,サラウンドビューカメラからの視覚入力を取り入れた新しい手法を提案する。提案手法は,53msのレイテンシを実現し,リアルタイム処理を実現する。実験の結果,視覚入力とテキスト記述の両方が軌跡予測性能の向上に寄与していることがわかった。
論文参考訳（メタデータ） (2024-07-17T06:39:52Z)
Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文参考訳（メタデータ） (2024-02-12T18:21:14Z)
VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。 VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。 ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文参考訳（メタデータ） (2024-01-15T17:28:37Z)
VAD: Vectorized Scene Representation for Efficient Autonomous Driving [44.070636456960045]
VADは、自動運転のためのエンドツーエンドのベクトル化パラダイムである。 VADはベクトル化されたエージェントの動きを利用し、要素を明示的なインスタンスレベルの計画制約としてマップする。 VADは従来のエンドツーエンドの計画手法よりもはるかに高速に動作します。
論文参考訳（メタデータ） (2023-03-21T17:59:22Z)
STOA-VLP: Spatial-Temporal Modeling of Object and Action for Video-Language Pre-training [30.16501510589718]
本研究では,空間的・時間的次元にまたがる対象情報と行動情報を協調的にモデル化する事前学習フレームワークを提案する。我々は,ビデオ言語モデルの事前学習プロセスに,両方の情報をよりうまく組み込むための2つの補助タスクを設計する。
論文参考訳（メタデータ） (2023-02-20T03:13:45Z)
Adaptive Siamese Tracking with a Compact Latent Network [219.38172719948048]
追跡タスクを分類に変換することで,シームズをベースとしたトラッカーを簡易化する直感的なビューを提供する。そこで本研究では,視覚シミュレーションと実追跡例を用いて,詳細な解析を行う。そこで我々は,古典的なSiamRPN++,SiamFC,SiamBANの3つのトラッカーを調整した。
論文参考訳（メタデータ） (2023-02-02T08:06:02Z)
Declaration-based Prompt Tuning for Visual Question Answering [16.688288454811016]
本稿では,DPT(Declaation-based Prompt Tuning)と呼ばれる,革新的なビジュアル言語(VL)ファインチューニングパラダイムを提案する。 DPTは、VQAモデルの事前学習と微調整の目的を共同で最適化し、事前学習されたVLモデルの下流タスクへの効果的な適応を促進する。 GQAデータセットの実験結果によると、DPTは完全な教師付き(2.68%)とゼロショット/フェーショット(31%以上)の両方で精度に大きな差で微調整されたデータセットよりも優れていた。
論文参考訳（メタデータ） (2022-05-05T05:56:55Z)
Understanding Road Layout from Videos as a Whole [82.30800791500869]
我々はこれをトップビューの道路属性予測問題として定式化し、その目的は各フレームの属性を正確かつ一貫して予測することである。我々は、ビデオにおけるカメラモーションの活用と、長期ビデオ情報の導入という3つの新しい側面を生かした。
論文参考訳（メタデータ） (2020-07-02T00:59:15Z)
Action Sequence Predictions of Vehicles in Urban Environments using Map and Social Context [152.0714518512966]
本研究は、現実の運転シナリオにおける周辺車両の今後の行動の順序を予測する問題について研究する。最初のコントリビューションは、現実世界の運転シナリオに記録された軌跡をHDマップの助けを借りてアクションシーケンスに変換する自動手法である。第2のコントリビューションは、よく知られたトラフィックエージェント追跡と予測データセットArgoverseへのメソッドの適用であり、結果として228,000のアクションシーケンスが生成される。第3のコントリビューションは,交通エージェント,地図情報,社会状況の過去の位置と速度を,単一エンドツーエンドのトレーニング可能なニューラルネットワークに統合して,新たな行動シーケンス予測手法を提案することである。
論文参考訳（メタデータ） (2020-04-29T14:59:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。