論文の概要: Task-Specific Dual-Model Framework for Comprehensive Traffic Safety Video Description and Analysis
- arxiv url: http://arxiv.org/abs/2510.11907v1
- Date: Mon, 13 Oct 2025 20:18:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.087419
- Title: Task-Specific Dual-Model Framework for Comprehensive Traffic Safety Video Description and Analysis
- Title(参考訳): 包括的交通安全映像記述・分析のためのタスク特化デュアルモデルフレームワーク
- Authors: Blessing Agyei Kyem, Neema Jakisa Owor, Andrews Danyo, Joshua Kofi Asamoah, Eugene Denteh, Tanner Muturi, Anthony Dontoh, Yaw Adu-Gyamfi, Armstrong Aboah,
- Abstract要約: 交通安全分析は複雑な映像理解を必要とし、行動パターンを捉え、事故防止のための記述を生成する。
本稿では,タスク固有の最適化を通じて,VideoLLaMAとQwen2.5-VLの相補的強みを戦略的に活用する,ユニークなデュアルモデルフレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.392659193819963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traffic safety analysis requires complex video understanding to capture fine-grained behavioral patterns and generate comprehensive descriptions for accident prevention. In this work, we present a unique dual-model framework that strategically utilizes the complementary strengths of VideoLLaMA and Qwen2.5-VL through task-specific optimization to address this issue. The core insight behind our approach is that separating training for captioning and visual question answering (VQA) tasks minimizes task interference and allows each model to specialize more effectively. Experimental results demonstrate that VideoLLaMA is particularly effective in temporal reasoning, achieving a CIDEr score of 1.1001, while Qwen2.5-VL excels in visual understanding with a VQA accuracy of 60.80\%. Through extensive experiments on the WTS dataset, our method achieves an S2 score of 45.7572 in the 2025 AI City Challenge Track 2, placing 10th on the challenge leaderboard. Ablation studies validate that our separate training strategy outperforms joint training by 8.6\% in VQA accuracy while maintaining captioning quality.
- Abstract(参考訳): 交通安全分析には複雑な映像理解が必要であり、微粒な行動パターンを捉え、事故防止のための包括的な記述を生成する。
本稿では,この課題に対処するためのタスク固有最適化を通じて,VideoLLaMAとQwen2.5-VLの相補的強みを戦略的に活用する,ユニークなデュアルモデルフレームワークを提案する。
提案手法の背後にある中核的な洞察は,視覚的質問応答(VQA)タスクとキャプションの訓練を分離することで,タスク干渉を最小限に抑え,各モデルをより効果的に専門化できることである。
実験の結果, VideoLLaMAは時間的推論に特に有効であり, CIDErスコアは1.1001であり, Qwen2.5-VLはVQA精度60.80\%の視覚的理解に優れていた。
WTSデータセットの広範な実験を通じて,2025年のAIシティチャレンジトラック2では,S2スコア45.7572を達成し,10位となった。
アブレーション研究は,我々の個別トレーニング戦略が,字幕品質を維持しつつ,VQAの精度を8.6倍に向上させることを示した。
関連論文リスト
- MVQA-68K: A Multi-dimensional and Causally-annotated Dataset with Quality Interpretability for Video Assessment [14.705190484805962]
ビデオ品質アセスメント(VQA)は、事前トレーニングで使用する大規模データセットから高品質なビデオを選択する上で、ますます重要になっている。
MVQA-68Kは68,000以上の注意深い注釈付きビデオからなる新しい多次元VQAデータセットである。
実験により、MVQA-68KはVQAタスクにおける様々な大規模言語モデル(MLLM)の性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-09-15T05:16:54Z) - Q-Ponder: A Unified Training Pipeline for Reasoning-based Visual Quality Assessment [10.701522670464463]
MLLM(Multimodal large language model)は、解釈可能な評価によって視覚的品質を評価する。
冷間開始段階と強化学習に基づく微調整段階からなる統合された2段階訓練枠組みを提案する。
これら2つの段階から派生したモデルをQ-Ponder-CIとQ-Ponderと呼ぶ。
論文 参考訳(メタデータ) (2025-06-03T10:11:51Z) - VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。
画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。
VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。
VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文 参考訳(メタデータ) (2024-11-06T09:39:52Z) - First Place Solution to the Multiple-choice Video QA Track of The Second Perception Test Challenge [4.075139470537149]
The Second Perception Test Challenge(第2回知覚テストチャレンジ)のマルチチョイスビデオ質問回答トラックへの第1位ソリューションを提示する。
このコンペティションは複雑なビデオ理解の課題を提起し、ビデオコンテンツに関する質問を正確に理解し答えるモデルを必要とした。
論文 参考訳(メタデータ) (2024-09-20T14:31:13Z) - Exploring Question Decomposition for Zero-Shot VQA [99.32466439254821]
視覚的質問応答のための質問分解戦略について検討する。
モデル記述分解の素早い適用は性能を損なう可能性があることを示す。
モデル駆動選択的分解手法を導入し,予測と誤りの訂正を行う。
論文 参考訳(メタデータ) (2023-10-25T23:23:57Z) - GAT: Guided Adversarial Training with Pareto-optimal Auxiliary Tasks [73.88590165742721]
本稿では,限られた訓練データの下で補助的なタスクを活用する新しい対人訓練手法を提案する。
本手法は, 対戦学習の最小値最適化において, シングルタスクモデルをマルチタスクモデルに拡張する。
我々は、ガイド付きマルチタスク学習が、モデルロバスト性の境界をさらに推し進めるために、実践的で有望な方法であることを実証する。
論文 参考訳(メタデータ) (2023-02-06T16:23:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。