論文の概要: Large Language Models for Crash Detection in Video: A Survey of Methods, Datasets, and Challenges
- arxiv url: http://arxiv.org/abs/2507.02074v1
- Date: Wed, 02 Jul 2025 18:21:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:15.080009
- Title: Large Language Models for Crash Detection in Video: A Survey of Methods, Datasets, and Challenges
- Title(参考訳): ビデオにおける衝突検出のための大規模言語モデル:方法,データセット,課題の調査
- Authors: Sanjeda Akter, Ibne Farabi Shihab, Anuj Sharma,
- Abstract要約: ビデオフィードからのクラッシュ検出は、インテリジェントトランスポートシステムにおいて重要な問題である。
大規模言語モデル(LLM)と視覚言語モデル(VLM)の最近の発展は、我々がどのように処理し、推論し、マルチモーダル情報を要約するかを変革してきた。
- 参考スコア(独自算出の注目度): 2.1797343876622097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Crash detection from video feeds is a critical problem in intelligent transportation systems. Recent developments in large language models (LLMs) and vision-language models (VLMs) have transformed how we process, reason about, and summarize multimodal information. This paper surveys recent methods leveraging LLMs for crash detection from video data. We present a structured taxonomy of fusion strategies, summarize key datasets, analyze model architectures, compare performance benchmarks, and discuss ongoing challenges and opportunities. Our review provides a foundation for future research in this fast-growing intersection of video understanding and foundation models.
- Abstract(参考訳): ビデオフィードからのクラッシュ検出は、インテリジェントトランスポートシステムにおいて重要な問題である。
大規模言語モデル(LLM)と視覚言語モデル(VLM)の最近の発展は、我々がどのように処理し、推論し、マルチモーダル情報を要約するかを変革してきた。
本稿では,ビデオデータからのクラッシュ検出にLLMを利用した最近の手法について検討する。
本稿では,融合戦略の構造的分類,キーデータセットの要約,モデルアーキテクチャの解析,パフォーマンスベンチマークの比較,進行中の課題と機会について議論する。
我々のレビューは、ビデオ理解とファンデーションモデルの急速な交差における将来の研究の基盤を提供する。
関連論文リスト
- From Waveforms to Pixels: A Survey on Audio-Visual Segmentation [43.79010208565961]
Audio-Visualは、ビジュアルとオーディオの両方のモダリティを活用して、ビデオ内の音声生成オブジェクトを識別し、セグメント化することを目的としている。
本稿では、AVS分野の概要を概説し、その問題定式化、ベンチマークデータセット、評価指標、方法論の進歩について述べる。
論文 参考訳(メタデータ) (2025-07-29T22:20:51Z) - Vision-Language Modeling Meets Remote Sensing: Models, Datasets and Perspectives [36.297745473653166]
視覚言語モデリング(VLM)は、画像と自然言語の間の情報ギャップを埋めることを目的としている。
大規模な画像テキストペアを事前学習し、タスク固有のデータを微調整するという新しいパラダイムの下で、リモートセンシング領域のVLMは大きな進歩を遂げた。
論文 参考訳(メタデータ) (2025-05-20T13:47:40Z) - Empowering Time Series Analysis with Synthetic Data: A Survey and Outlook in the Era of Foundation Models [104.17057231661371]
時系列解析は複雑なシステムの力学を理解するために重要である。
基本モデルの最近の進歩はタスク非依存の時系列基礎モデル (TSFM) と大規模言語モデルベース時系列モデル (TSLLM) につながっている。
彼らの成功は、規制、多様性、品質、量制約のために構築が困難である、大規模で多様で高品質なデータセットに依存する。
本調査では,TSFMとTLLLMの合成データの総合的なレビュー,データ生成戦略の分析,モデル事前学習におけるそれらの役割,微調整,評価,今後の研究方向性の特定について述べる。
論文 参考訳(メタデータ) (2025-03-14T13:53:46Z) - LLMs in Software Security: A Survey of Vulnerability Detection Techniques and Insights [12.424610893030353]
大規模言語モデル(LLM)は、ソフトウェア脆弱性検出のためのトランスフォーメーションツールとして登場している。
本稿では,脆弱性検出におけるLSMの詳細な調査を行う。
言語間の脆弱性検出、マルチモーダルデータ統合、リポジトリレベルの分析といった課題に対処する。
論文 参考訳(メタデータ) (2025-02-10T21:33:38Z) - Large Multimodal Models for Low-Resource Languages: A Survey [21.076302839562825]
我々は,LMM(Large Multimodal Model)を低リソース(LR)言語に適応させる手法を体系的に分析する。
我々は、限られたデータと計算資源の課題に研究者がどう取り組むかにおいて、重要なパターンを特定する。
論文 参考訳(メタデータ) (2025-02-08T13:29:44Z) - Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering [71.62961521518731]
HeurVidQAは、ドメイン固有のエンティティアクションを利用して、事前訓練されたビデオ言語基盤モデルを洗練するフレームワークである。
我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
論文 参考訳(メタデータ) (2024-10-12T06:22:23Z) - Using Multimodal Large Language Models for Automated Detection of Traffic Safety Critical Events [5.233512464561313]
MLLM(Multimodal Large Language Models)は、テキスト、ビジュアル、オーディオのモダリティを統合する新しいアプローチを提供する。
我々のフレームワークはMLLMの推論能力を活用し、文脈固有のプロンプトを通して出力を誘導する。
予備的な結果は、ゼロショット学習と正確なシナリオ分析におけるフレームワークの可能性を示している。
論文 参考訳(メタデータ) (2024-06-19T23:50:41Z) - Learning Traffic Crashes as Language: Datasets, Benchmarks, and What-if Causal Analyses [76.59021017301127]
我々は,CrashEventという大規模トラフィッククラッシュ言語データセットを提案し,実世界のクラッシュレポート19,340を要約した。
さらに,クラッシュイベントの特徴学習を,新たなテキスト推論問題として定式化し,さらに様々な大規模言語モデル(LLM)を微調整して,詳細な事故結果を予測する。
実験の結果, LLMに基づくアプローチは事故の重大度を予測できるだけでなく, 事故の種類を分類し, 損害を予測できることがわかった。
論文 参考訳(メタデータ) (2024-06-16T03:10:16Z) - VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z) - Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。
我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。
我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文 参考訳(メタデータ) (2024-04-04T11:59:06Z) - Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward [118.65089648651308]
本稿では,映像コンテンツのプロキシとして詳細な動画キャプションを利用する新しいフレームワークを提案する。
本稿では,DPOによる報酬の調整により,ビデオ質問応答(QA)タスクにおけるビデオLMMの性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-04-01T17:28:16Z) - The Revolution of Multimodal Large Language Models: A Survey [46.84953515670248]
MLLM(Multimodal Large Language Models)は、視覚とテキストのモダリティをシームレスに統合することができる。
本稿では,近年の視覚的MLLMのレビュー,アーキテクチャ選択,マルチモーダルアライメント戦略,トレーニング手法について述べる。
論文 参考訳(メタデータ) (2024-02-19T19:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。