論文の概要: STER-VLM: Spatio-Temporal With Enhanced Reference Vision-Language Models
- arxiv url: http://arxiv.org/abs/2508.13470v1
- Date: Tue, 19 Aug 2025 03:03:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.776941
- Title: STER-VLM: Spatio-Temporal With Enhanced Reference Vision-Language Models
- Title(参考訳): STER-VLM:参照型参照言語モデルを備えた時空間時空間
- Authors: Tinh-Anh Nguyen-Nhu, Triet Dao Hoang Minh, Dat To-Thanh, Phuc Le-Gia, Tuan Vo-Lan, Tien-Huy Nguyen,
- Abstract要約: 本稿では, VLMの性能を向上させる計算効率の高いフレームワーク, STER-VLMを紹介する。
WTS citekong2024wts と BDD citeBDD データセットの実験結果は、セマンティック・リッチネスとトラフィックシーンの解釈において大きな進歩を示している。
私たちのフレームワークは、AI City Challenge 2025 Track 2で、十分なテストスコア55.655で検証されています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) have emerged as powerful tools for enabling automated traffic analysis; however, current approaches often demand substantial computational resources and struggle with fine-grained spatio-temporal understanding. This paper introduces STER-VLM, a computationally efficient framework that enhances VLM performance through (1) caption decomposition to tackle spatial and temporal information separately, (2) temporal frame selection with best-view filtering for sufficient temporal information, and (3) reference-driven understanding for capturing fine-grained motion and dynamic context and (4) curated visual/textual prompt techniques. Experimental results on the WTS \cite{kong2024wts} and BDD \cite{BDD} datasets demonstrate substantial gains in semantic richness and traffic scene interpretation. Our framework is validated through a decent test score of 55.655 in the AI City Challenge 2025 Track 2, showing its effectiveness in advancing resource-efficient and accurate traffic analysis for real-world applications.
- Abstract(参考訳): 視覚言語モデル(VLM)は、自動トラフィック分析を可能にする強力なツールとして登場したが、現在のアプローチでは、しばしばかなりの計算資源を必要とし、詳細な時空間的理解に苦慮している。
本稿では,(1)キャプション分解による空間情報と時間情報の分離によるVLM性能の向上,(2)適切な時間情報に対するベストビューフィルタリングによる時間的フレーム選択,(3)微粒な動きと動的コンテキストを捉えるための参照駆動理解,(4)キュレートされた視覚・テクスチャプロンプト技術を紹介する。
WTS \cite{kong2024wts} と BDD \cite{BDD} データセットの実験結果から,セマンティック・リッチネスとトラフィックシーンの解釈が大幅に向上した。
われわれのフレームワークは、AI City Challenge 2025 Track 2における十分なテストスコア55.655で検証されており、実世界のアプリケーションにおけるリソース効率と正確なトラフィック分析の進歩の有効性を示している。
関連論文リスト
- STVG-R1: Incentivizing Instance-Level Reasoning and Grounding in Videos via Reinforcement Learning [65.36458157092207]
視覚言語モデル(VLM)では、テキスト記述と視覚座標のミスアライメントはしばしば幻覚を引き起こす。
本稿では,座標の調整が難しい問題を回避するために,新しい視覚的プロンプトパラダイムを提案する。
本稿では,STVGの最初の強化学習フレームワークであるSTVG-R1を紹介する。
論文 参考訳(メタデータ) (2026-02-12T08:53:32Z) - Nüwa: Mending the Spatial Integrity Torn by VLM Token Pruning [82.39668822222386]
ビジョントークンプルーニングは、効率的なビジョン言語モデル(VLM)のための効果的なアクセラレーション手法であることが証明された。
空間的整合性を維持しつつ,効率的な特徴集約を実現するための2段階のトークンプルーニングフレームワークである$textNwa$を提案する。
実験によると、textNwa$は複数のVQAベンチマーク(94%から95%)でSOTAのパフォーマンスを達成し、視覚的グラウンドタスク(7%から47%)を大幅に改善している。
論文 参考訳(メタデータ) (2026-02-03T00:51:03Z) - BREATH-VL: Vision-Language-Guided 6-DoF Bronchoscopy Localization via Semantic-Geometric Fusion [7.382475458362566]
BREATH-VLは,視覚言語モデルからのセマンティックキューと,登録手法からの幾何情報を統合し,正確な6-DoFポーズ推定を行うハイブリッドフレームワークである。
これに基づいて、BREATH-VLは、最先端の視覚のみのローカライゼーション法を精度と一般化の両方で上回り、翻訳誤差を最良性能のベースラインと比較して25.5%削減する。
論文 参考訳(メタデータ) (2026-01-07T09:00:52Z) - TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs [81.78017865436816]
我々は,映像の時間的接地能力の強いMLLMを体系的に構築するTimeLensを提案する。
まず,既存のVTGベンチマークにおける重要な品質問題を明らかにし,TimeLens-Benchを導入する。
また、自動再アノテーションパイプラインを通じてノイズの多いトレーニングデータに対処し、大規模で高品質なトレーニングデータセットであるTimeLens-100Kを出力します。
論文 参考訳(メタデータ) (2025-12-16T18:59:58Z) - Vision-LLMs for Spatiotemporal Traffic Forecasting [14.700408329373998]
大規模言語モデル(LLM)は、グリッドベースのトラフィックデータの複雑な空間的依存関係をモデル化するのに本質的に苦労する。
本稿では,視覚言語融合問題として時間的予測を行う新しいフレームワークであるST-Vision-LLMを提案する。
また,ST-Vision-LLMでは,長期予測精度が15.6%向上し,クロスドメインシナリオでは30.04%以上向上した。
論文 参考訳(メタデータ) (2025-10-13T11:15:56Z) - Looking to Learn: Token-wise Dynamic Gating for Low-Resource Vision-Language Modelling [3.5408685781175016]
認知的に証明可能な量のデータに基づいて視覚言語モデルをトレーニングするには、モデルがマルチモーダル情報を統合する方法を再考する必要がある。
本稿では,トークンワイド動的ゲーティングを用いた軽量デコーダアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-10-09T17:10:36Z) - Harnessing Vision-Language Models for Time Series Anomaly Detection [9.257985820123]
時系列異常検出(TSAD)は、医療、金融、産業モニタリングなど様々な分野で重要な役割を果たしてきた。
従来の手法は、主に数値データに基づくドメイン固有モデルの訓練に重点を置いていたが、人間の専門家が文脈異常を識別しなければならない視覚的時間的推論能力は欠如している。
比較的軽量な事前学習型ビジョンエンコーダ上に構築された視覚スクリーニングステージであるViT4TSと,グローバルな時間的コンテキストとVLM推論能力を統合するVLM4TSという2段階のソリューションを提案する。
論文 参考訳(メタデータ) (2025-06-07T15:27:30Z) - Flash-VL 2B: Optimizing Vision-Language Model Performance for Ultra-Low Latency and High Throughput [12.996955972977986]
Flash-VL 2Bは、リアルタイムアプリケーションのためにビジョンランゲージモデルを最適化するための新しいアプローチである。
本稿では,Flash-VL 2B が高速かつ高精度に実現可能であることを示す。
論文 参考訳(メタデータ) (2025-05-14T15:45:17Z) - SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。
SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。
強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-25T17:59:57Z) - Integrating Frequency-Domain Representations with Low-Rank Adaptation in Vision-Language Models [0.6715525121432597]
本研究では,特徴抽出,拡張性,効率性を向上する新しい視覚言語モデル(VLM)フレームワークを提案する。
ガウス雑音のレベルが異なるベンチマークデータセットを用いて,キャプション生成モデルと視覚質問応答(VQA)タスクの評価を行った。
我々のモデルは、特に無人地上車両(UGV)に搭載されたRealSenseカメラで捉えた現実世界のイメージに対して、より詳細で文脈的に関係のある応答を提供する。
論文 参考訳(メタデータ) (2025-03-08T01:22:10Z) - Scenario Understanding of Traffic Scenes Through Large Visual Language Models [2.3302708486956454]
大規模ビジュアル言語モデル(LVLM)は、画像解析とコンテキストクエリによる分類を自動化することで、魅力的なソリューションを提供する。
本研究では,LVLMが社内データセットとBDD100Kの両方で都市交通シーンを理解し,分類する能力を評価する。
我々は、最先端モデルを統合するスケーラブルなキャプションパイプラインを提案し、新しいデータセットに柔軟なデプロイを可能にする。
論文 参考訳(メタデータ) (2025-01-28T18:23:12Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Perceiver-VL: Efficient Vision-and-Language Modeling with Iterative
Latent Attention [100.81495948184649]
本稿では,長いビデオやテキストなどの高次元マルチモーダル入力を効率的に処理する視覚・言語フレームワークPerceiver-VLを提案する。
我々のフレームワークは、多くの最先端のトランスフォーマーベースモデルで使用される自己注意の二次的な複雑さとは対照的に、線形複雑性でスケールする。
論文 参考訳(メタデータ) (2022-11-21T18:22:39Z) - Learning Commonsense-aware Moment-Text Alignment for Fast Video Temporal
Grounding [78.71529237748018]
自然言語クエリで記述された時間的ビデオセグメントを効果的かつ効率的にグラウンド化することは、視覚・言語分野において必須の能力である。
既存のほとんどのアプローチでは、接地性能を改善するために、厳密に設計されたクロスモーダルな相互作用モジュールを採用しています。
本稿では,コモンセンスの視覚とテキストの表現を補完的なコモンスペースに組み込んだ,コモンセンス対応のクロスモーダルアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T13:07:05Z) - Reinforcement Learning with Latent Flow [78.74671595139613]
Flow of Latents for Reinforcement Learning (Flare)はRLのためのネットワークアーキテクチャであり、潜時ベクトル差分を通じて時間情報を明示的に符号化する。
本研究では,Frareが状態速度に明示的にアクセスすることなく,状態ベースRLの最適性能を回復することを示す。
我々はまた、FlareがDeepMindコントロールベンチマークスイート内のピクセルベースの挑戦的な連続制御タスクで最先端のパフォーマンスを達成することも示しています。
論文 参考訳(メタデータ) (2021-01-06T03:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。