論文の概要: Does Your Vision-Language Model Get Lost in the Long Video Sampling Dilemma?
- arxiv url: http://arxiv.org/abs/2503.12496v1
- Date: Sun, 16 Mar 2025 13:12:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 14:56:57.940593
- Title: Does Your Vision-Language Model Get Lost in the Long Video Sampling Dilemma?
- Title(参考訳): 長時間のジレンマでビジョンランゲージモデルが失われる?
- Authors: Tianyuan Qu, Longxiang Tang, Bohao Peng, Senqiao Yang, Bei Yu, Jiaya Jia,
- Abstract要約: 低密度サンプリングは臨界情報を欠くリスクを負うが、高密度サンプリングは冗長性をもたらす。
LSDBenchは、LVLM(Large Vision-Language Models)を長時間ビデオ上で評価するための最初のベンチマークである。
本稿では,質問関連キューのグローバルな局在化と局所的な高密度サンプリングを組み合わせ,高精度な推論を行うReasoning-Driven Hierarchical Smplingフレームワークを提案する。
- 参考スコア(独自算出の注目度): 43.2978328773242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of Large Vision-Language Models (LVLMs) has significantly advanced video understanding. However, efficiently processing long videos remains a challenge due to the ``Sampling Dilemma'': low-density sampling risks missing critical information, while high-density sampling introduces redundancy. To address this issue, we introduce LSDBench, the first benchmark designed to evaluate LVLMs on long-video tasks by constructing high Necessary Sampling Density (NSD) questions, where NSD represents the minimum sampling density required to accurately answer a given question. LSDBench focuses on dense, short-duration actions to rigorously assess the sampling strategies employed by LVLMs. To tackle the challenges posed by high-NSD questions, we propose a novel Reasoning-Driven Hierarchical Sampling (RHS) framework, which combines global localization of question-relevant cues with local dense sampling for precise inference. Additionally, we develop a lightweight Semantic-Guided Frame Selector to prioritize informative frames, enabling RHS to achieve comparable or superior performance with significantly fewer sampled frames. Together, our LSDBench and RHS framework address the unique challenges of high-NSD long-video tasks, setting a new standard for evaluating and improving LVLMs in this domain.
- Abstract(参考訳): LVLM(Large Vision-Language Models)の台頭により、映像理解が大幅に進歩した。
しかし、'Sampling Dilemma'': 低密度サンプリングは重要な情報を欠くリスクを負うが、高密度サンプリングは冗長性をもたらす。
この問題に対処するために,我々は,SDが与えられた質問に正確に答えるのに必要な最小サンプリング密度を表す高必要サンプリング密度 (NSD) の質問を構築することで,長ビデオタスクにおけるLVLMを評価するために設計された最初のベンチマークであるLSDBenchを紹介する。
LSDBenchは、LVLMが採用するサンプリング戦略を厳格に評価するために、密集した短時間の動作に焦点を当てている。
高NSD質問による課題に対処するために,質問関連キューのグローバルなローカライゼーションと,高精度推論のための局所的なサンプリングを組み合わせたReasoning-Driven Hierarchical Smpling (RHS) フレームワークを提案する。
さらに,情報フレームを優先する軽量なセマンティックガイドフレームセレクタを開発した。
我々のLSDBenchとRDSフレームワークは、高NSD長ビデオタスクのユニークな課題に対処し、この領域におけるLVLMの評価と改善のための新しい標準を設定します。
関連論文リスト
- MVQA: Mamba with Unified Sampling for Efficient Video Quality Assessment [24.053542031123985]
ビデオ品質評価(VQA)のためのマンバモデルMVQAを提案する。
USDSは低解像度ビデオからのセマンティックパッチサンプリングと、オリジナル解像度ビデオからの歪みパッチサンプリングを組み合わせる。
実験の結果,提案したMVQAにはUSDSが組み込まれており,最先端の手法に匹敵する性能が得られた。
論文 参考訳(メタデータ) (2025-04-22T16:08:23Z) - Self-ReS: Self-Reflection in Large Vision-Language Models for Long Video Understanding [5.070026408553652]
SelfReSは、ユーザのプロンプトに基づいてキービデオフラグメントを動的に選択する、非時間的自己反射サンプリング手法である。
SelfReSは、強力なベースLVLMにシームレスに統合することができ、長時間ビデオタスクの精度を改善し、同じGPUメモリ予算で最大46%高速な推論速度を達成することができる。
論文 参考訳(メタデータ) (2025-03-26T09:39:58Z) - FALCONEye: Finding Answers and Localizing Content in ONE-hour-long videos with multi-modal LLMs [8.18451834099348]
我々の新しいビデオエージェントFALCONEyeは、VLMとLarge Language Model(LLM)を組み合わせて、ビデオ上の関連情報を検索し、そのフレームを答えとともに見つけ出す。
実験の結果,FALCONEye は FALCON-Bench の最先端技術よりも優れた性能を示し,関連するベンチマークでは類似あるいは良好な性能を示した。
論文 参考訳(メタデータ) (2025-03-25T17:17:19Z) - HierarQ: Task-Aware Hierarchical Q-Former for Enhanced Video Understanding [14.464718780172582]
タスク対応の階層型Q-FormerベースのフレームワークであるHierarQを導入する。
ビデオ理解にタスク認識を組み込むために,軽量な2ストリーム言語誘導機能変調器を導入する。
ビデオ理解、質問応答、キャプションタスクにわたる10の動画ベンチマークの大規模な評価は、HierarQの最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-03-11T16:21:23Z) - VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - Zero-Shot Action Recognition in Surveillance Videos [5.070026408553652]
現在のAIベースのビデオ監視システムは、広範囲の微調整を必要とするコアコンピュータビジョンモデルに依存している。
VideoLLaMA2はゼロショットのパフォーマンスが飛躍的に向上し、ベースラインを20%上回る。
さらに、Self-ReSはゼロショットアクション認識性能を44.6%に向上させた。
論文 参考訳(メタデータ) (2024-10-28T15:13:53Z) - ConMe: Rethinking Evaluation of Compositional Reasoning for Modern VLMs [95.15814662348245]
構成推論(CR)は属性、関係、単語の順序の重要さを把握する。
近年の視覚言語モデル (VLM) は、そのような推論タスクにおいて顕著な習熟性を示している。
論文 参考訳(メタデータ) (2024-06-12T12:54:27Z) - Reinforcement Tuning for Detecting Stances and Debunking Rumors Jointly with Large Language Models [13.356554246394692]
大型言語モデル(LLMs)は、JSDRVと呼ばれる共同姿勢検出(SD)および噂検証(RV)タスクのための基礎アノテーションである。
LLM ベースの SD と RV コンポーネントのジョイント予測能力を向上する新たな強化チューニングフレームワークを提案する。
以上の結果から,JSDRVはタスクモデルとして適合する非LLMへの一般化だけでなく,共同作業におけるLLMの能力の向上を図っている。
論文 参考訳(メタデータ) (2024-06-04T09:31:18Z) - SpikeMba: Multi-Modal Spiking Saliency Mamba for Temporal Video Grounding [50.337896542603524]
時間的ビデオグラウンドティングのためのマルチモーダル・スパイク・サリエンシ・マンバであるSpikeMbaを紹介した。
我々のアプローチでは、スパイキングニューラルネットワーク(SNN)と状態空間モデル(SSM)を統合して、そのユニークな利点を活用する。
我々の実験は、最先端の手法を一貫して上回るSpikeMbaの有効性を実証した。
論文 参考訳(メタデータ) (2024-04-01T15:26:44Z) - Are We on the Right Way for Evaluating Large Vision-Language Models? [92.5761176224556]
大規模視覚言語モデル(LVLM)は、最近急速に進歩し、そのマルチモーダル能力を評価するために多くの研究を巻き起こした。
視覚コンテンツは多くのサンプルに対して不要であり、意図的なデータ漏洩が存在する。
本稿では,人間によって精巧に選択された1500個のサンプルからなる,高度に視覚に欠かせないマルチモーダルベンチマークMMStarを提案する。
論文 参考訳(メタデータ) (2024-03-29T17:59:34Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Good Questions Help Zero-Shot Image Reasoning [110.1671684828904]
質問駆動型視覚探索(QVix)は、大規模視覚言語モデル(LVLM)の探索能力を高める新しい促進戦略である。
QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善している。
我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,QVixが既存の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2023-12-04T03:18:51Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z) - Super-resolution Reconstruction of Single Image for Latent features [8.857209365343646]
単一像超解像(SISR)は、通常、様々な劣化した低分解能(LR)画像を単一の高分解能(HR)画像に復元することに焦点を当てる。
モデルが細部やテクスチャの多様性を保ちながら、高品質かつ迅速なサンプリングを同時に維持することは、しばしば困難である。
この課題は、モデル崩壊、再構成されたHR画像におけるリッチディテールとテクスチャの特徴の欠如、モデルサンプリングの過剰な時間消費などの問題を引き起こす可能性がある。
論文 参考訳(メタデータ) (2022-11-16T09:37:07Z) - Task-adaptive Spatial-Temporal Video Sampler for Few-shot Action
Recognition [25.888314212797436]
本稿では,アクション認識のための新しいビデオフレームサンプリング手法を提案する。
タスク固有の時空間フレームサンプリングは時空間セレクタ(TS)と空間増幅器(SA)を介して実現される
実験では、長期ビデオを含む様々なベンチマークが大幅に向上した。
論文 参考訳(メタデータ) (2022-07-20T09:04:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。