論文の概要: DisTime: Distribution-based Time Representation for Video Large Language Models
- arxiv url: http://arxiv.org/abs/2505.24329v1
- Date: Fri, 30 May 2025 08:10:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.843643
- Title: DisTime: Distribution-based Time Representation for Video Large Language Models
- Title(参考訳): DisTime:ビデオ大言語モデルのための分布に基づく時間表現
- Authors: Yingsen Zeng, Zepeng Huang, Yujie Zhong, Chengjian Feng, Jie Hu, Lin Ma, Yang Liu,
- Abstract要約: DisTimeは、ビデオLLMにおける時間的理解を強化するために設計された軽量フレームワークである。
DisTimeは、連続的な時間的埋め込みスペースを作成するために学習可能なトークンを使用する。
DisTimeは3つの時間に敏感なタスクでベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 23.176698643825123
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite advances in general video understanding, Video Large Language Models (Video-LLMs) face challenges in precise temporal localization due to discrete time representations and limited temporally aware datasets. Existing methods for temporal expression either conflate time with text-based numerical values, add a series of dedicated temporal tokens, or regress time using specialized temporal grounding heads. To address these issues, we introduce DisTime, a lightweight framework designed to enhance temporal comprehension in Video-LLMs. DisTime employs a learnable token to create a continuous temporal embedding space and incorporates a Distribution-based Time Decoder that generates temporal probability distributions, effectively mitigating boundary ambiguities and maintaining temporal continuity. Additionally, the Distribution-based Time Encoder re-encodes timestamps to provide time markers for Video-LLMs. To overcome temporal granularity limitations in existing datasets, we propose an automated annotation paradigm that combines the captioning capabilities of Video-LLMs with the localization expertise of dedicated temporal models. This leads to the creation of InternVid-TG, a substantial dataset with 1.25M temporally grounded events across 179k videos, surpassing ActivityNet-Caption by 55 times. Extensive experiments demonstrate that DisTime achieves state-of-the-art performance across benchmarks in three time-sensitive tasks while maintaining competitive performance in Video QA tasks. Code and data are released at https://github.com/josephzpng/DisTime.
- Abstract(参考訳): 一般的なビデオ理解の進歩にもかかわらず、ビデオ大言語モデル(Video Large Language Models, Video-LLMs)は、離散時間表現と限られた時間的認識データセットによる正確な時間的局所化の課題に直面している。
時間表現の既存の方法は、テキストベースの数値で時間を割くか、一連の専用の時間トークンを追加するか、特別な時間的接頭辞を用いた回帰時間かのいずれかである。
これらの問題に対処するため,ビデオLLMにおける時間的理解を高めるために設計された軽量フレームワークであるDisTimeを紹介した。
DisTimeは学習可能なトークンを使用して、連続的な時間的埋め込み空間を作成し、時間的確率分布を生成し、境界の曖昧さを効果的に軽減し、時間的連続性を維持する分散ベースのタイムデコーダを組み込む。
さらに、配信ベースのTime Encoderはタイムスタンプを再エンコードして、ビデオLLMのタイムマーカーを提供する。
既存のデータセットにおける時間的粒度の制限を克服するため,ビデオLLMのキャプション機能と専用時間モデルの局所化専門知識を組み合わせた自動アノテーションパラダイムを提案する。
この結果、InternVid-TGが作成され、179Kビデオに1.25Mの時間的根拠を持つイベントが生成され、ActivityNet-Captionを55倍上回った。
大規模な実験により、DisTimeは、ビデオQAタスクの競合性能を維持しながら、3つの時間に敏感なタスクで、ベンチマーク全体で最先端のパフォーマンスを達成する。
コードとデータはhttps://github.com/josephzpng/DisTime.comで公開されている。
関連論文リスト
- VideoExpert: Augmented LLM for Temporal-Sensitive Video Understanding [48.745013691038295]
VideoExpertは、複数の時間に敏感なビデオタスクに適した汎用MLLMである。
時間の専門家は、時系列をモデル化し、時間的接地を行う責任を負う。
空間専門家は、コンテンツの詳細分析と以下の指示に焦点を当てている。
コンテンツ生成から時間的グラウンドをオフロードすることで、VideoExpertはタイムスタンプ予測におけるテキストパターンのバイアスを防ぐ。
論文 参考訳(メタデータ) (2025-04-10T07:33:39Z) - TIME: Temporal-sensitive Multi-dimensional Instruction Tuning and Benchmarking for Video-LLMs [55.23558461306722]
ビデオ大言語モデルは、ビデオ質問応答のようなタスクにおいて顕著なパフォーマンスを達成した。
我々のデータセットは5つの重要な次元にわたる時間的理解の向上に焦点を当てている。
本稿では,時間に敏感なタスクを既存の命令データセットにシームレスに統合するマルチタスクプロンプト微調整手法を提案する。
論文 参考訳(メタデータ) (2025-03-13T03:05:11Z) - Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - TimeRefine: Temporal Grounding with Time Refining Video LLM [75.99665302872901]
ビデオの時間的接地は、テキストのプロンプトが与えられたビデオの中で、関連する時間的境界をローカライズすることを目的としている。
我々は時間的接地タスクを時間的精錬タスクとして再構成する。
我々は、予測セグメントが基底真理からさらに逸脱した場合、モデルをよりペナルティ化する補助予測ヘッドを組み込む。
論文 参考訳(メタデータ) (2024-12-12T18:59:11Z) - Video LLMs for Temporal Reasoning in Long Videos [7.2900856926028155]
テンポラルVLM(TemporalVLM)は、ビデオ大言語モデルであり、時間的推論を効果的に行い、長いビデオにおいてきめ細やかな理解を可能にする。
我々のアプローチには、長期入力ビデオの時間認識機能へのマッピングと、ローカルおよびグローバルの両方のキューを含むビジュアルエンコーダが含まれる。
本研究では,TemporalVLMの評価を容易にするために,産業集積プロセス,すなわちIndustrialASMの大規模ビデオデータセットを提案する。
論文 参考訳(メタデータ) (2024-12-04T00:50:33Z) - TimeMarker: A Versatile Video-LLM for Long and Short Video Understanding with Superior Temporal Localization Ability [26.376975842846235]
ビデオコンテンツに基づく高品質な対話のための多目的ビデオLLMであるTimeMarkerを導入し、時間的ローカライゼーションを強調した。
TimeMarkerはTemporal Separator Tokensを統合して、時間的認識を高め、ビデオ内の特定の瞬間を正確にマークする。
動的フレームサンプリングと適応トークンマージにAnyLengthメカニズムを使用し、ショートビデオとロングビデオの両方を効果的に扱うことができる。
論文 参考訳(メタデータ) (2024-11-27T10:45:40Z) - Temporal Reasoning Transfer from Text to Video [51.68487044397409]
ビデオ大言語モデル(ビデオLLM)は、時間的変化の追跡と時間的関係の推論に苦労する。
テキストからビデオ領域への時間的推論能力を伝達するために、テキスト時間的推論転送(T3)を導入する。
LongVA-7Bモデルは、包括的なビデオベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2024-10-08T16:10:29Z) - LITA: Language Instructed Temporal-Localization Assistant [71.68815100776278]
ビデオ長に対してタイムスタンプをエンコードするタイムトークンを導入し,ビデオ中のタイムスタンプをよりよく表現する。
また、アーキテクチャにSlowFastトークンを導入し、微細な時間分解能で時間情報をキャプチャする。
時間的ローカライゼーションに重点を置くことで,既存のビデオLLMに比べて映像ベースのテキスト生成が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-03-27T22:50:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。