論文の概要: How Should Video LLMs Output Time? An Analysis of Efficient Temporal Grounding Paradigms
- arxiv url: http://arxiv.org/abs/2604.08966v1
- Date: Fri, 10 Apr 2026 05:10:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.695275
- Title: How Should Video LLMs Output Time? An Analysis of Efficient Temporal Grounding Paradigms
- Title(参考訳): ビデオLLMの出力時間について : 効率的な時間的接地パラダイムの解析
- Authors: Shengji Jin, Yuanhao Zou, Victor Zhu, Zhengping Ji, Chen Chen,
- Abstract要約: 本稿では,テキスト数値生成,テンポラルトケン生成,連続テンポラルデコーディングの3つの主要なVTG出力パラダイムを比較した。
その結果, モデルスケールによらず, 出力定式化の選択は基礎的精度と計算コストの両方に大きく影響することがわかった。
これらの知見は, 効率よく展開可能なVTGシステムを設計するための客観的な実証的ガイドラインを提供する。
- 参考スコア(独自算出の注目度): 8.304081609008119
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Multimodal Large Language Models (MLLMs) have advanced Video Temporal Grounding (VTG), existing methods often couple output paradigms with different backbones, datasets, and training protocols. This makes it challenging to isolate the specific impact of the output design. Additionally, as VTG systems are increasingly considered for resource-constrained edge deployment, the trade-off between output formulation and system-level efficiency requires systematic investigation. In this paper, we present a controlled empirical study comparing three dominant VTG output paradigms: Text Numeral Generation, Temporal Token Generation, and Continuous Temporal Decoding. We evaluate these paradigms across identical compact VLMs (SmolVLM2, FastVLM, and Molmo2) using consistent datasets and LoRA fine-tuning protocols. Evaluations on Charades-STA, QVHighlights, and YouCook2 measure both localization accuracy and system efficiency, including inference latency, training throughput, and parameter overhead. Our results demonstrate that the choice of output formulation significantly affects both grounding accuracy and computational cost, independent of model scale. Specifically, the continuous distribution paradigm consistently achieves the most favorable efficiency-accuracy trade-off on the Pareto frontier, delivering robust localization with minimal latency overhead. These findings provide objective empirical guidelines for designing efficient, deployment-ready VTG systems.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)には高度なビデオ時間グラウンド(VTG)があるが、既存の手法ではバックボーン、データセット、トレーニングプロトコルの異なる出力パラダイムが混在することが多い。
これにより、出力設計の特定の影響を分離することが困難になる。
さらに, VTG システムは資源制約付きエッジデプロイメントとしてますます検討されているため, 出力の定式化とシステムレベルの効率性のトレードオフは, 体系的な調査を必要とする。
本稿では,3つの支配的VTG出力パラダイムであるテキスト数値生成,テンポラルトークン生成,連続テンポラルデコーディングを比較した制御的実証研究を提案する。
同一のコンパクトなVLM(SmolVLM2, FastVLM, Molmo2)を一貫したデータセットとLoRAファインチューニングプロトコルを用いて評価する。
Charades-STA、QVHighlights、YouCook2の評価は、推論レイテンシ、トレーニングスループット、パラメータオーバーヘッドを含む、ローカライズ精度とシステム効率の両方を測定する。
その結果, モデルスケールによらず, 出力定式化の選択は基礎的精度と計算コストの両方に大きく影響することがわかった。
特に、継続的分散パラダイムは、Paretoフロンティア上で最も好ましい効率-精度のトレードオフを一貫して達成し、レイテンシのオーバーヘッドを最小限に抑えたロバストなローカライゼーションを実現する。
これらの知見は, 効率よく展開可能なVTGシステムを設計するための客観的な実証的ガイドラインを提供する。
関連論文リスト
- Tiny Inference-Time Scaling with Latent Verifiers [56.696619768584675]
Verifier on Hidden States (VHS) は、Diffusion Transformer (DiT) の中間的な隠れ表現で動作する。
VHSは、画素空間に復号することなくジェネレータ機能を解析することにより、候補毎の検証コストを削減できる。
VHSは同じ推論時予算でGenEvalを+2.7%改善する。
論文 参考訳(メタデータ) (2026-03-23T19:00:02Z) - Empirical Recipes for Efficient and Compact Vision-Language Models [54.92440500651415]
リソース制約のある設定における視覚言語モデル(VLM)は低レイテンシと高スループットを必要とする。
実験的なエンドツーエンドの効率分析と系統的なプロファイル推論を行い、主要なボトルネックを特定します。
精度を保ちながらレイテンシを大幅に低減する,コンパクトなVLMに適した最適化レシピを開発した。
論文 参考訳(メタデータ) (2026-03-17T17:17:40Z) - Parallelization Strategies for Dense LLM Deployment: Navigating Through Application-Specific Tradeoffs and Bottlenecks [6.447439020088275]
AIのブレークスルーは、大規模言語モデル(LLM)ベースのアプリケーションの爆発を加速させた。
センスモデルは、その強力な能力、スケーラビリティ、微調整の容易さ、さまざまなタスクにおける汎用性のために、引き続き支配的です。
本稿では,ノード内並列化方式に着目した2つの代表的高密度LLMの負荷について検討する。
論文 参考訳(メタデータ) (2026-03-05T21:33:24Z) - TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs [81.78017865436816]
我々は,映像の時間的接地能力の強いMLLMを体系的に構築するTimeLensを提案する。
まず,既存のVTGベンチマークにおける重要な品質問題を明らかにし,TimeLens-Benchを導入する。
また、自動再アノテーションパイプラインを通じてノイズの多いトレーニングデータに対処し、大規模で高品質なトレーニングデータセットであるTimeLens-100Kを出力します。
論文 参考訳(メタデータ) (2025-12-16T18:59:58Z) - Leveraging Duration Pseudo-Embeddings in Multilevel LSTM and GCN Hypermodels for Outcome-Oriented PPM [4.120576565537633]
予測プロセス監視(PPM)のための既存のディープラーニングモデルは、時間的不規則性に悩まされている。
本稿では,イベント属性とシーケンス属性を分離する2つの入力ニューラルネットワーク戦略を提案する。
提案手法の利点を実証し,実世界の堅牢なPPMアプリケーションのためのフレキシブルな設計を提供する。
論文 参考訳(メタデータ) (2025-11-24T07:06:08Z) - MiniCPM4: Ultra-Efficient LLMs on End Devices [126.22958722174583]
MiniCPM4は、エンドサイドデバイス向けに明示的に設計された高効率な大規模言語モデル(LLM)である。
この効率性は、モデルアーキテクチャ、トレーニングデータ、トレーニングアルゴリズム、推論システムという4つの重要な側面において、体系的な革新を通じて達成します。
論文 参考訳(メタデータ) (2025-06-09T16:16:50Z) - Accurate and Efficient Multivariate Time Series Forecasting via Offline Clustering [22.545533166145706]
セグメンツ(FOCUS)を用いたオフラインクラスタリングによるフォアキャスタの導入
FOCUSは、長距離依存性モデリングを単純化するMTS予測の新しいアプローチである。
最先端の精度を実現し、計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2025-05-09T02:34:06Z) - Adaptive Multi-Scale Decomposition Framework for Time Series Forecasting [26.141054975797868]
本稿では,時系列予測のための新しい適応型マルチスケール分解(AMD)フレームワークを提案する。
我々のフレームワークは時系列を複数のスケールで異なる時間パターンに分解し、MDM(Multi-Scale Decomposable Mixing)ブロックを活用する。
提案手法は,時間依存性とチャネル依存性の両方を効果的にモデル化し,マルチスケールデータ統合を改良するために自己相関を利用する。
論文 参考訳(メタデータ) (2024-06-06T05:27:33Z) - Towards Long-Term Time-Series Forecasting: Feature, Pattern, and
Distribution [57.71199089609161]
長期的時系列予測(LTTF)は、風力発電計画など、多くのアプリケーションで需要が高まっている。
トランスフォーマーモデルは、高い計算自己認識機構のため、高い予測能力を提供するために採用されている。
LTTFの既存の手法を3つの面で区別する,Conformer という,効率的なTransformer ベースモデルを提案する。
論文 参考訳(メタデータ) (2023-01-05T13:59:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。