論文の概要: LFS: Learnable Frame Selector for Event-Aware and Temporally Diverse Video Captioning
- arxiv url: http://arxiv.org/abs/2601.14594v1
- Date: Wed, 21 Jan 2026 02:26:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.209485
- Title: LFS: Learnable Frame Selector for Event-Aware and Temporally Diverse Video Captioning
- Title(参考訳): LFS: イベント認識と時間的に異なるビデオキャプチャのための学習可能なフレームセレクタ
- Authors: Lianying Chao, Linfeng Yin, Peiyu Ren, Yifan Jiang, Qiaoyu Ren, Dingcheng Shan, Jing-cheng Pang, Sijie Wu, Xubin Li, Kai Zhang,
- Abstract要約: ビデオキャプションモデルはフレームを視覚トークンに変換し、大きな言語モデル(LLM)で記述を生成する。
すべてのフレームの符号化は違法に高価であるため、一様サンプリングがデフォルトの選択であるが、不均一なイベント分布を無視しながら時間的カバレッジを均等に強制する。
これは学習可能なフレームセレクタ(LFS)を動機付け、時間的に多様なイベント関連フレームを選択する。
- 参考スコア(独自算出の注目度): 11.38337516613778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video captioning models convert frames into visual tokens and generate descriptions with large language models (LLMs). Since encoding all frames is prohibitively expensive, uniform sampling is the default choice, but it enforces equal temporal coverage while ignoring the uneven events distribution. This motivates a Learnable Frame Selector (LFS) that selects temporally diverse and event-relevant frames. LFS explicitly models temporal importance to balance temporal diversity and event relevance, and employs a stratified strategy to ensure temporal coverage while avoiding clustering. Crucially, LFS leverages caption feedback from frozen video-LLMs to learn frame selection that directly optimizes downstream caption quality. Additionally, we identify the gap between existing benchmark and human's cognition. Thus, we introduce ICH-CC built from carefully designed questions by annotators that reflect human-consistent understanding of video. Experiments indicate that LFS consistently improves detailed video captioning across two representative community benchmarks and ICH-CC, achieving up to 2.0% gains on VDC and over 4% gains on ICH-CC. Moreover, we observe that enhanced captions with LFS leads to improved performance on video question answering. Overall, LFS provides an effective and easy-to-integrate solution for detailed video captioning.
- Abstract(参考訳): ビデオキャプションモデルはフレームを視覚トークンに変換し、大きな言語モデル(LLM)で記述を生成する。
すべてのフレームの符号化は違法に高価であるため、一様サンプリングがデフォルトの選択であるが、不均一なイベント分布を無視しながら、時間的カバレッジを均等に強制する。
これは学習可能なフレームセレクタ(LFS)を動機付け、時間的に多様なイベント関連フレームを選択する。
LFSは時間的多様性とイベント関連性のバランスをとるために時間的重要性を明示的にモデル化し、クラスタ化を避けながら時間的カバレッジを確保するための階層化された戦略を採用している。
LFSは、冷凍ビデオLLMからのキャプションフィードバックを活用して、下流のキャプション品質を直接最適化するフレーム選択を学習する。
さらに、既存のベンチマークと人間の認知のギャップを識別する。
そこで本研究では,ビデオの人間による理解を反映したアノテータによる慎重に設計された質問から構築したICH-CCを紹介する。
実験の結果、LFSは2つのコミュニティベンチマークとICH-CCの詳細な動画キャプションを継続的に改善し、VDCでは最大で2.0%、ICH-CCでは4%以上のアップを達成した。
さらに,LFSを用いたキャプションの強化により,映像質問応答の性能が向上することが確認された。
全体として、LFSは詳細なビデオキャプションを効果的かつ簡単に統合できるソリューションを提供する。
関連論文リスト
- SeViCES: Unifying Semantic-Visual Evidence Consensus for Long Video Understanding [36.30263540665245]
本稿では,効果的で信頼性の高いロングビデオ理解のためのフレームワークを提案する。
SeViCESはトレーニング不要でモデルに依存しない2つの重要なコンポーネントを導入している。
長いビデオ理解ベンチマークの実験によると、SeViCESは精度と堅牢性の両方で最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-10-23T14:55:28Z) - From Frames to Clips: Efficient Key Clip Selection for Long-Form Video Understanding [43.82717677801915]
ビデオ大言語モデル(VLM)は様々な視覚言語タスクにおいて顕著な成果を上げている。
生のビデオフレームから生成される膨大な数の視覚トークンが、モデルのコンテキストウィンドウを消費する。
分離されたキーフレームからキークリップへの選択を、短い時間的コヒーレントなセグメントに拡張することで、ビデオの理解が向上することを示す。
論文 参考訳(メタデータ) (2025-10-02T17:43:01Z) - Dense Video Understanding with Gated Residual Tokenization [49.17263029080152]
高時間分解能は、ビデオ理解における微細な細部を捉えるのに不可欠である。
現在のベンチマークは主に低フレームレートサンプリングに依存している。
Dense Video Understanding (DVU)は、トークン化時間とトークンオーバーヘッドの両方を削減することで、高FPSビデオの理解を可能にする。
論文 参考訳(メタデータ) (2025-09-17T17:34:40Z) - KFFocus: Highlighting Keyframes for Enhanced Video Understanding [33.69757683688046]
KFFocusは,ビデオトークンを効率よく圧縮し,映像フレーム内に存在する情報的コンテキストを強調する手法である。
KFFocusは、コンテキスト関連性に基づいてフレームに様々な凝縮率を割り当てることで、情報コンテンツの詳細を保存しつつ、トークンの冗長性を効率的に低減する。
また,ビデオフレーム間の時間的関係と各フレーム内の空間構造をエンコードするマルチモーダルモデリングモジュールを導入する。
論文 参考訳(メタデータ) (2025-08-12T14:57:03Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models [51.712700398020075]
本研究では,空間的セマンティクスと長時間の時間的コンテキストを協調的にキャプチャできる学習自由ビデオ大言語モデル(LLM)を提案する。
これは、ビデオLLMの入力の2ストリームSlowFast設計を用いて、サンプルフレームの特徴を効果的に集約することで実現される。
実験の結果, SF-LLaVAは, 既存のトレーニング不要の手法よりも広い範囲の映像タスクにおいて優れていた。
論文 参考訳(メタデータ) (2024-07-22T17:58:04Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Flow-Guided Sparse Transformer for Video Deblurring [124.11022871999423]
FlowGuided Sparse Transformer (F GST) はビデオデブリのためのフレームワークである。
FGSW-MSAは、推定光流のガイダンスを楽しみ、隣り合うフレームの同じシーンパッチに対応する、空間的にスパースな要素を世界中にサンプリングする。
提案するFGSTは,DVDおよびGOPROデータセットの最先端パッチよりも優れており,実際のビデオの劣化に対して,より視覚的に満足な結果が得られる。
論文 参考訳(メタデータ) (2022-01-06T02:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。