論文の概要: SF2T: Self-supervised Fragment Finetuning of Video-LLMs for Fine-Grained Understanding
- arxiv url: http://arxiv.org/abs/2504.07745v1
- Date: Thu, 10 Apr 2025 13:40:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 17:27:34.599576
- Title: SF2T: Self-supervised Fragment Finetuning of Video-LLMs for Fine-Grained Understanding
- Title(参考訳): SF2T:細粒度理解のためのビデオLLMの自己教師型フラグメントファインタニング
- Authors: Yangliu Hu, Zikai Song, Na Feng, Yawei Luo, Junqing Yu, Yi-Ping Phoebe Chen, Wei Yang,
- Abstract要約: ビデオベースのLarge Language Models (VideoVid-LLMs) は近年大きく進歩している。
彼らは細かな理解に苦しむが、特に視覚力学やビデオの詳細などの側面においてである。
これらの欠点に対処するため、自己監督的断片化タスクにおける細調整ビデオLLMは、そのきめ細かい映像理解能力を大幅に向上させる。
- 参考スコア(独自算出の注目度): 23.96372422130216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-based Large Language Models (Video-LLMs) have witnessed substantial advancements in recent years, propelled by the advancement in multi-modal LLMs. Although these models have demonstrated proficiency in providing the overall description of videos, they struggle with fine-grained understanding, particularly in aspects such as visual dynamics and video details inquiries. To tackle these shortcomings, we find that fine-tuning Video-LLMs on self-supervised fragment tasks, greatly improve their fine-grained video understanding abilities. Hence we propose two key contributions:(1) Self-Supervised Fragment Fine-Tuning (SF$^2$T), a novel effortless fine-tuning method, employs the rich inherent characteristics of videos for training, while unlocking more fine-grained understanding ability of Video-LLMs. Moreover, it relieves researchers from labor-intensive annotations and smartly circumvents the limitations of natural language, which often fails to capture the complex spatiotemporal variations in videos; (2) A novel benchmark dataset, namely FineVidBench, for rigorously assessing Video-LLMs' performance at both the scene and fragment levels, offering a comprehensive evaluation of their capabilities. We assessed multiple models and validated the effectiveness of SF$^2$T on them. Experimental results reveal that our approach improves their ability to capture and interpret spatiotemporal details.
- Abstract(参考訳): ビデオベースのLarge Language Models (ビデオLLM) は、近年、マルチモーダル LLM の進歩によって、かなりの進歩をみせている。
これらのモデルは、ビデオの全体的記述を提供する能力を示しているが、特に視覚力学やビデオ詳細問い合わせといった側面において、細かな理解に苦慮している。
これらの欠点に対処するため、自己教師付き断片化タスクに精巧に調整されたビデオLLMは、その精細な映像理解能力を大幅に向上させる。
そこで本稿では,(1) ビデオLLMのよりきめ細かな理解能力を解き放ちながら, ビデオの豊かな特性を生かした, 新規なレスファインチューニング手法であるセルフスーパービジョンフラグメントファインタニング(SF$^2$T)を提案する。
さらに、ビデオの複雑な時空間変動を捉えるのに失敗する自然言語の制限を研究者が緩和し、スマートに回避する。(2) シーンとフラグメントレベルの両方でビデオ-LLMのパフォーマンスを厳格に評価する新しいベンチマークデータセットであるFinVidBenchは、それらの能力を包括的に評価する。
複数のモデルを評価し,SF$2$Tの有効性を検証した。
実験結果から,提案手法は時空間的詳細を捕捉・解釈する能力を向上させることが明らかとなった。
関連論文リスト
- SkyReels-V2: Infinite-length Film Generative Model [35.00453687783287]
Infinite-length Film Generative Model である SkyReels-V2 を提案し,マルチモーダル大言語モデル(MLLM),マルチステージ事前学習,強化学習,拡散強制フレームワークを提案する。
我々は,基本映像生成のためのプログレッシブ・レゾリューション・プレトレーニングを確立し,その後4段階のポストトレーニング強化を行った。
論文 参考訳(メタデータ) (2025-04-17T16:37:27Z) - Video Summarization with Large Language Models [41.51242348081083]
本稿では,近年のLarge Language Models (LLM) の機能を活用したビデオ要約フレームワークを提案する。
LLM-based Video Summarization (LLMVS) と呼ばれる我々の手法は、ビデオフレームをMulti-Modal Large Language Model (MLLM) を用いて一連のキャプションに変換する。
実験の結果,提案手法は標準ベンチマークにおける既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-15T13:56:14Z) - H2VU-Benchmark: A Comprehensive Benchmark for Hierarchical Holistic Video Understanding [25.111988967973147]
既存のビデオ理解評価ベンチマークでは、カバレッジ、タスクの多様性、シーン適応性に大きな制限がある。
本稿では,一般的なビデオとオンラインストリーミングの両方の理解度を評価するために,階層的・全体論的ビデオ理解ベンチマークを提案する。
このベンチマークは、拡張ビデオの長さ、包括的なアセスメントタスク、エンリッチ化ビデオデータという3つの重要な特徴に寄与する。
論文 参考訳(メタデータ) (2025-03-31T12:32:51Z) - When the Future Becomes the Past: Taming Temporal Correspondence for Self-supervised Video Representation Learning [80.09819072780193]
ビデオ表現学習における時間対応を利用した自己教師型フレームワーク(T-CoRe)を提案する。
T-CoReの実験は、複数の下流タスクに対して一貫して優れた性能を示し、ビデオ表現学習の有効性を実証している。
論文 参考訳(メタデータ) (2025-03-19T10:50:03Z) - FAVOR-Bench: A Comprehensive Benchmark for Fine-Grained Video Motion Understanding [25.37771142095486]
FAVOR-Benchは1,776本の動画からなり,様々な動作の手動アノテーションが組み込まれている。
FAVOR-Trainは17,152の動画と微粒なモーションアノテーションからなるデータセットである。
FAVOR-Train上でQwen2.5-VLを微調整した結果,TVBench,MotionBenchおよびFAVOR-Benchの動作関連タスクに一貫した改善が得られた。
論文 参考訳(メタデータ) (2025-03-19T06:42:32Z) - CaReBench: A Fine-Grained Benchmark for Video Captioning and Retrieval [24.203328970223527]
本稿では,詳細な動画キャプションと検索のためのベンチマークであるCaReBenchを紹介する。
同様に、ビデオごとに手動で分離された空間アノテーションと時間アノテーションを提供する。
この設計に基づいて、ビデオ検索とビデオキャプションタスクに特化して、ReBiasとCapSTという2つの評価指標を導入する。
論文 参考訳(メタデータ) (2024-12-31T15:53:50Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - Realizing Video Summarization from the Path of Language-based Semantic Understanding [19.825666473712197]
本稿では,Mixture of Experts(MoE)パラダイムに触発された新しいビデオ要約フレームワークを提案する。
提案手法は,複数のビデオLLMを統合し,包括的で一貫性のあるテキスト要約を生成する。
論文 参考訳(メタデータ) (2024-10-06T15:03:22Z) - Grounded-VideoLLM: Sharpening Fine-grained Temporal Grounding in Video Large Language Models [53.235170710385006]
我々は,特定の映像モーメントをきめ細かな方法で知覚・推論できる新しいビデオLLMであるGrounded-VideoLLMを紹介した。
我々は,(1)フレーム間の関係を符号化する追加の時間的ストリームと(2)特定の時間的知識に富んだ離散的な時間的トークンを組み込むことで,モデルを洗練する。
実験では, 時間文の接地, ビデオキャプションの密接化, ビデオQAの接地といった, きめ細かい接地作業に優れていた。
論文 参考訳(メタデータ) (2024-10-04T10:04:37Z) - Enhancing Video Transformers for Action Understanding with VLM-aided Training [10.02739652443895]
本稿では,VTとVLMの相補的な長所を活かしたフレームワークを提案する。
FTPフレームワークには、ビデオ中の人間のアクションの特定の側面に焦点を当てたプロセッサが追加されている。
我々は,Kineetics-400とSomething V2で93.8%,VideoMAEv2を2.8%,Something V2を2.6%上回った。
論文 参考訳(メタデータ) (2024-03-24T12:55:50Z) - Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。
Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。
本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文 参考訳(メタデータ) (2023-12-29T01:56:17Z) - Shot2Story: A New Benchmark for Comprehensive Understanding of Multi-shot Videos [58.53311308617818]
マルチショットビデオ理解ベンチマークShot2Storyには、詳細なショットレベルのキャプション、包括的なビデオ要約、質問応答ペアがある。
予備実験では、マルチショットビデオの長大かつ包括的な要約を生成するための課題がいくつか示されている。
生成された不完全な要約は、既存のビデオ理解タスクにおいて、すでに競合的なパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2023-12-16T03:17:30Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。