Fugu-MT 論文翻訳(概要): Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models

論文の概要: Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models

arxiv url: http://arxiv.org/abs/2510.05034v4
Date: Mon, 13 Oct 2025 16:09:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-14 15:48:09.744159
Title: Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models
Title（参考訳）: Video-LMMポストトライニング:大規模マルチモーダルモデルによるビデオ推論の深層化
Authors: Yolo Yunlong Tang, Jing Bi, Pinxin Liu, Zhenyu Pan, Zhangyun Tan, Qianxiang Shen, Jiani Liu, Hang Hua, Junjia Guo, Yunzhong Xiao, Chao Huang, Zhiyuan Wang, Susan Liang, Xinyi Liu, Yizhi Song, Yuhe Nie, Jia-Xing Zhong, Bozheng Li, Daiqing Qi, Ziyun Zeng, Ali Vosoughi, Luchuan Song, Zeliang Zhang, Daiki Shimada, Han Liu, Jiebo Luo, Chenliang Xu,
Abstract要約: ビデオ理解はコンピュータビジョンにおける最も困難なフロンティアである。近年,映像理解タスクにおいて,映像多時間モデルが顕著に出現している。 Surveyは、ビデオ-LMM能力を向上するための統一的なフレームワークを研究者や実践者に提供することを目的としている。
参考スコア（独自算出の注目度）: 78.40747899831793
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video understanding represents the most challenging frontier in computer vision, requiring models to reason about complex spatiotemporal relationships, long-term dependencies, and multimodal evidence. The recent emergence of Video-Large Multimodal Models (Video-LMMs), which integrate visual encoders with powerful decoder-based language models, has demonstrated remarkable capabilities in video understanding tasks. However, the critical phase that transforms these models from basic perception systems into sophisticated reasoning engines, post-training, remains fragmented across the literature. This survey provides the first comprehensive examination of post-training methodologies for Video-LMMs, encompassing three fundamental pillars: supervised fine-tuning (SFT) with chain-of-thought, reinforcement learning (RL) from verifiable objectives, and test-time scaling (TTS) through enhanced inference computation. We present a structured taxonomy that clarifies the roles, interconnections, and video-specific adaptations of these techniques, addressing unique challenges such as temporal localization, spatiotemporal grounding, long video efficiency, and multimodal evidence integration. Through systematic analysis of representative methods, we synthesize key design principles, insights, and evaluation protocols while identifying critical open challenges in reward design, scalability, and cost-performance optimization. We further curate essential benchmarks, datasets, and metrics to facilitate rigorous assessment of post-training effectiveness. This survey aims to provide researchers and practitioners with a unified framework for advancing Video-LMM capabilities. Additional resources and updates are maintained at: https://github.com/yunlong10/Awesome-Video-LMM-Post-Training
Abstract（参考訳）: ビデオ理解はコンピュータビジョンにおける最も困難なフロンティアであり、複雑な時空間関係、長期依存、マルチモーダルエビデンスをモデルに推論する必要がある。近年、ビジュアルエンコーダと強力なデコーダベースの言語モデルを統合するビデオラージマルチモーダルモデル(Video-LMM)が登場し、ビデオ理解タスクにおいて顕著な機能を示した。しかし、これらのモデルを基本的な知覚システムから高度な推論エンジンへと変換する臨界フェーズは、歴史学全体で断片化されている。本調査は,ビデオLMMの訓練後の方法論を包括的に検討し,3つの基本柱を包括的に考察した。本稿では, 時間的局所化, 時空間的接地, 長時間のビデオ効率, マルチモーダル的エビデンス統合といったユニークな課題に対処するため, それらの技術の役割, 相互接続, ビデオ固有の適応を明らかにする構造的分類法を提案する。代表的な手法を体系的に分析し,設計原理,洞察,評価プロトコルを合成し,報酬設計,スケーラビリティ,費用対効果の最適化において重要な課題を特定する。さらに、トレーニング後の有効性の厳密な評価を容易にするために、重要なベンチマーク、データセット、メトリクスをキュレートします。この調査は、ビデオ-LMM能力を向上するための統一的なフレームワークを研究者や実践者に提供することを目的としている。 https://github.com/yunlong10/Awesome-Video-LMM-Post-Training

関連論文リスト

Learning Compact Video Representations for Efficient Long-form Video Understanding in Large Multimodal Models [28.68367581677484]
本稿では、情報密度に基づく適応型ビデオサンプリング(AVS)と、マルチモーダル大言語モデル(MLLM)と統合されたオートエンコーダベースの時間的ビデオ圧縮(SVC)を含む、長文ビデオ理解のための新しいエンドツーエンドスキーマを提案する。提案システムでは,各期間の映像系列から重要な情報を適応的に取得し,重要な識別情報を保存しながら高い圧縮率を達成する。
論文参考訳（メタデータ） (2026-02-19T22:04:27Z)
Agentic Video Intelligence: A Flexible Framework for Advanced Video Exploration and Understanding [43.785571875867]
本稿では,システムレベルの設計と最適化によって人間の映像理解を反映できるフレキシブルでトレーニング不要なフレームワークであるエージェントビデオインテリジェンス(AVI)を提案する。 AVIは、(1)人間にインスパイアされた3相推論プロセス(Retrieve-Perceive-Review)、(2)エンティティグラフによって構成された構造化ビデオ知識ベース、(3)軽量CVモデルとVLMを組み合わせたオープンソースのモデルアンサンブルの3つの重要なイノベーションを紹介している。
論文参考訳（メタデータ） (2025-11-18T12:43:15Z)
TSPO: Temporal Sampling Policy Optimization for Long-form Video Language Understanding [25.675553077419274]
MLLM(Multimodal Language Models)は、視覚タスクにおいて大きな進歩を見せている。本稿では、MLLMの長文ビデオ言語理解を強化学習により促進する時間サンプリングポリシー最適化(TSPO)を提案する。我々のTSPOは、複数の長いビデオ理解ベンチマークにまたがって最先端のビデオMLLM間での転送能力を示す。
論文参考訳（メタデータ） (2025-08-06T12:03:36Z)
Team of One: Cracking Complex Video QA with Model Synergy [24.75732964829523]
本稿では,複雑な実世界のシナリオにおける推論深度と堅牢性を高める,オープンエンドなビデオ質問応答のための新しいフレームワークを提案する。既存のビデオラージマルチモーダルモデル (Video-LMM) では、文脈的理解の制限、時間的モデリングの弱さ、曖昧さや構成的クエリへの一般化の低さがしばしば見られる。
論文参考訳（メタデータ） (2025-07-18T11:12:44Z)
Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文参考訳（メタデータ） (2025-06-02T17:28:26Z)
ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。 ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。 ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文参考訳（メタデータ） (2025-05-21T12:29:40Z)
STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文参考訳（メタデータ） (2024-11-29T11:54:55Z)
Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering [71.62961521518731]
HeurVidQAは、ドメイン固有のエンティティアクションを利用して、事前訓練されたビデオ言語基盤モデルを洗練するフレームワークである。我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
論文参考訳（メタデータ） (2024-10-12T06:22:23Z)
How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。 CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文参考訳（メタデータ） (2024-05-06T17:59:45Z)
Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback [38.708690624594794]
ビデオとテキストのマルチモーダルアライメントは、主にマルチモーダル命令・チューンデータのボリュームと品質が不足しているため、依然として困難である。本稿では,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる,マルチモーダルAIシステムを用いた新たなアライメント戦略を提案する。具体的には、嗜好フィードバックの生成中に、詳細な映像記述を文脈として提供することによって、文脈対応報酬モデルを提案する。
論文参考訳（メタデータ） (2024-02-06T06:27:40Z)
LifelongMemory: Leveraging LLMs for Answering Queries in Long-form Egocentric Videos [15.127197238628396]
LifelongMemoryは、自然言語による質問応答と検索を通じて、長い形式のエゴシックなビデオメモリにアクセスするための新しいフレームワークである。 Ego4D の自然言語クエリ (NLQ) の課題に対して,本手法は質問応答のためのベンチマークの最先端性能を実現し,高い競争力を発揮する。
論文参考訳（メタデータ） (2023-12-07T19:19:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。