論文の概要: Evaluating Multimodal Large Language Models on Video Captioning via Monte Carlo Tree Search
- arxiv url: http://arxiv.org/abs/2506.11155v1
- Date: Wed, 11 Jun 2025 15:11:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.521093
- Title: Evaluating Multimodal Large Language Models on Video Captioning via Monte Carlo Tree Search
- Title(参考訳): モンテカルロ木探索によるビデオキャプションによる多モーダル大言語モデルの評価
- Authors: Linhao Yu, Xinguang Ji, Yahui Liu, Fanheng Kong, Chenxi Sun, Jingyuan Zhang, Hongzhi Zhang, V. W., Fuzheng Zhang, Deyi Xiong,
- Abstract要約: MLLM(Multimodal Large Language Models)のビデオ理解能力の評価にビデオキャプションを用いることができる。
既存のベンチマークや評価プロトコルは、キーポイントの不足や均質な生成など、重要な問題に悩まされている。
我々はモンテカルロ木探索(MCTS)を利用して多種多様な記述文を構築する自動フレームワークAutoCaptionを提案する。
- 参考スコア(独自算出の注目度): 43.7994890993171
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video captioning can be used to assess the video understanding capabilities of Multimodal Large Language Models (MLLMs). However, existing benchmarks and evaluation protocols suffer from crucial issues, such as inadequate or homogeneous creation of key points, exorbitant cost of data creation, and limited evaluation scopes. To address these issues, we propose an automatic framework, named AutoCaption, which leverages Monte Carlo Tree Search (MCTS) to construct numerous and diverse descriptive sentences (\textit{i.e.}, key points) that thoroughly represent video content in an iterative way. This iterative captioning strategy enables the continuous enhancement of video details such as actions, objects' attributes, environment details, etc. We apply AutoCaption to curate MCTS-VCB, a fine-grained video caption benchmark covering video details, thereby enabling a comprehensive evaluation of MLLMs on the video captioning task. We evaluate more than 20 open- and closed-source MLLMs of varying sizes on MCTS-VCB. Results show that MCTS-VCB can effectively and comprehensively evaluate the video captioning capability, with Gemini-1.5-Pro achieving the highest F1 score of 71.2. Interestingly, we fine-tune InternVL2.5-8B with the AutoCaption-generated data, which helps the model achieve an overall improvement of 25.0% on MCTS-VCB and 16.3% on DREAM-1K, further demonstrating the effectiveness of AutoCaption. The code and data are available at https://github.com/tjunlp-lab/MCTS-VCB.
- Abstract(参考訳): ビデオキャプションは、MLLM(Multimodal Large Language Models)のビデオ理解能力を評価するために使用できる。
しかし、既存のベンチマークや評価プロトコルは、キーポイントの不適切なもしくは均一な作成、データ生成の余剰コスト、限られた評価範囲といった重要な問題に悩まされている。
これらの問題に対処するために,モンテカルロ木探索(MCTS)を活用して,ビデオコンテンツを完全に反復的に表現する多種多様な記述文(\textit{i.e.},キーポイント)を構築する自動フレームワークAutoCaptionを提案する。
この反復キャプション戦略は、アクション、オブジェクトの属性、環境の詳細など、ビデオの詳細を継続的に強化することを可能にする。
我々はAutoCaptionを用いて、ビデオの詳細をカバーする詳細なビデオキャプションベンチマークであるMCTS-VCBをキュレートし、ビデオキャプションタスクにおけるMLLMの包括的な評価を可能にする。
我々は,MCTS-VCB上で,様々なサイズのオープンソースおよびクローズドソースMLLMを20以上評価した。
その結果, MCTS-VCBは映像キャプション能力を効果的かつ包括的に評価でき, Gemini-1.5-Proは最高スコア71.2。
興味深いことに、InternVL2.5-8BをAutoCaption生成データで微調整し、MCTS-VCBで25.0%、DREAM-1Kで16.3%の改善を実現し、AutoCaptionの有効性をさらに実証する。
コードとデータはhttps://github.com/tjunlp-lab/MCTS-VCBで公開されている。
関連論文リスト
- Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation [118.5096631571738]
我々は任意の条件下で制御可能なビデオ生成のための新しいフレームワークであるAny2Captionを提示する。
現代のマルチモーダルな大言語モデル(MLLM)を活用することで、Any2Captionはテキスト、画像、ビデオ、地域、動き、カメラのポーズなど、多種多様な入力を解釈する。
包括的評価は,既存の映像生成モデルの様々な側面において,制御性と映像品質の大幅な向上を示す。
論文 参考訳(メタデータ) (2025-03-31T17:59:01Z) - CaReBench: A Fine-Grained Benchmark for Video Captioning and Retrieval [24.203328970223527]
本稿では,詳細な動画キャプションと検索のためのベンチマークであるCaReBenchを紹介する。
同様に、ビデオごとに手動で分離された空間アノテーションと時間アノテーションを提供する。
この設計に基づいて、ビデオ検索とビデオキャプションタスクに特化して、ReBiasとCapSTという2つの評価指標を導入する。
論文 参考訳(メタデータ) (2024-12-31T15:53:50Z) - AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark [89.73538448786405]
大規模なマルチモーダルモデルに基づくビデオキャプタであるAuroraCapを提案する。
トークンマージ戦略を実装し、入力されたビジュアルトークンの数を減らす。
AuroraCapは、様々なビデオおよび画像キャプションベンチマークで優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-04T00:13:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。