Fugu-MT 論文翻訳(概要): Evaluating Multimodal Large Language Models on Video Captioning via Monte Carlo Tree Search

論文の概要: Evaluating Multimodal Large Language Models on Video Captioning via Monte Carlo Tree Search

arxiv url: http://arxiv.org/abs/2506.11155v1
Date: Wed, 11 Jun 2025 15:11:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-16 17:50:49.521093
Title: Evaluating Multimodal Large Language Models on Video Captioning via Monte Carlo Tree Search
Title（参考訳）: モンテカルロ木探索によるビデオキャプションによる多モーダル大言語モデルの評価
Authors: Linhao Yu, Xinguang Ji, Yahui Liu, Fanheng Kong, Chenxi Sun, Jingyuan Zhang, Hongzhi Zhang, V. W., Fuzheng Zhang, Deyi Xiong,
Abstract要約: MLLM(Multimodal Large Language Models)のビデオ理解能力の評価にビデオキャプションを用いることができる。既存のベンチマークや評価プロトコルは、キーポイントの不足や均質な生成など、重要な問題に悩まされている。我々はモンテカルロ木探索(MCTS)を利用して多種多様な記述文を構築する自動フレームワークAutoCaptionを提案する。
参考スコア（独自算出の注目度）: 43.7994890993171
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Video captioning can be used to assess the video understanding capabilities of Multimodal Large Language Models (MLLMs). However, existing benchmarks and evaluation protocols suffer from crucial issues, such as inadequate or homogeneous creation of key points, exorbitant cost of data creation, and limited evaluation scopes. To address these issues, we propose an automatic framework, named AutoCaption, which leverages Monte Carlo Tree Search (MCTS) to construct numerous and diverse descriptive sentences (\textit{i.e.}, key points) that thoroughly represent video content in an iterative way. This iterative captioning strategy enables the continuous enhancement of video details such as actions, objects' attributes, environment details, etc. We apply AutoCaption to curate MCTS-VCB, a fine-grained video caption benchmark covering video details, thereby enabling a comprehensive evaluation of MLLMs on the video captioning task. We evaluate more than 20 open- and closed-source MLLMs of varying sizes on MCTS-VCB. Results show that MCTS-VCB can effectively and comprehensively evaluate the video captioning capability, with Gemini-1.5-Pro achieving the highest F1 score of 71.2. Interestingly, we fine-tune InternVL2.5-8B with the AutoCaption-generated data, which helps the model achieve an overall improvement of 25.0% on MCTS-VCB and 16.3% on DREAM-1K, further demonstrating the effectiveness of AutoCaption. The code and data are available at https://github.com/tjunlp-lab/MCTS-VCB.
Abstract（参考訳）: ビデオキャプションは、MLLM(Multimodal Large Language Models)のビデオ理解能力を評価するために使用できる。しかし、既存のベンチマークや評価プロトコルは、キーポイントの不適切なもしくは均一な作成、データ生成の余剰コスト、限られた評価範囲といった重要な問題に悩まされている。これらの問題に対処するために,モンテカルロ木探索(MCTS)を活用して,ビデオコンテンツを完全に反復的に表現する多種多様な記述文(\textit{i.e.},キーポイント)を構築する自動フレームワークAutoCaptionを提案する。この反復キャプション戦略は、アクション、オブジェクトの属性、環境の詳細など、ビデオの詳細を継続的に強化することを可能にする。我々はAutoCaptionを用いて、ビデオの詳細をカバーする詳細なビデオキャプションベンチマークであるMCTS-VCBをキュレートし、ビデオキャプションタスクにおけるMLLMの包括的な評価を可能にする。我々は,MCTS-VCB上で,様々なサイズのオープンソースおよびクローズドソースMLLMを20以上評価した。その結果, MCTS-VCBは映像キャプション能力を効果的かつ包括的に評価でき, Gemini-1.5-Proは最高スコア71.2。興味深いことに、InternVL2.5-8BをAutoCaption生成データで微調整し、MCTS-VCBで25.0%、DREAM-1Kで16.3%の改善を実現し、AutoCaptionの有効性をさらに実証する。コードとデータはhttps://github.com/tjunlp-lab/MCTS-VCBで公開されている。

関連論文リスト

VideoCap-R1: Enhancing MLLMs for Video Captioning via Structured Thinking [24.516849841624484]
本稿では,ビデオMLLMのためのGRPOベースのRLポストトレーニングについて,初めて体系的な研究を行った。我々は、まず、ビデオの主題を分析する構造化思考を実行するために、VideoCap-R1を開発した。実験によると、VideoCap-R1はQwen2VL-7Bベースラインよりも大幅に改善されている。
論文参考訳（メタデータ） (2025-06-02T14:30:09Z)
VCapsBench: A Large-scale Fine-grained Benchmark for Video Caption Quality Evaluation [23.701884816475403]
ビデオキャプションは、テキストからビデオへの生成タスクにおいて重要な役割を果たす。既存のベンチマークでは、きめ細かい評価が不十分である。細粒度ビデオキャプション評価ベンチマーク(VCapsBench)を紹介する。
論文参考訳（メタデータ） (2025-05-29T14:34:25Z)
Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation [118.5096631571738]
我々は任意の条件下で制御可能なビデオ生成のための新しいフレームワークであるAny2Captionを提示する。現代のマルチモーダルな大言語モデル(MLLM)を活用することで、Any2Captionはテキスト、画像、ビデオ、地域、動き、カメラのポーズなど、多種多様な入力を解釈する。包括的評価は,既存の映像生成モデルの様々な側面において,制御性と映像品質の大幅な向上を示す。
論文参考訳（メタデータ） (2025-03-31T17:59:01Z)
CaReBench: A Fine-Grained Benchmark for Video Captioning and Retrieval [24.203328970223527]
本稿では,詳細な動画キャプションと検索のためのベンチマークであるCaReBenchを紹介する。同様に、ビデオごとに手動で分離された空間アノテーションと時間アノテーションを提供する。この設計に基づいて、ビデオ検索とビデオキャプションタスクに特化して、ReBiasとCapSTという2つの評価指標を導入する。
論文参考訳（メタデータ） (2024-12-31T15:53:50Z)
AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark [89.73538448786405]
大規模なマルチモーダルモデルに基づくビデオキャプタであるAuroraCapを提案する。トークンマージ戦略を実装し、入力されたビジュアルトークンの数を減らす。 AuroraCapは、様々なビデオおよび画像キャプションベンチマークで優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2024-10-04T00:13:54Z)
CogVLM: Visual Expert for Pretrained Language Models [56.69978233342978]
我々は,オープンソースのビジュアル言語基盤モデルであるCogVLMを紹介する。 CogVLMは、凍結した事前訓練された言語モデルとイメージエンコーダの間のギャップを、注意とFFN層でトレーニング可能なビジュアルエキスパートモジュールによって埋める。 CogVLM-17Bは、NoCaps、Flicker30kキャプション、RefCOCO、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA、TDIUCを含む10の古典的なクロスモーダルベンチマークで最先端のパフォーマンスを達成した。
論文参考訳（メタデータ） (2023-11-06T13:04:39Z)
Retrieving-to-Answer: Zero-Shot Video Question Answering with Frozen Large Language Models [69.59125732317972]
本稿では,ビデオQAのためのシンプルで効果的な検索・回答(R2A)フレームワークを提案する。 R2Aは、まず、事前訓練されたマルチモーダルモデルを用いて、ジェネリックテキストコーパスから意味論的に類似したテキストの集合を検索する。質問と検索されたテキストの両方で、LSMを直接使用して、望ましい回答を得ることができる。
論文参考訳（メタデータ） (2023-06-15T20:56:20Z)
Dense-Caption Matching and Frame-Selection Gating for Temporal Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文参考訳（メタデータ） (2020-05-13T16:35:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。