論文の概要: QCaption: Video Captioning and Q&A through Fusion of Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2601.06566v1
- Date: Sat, 10 Jan 2026 13:28:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.879941
- Title: QCaption: Video Captioning and Q&A through Fusion of Large Multimodal Models
- Title(参考訳): QCaption: 大規模マルチモーダルモデルの融合によるビデオキャプションとQ&A
- Authors: Jiale Wang, Gee Wah Ng, Lee Onn Mak, Randall Cher, Ng Ding Hei Ryan, Davis Wang,
- Abstract要約: 本稿では,新しいビデオキャプションとQ&AパイプラインであるQCaptionを紹介する。
QCaptionを用いた実験の結果、ビデオキャプションとQ&Aタスクがそれぞれ44.2%、48.9%改善した。
- 参考スコア(独自算出の注目度): 4.848301022157809
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces QCaption, a novel video captioning and Q&A pipeline that enhances video analytics by fusing three models: key frame extraction, a Large Multimodal Model (LMM) for image-text analysis, and a Large Language Model (LLM) for text analysis. This approach enables integrated analysis of text, images, and video, achieving performance improvements over existing video captioning and Q&A models; all while remaining fully self-contained, adept for on-premises deployment. Experimental results using QCaption demonstrated up to 44.2% and 48.9% improvements in video captioning and Q&A tasks, respectively. Ablation studies were also performed to assess the role of LLM on the fusion on the results. Moreover, the paper proposes and evaluates additional video captioning approaches, benchmarking them against QCaption and existing methodologies. QCaption demonstrate the potential of adopting a model fusion approach in advancing video analytics.
- Abstract(参考訳): 本稿では、キーフレーム抽出、画像テキスト解析のためのLMM(Large Multimodal Model)、テキスト解析のためのLarge Language Model(LLM)の3つのモデルを融合させることで、ビデオ分析を強化する新しいビデオキャプションとQ&AパイプラインであるQCaptionを紹介する。
このアプローチは、テキスト、画像、ビデオの統合分析を可能にし、既存のビデオキャプションやQ&Aモデルよりもパフォーマンスの向上を実現している。
QCaptionを用いた実験の結果、ビデオキャプションとQ&Aタスクがそれぞれ44.2%、48.9%改善した。
核融合におけるLDMの役割を評価するためのアブレーション試験も行った。
さらに,QCaptionや既存の手法に対して,ビデオキャプションのさらなるアプローチを提案し,評価する。
QCaptionは、ビデオ分析の進歩にモデル融合アプローチを採用する可能性を示している。
関連論文リスト
- VideoMultiAgents: A Multi-Agent Framework for Video Question Answering [11.514596823413736]
Video Question Answering (VQA) は本質的にマルチモーダル推論に依存している。
本稿では,視覚,シーングラフ解析,テキスト処理などの特殊エージェントを統合するフレームワークであるVideoMultiAgentsを紹介する。
提案手法は, 対象, 行動, 時間的遷移をハイライトするキャプションを生成する, 質問誘導キャプション生成を補足する。
論文 参考訳(メタデータ) (2025-04-25T22:08:09Z) - ReasVQA: Advancing VideoQA with Imperfect Reasoning Process [38.4638171723351]
textbfReasVQA (Reasoning-enhanced Video Question Answering) は、MLLM(Multimodal Large Language Models)が生成する推論プロセスを活用して、ビデオQAモデルの性能を向上させる新しい手法である。
NExT-QAでは+2.9、STARでは+7.3、IntentQAでは+5.9が大幅に改善された。
論文 参考訳(メタデータ) (2025-01-23T10:35:22Z) - An Ensemble Approach to Short-form Video Quality Assessment Using Multimodal LLM [26.622775349040836]
多様なコンテンツ、編集スタイル、アーティファクトを特徴とするショートフォームビデオは、学習ベースのブラインドビデオ品質評価モデルに挑戦する。
本稿では,事前学習したマルチモーダル大言語モデルを短時間のビデオ品質評価に有効活用することに焦点を当てる。
本稿では,MLLMと最先端BVQAモデルからの予測を適応的に統合する,軽量な学習ベースアンサンブル手法を提案する。
論文 参考訳(メタデータ) (2024-12-24T00:13:10Z) - Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage [50.84150600032693]
MLLM(Multimodal large language model)は、非常に詳細なキャプションを生成するのに優れるが、幻覚を引き起こすことが多い。
我々は,LLM-MLLM協調を利用して与えられたキャプションを補正するマルチエージェント手法を提案する。
提案手法は, キャプションの精度を向上し, GPT-4Vによるキャプションの精度を向上する。
論文 参考訳(メタデータ) (2024-12-20T01:37:22Z) - CLIPVQA:Video Quality Assessment via CLIP [56.94085651315878]
VQA問題(CLIPVQA)に対する効率的なCLIPベースのトランスフォーマー手法を提案する。
提案したCLIPVQAは、新しい最先端のVQAパフォーマンスを実現し、既存のベンチマークVQAメソッドよりも最大で37%の汎用性を実現している。
論文 参考訳(メタデータ) (2024-07-06T02:32:28Z) - Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward [118.65089648651308]
本稿では,映像コンテンツのプロキシとして詳細な動画キャプションを利用する新しいフレームワークを提案する。
本稿では,DPOによる報酬の調整により,ビデオ質問応答(QA)タスクにおけるビデオLMMの性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-04-01T17:28:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。