論文の概要: Zero-shot Video Moment Retrieval via Off-the-shelf Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2501.07972v1
- Date: Tue, 14 Jan 2025 09:45:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:28:30.507576
- Title: Zero-shot Video Moment Retrieval via Off-the-shelf Multimodal Large Language Models
- Title(参考訳): オフザシェルフ多モード大言語モデルによるゼロショット動画モーメント検索
- Authors: Yifang Xu, Yunzhuo Sun, Benxiang Zhai, Ming Li, Wenxin Liang, Yang Li, Sidan Du,
- Abstract要約: 本稿では,凍結MLLMを用いたゼロショットVMRのためのチューニング不要パイプラインであるMoment-GPTを提案する。
我々はまずLLaMA-3を用いて言語バイアスを軽減するためにクエリの修正と表現を行い、その後MiniGPT-v2と組み合わせたスパンジェネレータを設計し、候補スパンを適応的に生成する。
提案手法は,複数の公開データセット上で,最先端のMLLMベースおよびゼロショットモデルよりも大幅に優れている。
- 参考スコア(独自算出の注目度): 7.213221003652941
- License:
- Abstract: The target of video moment retrieval (VMR) is predicting temporal spans within a video that semantically match a given linguistic query. Existing VMR methods based on multimodal large language models (MLLMs) overly rely on expensive high-quality datasets and time-consuming fine-tuning. Although some recent studies introduce a zero-shot setting to avoid fine-tuning, they overlook inherent language bias in the query, leading to erroneous localization. To tackle the aforementioned challenges, this paper proposes Moment-GPT, a tuning-free pipeline for zero-shot VMR utilizing frozen MLLMs. Specifically, we first employ LLaMA-3 to correct and rephrase the query to mitigate language bias. Subsequently, we design a span generator combined with MiniGPT-v2 to produce candidate spans adaptively. Finally, to leverage the video comprehension capabilities of MLLMs, we apply VideoChatGPT and span scorer to select the most appropriate spans. Our proposed method substantially outperforms the state-ofthe-art MLLM-based and zero-shot models on several public datasets, including QVHighlights, ActivityNet-Captions, and Charades-STA.
- Abstract(参考訳): ビデオモーメント検索(VMR)のターゲットは、与えられた言語クエリに意味的に一致するビデオ内の時間的スパンを予測することである。
既存のVMRメソッドは、マルチモーダルな大規模言語モデル(MLLM)に基づいており、高価な高品質のデータセットと時間を要する微調整に依存している。
最近の研究では、微調整を避けるためにゼロショット設定を導入しているが、クエリに固有の言語バイアスを見落とし、誤ったローカライゼーションにつながっている。
本稿では,凍結MLLMを用いたゼロショットVMRのためのチューニング不要パイプラインであるMoment-GPTを提案する。
具体的には、まずLLaMA-3を用いて、クエリの修正とリフレクションを行い、言語バイアスを軽減する。
その後,MiniGPT-v2と組み合わせたスパンジェネレータを設計し,候補スパンを適応的に生成する。
最後に,MLLMの映像理解機能を活用するために,ビデオChatGPTとスパンスコアを応用し,最適なスパンを選択する。
提案手法は,QVHighlights, ActivityNet-Captions, Charades-STAなど,最先端のMLLMベースおよびゼロショットモデルよりも大幅に優れている。
関連論文リスト
- LLaVA-MR: Large Language-and-Vision Assistant for Video Moment Retrieval [14.136397687227111]
モーメント検索のためのLarge Language-and-Vision Assistant(LLaVA-MR)を提案する。
LLaVA-MRはマルチモーダル大言語モデル(MLLM)を用いたビデオにおける正確なモーメント検索と文脈グラウンド化を可能にする
Charades-STAやQVHighlightsのようなベンチマークによる評価は、LLaVA-MRが11の最先端メソッドより優れていることを示している。
論文 参考訳(メタデータ) (2024-11-21T09:34:23Z) - Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - TimeSuite: Improving MLLMs for Long Video Understanding via Grounded Tuning [42.928144657587325]
本稿では,従来のショートフォームビデオMLLMを長大なビデオ理解に適用するための新デザインであるTimeSuiteを提案する。
TimeSuiteは、ショートフォームMLLMの長いビデオ理解能力を向上するための、成功したソリューションを提供する。
さらに,9つのタスクと349kの高品質な接地アノテーションからなる総合的な接地中心の命令データセットであるTimeProを紹介する。
論文 参考訳(メタデータ) (2024-10-25T17:19:55Z) - News Reporter: A Multi-lingual LLM Framework for Broadcast T.V News [3.4502293745974906]
大規模言語モデル(LLM)は、さまざまなクエリに対して一貫性のある回答を提供する能力のため、多くの会話チャットボットにとって、急速に重要なツールになっている。
我々は、米国中の様々なニュースチャンネルからニュース録音から抽出された大量のQAペアを収集し、共有する。
我々は,回答の文脈化を改善するためのRAG手法を提案し,それを検証可能なニュース記録に向ける。
論文 参考訳(メタデータ) (2024-10-10T01:21:48Z) - The Surprising Effectiveness of Multimodal Large Language Models for Video Moment Retrieval [36.516226519328015]
ビデオ言語タスクは空間的・時間的理解を必要とし、かなりの計算を必要とする。
本研究は,画像テキスト事前学習MLLMをモーメント検索に活用することの驚くべき有効性を示す。
我々は、Charades-STA、QVHighlights、ActivityNet Captionsといった広く使われているベンチマーク上で、新しい最先端のモーメント検索を実現する。
論文 参考訳(メタデータ) (2024-06-26T06:59:09Z) - MMDU: A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs [88.28014831467503]
本稿では,包括的なベンチマークであるMMDUと,大規模命令チューニングデータセットであるMMDU-45kを紹介する。
MMDUは最大18k画像+テキストトークン、20イメージ、27ターンを備えており、これは以前のベンチマークの少なくとも5倍長くなる。
MMDU-45k上のフネ調整型オープンソースLVLMは、このギャップに適応し、より長く正確な会話を生成することを実証する。
論文 参考訳(メタデータ) (2024-06-17T17:59:47Z) - Context-Enhanced Video Moment Retrieval with Large Language Models [22.283367604425916]
ビデオモーメント検索(VMR)の現在の手法は、特定の環境詳細、キャラクター記述、アクション物語を含む複雑な状況の整合に苦慮している。
本稿では,LMR(Large Language Model-Guided Moment Retrieval)アプローチを提案する。
大規模な実験により、LMRは最先端の結果を達成し、挑戦的なQVHighlightsとCharades-STAベンチマークにおいて、最も近い競合相手を3.28%、そして4.06%で上回った。
論文 参考訳(メタデータ) (2024-05-21T07:12:27Z) - Found in the Middle: How Language Models Use Long Contexts Better via
Plug-and-Play Positional Encoding [78.36702055076456]
本稿では,マルチスケール位置決めについて紹介する。
(Ms-PoE)は、シンプルで効果的なプラグアンドプレイ方式で、キャパシティを向上させる。
LLMはコンテキストの中央に位置する関連情報を扱う。
論文 参考訳(メタデータ) (2024-03-05T04:58:37Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - Retrieving-to-Answer: Zero-Shot Video Question Answering with Frozen
Large Language Models [69.59125732317972]
本稿では,ビデオQAのためのシンプルで効果的な検索・回答(R2A)フレームワークを提案する。
R2Aは、まず、事前訓練されたマルチモーダルモデルを用いて、ジェネリックテキストコーパスから意味論的に類似したテキストの集合を検索する。
質問と検索されたテキストの両方で、LSMを直接使用して、望ましい回答を得ることができる。
論文 参考訳(メタデータ) (2023-06-15T20:56:20Z) - Zero-Shot Video Question Answering via Frozen Bidirectional Language
Models [89.71617065426146]
ビデオ質問応答(Video QA)は、訓練に多様なマルチモーダルデータを必要とする複雑なタスクである。
近年の手法では,手動による視覚的質問応答を伴わないゼロショット設定が検討されている。
我々は,凍結自己回帰言語モデル (BiLM) 上に構築し,この手法がゼロショットビデオQAに対してより強力で安価な代替手段を提供することを示す。
論文 参考訳(メタデータ) (2022-06-16T13:18:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。