論文の概要: MM-Narrator: Narrating Long-form Videos with Multimodal In-Context
Learning
- arxiv url: http://arxiv.org/abs/2311.17435v1
- Date: Wed, 29 Nov 2023 08:27:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 22:20:40.410297
- Title: MM-Narrator: Narrating Long-form Videos with Multimodal In-Context
Learning
- Title(参考訳): MM-Narrator:マルチモーダル・インコンテキスト学習による長編動画のナレーション
- Authors: Chaoyi Zhang, Kevin Lin, Zhengyuan Yang, Jianfeng Wang, Linjie Li,
Chung-Ching Lin, Zicheng Liu, Lijuan Wang
- Abstract要約: GPT-4を利用した音声記述生成のためのマルチモーダルインコンテキスト学習システムMM-Narratorを提案する。
MM-Narratorは、時間を超えても、何時間も経過したビデオの正確な音声記述を自動回帰的に生成することに長けている。
逐次テキスト生成のための最初のセグメントベース評価器を提案する。
- 参考スコア(独自算出の注目度): 120.95150400119705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present MM-Narrator, a novel system leveraging GPT-4 with multimodal
in-context learning for the generation of audio descriptions (AD). Unlike
previous methods that primarily focused on downstream fine-tuning with short
video clips, MM-Narrator excels in generating precise audio descriptions for
videos of extensive lengths, even beyond hours, in an autoregressive manner.
This capability is made possible by the proposed memory-augmented generation
process, which effectively utilizes both the short-term textual context and
long-term visual memory through an efficient register-and-recall mechanism.
These contextual memories compile pertinent past information, including
storylines and character identities, ensuring an accurate tracking and
depicting of story-coherent and character-centric audio descriptions.
Maintaining the training-free design of MM-Narrator, we further propose a
complexity-based demonstration selection strategy to largely enhance its
multi-step reasoning capability via few-shot multimodal in-context learning
(MM-ICL). Experimental results on MAD-eval dataset demonstrate that MM-Narrator
consistently outperforms both the existing fine-tuning-based approaches and
LLM-based approaches in most scenarios, as measured by standard evaluation
metrics. Additionally, we introduce the first segment-based evaluator for
recurrent text generation. Empowered by GPT-4, this evaluator comprehensively
reasons and marks AD generation performance in various extendable dimensions.
- Abstract(参考訳): 音声記述(AD)生成のためのマルチモーダルインコンテキスト学習によるGPT-4を利用した新しいシステムMM-Narratorを提案する。
短いビデオクリップで下流の微調整に主に焦点を合わせる従来の方法とは異なり、MM-Narratorは、時間を超えても、何時間もかかるビデオの正確な音声記述を自動回帰的に生成することに長けている。
この機能は、効率的なレジスタ・アンド・リコール機構を通じて、短期のテキストコンテキストと長期の視覚記憶の両方を効果的に活用するメモリ拡張生成プロセスによって実現される。
これらの文脈記憶は、ストーリーラインやキャラクタのアイデンティティを含む関連する過去の情報をコンパイルし、ストーリーコヒーレントでキャラクタ中心のオーディオ記述の正確な追跡と描写を保証する。
mm-narratorのトレーニングフリーな設計を維持しつつ,その多段階推論能力を大きく向上させるための,複雑度に基づく実演選択戦略を提案する。
MAD-evalデータセットによる実験結果から,MM-Narrator は既存の微調整アプローチと LLM ベースのアプローチの両方を標準評価指標で測定した場合,常に性能が向上することが示された。
さらに,逐次テキスト生成のためのセグメントベース評価器についても紹介する。
GPT-4を応用したこの評価器は、様々な拡張可能な次元でAD生成性能を示す。
関連論文リスト
- Bridging Vision and Language: Modeling Causality and Temporality in Video Narratives [0.0]
本稿では,Causal-Temporal Reasoning Moduleを最先端のLVLMに統合する拡張フレームワークを提案する。
CTRMはCausal Dynamics(CDE)とTemporal Learner(TRL)の2つの重要なコンポーネントから構成される。
大規模ビデオテキストデータセットの事前学習を併用して,モデル最適化のための多段階学習戦略を設計する。
論文 参考訳(メタデータ) (2024-12-14T07:28:38Z) - SILMM: Self-Improving Large Multimodal Models for Compositional Text-to-Image Generation [92.73405185996315]
大規模マルチモーダルモデル(LMM)は、マルチモーダル理解と生成において印象的な能力を示した。
マルチステップ生成のためのレイアウト計画や、人間のフィードバックやAIフィードバックからの学習など、既存のアプローチは、迅速なエンジニアリングに大きく依存している。
モデルに依存しない反復型自己フィードバックフレームワーク(SILMM)を導入し,LMMが有用でスケーラブルな自己改善を実現し,テキスト画像のアライメントを最適化する。
論文 参考訳(メタデータ) (2024-12-08T05:28:08Z) - Efficient Transfer Learning for Video-language Foundation Models [13.166348605993292]
テキストと視覚分岐における表現のアライメントを改善するため,MSTA(Multi-modal Spatio-supervised)を提案する。
提案手法の有効性は,ゼロショット転送,少数ショット学習,ベース・ツー・ヴァリアント,完全言語学習の4つの課題にまたがる。
論文 参考訳(メタデータ) (2024-11-18T01:25:58Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback [38.708690624594794]
ビデオとテキストのマルチモーダルアライメントは、主にマルチモーダル命令・チューンデータのボリュームと品質が不足しているため、依然として困難である。
本稿では,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる,マルチモーダルAIシステムを用いた新たなアライメント戦略を提案する。
具体的には、嗜好フィードバックの生成中に、詳細な映像記述を文脈として提供することによって、文脈対応報酬モデルを提案する。
論文 参考訳(メタデータ) (2024-02-06T06:27:40Z) - Incorporating Visual Experts to Resolve the Information Loss in
Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。
本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T02:02:34Z) - MMICT: Boosting Multi-Modal Fine-Tuning with In-Context Examples [63.78384552789171]
本稿では,新しいマルチモーダル微調整パラダイムであるMMICTを紹介する。
M-Hub(Multi-Modal Hub)は,異なる入力や目的に応じて様々なマルチモーダル特徴をキャプチャするモジュールである。
M-Hubに基づいてMMICTは、MM-LLMがコンテキスト内視覚誘導されたテキスト特徴から学習し、その後、テキスト誘導された視覚特徴に基づいて条件付き出力を生成する。
論文 参考訳(メタデータ) (2023-12-11T13:11:04Z) - See, Hear, Read: Leveraging Multimodality with Guided Attention for
Abstractive Text Summarization [14.881597737762316]
我々は,NDSS,ICML,NeurIPSなどの著名な学術カンファレンスのプレゼンテーションから収集した,様々な期間のビデオを用いた抽象テキスト要約のための最初の大規模データセットを紹介する。
次に,多モード変換器をベースとしたデコーダのみの言語モデルであるnameを提案し,テキスト要約タスクの様々な入力モードにおけるモーダル内およびモーダル間ダイナミクスを本質的にキャプチャする。
論文 参考訳(メタデータ) (2021-05-20T08:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。