論文の概要: MM-VID: Advancing Video Understanding with GPT-4V(ision)
- arxiv url: http://arxiv.org/abs/2310.19773v1
- Date: Mon, 30 Oct 2023 17:44:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 18:54:36.703597
- Title: MM-VID: Advancing Video Understanding with GPT-4V(ision)
- Title(参考訳): MM-VID:GPT-4V(ision)による映像理解の促進
- Authors: Kevin Lin, Faisal Ahmed, Linjie Li, Chung-Ching Lin, Ehsan Azarnasab,
Zhengyuan Yang, Jianfeng Wang, Lin Liang, Zicheng Liu, Yumao Lu, Ce Liu,
Lijuan Wang
- Abstract要約: 我々は、GPT-4Vの能力を利用して高度な映像理解を促進する統合システムMM-VIDを提案する。
MM-VIDは、長いビデオや1時間以内のコンテンツの推論のような複雑なタスクによって生じる課題に対処するために設計されている。
ビデオゲームやグラフィックユーザインタフェースといったインタラクティブな環境に適用する際の可能性を示す。
- 参考スコア(独自算出の注目度): 113.55202632529094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present MM-VID, an integrated system that harnesses the capabilities of
GPT-4V, combined with specialized tools in vision, audio, and speech, to
facilitate advanced video understanding. MM-VID is designed to address the
challenges posed by long-form videos and intricate tasks such as reasoning
within hour-long content and grasping storylines spanning multiple episodes.
MM-VID uses a video-to-script generation with GPT-4V to transcribe multimodal
elements into a long textual script. The generated script details character
movements, actions, expressions, and dialogues, paving the way for large
language models (LLMs) to achieve video understanding. This enables advanced
capabilities, including audio description, character identification, and
multimodal high-level comprehension. Experimental results demonstrate the
effectiveness of MM-VID in handling distinct video genres with various video
lengths. Additionally, we showcase its potential when applied to interactive
environments, such as video games and graphic user interfaces.
- Abstract(参考訳): 本稿では、GPT-4Vの能力を利用する統合システムMM-VIDと、視覚、音声、音声の特殊なツールを組み合わせて、高度な映像理解を促進する。
MM-VIDは、長いビデオや、1時間以内のコンテンツの推論や複数のエピソードにまたがるストーリーラインの把握といった複雑なタスクによって引き起こされる課題に対処するように設計されている。
mm-vidはgpt-4vでビデオからスクリプトまで生成し、マルチモーダル要素を長いテキストスクリプトに書き込む。
生成されたスクリプトは、文字の動き、アクション、表現、対話を詳述し、ビデオ理解を実現するための大きな言語モデル(LLM)の道を開く。
これにより、音声記述、文字識別、マルチモーダルハイレベル理解などの高度な機能を実現する。
実験により,様々なビデオ長の異なる動画ジャンルに対するMM-VIDの有効性が示された。
また,ゲームやグラフィックユーザインタフェースなど,インタラクティブな環境にも適用可能な可能性を示した。
関連論文リスト
- LLMs Meet Long Video: Advancing Long Video Comprehension with An
Interactive Visual Adapter in LLMs [24.79384819644494]
長いビデオ理解は、マルチメディアと人工知能の交差において、重要かつ進行中の課題である。
大型言語モデル(LLM)における対話型ビジュアルアダプタ(IVA)を提案する。
論文 参考訳(メタデータ) (2024-02-21T05:56:52Z) - Audio-Visual LLM for Video Understanding [25.963166809113005]
本稿では,視覚的および聴覚的入力を総合的ビデオ理解に用いたマルチモーダル大言語モデルであるAudio-Visual LLMを提案する。
GPT-4から派生した高品質のビデオ命令データセットを提案する。
実験により、オーディオ・ビジュアルのLLMは、様々なビデオ理解タスクで強いゼロショット結果が得られることが実証された。
論文 参考訳(メタデータ) (2023-12-11T02:50:46Z) - VTimeLLM: Empower LLM to Grasp Video Moments [43.51980030572101]
大規模言語モデル(LLM)は、顕著なテキスト理解能力を示している。
ビデオLLMはビデオ全体の粗い記述しか提供できない。
微細な映像モーメント理解のためのビデオLLMであるVTimeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-30T10:49:56Z) - GPT4Video: A Unified Multimodal Large Language Model for
lnstruction-Followed Understanding and Safety-Aware Generation [103.56612788682973]
GPT4Videoは、ビデオ理解と生成の両方の能力で大規模言語モデルを強化する統一されたマルチモデルフレームワークである。
具体的には、安定拡散生成モデルと統合された命令追従型アプローチを開発し、映像生成シナリオを効果的かつ安全に扱うことを実証した。
論文 参考訳(メタデータ) (2023-11-25T04:05:59Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video
Understanding [61.80870130860662]
Video-LLaMAは、ビデオ内の視覚的および聴覚的コンテンツの両方を理解する能力を備えた、大規模言語モデル(LLM)を強化するフレームワークである。
Video-LLaMAブートストラップは、凍結された事前訓練されたビジュアルおよびオーディオエンコーダと凍結されたLCMからのクロスモーダルトレーニングである。
Video-LLaMAは,映像コンテンツを知覚し,理解し,意味のある応答を生成する能力を示す。
論文 参考訳(メタデータ) (2023-06-05T13:17:27Z) - VideoLLM: Modeling Video Sequence with Large Language Models [70.32832021713864]
既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。
我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。
VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
論文 参考訳(メタデータ) (2023-05-22T17:51:22Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。