論文の概要: Momentor: Advancing Video Large Language Model with Fine-Grained
Temporal Reasoning
- arxiv url: http://arxiv.org/abs/2402.11435v1
- Date: Sun, 18 Feb 2024 03:04:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 21:26:30.166311
- Title: Momentor: Advancing Video Large Language Model with Fine-Grained
Temporal Reasoning
- Title(参考訳): Momentor: 微粒な時間推論によるビデオ大言語モデルの改善
- Authors: Long Qian, Juncheng Li, Yu Wu, Yaobo Ye, Hao Fei, Tat-Seng Chua,
Yueting Zhuang, Siliang Tang
- Abstract要約: 本稿では,微細な時間的理解作業を実現するためのビデオLLMであるMomentorを提案する。
Moment-10MでMomentorをトレーニングし、セグメントレベルの推論とローカライゼーションを可能にします。
- 参考スコア(独自算出の注目度): 106.96340369164349
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) demonstrate remarkable proficiency in
comprehending and handling text-based tasks. Many efforts are being made to
transfer these attributes to video modality, which are termed Video-LLMs.
However, existing Video-LLMs can only capture the coarse-grained semantics and
are unable to effectively handle tasks related to comprehension or localization
of specific video segments. In light of these challenges, we propose Momentor,
a Video-LLM capable of accomplishing fine-grained temporal understanding tasks.
To support the training of Momentor, we design an automatic data generation
engine to construct Moment-10M, a large-scale video instruction dataset with
segment-level instruction data. We train Momentor on Moment-10M, enabling it to
perform segment-level reasoning and localization. Zero-shot evaluations on
several tasks demonstrate that Momentor excels in fine-grained temporally
grounded comprehension and localization.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テキストベースのタスクの理解と処理において顕著な熟練度を示す。
これらの属性をビデオLLMと呼ばれるビデオモダリティに転送するために、多くの努力がなされている。
しかし、既存のVideo-LLMは粗いセマンティクスのみをキャプチャすることができ、特定のビデオセグメントの理解やローカライゼーションに関連するタスクを効果的に処理できない。
これらの課題を踏まえ、細かな時間的理解タスクを実現できるビデオLLMであるMomentorを提案する。
Momentorのトレーニングを支援するために,セグメントレベルの命令データを持つ大規模ビデオ命令データセットであるMoment-10Mを構築するための自動データ生成エンジンを設計する。
moment-10mでmomentorをトレーニングし,セグメントレベルの推論とローカライズを可能にした。
いくつかのタスクにおけるゼロショット評価は、モーメントアが微粒な時間的基底の理解と局所化において優れていることを示す。
関連論文リスト
- Grounded-VideoLLM: Sharpening Fine-grained Temporal Grounding in Video Large Language Models [53.235170710385006]
我々は,特定の映像モーメントをきめ細かな方法で知覚・推論できる新しいビデオLLMであるGrounded-VideoLLMを紹介した。
我々は,(1)フレーム間の関係を符号化する追加の時間的ストリームと(2)特定の時間的知識に富んだ離散的な時間的トークンを組み込むことで,モデルを洗練する。
実験では, 時間文の接地, ビデオキャプションの密接化, ビデオQAの接地といった, きめ細かい接地作業に優れていた。
論文 参考訳(メタデータ) (2024-10-04T10:04:37Z) - One Token to Seg Them All: Language Instructed Reasoning Segmentation in Videos [41.34787907803329]
VideoLISAは、ビデオ内の言語命令による推論セグメンテーションの問題に対処するために設計された、ビデオベースのマルチモーダルな大規模言語モデルである。
VideoLISAは、言語命令に基づいてビデオ内に時間的に一貫したセグメンテーションマスクを生成する。
論文 参考訳(メタデータ) (2024-09-29T07:47:15Z) - ViLLa: Video Reasoning Segmentation with Large Language Model [48.75470418596875]
そこで我々は,新しいビデオセグメンテーションタスクであるビデオ推論セグメンテーションを提案する。
このタスクは、複雑な入力テキストクエリが与えられたセグメンテーションマスクのトラックレットを出力するように設計されている。
ViLLa: 大規模言語モデルを用いたビデオ推論セグメンテーションを提案する。
論文 参考訳(メタデータ) (2024-07-18T17:59:17Z) - VISA: Reasoning Video Object Segmentation via Large Language Models [64.33167989521357]
我々は新しいタスク、Reasoning Video Object(ReasonVOS)を導入する。
このタスクは、複雑な推論能力を必要とする暗黙のテキストクエリに応答して、セグメンテーションマスクのシーケンスを生成することを目的としている。
本稿では、ReasonVOSに取り組むためにVISA(ビデオベース大規模言語命令付きアシスタント)を導入する。
論文 参考訳(メタデータ) (2024-07-16T02:29:29Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - VTimeLLM: Empower LLM to Grasp Video Moments [43.51980030572101]
大規模言語モデル(LLM)は、顕著なテキスト理解能力を示している。
ビデオLLMはビデオ全体の粗い記述しか提供できない。
微細な映像モーメント理解のためのビデオLLMであるVTimeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-30T10:49:56Z) - VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文 参考訳(メタデータ) (2023-10-16T17:05:56Z) - Look, Remember and Reason: Grounded reasoning in videos with language
models [5.3445140425713245]
マルチテンポラル言語モデル(LM)は、最近ビデオ上の高レベル推論タスクにおいて有望な性能を示した。
オブジェクト検出,再識別,追跡など,低レベルなサロゲートタスクに対するLMエンドツーエンドのトレーニングを提案し,低レベルな視覚能力を備えたモデルを実現する。
我々は、ACRE、CATER、Some-Else、STARデータセットからの多様な視覚的推論タスクにおけるフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-06-30T16:31:14Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。