論文の概要: Grounding-Prompter: Prompting LLM with Multimodal Information for
Temporal Sentence Grounding in Long Videos
- arxiv url: http://arxiv.org/abs/2312.17117v1
- Date: Thu, 28 Dec 2023 16:54:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 15:37:05.759120
- Title: Grounding-Prompter: Prompting LLM with Multimodal Information for
Temporal Sentence Grounding in Long Videos
- Title(参考訳): グラウンドング・プロンプター:長編ビデオにおける時間文グラウンドングのためのマルチモーダル情報付きllmの促進
- Authors: Houlun Chen, Xin Wang, Hong Chen, Zihan Song, Jia Jia, Wenwu Zhu
- Abstract要約: テンポラル・センテンス・グラウンドディング(TSG)は、与えられた自然言語クエリに基づいてビデオからモーメントをローカライズすることを目的としている。
既存の作品は、主にショートビデオ用に設計されており、長いビデオではTSGを処理できない。
LLMにマルチモーダル情報を持たせることで、長いビデオでTSGを実行できるグラウンディング・プロンプター法を提案する。
- 参考スコア(独自算出の注目度): 42.32528440002539
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal Sentence Grounding (TSG), which aims to localize moments from videos
based on the given natural language queries, has attracted widespread
attention. Existing works are mainly designed for short videos, failing to
handle TSG in long videos, which poses two challenges: i) complicated contexts
in long videos require temporal reasoning over longer moment sequences, and ii)
multiple modalities including textual speech with rich information require
special designs for content understanding in long videos. To tackle these
challenges, in this work we propose a Grounding-Prompter method, which is
capable of conducting TSG in long videos through prompting LLM with multimodal
information. In detail, we first transform the TSG task and its multimodal
inputs including speech and visual, into compressed task textualization.
Furthermore, to enhance temporal reasoning under complicated contexts, a
Boundary-Perceptive Prompting strategy is proposed, which contains three folds:
i) we design a novel Multiscale Denoising Chain-of-Thought (CoT) to combine
global and local semantics with noise filtering step by step, ii) we set up
validity principles capable of constraining LLM to generate reasonable
predictions following specific formats, and iii) we introduce one-shot
In-Context-Learning (ICL) to boost reasoning through imitation, enhancing LLM
in TSG task understanding. Experiments demonstrate the state-of-the-art
performance of our Grounding-Prompter method, revealing the benefits of
prompting LLM with multimodal information for TSG in long videos.
- Abstract(参考訳): 与えられた自然言語クエリに基づいてビデオからモーメントをローカライズすることを目的とした時間文グラウンディング(TSG)が注目を集めている。
既存の作品は主にショートビデオ用に設計されており、長いビデオではtsgの処理に失敗した。
一 長いビデオにおける複雑な文脈は、長いモーメントシーケンスよりも時間的推論を必要とする。
二 豊富な情報を有する文言を含む複数のモダリティは、長編ビデオにおけるコンテンツ理解のための特別な設計を必要とする。
これらの課題に対処するため,本研究では,マルチモーダル情報によるLLMのプロンプトにより,長いビデオでTSGを実行できるグラウンディング・プロンプター手法を提案する。
具体的には、まず、tsgタスクとその音声や視覚を含むマルチモーダル入力を圧縮タスクのテキスト化に変換する。
さらに,複雑な文脈下での時間的推論を強化するために,3つの折りたたみを含む境界知覚的促進戦略を提案する。
i) グローバル・ローカル・セマンティクスとノイズフィルタリングを段階的に組み合わせた,CoT(Multiscale Denoising Chain-of-Thought)を設計する。
二 特定の形式に従う合理的な予測を生成するためにLLMを制約できる妥当性原則を設定し、
三 単発インコンテキスト学習(ICL)を導入し、模倣による推論を強化し、TSGタスク理解におけるLLMを強化する。
実験では,tsgにマルチモーダル情報を含むllmを促すことの利点を明らかにするとともに,グラウンディング・プロンプター法の最先端性能を実証した。
関連論文リスト
- TimeSuite: Improving MLLMs for Long Video Understanding via Grounded Tuning [42.928144657587325]
本稿では,従来のショートフォームビデオMLLMを長大なビデオ理解に適用するための新デザインであるTimeSuiteを提案する。
TimeSuiteは、ショートフォームMLLMの長いビデオ理解能力を向上するための、成功したソリューションを提供する。
さらに,9つのタスクと349kの高品質な接地アノテーションからなる総合的な接地中心の命令データセットであるTimeProを紹介する。
論文 参考訳(メタデータ) (2024-10-25T17:19:55Z) - Grounded-VideoLLM: Sharpening Fine-grained Temporal Grounding in Video Large Language Models [53.235170710385006]
我々は,特定の映像モーメントをきめ細かな方法で知覚・推論できる新しいビデオLLMであるGrounded-VideoLLMを紹介した。
我々は,(1)フレーム間の関係を符号化する追加の時間的ストリームと(2)特定の時間的知識に富んだ離散的な時間的トークンを組み込むことで,モデルを洗練する。
実験では, 時間文の接地, ビデオキャプションの密接化, ビデオQAの接地といった, きめ細かい接地作業に優れていた。
論文 参考訳(メタデータ) (2024-10-04T10:04:37Z) - ChatVTG: Video Temporal Grounding via Chat with Video Dialogue Large Language Models [53.9661582975843]
Video Temporal Groundingは、特定のセグメントを、与えられた自然言語クエリに対応する未トリミングビデオ内でグラウンドすることを目的としている。
既存のVTG手法は、主に教師付き学習と広範囲な注釈付きデータに依存しており、それは労働集約的であり、人間の偏見に起因している。
本稿では,ビデオ対話大言語モデル(LLM)をゼロショットビデオ時間グラウンドに利用する新しい手法ChatVTGを提案する。
論文 参考訳(メタデータ) (2024-10-01T08:27:56Z) - Learning to Localize Actions in Instructional Videos with LLM-Based Multi-Pathway Text-Video Alignment [53.12952107996463]
本研究は,訓練ビデオにおけるプロシージャステップの時間的境界をローカライズするための新しいトレーニングフレームワークを提案する。
手続き理解とテキスト要約におけるLLM(Large Language Models)の強みに感銘を受けて,まずLLMを適用し,課題関連情報を抽出し,課題関連手順をナレーションから要約する。
LLMステップとトレーニング用ビデオとの信頼性の高い擬似マッチングを生成するために,MPTVA(Multi-Pathway Text-Video Alignment)戦略を提案する。
論文 参考訳(メタデータ) (2024-09-22T18:40:55Z) - The Surprising Effectiveness of Multimodal Large Language Models for Video Moment Retrieval [36.516226519328015]
ビデオ言語タスクは空間的・時間的理解を必要とし、かなりの計算を必要とする。
本研究は,画像テキスト事前学習MLLMをモーメント検索に活用することの驚くべき有効性を示す。
我々は、Charades-STA、QVHighlights、ActivityNet Captionsといった広く使われているベンチマーク上で、新しい最先端のモーメント検索を実現する。
論文 参考訳(メタデータ) (2024-06-26T06:59:09Z) - MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。
既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。
この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。
本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文 参考訳(メタデータ) (2024-06-25T18:39:43Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - LLMs Meet Long Video: Advancing Long Video Question Answering with An Interactive Visual Adapter in LLMs [22.696090318037925]
長いビデオ理解は、マルチメディアと人工知能の交差において、重要かつ進行中の課題である。
大型言語モデル(LLM)における対話型ビジュアルアダプタ(IVA)を提案する。
論文 参考訳(メタデータ) (2024-02-21T05:56:52Z) - VTimeLLM: Empower LLM to Grasp Video Moments [43.51980030572101]
大規模言語モデル(LLM)は、顕著なテキスト理解能力を示している。
ビデオLLMはビデオ全体の粗い記述しか提供できない。
微細な映像モーメント理解のためのビデオLLMであるVTimeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-30T10:49:56Z) - VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文 参考訳(メタデータ) (2023-10-16T17:05:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。