論文の概要: Grounding-Prompter: Prompting LLM with Multimodal Information for
Temporal Sentence Grounding in Long Videos
- arxiv url: http://arxiv.org/abs/2312.17117v1
- Date: Thu, 28 Dec 2023 16:54:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 15:37:05.759120
- Title: Grounding-Prompter: Prompting LLM with Multimodal Information for
Temporal Sentence Grounding in Long Videos
- Title(参考訳): グラウンドング・プロンプター:長編ビデオにおける時間文グラウンドングのためのマルチモーダル情報付きllmの促進
- Authors: Houlun Chen, Xin Wang, Hong Chen, Zihan Song, Jia Jia, Wenwu Zhu
- Abstract要約: テンポラル・センテンス・グラウンドディング(TSG)は、与えられた自然言語クエリに基づいてビデオからモーメントをローカライズすることを目的としている。
既存の作品は、主にショートビデオ用に設計されており、長いビデオではTSGを処理できない。
LLMにマルチモーダル情報を持たせることで、長いビデオでTSGを実行できるグラウンディング・プロンプター法を提案する。
- 参考スコア(独自算出の注目度): 42.32528440002539
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal Sentence Grounding (TSG), which aims to localize moments from videos
based on the given natural language queries, has attracted widespread
attention. Existing works are mainly designed for short videos, failing to
handle TSG in long videos, which poses two challenges: i) complicated contexts
in long videos require temporal reasoning over longer moment sequences, and ii)
multiple modalities including textual speech with rich information require
special designs for content understanding in long videos. To tackle these
challenges, in this work we propose a Grounding-Prompter method, which is
capable of conducting TSG in long videos through prompting LLM with multimodal
information. In detail, we first transform the TSG task and its multimodal
inputs including speech and visual, into compressed task textualization.
Furthermore, to enhance temporal reasoning under complicated contexts, a
Boundary-Perceptive Prompting strategy is proposed, which contains three folds:
i) we design a novel Multiscale Denoising Chain-of-Thought (CoT) to combine
global and local semantics with noise filtering step by step, ii) we set up
validity principles capable of constraining LLM to generate reasonable
predictions following specific formats, and iii) we introduce one-shot
In-Context-Learning (ICL) to boost reasoning through imitation, enhancing LLM
in TSG task understanding. Experiments demonstrate the state-of-the-art
performance of our Grounding-Prompter method, revealing the benefits of
prompting LLM with multimodal information for TSG in long videos.
- Abstract(参考訳): 与えられた自然言語クエリに基づいてビデオからモーメントをローカライズすることを目的とした時間文グラウンディング(TSG)が注目を集めている。
既存の作品は主にショートビデオ用に設計されており、長いビデオではtsgの処理に失敗した。
一 長いビデオにおける複雑な文脈は、長いモーメントシーケンスよりも時間的推論を必要とする。
二 豊富な情報を有する文言を含む複数のモダリティは、長編ビデオにおけるコンテンツ理解のための特別な設計を必要とする。
これらの課題に対処するため,本研究では,マルチモーダル情報によるLLMのプロンプトにより,長いビデオでTSGを実行できるグラウンディング・プロンプター手法を提案する。
具体的には、まず、tsgタスクとその音声や視覚を含むマルチモーダル入力を圧縮タスクのテキスト化に変換する。
さらに,複雑な文脈下での時間的推論を強化するために,3つの折りたたみを含む境界知覚的促進戦略を提案する。
i) グローバル・ローカル・セマンティクスとノイズフィルタリングを段階的に組み合わせた,CoT(Multiscale Denoising Chain-of-Thought)を設計する。
二 特定の形式に従う合理的な予測を生成するためにLLMを制約できる妥当性原則を設定し、
三 単発インコンテキスト学習(ICL)を導入し、模倣による推論を強化し、TSGタスク理解におけるLLMを強化する。
実験では,tsgにマルチモーダル情報を含むllmを促すことの利点を明らかにするとともに,グラウンディング・プロンプター法の最先端性能を実証した。
関連論文リスト
- ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - LSTP: Language-guided Spatial-Temporal Prompt Learning for Long-form
Video-Text Understanding [48.83009641950664]
言語誘導型空間確率学習(LSTP)という新しい手法を導入する。
このアプローチでは、時間的情報を利用して関連ビデオコンテンツを効率的に抽出する光フローを予め備えた時間的プロンプトサンプリング(TPS)と、視覚的要素とテキスト的要素間の複雑な空間関係を正確にキャプチャする空間的プロンプトソルバ(SPS)の2つの重要なコンポーネントを特徴とする。
TPSとSPSを協調学習戦略で調和させることで, 計算効率, 時間的理解, 時空間的アライメントを著しく向上させる。
論文 参考訳(メタデータ) (2024-02-25T10:27:46Z) - LLMs Meet Long Video: Advancing Long Video Comprehension with An
Interactive Visual Adapter in LLMs [24.79384819644494]
長いビデオ理解は、マルチメディアと人工知能の交差において、重要かつ進行中の課題である。
大型言語モデル(LLM)における対話型ビジュアルアダプタ(IVA)を提案する。
論文 参考訳(メタデータ) (2024-02-21T05:56:52Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - VTimeLLM: Empower LLM to Grasp Video Moments [43.51980030572101]
大規模言語モデル(LLM)は、顕著なテキスト理解能力を示している。
ビデオLLMはビデオ全体の粗い記述しか提供できない。
微細な映像モーメント理解のためのビデオLLMであるVTimeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-30T10:49:56Z) - VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文 参考訳(メタデータ) (2023-10-16T17:05:56Z) - Temporal Sentence Grounding in Streaming Videos [60.67022943824329]
本稿では,ストリーミングビデオにおける時間文グラウンディング(TSGSV)の新たな課題に取り組むことを目的とする。
TSGSVの目標は、ビデオストリームと所定の文クエリの関連性を評価することである。
本研究では,(1)モデルが今後のイベントを学習することを可能にするTwinNet構造,(2)冗長な視覚的フレームを除去する言語誘導型特徴圧縮器の2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T12:30:58Z) - VideoLLM: Modeling Video Sequence with Large Language Models [70.32832021713864]
既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。
我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。
VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
論文 参考訳(メタデータ) (2023-05-22T17:51:22Z) - Exploiting long-term temporal dynamics for video captioning [40.15826846670479]
本稿では,時間的・空間的LSTM(TS-LSTM)という新しい手法を提案し,ビデオシーケンス内の空間的・時間的ダイナミクスを体系的に活用する。
2つの公開ビデオキャプションベンチマークで得られた実験結果から,我々のTS-LSTMは最先端の手法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-02-22T11:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。