論文の概要: LifelongMemory: Leveraging LLMs for Answering Queries in Egocentric
Videos
- arxiv url: http://arxiv.org/abs/2312.05269v1
- Date: Thu, 7 Dec 2023 19:19:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 21:56:34.690779
- Title: LifelongMemory: Leveraging LLMs for Answering Queries in Egocentric
Videos
- Title(参考訳): LifelongMemory:エゴセントリックなビデオの問合せにLLMを活用する
- Authors: Ying Wang, Yanlai Yang, Mengye Ren
- Abstract要約: エゴセントリックビデオ自然言語クエリ(NLQ)タスクは、エゴセントリックビデオ内の時間ウィンドウをローカライズする。
本稿では、複数の事前学習モデルを用いて、広範囲なエゴセントリックなビデオコンテンツからの問い合わせに応答する新しいフレームワークであるLifelongMemoryを紹介する。
実験により,本手法は既存の教師付きエンドツーエンド学習手法と競合する性能を示す。
- 参考スコア(独自算出の注目度): 17.001453726107467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The egocentric video natural language query (NLQ) task involves localizing a
temporal window in an egocentric video that provides an answer to a posed
query, which has wide applications in building personalized AI assistants.
Prior methods for this task have focused on improvements of network
architecture and leveraging pre-training for enhanced image and video features,
but have struggled with capturing long-range temporal dependencies in lengthy
videos, and cumbersome end-to-end training. Motivated by recent advancements in
Large Language Models (LLMs) and vision language models, we introduce
LifelongMemory, a novel framework that utilizes multiple pre-trained models to
answer queries from extensive egocentric video content. We address the unique
challenge by employing a pre-trained captioning model to create detailed
narratives of the videos. These narratives are then used to prompt a frozen LLM
to generate coarse-grained temporal window predictions, which are subsequently
refined using a pre-trained NLQ model. Empirical results demonstrate that our
method achieves competitive performance against existing supervised end-to-end
learning methods, underlining the potential of integrating multiple pre-trained
multimodal large language models in complex vision-language tasks. We provide a
comprehensive analysis of key design decisions and hyperparameters in our
pipeline, offering insights and practical guidelines.
- Abstract(参考訳): エゴセントリックなビデオ自然言語クエリ(NLQ)タスクでは、パーソナライズされたAIアシスタントの構築に幅広い応用がある、ポーズ付きクエリに対する回答を提供する、エゴセントリックなビデオ内の時間ウィンドウをローカライズする。
このタスクの以前の方法は、ネットワークアーキテクチャの改善と、画像とビデオの機能強化のための事前トレーニングの活用に重点を置いていたが、長いビデオの長距離時間依存性のキャプチャや、面倒なエンドツーエンドトレーニングに苦労していた。
近年の大規模言語モデル(llm)と視覚言語モデルの発展に動機づけられ,複数の事前学習モデルを用いて,多岐にわたる自発的ビデオコンテンツからの問い合わせに答える新しいフレームワークであるlifelongmemoryを導入した。
トレーニング済みのキャプションモデルを用いて、ビデオの詳細な物語を作成することで、ユニークな課題に対処する。
これらの物語は、凍結したllmに粗い粒度の時間窓予測を促すために使われ、その後、事前訓練されたnlqモデルを用いて洗練される。
実験により,本手法は既存の教師付きエンドツーエンド学習手法と競合し,複数の事前学習された多モーダル大規模言語モデルを複雑な視覚言語タスクに統合する可能性を示す。
パイプラインにおける重要な設計決定とハイパーパラメータを包括的に分析し、洞察と実践的なガイドラインを提供します。
関連論文リスト
- Video-LaVIT: Unified Video-Language Pre-training with Decoupled
Visual-Motional Tokenization [53.92519123600325]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language
Models [78.43468551763303]
我々は,動的ビデオタスクを扱うLLMによって駆動される包括的かつ概念的にエレガントなシステムであるドラモンGPTを考案した。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
3つのベンチマークでDoraemonGPTの有効性を広く評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - Text-Conditioned Resampler For Long Form Video Understanding [101.7267777444705]
タスクの長いビデオシーケンスを処理するために,テキスト条件付きビデオリサンプラー(TCR)モジュールを提案する。
TCRは、テキスト条件が与えられたビデオから関連する視覚的特徴をローカライズし、テキスト応答を生成するために大きな言語モデルを提供する。
軽量な設計とクロスアテンションの使用により、TCRは100フレーム以上を一度に処理できるため、以前の作品よりもずっと長いビデオのチャンクを使用することができる。
論文 参考訳(メタデータ) (2023-12-19T06:42:47Z) - LALM: Long-Term Action Anticipation with Language Models [74.10147822693791]
言語モデル(LALM)を用いた長期的行動予測のための新しいアプローチを提案する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果、LALMは長期的な行動予測のタスクにおいて最先端の手法を超越していることが示された。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - BiLL-VTG: Bridging Large Language Models and Lightweight Visual Tools
for Video-based Texts Generation [47.02859025575576]
BiLL-VTGは、ビデオの推論に大規模な言語モデルを活用する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令を用いて対応する映像イベントをローカライズする。
論文 参考訳(メタデータ) (2023-10-16T17:05:56Z) - MuLTI: Efficient Video-and-Language Understanding with Text-Guided
MultiWay-Sampler and Multiple Choice Modeling [7.737755720567113]
本稿では,高精度かつ効率的な映像・言語理解モデル MuLTI を提案する。
適応プール残差マッピングと自己アテンションモジュールに基づくテキストガイド型マルチウェイサンプラーを設計する。
また,新しい事前学習タスクであるMultiple Choice Modelingを提案する。
論文 参考訳(メタデータ) (2023-03-10T05:22:39Z) - MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form
Video Question Answering [73.61182342844639]
我々は,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。
MISTは、従来の密集時空間自己アテンションをカスケードセグメントと領域選択モジュールに分解する。
異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
論文 参考訳(メタデータ) (2022-12-19T15:05:40Z) - Long-Form Video-Language Pre-Training with Multimodal Temporal
Contrastive Learning [39.80936685227549]
大規模ビデオ言語事前学習では、ビデオ言語理解タスクが大幅に改善されている。
我々は、VILA(Long-Form VIdeo-LAnguage Pre-Training Model)を導入し、大規模な長文ビデオおよび段落データセットでトレーニングする。
我々は、7つの下流の長文ビデオ言語理解タスクでモデルを微調整し、新しい最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-12T09:08:27Z) - Understanding Chinese Video and Language via Contrastive Multimodal
Pre-Training [79.88705563918413]
VICTORという新しいビデオ言語理解フレームワークを提案します。VICTORは対比mulTimOdal pRe-trainingによる視覚言語理解の略です。
VICTORは、対応する高品質のテキスト記述を備えた1000万以上の完全なビデオを含む大規模な中国のビデオ言語データセットで訓練されています。
論文 参考訳(メタデータ) (2021-04-19T15:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。