論文の概要: LifelongMemory: Leveraging LLMs for Answering Queries in Egocentric
Videos
- arxiv url: http://arxiv.org/abs/2312.05269v1
- Date: Thu, 7 Dec 2023 19:19:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 21:56:34.690779
- Title: LifelongMemory: Leveraging LLMs for Answering Queries in Egocentric
Videos
- Title(参考訳): LifelongMemory:エゴセントリックなビデオの問合せにLLMを活用する
- Authors: Ying Wang, Yanlai Yang, Mengye Ren
- Abstract要約: エゴセントリックビデオ自然言語クエリ(NLQ)タスクは、エゴセントリックビデオ内の時間ウィンドウをローカライズする。
本稿では、複数の事前学習モデルを用いて、広範囲なエゴセントリックなビデオコンテンツからの問い合わせに応答する新しいフレームワークであるLifelongMemoryを紹介する。
実験により,本手法は既存の教師付きエンドツーエンド学習手法と競合する性能を示す。
- 参考スコア(独自算出の注目度): 17.001453726107467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The egocentric video natural language query (NLQ) task involves localizing a
temporal window in an egocentric video that provides an answer to a posed
query, which has wide applications in building personalized AI assistants.
Prior methods for this task have focused on improvements of network
architecture and leveraging pre-training for enhanced image and video features,
but have struggled with capturing long-range temporal dependencies in lengthy
videos, and cumbersome end-to-end training. Motivated by recent advancements in
Large Language Models (LLMs) and vision language models, we introduce
LifelongMemory, a novel framework that utilizes multiple pre-trained models to
answer queries from extensive egocentric video content. We address the unique
challenge by employing a pre-trained captioning model to create detailed
narratives of the videos. These narratives are then used to prompt a frozen LLM
to generate coarse-grained temporal window predictions, which are subsequently
refined using a pre-trained NLQ model. Empirical results demonstrate that our
method achieves competitive performance against existing supervised end-to-end
learning methods, underlining the potential of integrating multiple pre-trained
multimodal large language models in complex vision-language tasks. We provide a
comprehensive analysis of key design decisions and hyperparameters in our
pipeline, offering insights and practical guidelines.
- Abstract(参考訳): エゴセントリックなビデオ自然言語クエリ(NLQ)タスクでは、パーソナライズされたAIアシスタントの構築に幅広い応用がある、ポーズ付きクエリに対する回答を提供する、エゴセントリックなビデオ内の時間ウィンドウをローカライズする。
このタスクの以前の方法は、ネットワークアーキテクチャの改善と、画像とビデオの機能強化のための事前トレーニングの活用に重点を置いていたが、長いビデオの長距離時間依存性のキャプチャや、面倒なエンドツーエンドトレーニングに苦労していた。
近年の大規模言語モデル(llm)と視覚言語モデルの発展に動機づけられ,複数の事前学習モデルを用いて,多岐にわたる自発的ビデオコンテンツからの問い合わせに答える新しいフレームワークであるlifelongmemoryを導入した。
トレーニング済みのキャプションモデルを用いて、ビデオの詳細な物語を作成することで、ユニークな課題に対処する。
これらの物語は、凍結したllmに粗い粒度の時間窓予測を促すために使われ、その後、事前訓練されたnlqモデルを用いて洗練される。
実験により,本手法は既存の教師付きエンドツーエンド学習手法と競合し,複数の事前学習された多モーダル大規模言語モデルを複雑な視覚言語タスクに統合する可能性を示す。
パイプラインにおける重要な設計決定とハイパーパラメータを包括的に分析し、洞察と実践的なガイドラインを提供します。
関連論文リスト
- ReWind: Understanding Long Videos with Instructed Learnable Memory [8.002949551539297]
VLM(Vision-Language Models)は、テキスト情報と視覚情報の統合的な理解を必要とするアプリケーションに不可欠である。
本稿では,時間的忠実さを保ちながら,より効率的な長時間ビデオ理解を実現するためのメモリベースの新しいVLMであるReWindを紹介する。
本稿では,視覚的質問応答(VQA)と時間的グラウンド処理におけるReWindの優れた性能を実証的に示す。
論文 参考訳(メタデータ) (2024-11-23T13:23:22Z) - MemLong: Memory-Augmented Retrieval for Long Text Modeling [37.49036666949963]
この研究はMemLong: Memory-Augmented Retrieval for Long Text Generationを紹介します。
MemLongは、非微分可能なret-mem'モジュールと部分的にトレーニング可能なデコーダのみの言語モデルを組み合わせる。
複数の長文言語モデリングベンチマークに関する総合的な評価は、MemLongが他の最先端のLLMよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2024-08-30T02:01:56Z) - Needle in the Haystack for Memory Based Large Language Models [31.885539843977472]
現在の大規模言語モデル(LLM)は、単純な事実検索タスクではよく機能しない。
動的に適応可能な外部メモリをLCMに結合することでこの問題を軽減することができるか検討する。
テキストサンプルのエピソードを高速に書き書きできるLarimarの外部メモリは、テスト時に、トレーニング中に見られるものよりもはるかに長いコンテキストを扱うために使用できることを示した。
論文 参考訳(メタデータ) (2024-07-01T16:32:16Z) - Long Context Transfer from Language to Vision [74.78422371545716]
ビデオシーケンスは貴重な時間情報を提供するが、既存の大規模マルチモーダルモデル(LMM)は非常に長いビデオを理解するには不十分である。
本稿では,言語モデルの観点からこの問題にアプローチする。
言語バックボーンの文脈長を単純に外挿することで、LMMはビデオトレーニングなしで桁違いに多くの視覚的トークンを理解できるようになる。
論文 参考訳(メタデータ) (2024-06-24T17:58:06Z) - Streaming Long Video Understanding with Large Language Models [83.11094441893435]
VideoStreamingは、ビデオ理解のための高度な視覚言語大モデル(VLLM)である。
一定の数のビデオストリーミングトークンを符号化し、伝播的に選択した任意の長さのビデオを理解することができる。
提案モデルは,長大なビデオベンチマークにおいて,優れた性能と高効率を実現する。
論文 参考訳(メタデータ) (2024-05-25T02:22:09Z) - MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding [66.56100008577134]
本研究は,長期的映像理解のための効率的かつ効果的なモデルの設計に焦点を当てる。
我々は,過去の映像情報をメモリバンクに格納し,オンラインで動画を処理することを提案する。
我々のモデルは、複数のデータセットにわたって最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2024-04-08T17:59:24Z) - Recursively Summarizing Enables Long-Term Dialogue Memory in Large
Language Models [75.98775135321355]
長い会話をすると、大きな言語モデル(LLM)は過去の情報を思い出さず、一貫性のない応答を生成する傾向がある。
本稿では,長期記憶能力を高めるために,大規模言語モデル(LLM)を用いて要約/メモリを生成することを提案する。
論文 参考訳(メタデータ) (2023-08-29T04:59:53Z) - Encode-Store-Retrieve: Augmenting Human Memory through Language-Encoded Egocentric Perception [19.627636189321393]
メモリ拡張のための有望な道は、エゴセントリックなビデオをキャプチャして保存するために、拡張現実のヘッドマウントディスプレイを使用することである。
現在の技術では、大量のデータを効率的にエンコードして保存する能力が欠けている。
本稿では,ビデオデータの自然言語エンコーディングを活用し,ベクトルデータベースに格納するメモリ拡張エージェントを提案する。
論文 参考訳(メタデータ) (2023-08-10T18:43:44Z) - Augmenting Language Models with Long-Term Memory [142.04940250657637]
既存の大規模言語モデル(LLM)では、入力長制限のため、固定サイズの入力しかできない。
本稿では,Long-Term Memory (LongMem) を付加した言語モデルを提案する。
論文 参考訳(メタデータ) (2023-06-12T15:13:39Z) - RET-LLM: Towards a General Read-Write Memory for Large Language Models [53.288356721954514]
RET-LLMは、大規模な言語モデルに一般的な読み書きメモリユニットを装備する新しいフレームワークである。
デビッドソンのセマンティクス理論に触発され、三重項の形で知識を抽出し保存する。
本フレームワークは,時間に基づく質問応答タスクの処理において,堅牢な性能を示す。
論文 参考訳(メタデータ) (2023-05-23T17:53:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。