論文の概要: LifelongMemory: Leveraging LLMs for Answering Queries in Long-form Egocentric Videos
- arxiv url: http://arxiv.org/abs/2312.05269v2
- Date: Fri, 29 Mar 2024 15:44:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 20:07:17.676749
- Title: LifelongMemory: Leveraging LLMs for Answering Queries in Long-form Egocentric Videos
- Title(参考訳): LifelongMemory: 長めのエゴセントリックビデオの問合せにLLMを活用する
- Authors: Ying Wang, Yanlai Yang, Mengye Ren,
- Abstract要約: LifelongMemoryは、自然言語による質問応答と検索を通じて、長い形式のエゴシックなビデオメモリにアクセスするための新しいフレームワークである。
Ego4D の自然言語クエリ (NLQ) の課題に対して,本手法は質問応答のためのベンチマークの最先端性能を実現し,高い競争力を発揮する。
- 参考スコア(独自算出の注目度): 15.127197238628396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we introduce LifelongMemory, a new framework for accessing long-form egocentric videographic memory through natural language question answering and retrieval. LifelongMemory generates concise video activity descriptions of the camera wearer and leverages the zero-shot capabilities of pretrained large language models to perform reasoning over long-form video context. Furthermore, Lifelong Memory uses a confidence and explanation module to produce confident, high-quality, and interpretable answers. Our approach achieves state-of-the-art performance on the EgoSchema benchmark for question answering and is highly competitive on the natural language query (NLQ) challenge of Ego4D. Code is available at https://github.com/Agentic-Learning-AI-Lab/lifelong-memory.
- Abstract(参考訳): 本稿では,自然言語による質問応答と検索を通じて,長めのエゴシックなビデオメモリにアクセスするための新しいフレームワークであるLifelongMemoryを紹介する。
LifelongMemoryは、カメラ装着者の簡潔なビデオアクティビティ記述を生成し、訓練済みの大言語モデルのゼロショット機能を活用して、長めのビデオコンテキストに対する推論を行う。
さらに、Lifelong Memoryは信頼性と説明モジュールを使用して、信頼性、高品質、解釈可能な回答を生成する。
提案手法は,質問応答のためのEgoSchemaベンチマークの最先端性能を実現し,Ego4Dの自然言語クエリ(NLQ)課題に対して高い競争力を持つ。
コードはhttps://github.com/Agentic-Learning-AI-Lab/lifelong-Memoryで入手できる。
関連論文リスト
- MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding [66.56100008577134]
本研究は,長期的映像理解のための効率的かつ効果的なモデルの設計に焦点を当てる。
我々は,過去の映像情報をメモリバンクに格納し,オンラインで動画を処理することを提案する。
我々のモデルは、複数のデータセットにわたって最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2024-04-08T17:59:24Z) - A Simple LLM Framework for Long-Range Video Question-Answering [66.68887077133355]
長距離ビデオ質問応答(LVQA)のための言語ベースのフレームワークであるLLoViを提案する。
我々のアプローチでは、フレーム/クリップレベルの視覚キャプタと大言語モデル(GPT-3.5, GPT-4)を併用する。
提案手法は50.3%の精度を達成し,従来のベストパフォーマンスアプローチを18.1%(絶対ゲイン)で上回った。
論文 参考訳(メタデータ) (2023-12-28T18:58:01Z) - Empowering Working Memory for Large Language Model Agents [10.258256252648296]
本稿では,認知心理学のワーキングメモリフレームワークを大規模言語モデル(LLM)に適用する可能性について検討する。
エピソード間の記憶を維持するために、集中型ワーキングメモリハブとエピソディックバッファアクセスを取り入れた革新的なモデルが提案されている。
このアーキテクチャは、複雑なタスクと協調シナリオの間のニュアンス付きコンテキスト推論に対して、より継続的なものを提供することを目的としている。
論文 参考訳(メタデータ) (2023-12-22T05:59:00Z) - Recursively Summarizing Enables Long-Term Dialogue Memory in Large
Language Models [75.98775135321355]
長い会話をすると、大きな言語モデル(LLM)は過去の情報を思い出さず、一貫性のない応答を生成する傾向がある。
本稿では,長期記憶能力を高めるために,大規模言語モデル(LLM)を用いて要約/メモリを生成することを提案する。
論文 参考訳(メタデータ) (2023-08-29T04:59:53Z) - Encode-Store-Retrieve: Enhancing Memory Augmentation through
Language-Encoded Egocentric Perception [27.795763107984286]
メモリ拡張のための有望な道は、エゴセントリックなビデオをキャプチャして保存するために、拡張現実のヘッドマウントディスプレイを使用することである。
現在の技術では、大量のデータを効率的にエンコードして保存する能力が欠けている。
本稿では,ビデオデータの自然言語エンコーディングを活用し,ベクトルデータベースに格納するメモリ拡張システムを提案する。
論文 参考訳(メタデータ) (2023-08-10T18:43:44Z) - In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z) - Augmenting Language Models with Long-Term Memory [142.04940250657637]
既存の大規模言語モデル(LLM)では、入力長制限のため、固定サイズの入力しかできない。
本稿では,Long-Term Memory (LongMem) を付加した言語モデルを提案する。
論文 参考訳(メタデータ) (2023-06-12T15:13:39Z) - RET-LLM: Towards a General Read-Write Memory for Large Language Models [4.997673761305335]
RET-LLMは、大規模な言語モデルに一般的な読み書きメモリユニットを装備する新しいフレームワークである。
デビッドソンのセマンティクス理論に触発され、三重項の形で知識を抽出し保存する。
本フレームワークは,時間に基づく質問応答タスクの処理において,堅牢な性能を示す。
論文 参考訳(メタデータ) (2023-05-23T17:53:38Z) - LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。
LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。
広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2022-04-15T06:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。