論文の概要: Encode-Store-Retrieve: Augmenting Human Memory through Language-Encoded Egocentric Perception
- arxiv url: http://arxiv.org/abs/2308.05822v3
- Date: Fri, 18 Oct 2024 07:24:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:22:52.655868
- Title: Encode-Store-Retrieve: Augmenting Human Memory through Language-Encoded Egocentric Perception
- Title(参考訳): Encode-Store-Retrieve:言語エンコードされたエゴセントリック知覚による人間の記憶増強
- Authors: Junxiao Shen, John Dudley, Per Ola Kristensson,
- Abstract要約: メモリ拡張のための有望な道は、エゴセントリックなビデオをキャプチャして保存するために、拡張現実のヘッドマウントディスプレイを使用することである。
現在の技術では、大量のデータを効率的にエンコードして保存する能力が欠けている。
本稿では,ビデオデータの自然言語エンコーディングを活用し,ベクトルデータベースに格納するメモリ拡張エージェントを提案する。
- 参考スコア(独自算出の注目度): 19.627636189321393
- License:
- Abstract: We depend on our own memory to encode, store, and retrieve our experiences. However, memory lapses can occur. One promising avenue for achieving memory augmentation is through the use of augmented reality head-mounted displays to capture and preserve egocentric videos, a practice commonly referred to as lifelogging. However, a significant challenge arises from the sheer volume of video data generated through lifelogging, as the current technology lacks the capability to encode and store such large amounts of data efficiently. Further, retrieving specific information from extensive video archives requires substantial computational power, further complicating the task of quickly accessing desired content. To address these challenges, we propose a memory augmentation agent that involves leveraging natural language encoding for video data and storing them in a vector database. This approach harnesses the power of large vision language models to perform the language encoding process. Additionally, we propose using large language models to facilitate natural language querying. Our agent underwent extensive evaluation using the QA-Ego4D dataset and achieved state-of-the-art results with a BLEU score of 8.3, outperforming conventional machine learning models that scored between 3.4 and 5.8. Additionally, we conducted a user study in which participants interacted with the human memory augmentation agent through episodic memory and open-ended questions. The results of this study show that the agent results in significantly better recall performance on episodic memory tasks compared to human participants. The results also highlight the agent's practical applicability and user acceptance.
- Abstract(参考訳): 私たちは経験をエンコードし、保存し、取り出すために、自分自身の記憶に依存しています。
しかし、記憶障害が発生することがある。
メモリ拡張を達成するための有望な道の1つは、エゴセントリックなビデオをキャプチャして保存するために拡張現実のヘッドマウントディスプレイを使用することである。
しかし、現在の技術では、大量のデータを効率的にエンコードし保存する能力が欠如しているため、ライフログ作成によって生成されるビデオデータの量は膨大である。
さらに、広範なビデオアーカイブから特定の情報を取得するには、膨大な計算能力が必要であり、さらに、望まれるコンテンツに素早くアクセスする作業が複雑になる。
これらの課題に対処するため,ビデオデータに自然言語エンコーディングを活用し,ベクトルデータベースに格納するメモリ拡張エージェントを提案する。
このアプローチは、言語エンコーディングプロセスを実行するために、大きな視覚言語モデルの力を利用する。
さらに,自然言語クエリを容易にするために,大規模言語モデルを提案する。
エージェントは,QA-Ego4Dデータセットを用いて広範囲な評価を行い,BLEUスコア8.3の最先端結果を得た。
さらに,被験者がヒトの記憶増強剤と対話するユーザスタディを,エピソード記憶とオープンエンド質問を通じて実施した。
本研究の結果は,ヒトと比較して,エピソード記憶タスクのリコール性能が有意に向上することが示唆された。
この結果は,エージェントの実践的適用性とユーザ受け入れも強調する。
関連論文リスト
- Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
大規模言語モデル(LLM)は、実際に目に見えないタスクに一般化するか、大量の事前学習データを記憶することに依存するかという議論を引き起こしている。
本稿では,LLMの出力確率と事前学習データ頻度との相関を計測する,メモリ化,分散メモリ化という拡張された概念を導入する。
本研究は, より単純で知識集約的なタスクにおいて, 暗記がより大きな役割を果たすことを示した。
論文 参考訳(メタデータ) (2024-07-20T21:24:40Z) - Do You Remember? Dense Video Captioning with Cross-Modal Memory Retrieval [9.899703354116962]
Dense Videoのキャプションは、すべてのイベントを自動的にローカライズし、非トリミングビデオ内でキャプションすることを目的としている。
本稿では,人間の認知情報処理に触発された新しい枠組みを提案する。
我々のモデルは、事前知識を組み込むために外部記憶を利用する。
論文 参考訳(メタデータ) (2024-04-11T09:58:23Z) - Compress to Impress: Unleashing the Potential of Compressive Memory in Real-World Long-Term Conversations [39.05338079159942]
本研究は,従来の検索モジュールやメモリデータベースを活用する新しいフレームワークであるCOMEDY(Commpressive Memory-Enhanced Dialogue sYstems)を紹介する。
COMEDYの中心は圧縮メモリの概念であり、セッション固有の要約、ユーザー・ボットのダイナミクス、過去のイベントを簡潔なメモリ形式に解釈する。
論文 参考訳(メタデータ) (2024-02-19T09:19:50Z) - Personalized Large Language Model Assistant with Evolving Conditional Memory [15.780762727225122]
条件記憶を進化させる大規模言語モデルアシスタントをパーソナライズするためのプラグイン・アンド・プレイフレームワークを提案する。
パーソナライズされたアシスタントは、ユーザとの履歴対話から知識と経験をインテリジェントに保存することに焦点を当てる。
論文 参考訳(メタデータ) (2023-12-22T02:39:15Z) - LifelongMemory: Leveraging LLMs for Answering Queries in Long-form Egocentric Videos [15.127197238628396]
LifelongMemoryは、自然言語による質問応答と検索を通じて、長い形式のエゴシックなビデオメモリにアクセスするための新しいフレームワークである。
Ego4D の自然言語クエリ (NLQ) の課題に対して,本手法は質問応答のためのベンチマークの最先端性能を実現し,高い競争力を発揮する。
論文 参考訳(メタデータ) (2023-12-07T19:19:25Z) - In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z) - RET-LLM: Towards a General Read-Write Memory for Large Language Models [53.288356721954514]
RET-LLMは、大規模な言語モデルに一般的な読み書きメモリユニットを装備する新しいフレームワークである。
デビッドソンのセマンティクス理論に触発され、三重項の形で知識を抽出し保存する。
本フレームワークは,時間に基づく質問応答タスクの処理において,堅牢な性能を示す。
論文 参考訳(メタデータ) (2023-05-23T17:53:38Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - REVEAL: Retrieval-Augmented Visual-Language Pre-Training with
Multi-Source Multimodal Knowledge Memory [119.98011559193574]
エンドツーエンドの検索型ビジュアル言語モデル(REVEAL)を提案する。
世界の知識を大規模なメモリにエンコードし、そこから取り出して知識集約的なクエリに答えることを学ぶ。
このアプローチの重要な特徴は、メモリ、エンコーダ、レトリバー、ジェネレータはすべて、大量のデータに対して、エンドツーエンドで事前訓練されていることです。
論文 参考訳(メタデータ) (2022-12-10T06:17:56Z) - LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。
LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。
広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2022-04-15T06:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。