Fugu-MT 論文翻訳(概要): Encode-Store-Retrieve: Augmenting Human Memory through Language-Encoded Egocentric Perception

論文の概要: Encode-Store-Retrieve: Augmenting Human Memory through Language-Encoded Egocentric Perception

arxiv url: http://arxiv.org/abs/2308.05822v2
Date: Sat, 05 Oct 2024 06:13:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:29.220331
Title: Encode-Store-Retrieve: Augmenting Human Memory through Language-Encoded Egocentric Perception
Title（参考訳）: Encode-Store-Retrieve:言語エンコードされたエゴセントリック知覚による人間の記憶増強
Authors: Junxiao Shen, John Dudley, Per Ola Kristensson,
Abstract要約: メモリ拡張のための有望な道は、エゴセントリックなビデオをキャプチャして保存するために、拡張現実のヘッドマウントディスプレイを使用することである。現在の技術では、大量のデータを効率的にエンコードして保存する能力が欠けている。本稿では,ビデオデータの自然言語エンコーディングを活用し,ベクトルデータベースに格納するメモリ拡張エージェントを提案する。
参考スコア（独自算出の注目度）: 19.627636189321393
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We depend on our own memory to encode, store, and retrieve our experiences. However, memory lapses can occur. One promising avenue for achieving memory augmentation is through the use of augmented reality head-mounted displays to capture and preserve egocentric videos, a practice commonly referred to as lifelogging. However, a significant challenge arises from the sheer volume of video data generated through lifelogging, as the current technology lacks the capability to encode and store such large amounts of data efficiently. Further, retrieving specific information from extensive video archives requires substantial computational power, further complicating the task of quickly accessing desired content. To address these challenges, we propose a memory augmentation agent that involves leveraging natural language encoding for video data and storing them in a vector database. This approach harnesses the power of large vision language models to perform the language encoding process. Additionally, we propose using large language models to facilitate natural language querying. Our agent underwent extensive evaluation using the QA-Ego4D dataset and achieved state-of-the-art results with a BLEU score of 8.3, outperforming conventional machine learning models that scored between 3.4 and 5.8. Additionally, we conducted a user study in which participants interacted with the human memory augmentation agent through episodic memory and open-ended questions. The results of this study show that the agent results in significantly better recall performance on episodic memory tasks compared to human participants. The results also highlight the agent's practical applicability and user acceptance.
Abstract（参考訳）: 私たちは経験をエンコードし、保存し、取り出すために、自分自身の記憶に依存しています。しかし、記憶障害が発生することがある。メモリ拡張を達成するための有望な道の1つは、エゴセントリックなビデオをキャプチャして保存するために拡張現実のヘッドマウントディスプレイを使用することである。しかし、現在の技術では、大量のデータを効率的にエンコードし保存する能力が欠如しているため、ライフログ作成によって生成されるビデオデータの量は膨大である。さらに、広範なビデオアーカイブから特定の情報を取得するには、膨大な計算能力が必要であり、さらに、望まれるコンテンツに素早くアクセスする作業が複雑になる。これらの課題に対処するため,ビデオデータに自然言語エンコーディングを活用し,ベクトルデータベースに格納するメモリ拡張エージェントを提案する。このアプローチは、言語エンコーディングプロセスを実行するために、大きな視覚言語モデルの力を利用する。さらに,自然言語クエリを容易にするために,大規模言語モデルを提案する。エージェントは,QA-Ego4Dデータセットを用いて広範囲な評価を行い,BLEUスコア8.3の最先端結果を得た。さらに,被験者がヒトの記憶増強剤と対話するユーザスタディを,エピソード記憶とオープンエンド質問を通じて実施した。本研究の結果は,ヒトと比較して,エピソード記憶タスクのリコール性能が有意に向上することが示唆された。この結果は,エージェントの実践的適用性とユーザ受け入れも強調する。

関連論文リスト

Memory-enhanced Retrieval Augmentation for Long Video Understanding [91.7163732531159]
本稿では,メモリ強化型RAGベースの新しいアプローチであるMemVidを紹介する。提案手法は,1) 全体的映像情報の記憶,2) メモリに基づくタスクの情報要求の推論,3) 情報要求に基づくクリティカルモーメントの検索,4) 最終回答を生成するための検索モーメントの抽出という4つの基本的なステップで機能する。 MemVid は LVLM 法と RAG 法に比較して, 効率と有効性を示す。
論文参考訳（メタデータ） (2025-03-12T08:23:32Z)
Improving Factuality with Explicit Working Memory [68.39261790277615]
大規模な言語モデルは、幻覚として知られる、事実的に不正確なコンテンツを生成することができる。 EWE(Explicit Working Memory)は、外部リソースからのリアルタイムフィードバックを受信するワーキングメモリを統合することで、長文テキスト生成における事実性を高める新しい手法である。
論文参考訳（メタデータ） (2024-12-24T00:55:59Z)
HiCM$^2$: Hierarchical Compact Memory Modeling for Dense Video Captioning [9.899703354116962]
密度ビデオキャプション(DVC)への関心が高まっている。いくつかの研究は、事前学習や外部記憶など、事前知識を活用する上での課題を強調している。本稿では,人間指向階層型コンパクトメモリの事前知識を活用するモデルを提案する。
論文参考訳（メタデータ） (2024-12-19T07:06:25Z)
VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文参考訳（メタデータ） (2024-08-29T17:21:58Z)
Do You Remember? Dense Video Captioning with Cross-Modal Memory Retrieval [9.899703354116962]
Dense Videoのキャプションは、すべてのイベントを自動的にローカライズし、非トリミングビデオ内でキャプションすることを目的としている。本稿では,人間の認知情報処理に触発された新しい枠組みを提案する。我々のモデルは、事前知識を組み込むために外部記憶を利用する。
論文参考訳（メタデータ） (2024-04-11T09:58:23Z)
Compress to Impress: Unleashing the Potential of Compressive Memory in Real-World Long-Term Conversations [39.05338079159942]
本研究は,従来の検索モジュールやメモリデータベースを活用する新しいフレームワークであるCOMEDY(Commpressive Memory-Enhanced Dialogue sYstems)を紹介する。 COMEDYの中心は圧縮メモリの概念であり、セッション固有の要約、ユーザー・ボットのダイナミクス、過去のイベントを簡潔なメモリ形式に解釈する。
論文参考訳（メタデータ） (2024-02-19T09:19:50Z)
Personalized Large Language Model Assistant with Evolving Conditional Memory [15.780762727225122]
条件記憶を進化させる大規模言語モデルアシスタントをパーソナライズするためのプラグイン・アンド・プレイフレームワークを提案する。パーソナライズされたアシスタントは、ユーザとの履歴対話から知識と経験をインテリジェントに保存することに焦点を当てる。
論文参考訳（メタデータ） (2023-12-22T02:39:15Z)
LifelongMemory: Leveraging LLMs for Answering Queries in Long-form Egocentric Videos [15.127197238628396]
LifelongMemoryは、自然言語による質問応答と検索を通じて、長い形式のエゴシックなビデオメモリにアクセスするための新しいフレームワークである。 Ego4D の自然言語クエリ (NLQ) の課題に対して,本手法は質問応答のためのベンチマークの最先端性能を実現し,高い競争力を発揮する。
論文参考訳（メタデータ） (2023-12-07T19:19:25Z)
In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。 ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文参考訳（メタデータ） (2023-07-13T17:59:21Z)
RET-LLM: Towards a General Read-Write Memory for Large Language Models [53.288356721954514]
RET-LLMは、大規模な言語モデルに一般的な読み書きメモリユニットを装備する新しいフレームワークである。デビッドソンのセマンティクス理論に触発され、三重項の形で知識を抽出し保存する。本フレームワークは,時間に基づく質問応答タスクの処理において,堅牢な性能を示す。
論文参考訳（メタデータ） (2023-05-23T17:53:38Z)
A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文参考訳（メタデータ） (2023-05-16T19:13:11Z)
REVEAL: Retrieval-Augmented Visual-Language Pre-Training with Multi-Source Multimodal Knowledge Memory [119.98011559193574]
エンドツーエンドの検索型ビジュアル言語モデル(REVEAL)を提案する。世界の知識を大規模なメモリにエンコードし、そこから取り出して知識集約的なクエリに答えることを学ぶ。このアプローチの重要な特徴は、メモリ、エンコーダ、レトリバー、ジェネレータはすべて、大量のデータに対して、エンドツーエンドで事前訓練されていることです。
論文参考訳（メタデータ） (2022-12-10T06:17:56Z)
LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。 LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文参考訳（メタデータ） (2022-04-15T06:11:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。