Fugu-MT 論文翻訳(概要): Encode-Store-Retrieve: Enhancing Memory Augmentation through Language-Encoded Egocentric Perception

論文の概要: Encode-Store-Retrieve: Enhancing Memory Augmentation through Language-Encoded Egocentric Perception

arxiv url: http://arxiv.org/abs/2308.05822v1
Date: Thu, 10 Aug 2023 18:43:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-14 15:42:06.159085
Title: Encode-Store-Retrieve: Enhancing Memory Augmentation through Language-Encoded Egocentric Perception
Title（参考訳）: Encode-Store-Retrieve: 言語エンコードされたエゴセントリック認識によるメモリ拡張
Authors: Junxiao Shen, John Dudley, Per Ola Kristensson
Abstract要約: メモリ拡張のための有望な道は、エゴセントリックなビデオをキャプチャして保存するために、拡張現実のヘッドマウントディスプレイを使用することである。現在の技術では、大量のデータを効率的にエンコードして保存する能力が欠けている。本稿では,ビデオデータの自然言語エンコーディングを活用し,ベクトルデータベースに格納するメモリ拡張システムを提案する。
参考スコア（独自算出の注目度）: 27.795763107984286
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We depend on our own memory to encode, store, and retrieve our experiences. However, memory lapses can occur. One promising avenue for achieving memory augmentation is through the use of augmented reality head-mounted displays to capture and preserve egocentric videos, a practice commonly referred to as life logging. However, a significant challenge arises from the sheer volume of video data generated through life logging, as the current technology lacks the capability to encode and store such large amounts of data efficiently. Further, retrieving specific information from extensive video archives requires substantial computational power, further complicating the task of quickly accessing desired content. To address these challenges, we propose a memory augmentation system that involves leveraging natural language encoding for video data and storing them in a vector database. This approach harnesses the power of large vision language models to perform the language encoding process. Additionally, we propose using large language models to facilitate natural language querying. Our system underwent extensive evaluation using the QA-Ego4D dataset and achieved state-of-the-art results with a BLEU score of 8.3, outperforming conventional machine learning models that scored between 3.4 and 5.8. Additionally, in a user study, our system received a higher mean response score of 4.13/5 compared to the human participants' score of 2.46/5 on real-life episodic memory tasks.
Abstract（参考訳）: 経験をエンコードし、保存し、取り出すのに、自分自身のメモリに依存しています。しかし、記憶の経過は起こりうる。記憶の増強を達成するための有望な道の1つは、拡張現実のヘッドマウントディスプレイを使用してエゴセントリックなビデオをキャプチャし保存することである。しかし、現在の技術では、このような大量のデータを効率的にエンコードし保存する能力が欠けているため、ライフログによって生成されるビデオデータの膨大な量から大きな課題が発生する。さらに、広範なビデオアーカイブから特定の情報を取得するには、かなりの計算能力が必要であり、望ましいコンテンツに素早くアクセスする作業はさらに複雑になる。そこで本研究では,映像データに対して自然言語エンコーディングを活用し,それをベクトルデータベースに格納するメモリ拡張システムを提案する。このアプローチは、大きな視覚言語モデルのパワーを利用して、言語エンコーディングプロセスを実行する。さらに,自然言語クエリを容易にするために,大規模言語モデルを提案する。 QA-Ego4Dデータセットを用いて広範囲な評価を行い、BLEUスコアが8.3で、従来の3.4から5.8の機械学習モデルよりも優れていた。また,ユーザ調査では,実生活記憶課題における被験者の2.46/5よりも,平均応答スコアが4.13/5であった。

関連論文リスト

Memory-enhanced Retrieval Augmentation for Long Video Understanding [91.7163732531159]
本稿では,メモリ強化型RAGベースの新しいアプローチであるMemVidを紹介する。提案手法は,1) 全体的映像情報の記憶,2) メモリに基づくタスクの情報要求の推論,3) 情報要求に基づくクリティカルモーメントの検索,4) 最終回答を生成するための検索モーメントの抽出という4つの基本的なステップで機能する。 MemVid は LVLM 法と RAG 法に比較して, 効率と有効性を示す。
論文参考訳（メタデータ） (2025-03-12T08:23:32Z)
Improving Factuality with Explicit Working Memory [68.39261790277615]
大規模な言語モデルは、幻覚として知られる、事実的に不正確なコンテンツを生成することができる。 EWE(Explicit Working Memory)は、外部リソースからのリアルタイムフィードバックを受信するワーキングメモリを統合することで、長文テキスト生成における事実性を高める新しい手法である。
論文参考訳（メタデータ） (2024-12-24T00:55:59Z)
HiCM$^2$: Hierarchical Compact Memory Modeling for Dense Video Captioning [9.899703354116962]
密度ビデオキャプション(DVC)への関心が高まっている。いくつかの研究は、事前学習や外部記憶など、事前知識を活用する上での課題を強調している。本稿では,人間指向階層型コンパクトメモリの事前知識を活用するモデルを提案する。
論文参考訳（メタデータ） (2024-12-19T07:06:25Z)
VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文参考訳（メタデータ） (2024-08-29T17:21:58Z)
Do You Remember? Dense Video Captioning with Cross-Modal Memory Retrieval [9.899703354116962]
Dense Videoのキャプションは、すべてのイベントを自動的にローカライズし、非トリミングビデオ内でキャプションすることを目的としている。本稿では,人間の認知情報処理に触発された新しい枠組みを提案する。我々のモデルは、事前知識を組み込むために外部記憶を利用する。
論文参考訳（メタデータ） (2024-04-11T09:58:23Z)
Compress to Impress: Unleashing the Potential of Compressive Memory in Real-World Long-Term Conversations [39.05338079159942]
本研究は,従来の検索モジュールやメモリデータベースを活用する新しいフレームワークであるCOMEDY(Commpressive Memory-Enhanced Dialogue sYstems)を紹介する。 COMEDYの中心は圧縮メモリの概念であり、セッション固有の要約、ユーザー・ボットのダイナミクス、過去のイベントを簡潔なメモリ形式に解釈する。
論文参考訳（メタデータ） (2024-02-19T09:19:50Z)
Personalized Large Language Model Assistant with Evolving Conditional Memory [15.780762727225122]
条件記憶を進化させる大規模言語モデルアシスタントをパーソナライズするためのプラグイン・アンド・プレイフレームワークを提案する。パーソナライズされたアシスタントは、ユーザとの履歴対話から知識と経験をインテリジェントに保存することに焦点を当てる。
論文参考訳（メタデータ） (2023-12-22T02:39:15Z)
LifelongMemory: Leveraging LLMs for Answering Queries in Long-form Egocentric Videos [15.127197238628396]
LifelongMemoryは、自然言語による質問応答と検索を通じて、長い形式のエゴシックなビデオメモリにアクセスするための新しいフレームワークである。 Ego4D の自然言語クエリ (NLQ) の課題に対して,本手法は質問応答のためのベンチマークの最先端性能を実現し,高い競争力を発揮する。
論文参考訳（メタデータ） (2023-12-07T19:19:25Z)
In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。 ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文参考訳（メタデータ） (2023-07-13T17:59:21Z)
RET-LLM: Towards a General Read-Write Memory for Large Language Models [53.288356721954514]
RET-LLMは、大規模な言語モデルに一般的な読み書きメモリユニットを装備する新しいフレームワークである。デビッドソンのセマンティクス理論に触発され、三重項の形で知識を抽出し保存する。本フレームワークは,時間に基づく質問応答タスクの処理において,堅牢な性能を示す。
論文参考訳（メタデータ） (2023-05-23T17:53:38Z)
A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文参考訳（メタデータ） (2023-05-16T19:13:11Z)
REVEAL: Retrieval-Augmented Visual-Language Pre-Training with Multi-Source Multimodal Knowledge Memory [119.98011559193574]
エンドツーエンドの検索型ビジュアル言語モデル(REVEAL)を提案する。世界の知識を大規模なメモリにエンコードし、そこから取り出して知識集約的なクエリに答えることを学ぶ。このアプローチの重要な特徴は、メモリ、エンコーダ、レトリバー、ジェネレータはすべて、大量のデータに対して、エンドツーエンドで事前訓練されていることです。
論文参考訳（メタデータ） (2022-12-10T06:17:56Z)
LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。 LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文参考訳（メタデータ） (2022-04-15T06:11:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。