論文の概要: Encode-Store-Retrieve: Enhancing Memory Augmentation through
Language-Encoded Egocentric Perception
- arxiv url: http://arxiv.org/abs/2308.05822v1
- Date: Thu, 10 Aug 2023 18:43:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 15:42:06.159085
- Title: Encode-Store-Retrieve: Enhancing Memory Augmentation through
Language-Encoded Egocentric Perception
- Title(参考訳): Encode-Store-Retrieve: 言語エンコードされたエゴセントリック認識によるメモリ拡張
- Authors: Junxiao Shen, John Dudley, Per Ola Kristensson
- Abstract要約: メモリ拡張のための有望な道は、エゴセントリックなビデオをキャプチャして保存するために、拡張現実のヘッドマウントディスプレイを使用することである。
現在の技術では、大量のデータを効率的にエンコードして保存する能力が欠けている。
本稿では,ビデオデータの自然言語エンコーディングを活用し,ベクトルデータベースに格納するメモリ拡張システムを提案する。
- 参考スコア(独自算出の注目度): 27.795763107984286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We depend on our own memory to encode, store, and retrieve our experiences.
However, memory lapses can occur. One promising avenue for achieving memory
augmentation is through the use of augmented reality head-mounted displays to
capture and preserve egocentric videos, a practice commonly referred to as life
logging. However, a significant challenge arises from the sheer volume of video
data generated through life logging, as the current technology lacks the
capability to encode and store such large amounts of data efficiently. Further,
retrieving specific information from extensive video archives requires
substantial computational power, further complicating the task of quickly
accessing desired content. To address these challenges, we propose a memory
augmentation system that involves leveraging natural language encoding for
video data and storing them in a vector database. This approach harnesses the
power of large vision language models to perform the language encoding process.
Additionally, we propose using large language models to facilitate natural
language querying. Our system underwent extensive evaluation using the QA-Ego4D
dataset and achieved state-of-the-art results with a BLEU score of 8.3,
outperforming conventional machine learning models that scored between 3.4 and
5.8. Additionally, in a user study, our system received a higher mean response
score of 4.13/5 compared to the human participants' score of 2.46/5 on
real-life episodic memory tasks.
- Abstract(参考訳): 経験をエンコードし、保存し、取り出すのに、自分自身のメモリに依存しています。
しかし、記憶の経過は起こりうる。
記憶の増強を達成するための有望な道の1つは、拡張現実のヘッドマウントディスプレイを使用してエゴセントリックなビデオをキャプチャし保存することである。
しかし、現在の技術では、このような大量のデータを効率的にエンコードし保存する能力が欠けているため、ライフログによって生成されるビデオデータの膨大な量から大きな課題が発生する。
さらに、広範なビデオアーカイブから特定の情報を取得するには、かなりの計算能力が必要であり、望ましいコンテンツに素早くアクセスする作業はさらに複雑になる。
そこで本研究では,映像データに対して自然言語エンコーディングを活用し,それをベクトルデータベースに格納するメモリ拡張システムを提案する。
このアプローチは、大きな視覚言語モデルのパワーを利用して、言語エンコーディングプロセスを実行する。
さらに,自然言語クエリを容易にするために,大規模言語モデルを提案する。
QA-Ego4Dデータセットを用いて広範囲な評価を行い、BLEUスコアが8.3で、従来の3.4から5.8の機械学習モデルよりも優れていた。
また,ユーザ調査では,実生活記憶課題における被験者の2.46/5よりも,平均応答スコアが4.13/5であった。
関連論文リスト
- VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - Do You Remember? Dense Video Captioning with Cross-Modal Memory Retrieval [9.899703354116962]
Dense Videoのキャプションは、すべてのイベントを自動的にローカライズし、非トリミングビデオ内でキャプションすることを目的としている。
本稿では,人間の認知情報処理に触発された新しい枠組みを提案する。
我々のモデルは、事前知識を組み込むために外部記憶を利用する。
論文 参考訳(メタデータ) (2024-04-11T09:58:23Z) - Compress to Impress: Unleashing the Potential of Compressive Memory in Real-World Long-Term Conversations [39.05338079159942]
本研究は,従来の検索モジュールやメモリデータベースを活用する新しいフレームワークであるCOMEDY(Commpressive Memory-Enhanced Dialogue sYstems)を紹介する。
COMEDYの中心は圧縮メモリの概念であり、セッション固有の要約、ユーザー・ボットのダイナミクス、過去のイベントを簡潔なメモリ形式に解釈する。
論文 参考訳(メタデータ) (2024-02-19T09:19:50Z) - Personalized Large Language Model Assistant with Evolving Conditional Memory [15.780762727225122]
条件記憶を進化させる大規模言語モデルアシスタントをパーソナライズするためのプラグイン・アンド・プレイフレームワークを提案する。
パーソナライズされたアシスタントは、ユーザとの履歴対話から知識と経験をインテリジェントに保存することに焦点を当てる。
論文 参考訳(メタデータ) (2023-12-22T02:39:15Z) - LifelongMemory: Leveraging LLMs for Answering Queries in Long-form Egocentric Videos [15.127197238628396]
LifelongMemoryは、自然言語による質問応答と検索を通じて、長い形式のエゴシックなビデオメモリにアクセスするための新しいフレームワークである。
Ego4D の自然言語クエリ (NLQ) の課題に対して,本手法は質問応答のためのベンチマークの最先端性能を実現し,高い競争力を発揮する。
論文 参考訳(メタデータ) (2023-12-07T19:19:25Z) - In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z) - RET-LLM: Towards a General Read-Write Memory for Large Language Models [53.288356721954514]
RET-LLMは、大規模な言語モデルに一般的な読み書きメモリユニットを装備する新しいフレームワークである。
デビッドソンのセマンティクス理論に触発され、三重項の形で知識を抽出し保存する。
本フレームワークは,時間に基づく質問応答タスクの処理において,堅牢な性能を示す。
論文 参考訳(メタデータ) (2023-05-23T17:53:38Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - REVEAL: Retrieval-Augmented Visual-Language Pre-Training with
Multi-Source Multimodal Knowledge Memory [119.98011559193574]
エンドツーエンドの検索型ビジュアル言語モデル(REVEAL)を提案する。
世界の知識を大規模なメモリにエンコードし、そこから取り出して知識集約的なクエリに答えることを学ぶ。
このアプローチの重要な特徴は、メモリ、エンコーダ、レトリバー、ジェネレータはすべて、大量のデータに対して、エンドツーエンドで事前訓練されていることです。
論文 参考訳(メタデータ) (2022-12-10T06:17:56Z) - LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。
LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。
広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2022-04-15T06:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。