論文の概要: Encode-Store-Retrieve: Enhancing Memory Augmentation through
Language-Encoded Egocentric Perception
- arxiv url: http://arxiv.org/abs/2308.05822v1
- Date: Thu, 10 Aug 2023 18:43:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 15:42:06.159085
- Title: Encode-Store-Retrieve: Enhancing Memory Augmentation through
Language-Encoded Egocentric Perception
- Title(参考訳): Encode-Store-Retrieve: 言語エンコードされたエゴセントリック認識によるメモリ拡張
- Authors: Junxiao Shen, John Dudley, Per Ola Kristensson
- Abstract要約: メモリ拡張のための有望な道は、エゴセントリックなビデオをキャプチャして保存するために、拡張現実のヘッドマウントディスプレイを使用することである。
現在の技術では、大量のデータを効率的にエンコードして保存する能力が欠けている。
本稿では,ビデオデータの自然言語エンコーディングを活用し,ベクトルデータベースに格納するメモリ拡張システムを提案する。
- 参考スコア(独自算出の注目度): 27.795763107984286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We depend on our own memory to encode, store, and retrieve our experiences.
However, memory lapses can occur. One promising avenue for achieving memory
augmentation is through the use of augmented reality head-mounted displays to
capture and preserve egocentric videos, a practice commonly referred to as life
logging. However, a significant challenge arises from the sheer volume of video
data generated through life logging, as the current technology lacks the
capability to encode and store such large amounts of data efficiently. Further,
retrieving specific information from extensive video archives requires
substantial computational power, further complicating the task of quickly
accessing desired content. To address these challenges, we propose a memory
augmentation system that involves leveraging natural language encoding for
video data and storing them in a vector database. This approach harnesses the
power of large vision language models to perform the language encoding process.
Additionally, we propose using large language models to facilitate natural
language querying. Our system underwent extensive evaluation using the QA-Ego4D
dataset and achieved state-of-the-art results with a BLEU score of 8.3,
outperforming conventional machine learning models that scored between 3.4 and
5.8. Additionally, in a user study, our system received a higher mean response
score of 4.13/5 compared to the human participants' score of 2.46/5 on
real-life episodic memory tasks.
- Abstract(参考訳): 経験をエンコードし、保存し、取り出すのに、自分自身のメモリに依存しています。
しかし、記憶の経過は起こりうる。
記憶の増強を達成するための有望な道の1つは、拡張現実のヘッドマウントディスプレイを使用してエゴセントリックなビデオをキャプチャし保存することである。
しかし、現在の技術では、このような大量のデータを効率的にエンコードし保存する能力が欠けているため、ライフログによって生成されるビデオデータの膨大な量から大きな課題が発生する。
さらに、広範なビデオアーカイブから特定の情報を取得するには、かなりの計算能力が必要であり、望ましいコンテンツに素早くアクセスする作業はさらに複雑になる。
そこで本研究では,映像データに対して自然言語エンコーディングを活用し,それをベクトルデータベースに格納するメモリ拡張システムを提案する。
このアプローチは、大きな視覚言語モデルのパワーを利用して、言語エンコーディングプロセスを実行する。
さらに,自然言語クエリを容易にするために,大規模言語モデルを提案する。
QA-Ego4Dデータセットを用いて広範囲な評価を行い、BLEUスコアが8.3で、従来の3.4から5.8の機械学習モデルよりも優れていた。
また,ユーザ調査では,実生活記憶課題における被験者の2.46/5よりも,平均応答スコアが4.13/5であった。
関連論文リスト
- Compress to Impress: Unleashing the Potential of Compressive Memory in
Real-World Long-Term Conversations [41.8982615767219]
本研究は,従来の検索モジュールやメモリデータベースを活用する新しいフレームワークであるCOMEDY(Commpressive Memory-Enhanced Dialogue sYstems)を紹介する。
COMEDYの中心は圧縮メモリの概念であり、セッション固有の要約、ユーザー・ボットのダイナミクス、過去のイベントを簡潔なメモリ形式に解釈する。
論文 参考訳(メタデータ) (2024-02-19T09:19:50Z) - World Model on Million-Length Video And Language With Blockwise RingAttention [75.82014160713348]
現在の言語モデルは、言葉で簡単に説明できない世界の理解の側面に乏しく、複雑で長期的なタスクに苦しむ。
ビデオシーケンスは、言語と静的な画像に欠落する貴重な時間情報を提供するため、言語との共同モデリングには魅力的である。
数百万のビデオおよび言語シーケンスのトークンから学ぶことは、メモリ制約、計算複雑性、限られたデータセットによる課題を引き起こす。
論文 参考訳(メタデータ) (2024-02-13T07:47:36Z) - Evolving Large Language Model Assistant with Long-Term Conditional
Memory [16.91211676915775]
音声の長期記憶を利用した大規模言語モデルアシスタントを提案する。
モデルは、完了した対話ごとに一連のレコードを生成し、それらをメモリに格納する。
後続の使用では、新しいユーザ入力が与えられた場合、そのモデルがそれを使用して関連するメモリを取得し、応答の品質を向上させる。
論文 参考訳(メタデータ) (2023-12-22T02:39:15Z) - LifelongMemory: Leveraging LLMs for Answering Queries in Long-form Egocentric Videos [15.127197238628396]
LifelongMemoryは、自然言語による質問応答と検索を通じて、長い形式のエゴシックなビデオメモリにアクセスするための新しいフレームワークである。
Ego4D の自然言語クエリ (NLQ) の課題に対して,本手法は質問応答のためのベンチマークの最先端性能を実現し,高い競争力を発揮する。
論文 参考訳(メタデータ) (2023-12-07T19:19:25Z) - In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z) - Augmenting Language Models with Long-Term Memory [142.04940250657637]
既存の大規模言語モデル(LLM)では、入力長制限のため、固定サイズの入力しかできない。
本稿では,Long-Term Memory (LongMem) を付加した言語モデルを提案する。
論文 参考訳(メタデータ) (2023-06-12T15:13:39Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - REVEAL: Retrieval-Augmented Visual-Language Pre-Training with
Multi-Source Multimodal Knowledge Memory [119.98011559193574]
エンドツーエンドの検索型ビジュアル言語モデル(REVEAL)を提案する。
世界の知識を大規模なメモリにエンコードし、そこから取り出して知識集約的なクエリに答えることを学ぶ。
このアプローチの重要な特徴は、メモリ、エンコーダ、レトリバー、ジェネレータはすべて、大量のデータに対して、エンドツーエンドで事前訓練されていることです。
論文 参考訳(メタデータ) (2022-12-10T06:17:56Z) - LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。
LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。
広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2022-04-15T06:11:25Z) - Faster and Accurate Compressed Video Action Recognition Straight from
the Frequency Domain [1.9214041945441434]
深層学習は、ビデオの中の人間の行動を認識するために強力で解釈可能な機能を学ぶのに成功している。
既存のディープラーニングアプローチのほとんどは、RGBイメージシーケンスとしてビデオ情報を処理するように設計されている。
本稿では,圧縮映像から直接学習可能な深層ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-26T12:43:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。