論文の概要: Memory-QA: Answering Recall Questions Based on Multimodal Memories
- arxiv url: http://arxiv.org/abs/2509.18436v1
- Date: Mon, 22 Sep 2025 21:41:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.59578
- Title: Memory-QA: Answering Recall Questions Based on Multimodal Memories
- Title(参考訳): メモリQA:マルチモーダル記憶に基づくリコール質問への回答
- Authors: Hongda Jiang, Xinyuan Zhang, Siddhant Garg, Rishab Arora, Shiun-Zu Kuo, Jiayang Xu, Christopher Brossman, Yue Liu, Aaron Colak, Ahmed Aly, Anuj Kumar, Xin Luna Dong,
- Abstract要約: メモリQA(Memory-QA)は,従来記憶されていたマルチモーダルメモリからの視覚的コンテンツに関するリコール質問に応答する,新しい実世界のタスクである。
このタスクは、タスク指向メモリの作成、時間的および場所的情報のメモリ内で有効活用、複数のメモリを描画してリコール問題に答える能力など、ユニークな課題を提起する。
我々はPensieveという包括的パイプラインを提案し、メモリ固有の拡張、時間と位置を意識したマルチシグナル検索、マルチメモリQA微調整を統合した。
- 参考スコア(独自算出の注目度): 22.93987444776909
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Memory-QA, a novel real-world task that involves answering recall questions about visual content from previously stored multimodal memories. This task poses unique challenges, including the creation of task-oriented memories, the effective utilization of temporal and location information within memories, and the ability to draw upon multiple memories to answer a recall question. To address these challenges, we propose a comprehensive pipeline, Pensieve, integrating memory-specific augmentation, time- and location-aware multi-signal retrieval, and multi-memory QA fine-tuning. We created a multimodal benchmark to illustrate various real challenges in this task, and show the superior performance of Pensieve over state-of-the-art solutions (up to 14% on QA accuracy).
- Abstract(参考訳): メモリQA(Memory-QA)は,従来記憶されていたマルチモーダルメモリからの視覚的コンテンツに関するリコール質問に応答する,新しい実世界のタスクである。
このタスクは、タスク指向メモリの作成、時間的および場所的情報のメモリ内で有効活用、複数のメモリを描画してリコール問題に答える能力など、ユニークな課題を提起する。
これらの課題に対処するため、Pensieveという包括的パイプラインを提案し、メモリ固有の拡張、時間と位置を意識したマルチシグナル検索、マルチメモリQA微調整を統合する。
我々は、このタスクにおける様々な実際の課題を示すマルチモーダル・ベンチマークを作成し、最先端のソリューションよりもPensieveの方が優れた性能(QA精度は最大14%)を示した。
関連論文リスト
- Multiple Memory Systems for Enhancing the Long-term Memory of Agent [6.187602972706527]
MemoryBankやA-MEMといった既存の手法は、記憶されているメモリの質が劣っている。
我々は認知心理学理論にインスパイアされた多重記憶システムを設計した。
論文 参考訳(メタデータ) (2025-08-21T06:29:42Z) - FindingDory: A Benchmark to Evaluate Memory in Embodied Agents [49.89792845476579]
本研究では,Habitatシミュレータに長距離エンボディタスクのための新しいベンチマークを導入する。
このベンチマークは、持続的なエンゲージメントとコンテキスト認識を必要とする60タスクにわたるメモリベースの機能を評価する。
論文 参考訳(メタデータ) (2025-06-18T17:06:28Z) - Towards Multi-Granularity Memory Association and Selection for Long-Term Conversational Agents [73.77930932005354]
我々は,多粒度アソシエーション,適応選択,検索を構築することで,メモリ統合を向上するフレームワークであるMemGASを提案する。
MemGASは多粒度メモリユニットに基づいており、ガウス混合モデルを用いて新しい記憶と過去の記憶をクラスタリングし関連付けている。
4つの長期メモリベンチマークの実験により、MemGASは質問応答と検索タスクの両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-05-26T06:13:07Z) - Beyond Memorization: The Challenge of Random Memory Access in Language Models [56.525691003233554]
生成言語モデル(LM)がそのメモリに逐次的またはランダムにアクセスできるかどうかを検討する。
本手法により, LMのランダムメモリアクセス性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-03-12T16:42:44Z) - Ever-Evolving Memory by Blending and Refining the Past [30.63352929849842]
CREEMは長期会話のための新しい記憶システムである。
過去と現在の情報をシームレスに接続すると同時に、障害情報を忘れる能力も備えている。
論文 参考訳(メタデータ) (2024-03-03T08:12:59Z) - PerLTQA: A Personal Long-Term Memory Dataset for Memory Classification,
Retrieval, and Synthesis in Question Answering [27.815507347725344]
本研究は、意味記憶とエピソード記憶を組み合わせた革新的なQAデータセットであるPerLTQAを紹介する。
PerLTQAは2種類のメモリと、30文字に対して8,593質問のベンチマークを備えている。
本稿では,メモリ分類,メモリ検索,メモリ合成という3つの主要コンポーネントからなる,メモリ統合と生成のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-26T04:09:53Z) - Learning to Rehearse in Long Sequence Memorization [107.14601197043308]
既存の推論タスクは、しばしば、推論中に入力内容が常にアクセス可能であるという重要な仮定を持つ。
メモリ拡張ニューラルネットワークは、人間のような書き込み読み取りメモリを導入し、1回のパスで長い入力シーケンスを圧縮し記憶する。
しかし、2つの重大な欠点がある: 1) メモリを現在の情報から継続的に更新し、必然的に初期の内容を忘れる; 2) 重要な情報を区別せず、全てのコンテンツを平等に扱う。
本稿では,履歴サンプリング装置を用いた自己教師型リハーサルによる長期記憶向上のためのリハーサルメモリを提案する。
論文 参考訳(メタデータ) (2021-06-02T11:58:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。