論文の概要: OmniQuery: Contextually Augmenting Captured Multimodal Memory to Enable Personal Question Answering
- arxiv url: http://arxiv.org/abs/2409.08250v2
- Date: Fri, 21 Feb 2025 02:46:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 23:09:20.991704
- Title: OmniQuery: Contextually Augmenting Captured Multimodal Memory to Enable Personal Question Answering
- Title(参考訳): OmniQuery: パーソナライズ可能なマルチモーダルメモリのコンテキスト拡張
- Authors: Jiahao Nick Li, Zhuohao Jerry Zhang, Jiaju Ma,
- Abstract要約: 複雑な個人記憶に関する質問に答えられる新しいシステムであるOmniQueryを紹介する。
質問に対して、OmniQueryは関連する拡張メモリを取得し、大きな言語モデル(LLM)を使用して参照による回答を生成する。
人間の評価では,71.5%の精度でOmniQueryの有効性を示す。
- 参考スコア(独自算出の注目度): 3.8233569758620063
- License:
- Abstract: People often capture memories through photos, screenshots, and videos. While existing AI-based tools enable querying this data using natural language, they only support retrieving individual pieces of information like certain objects in photos, and struggle with answering more complex queries that involve interpreting interconnected memories like sequential events. We conducted a one-month diary study to collect realistic user queries and generated a taxonomy of necessary contextual information for integrating with captured memories. We then introduce OmniQuery, a novel system that is able to answer complex personal memory-related questions that require extracting and inferring contextual information. OmniQuery augments individual captured memories through integrating scattered contextual information from multiple interconnected memories. Given a question, OmniQuery retrieves relevant augmented memories and uses a large language model (LLM) to generate answers with references. In human evaluations, we show the effectiveness of OmniQuery with an accuracy of 71.5%, outperforming a conventional RAG system by winning or tying for 74.5% of the time.
- Abstract(参考訳): 人々はしばしば写真、スクリーンショット、ビデオを通して記憶を捉えます。
既存のAIベースのツールは、自然言語を使ってこれらのデータをクエリできるが、写真の中の特定のオブジェクトのような個々の情報を検索することのみをサポートし、シーケンシャルなイベントのような相互接続された記憶を解釈するより複雑なクエリに答えることに苦労する。
本研究では,現実的なユーザクエリを収集するために1ヶ月の日誌調査を行い,収集した記憶と統合するために必要な文脈情報の分類を作成した。
OmniQueryは複雑な個人記憶に関する質問に応答し、コンテキスト情報を抽出し、推測することを必要とする新しいシステムである。
OmniQueryは、複数の相互接続メモリから分散したコンテキスト情報を統合することで、個々のキャプチャーメモリを拡張する。
質問に対して、OmniQueryは関連する拡張メモリを取得し、大きな言語モデル(LLM)を使用して参照による回答を生成する。
人間の評価では,71.5%の精度でOmniQueryの有効性を示す。
関連論文リスト
- LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory [68.97819665784442]
本稿では,チャットアシスタントの5つのコアメモリ能力を評価するためのベンチマークであるLongMemEvalを紹介する。
LongMemEvalは、既存の長期記憶システムにとって重要な課題である。
長期記憶設計を4つの設計選択に分割する統合フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-14T17:59:44Z) - PerLTQA: A Personal Long-Term Memory Dataset for Memory Classification,
Retrieval, and Synthesis in Question Answering [27.815507347725344]
本研究は、意味記憶とエピソード記憶を組み合わせた革新的なQAデータセットであるPerLTQAを紹介する。
PerLTQAは2種類のメモリと、30文字に対して8,593質問のベンチマークを備えている。
本稿では,メモリ分類,メモリ検索,メモリ合成という3つの主要コンポーネントからなる,メモリ統合と生成のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-26T04:09:53Z) - Multi-Clue Reasoning with Memory Augmentation for Knowledge-based Visual
Question Answering [32.21000330743921]
より一般的な質問に答える能力を備えたモデルを実現する新しいフレームワークを提案する。
具体的には、画像検索関連関係句を予測するために、明確に定義された検出器が採用されている。
最適解答は、最も高いスコアで支持事実を選択することにより予測される。
論文 参考訳(メタデータ) (2023-12-20T02:35:18Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - Chatting Makes Perfect: Chat-based Image Retrieval [25.452015862927766]
ChatIRはチャットベースの画像検索システムで、ユーザーと会話して情報を抽出する。
大規模言語モデルは、初期画像記述に対するフォローアップ質問を生成するために使用される。
本システムでは、5回の対話で78%以上の成功率で50K画像のプールから目標画像を取得することができる。
論文 参考訳(メタデータ) (2023-05-31T17:38:08Z) - RET-LLM: Towards a General Read-Write Memory for Large Language Models [53.288356721954514]
RET-LLMは、大規模な言語モデルに一般的な読み書きメモリユニットを装備する新しいフレームワークである。
デビッドソンのセマンティクス理論に触発され、三重項の形で知識を抽出し保存する。
本フレームワークは,時間に基づく質問応答タスクの処理において,堅牢な性能を示す。
論文 参考訳(メタデータ) (2023-05-23T17:53:38Z) - REVEAL: Retrieval-Augmented Visual-Language Pre-Training with
Multi-Source Multimodal Knowledge Memory [119.98011559193574]
エンドツーエンドの検索型ビジュアル言語モデル(REVEAL)を提案する。
世界の知識を大規模なメモリにエンコードし、そこから取り出して知識集約的なクエリに答えることを学ぶ。
このアプローチの重要な特徴は、メモリ、エンコーダ、レトリバー、ジェネレータはすべて、大量のデータに対して、エンドツーエンドで事前訓練されていることです。
論文 参考訳(メタデータ) (2022-12-10T06:17:56Z) - Navigating Connected Memories with a Task-oriented Dialog System [13.117491508194242]
マルチターンで対話的な対話を通じて,ユーザがメディアコレクションを検索できるようにする強力なツールとして,コネクテッドメモリのためのダイアログを提案する。
新しいタスク指向のダイアログデータセットCOMETを使用し、シミュレーションされたパーソナルメモリグラフをベースとしたユーザ>アシスタントダイアログ(トータリング103k$発話)を含む。
COMETを分析し、意味のある進捗をベンチマークするために4つの主要なタスクを定式化し、最先端の言語モデルを強力なベースラインとして採用する。
論文 参考訳(メタデータ) (2022-11-15T19:31:57Z) - MuRAG: Multimodal Retrieval-Augmented Generator for Open Question
Answering over Images and Text [58.655375327681774]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。
MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。
以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-10-06T13:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。