論文の概要: Walking Down the Memory Maze: Beyond Context Limit through Interactive
Reading
- arxiv url: http://arxiv.org/abs/2310.05029v1
- Date: Sun, 8 Oct 2023 06:18:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 13:14:46.634440
- Title: Walking Down the Memory Maze: Beyond Context Limit through Interactive
Reading
- Title(参考訳): メモリ迷路を歩き去る:インタラクティブな読書を通してコンテキスト制限を超えて
- Authors: Howard Chen, Ramakanth Pasunuru, Jason Weston, Asli Celikyilmaz
- Abstract要約: 我々は,長いコンテキストを要約ノードのツリーに処理する手法であるMemWalkerを紹介した。クエリを受信すると,モデルがこのツリーをナビゲートして関連する情報を検索し,十分な情報を収集すると応答する。
その結果,MemWalkerは,テキストを対話的に読み取る際の推論ステップを強調し,クエリに関連するテキストセグメントをピンポイントすることで,説明性の向上を図っている。
- 参考スコア(独自算出の注目度): 63.93888816206071
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have advanced in large strides due to the
effectiveness of the self-attention mechanism that processes and compares all
tokens at once. However, this mechanism comes with a fundamental issue -- the
predetermined context window is bound to be limited. Despite attempts to extend
the context window through methods like extrapolating the positional embedding,
using recurrence, or selectively retrieving essential parts of the long
sequence, long-text understanding continues to be a challenge. We propose an
alternative approach which instead treats the LLM as an interactive agent,
allowing it to decide how to read the text via iterative prompting. We
introduce MemWalker, a method that first processes the long context into a tree
of summary nodes. Upon receiving a query, the model navigates this tree in
search of relevant information, and responds once it gathers sufficient
information. On long-text question answering tasks our method outperforms
baseline approaches that use long context windows, recurrence, and retrieval.
We show that, beyond effective reading, MemWalker enhances explainability by
highlighting the reasoning steps as it interactively reads the text;
pinpointing the relevant text segments related to the query.
- Abstract(参考訳): 大規模言語モデル(LLM)は、全てのトークンを一度に処理し比較する自己保持機構の有効性のため、大きな進歩を遂げている。
しかし、このメカニズムには根本的な問題がある -- 所定のコンテキストウィンドウは制限される。
位置埋め込みの補間、リピートの使用、長いシーケンスの本質部分の選択的な検索などを通じてコンテキストウィンドウを拡張する試みにもかかわらず、長いテキスト理解は依然として課題である。
そこで本研究では,LLMを対話型エージェントとして扱う代わりに,反復的プロンプトによるテキストの読み方を決定する方法を提案する。
本稿では,まず,長いコンテキストを要約ノードのツリーに処理する手法であるMemWalkerを紹介する。
クエリを受け取ると、モデルは関連する情報を探すためにこのツリーをナビゲートし、十分な情報を集めると応答する。
長文質問応答タスクでは、長いコンテキストウィンドウ、繰り返し、検索を使用するベースラインアプローチよりも優れています。
その結果,MemWalkerは,テキストを対話的に読み取る際の推論ステップを強調表示し,クエリに関連するテキストセグメントをピンポイントすることで,説明性の向上を図っている。
関連論文リスト
- Enhancing Long Context Performance in LLMs Through Inner Loop Query Mechanism [2.919891871101241]
変換器は入力サイズと計算複雑性の2次スケーリングを持つ。
Retrieval-augmented Generation (RAG)は、検索システムを使用することで、より長いコンテキストを処理できる。
インナーループメモリ拡張ツリー検索(ILM-TR)という新しい手法を導入する。
論文 参考訳(メタデータ) (2024-10-11T19:49:05Z) - Leveraging Inter-Chunk Interactions for Enhanced Retrieval in Large Language Model-Based Question Answering [12.60063463163226]
IIERは、構造、キーワード、セマンティックという3つのタイプの相互作用を考慮し、ドキュメントチャンク間の内部接続をキャプチャする。
対象の質問に基づいて複数のシードノードを特定し、関連するチャンクを反復的に検索して、支持する証拠を収集する。
コンテキストと推論チェーンを洗練し、推論と回答の生成において大きな言語モデルを支援する。
論文 参考訳(メタデータ) (2024-08-06T02:39:55Z) - A Surprisingly Simple yet Effective Multi-Query Rewriting Method for Conversational Passage Retrieval [14.389703823471574]
本稿では,複数のクエリを生成するためのニューラルクエリリライターを提案する。
ビーム検索アルゴリズムの動作方法を活用し、追加コストなしで複数のクエリリライトを生成できます。
論文 参考訳(メタデータ) (2024-06-27T07:43:03Z) - QRMeM: Unleash the Length Limitation through Question then Reflection Memory Mechanism [46.441032033076034]
メモリメカニズムは、長いコンテキストを管理するための柔軟なソリューションを提供する。
本稿では,二重構造メモリプールを組み込んだ新しい手法であるQRMeMを提案する。
マルチチョイス質問 (MCQ) とマルチドキュメント質問応答 (Multi-doc QA) のベンチマークによる評価では,既存手法と比較してQRMeMの性能が向上している。
論文 参考訳(メタデータ) (2024-06-19T02:46:18Z) - FragRel: Exploiting Fragment-level Relations in the External Memory of Large Language Models [54.13671100638092]
断片接続型階層型メモリベース大規模言語モデル(LLM)を提案する。
外部メモリにおけるフラグメントレベルの関係を定式化し、異なるテキストタイプに対していくつかのインスタンスを提示する。
長いストーリー理解、リポジトリレベルのコード生成、長期チャットにこれらの関係を組み込むことの利点を検証する。
論文 参考訳(メタデータ) (2024-06-05T09:31:37Z) - Recursively Summarizing Enables Long-Term Dialogue Memory in Large
Language Models [75.98775135321355]
長い会話をすると、大きな言語モデル(LLM)は過去の情報を思い出さず、一貫性のない応答を生成する傾向がある。
本稿では,長期記憶能力を高めるために,大規模言語モデル(LLM)を用いて要約/メモリを生成することを提案する。
論文 参考訳(メタデータ) (2023-08-29T04:59:53Z) - SSP: Self-Supervised Post-training for Conversational Search [63.28684982954115]
本稿では,対話型検索モデルを効率的に初期化するための3つの自己教師型タスクを備えた学習後パラダイムであるフルモデル(モデル)を提案する。
提案手法の有効性を検証するために,CAsT-19 と CAsT-20 の2つのベンチマークデータセットを用いて,会話検索タスクにモデルにより訓練後の会話エンコーダを適用した。
論文 参考訳(メタデータ) (2023-07-02T13:36:36Z) - Phrase Retrieval for Open-Domain Conversational Question Answering with
Conversational Dependency Modeling via Contrastive Learning [54.55643652781891]
Open-Domain Conversational Question Answering (ODConvQA)は、マルチターン会話を通じて質問に答えることを目的としている。
そこで本研究では,単語列に対する句検索方式を用いて,回答を直接予測する手法を提案する。
論文 参考訳(メタデータ) (2023-06-07T09:46:38Z) - Cue-CoT: Chain-of-thought Prompting for Responding to In-depth Dialogue
Questions with LLMs [59.74002011562726]
我々は、よりパーソナライズされ魅力的な応答を提供するために、新しい言語的キューに基づく思考の連鎖(textitCue-CoT)を提案する。
中国語と英語の6つのデータセットからなる詳細な対話質問を用いたベンチマークを構築した。
実験により,提案手法は,すべてのデータセットにおいて,テクステルパーフルネスとテクスチタアクセプタビリティの両方の観点から,標準的プロンプト法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-19T16:27:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。