論文の概要: Walking Down the Memory Maze: Beyond Context Limit through Interactive
Reading
- arxiv url: http://arxiv.org/abs/2310.05029v1
- Date: Sun, 8 Oct 2023 06:18:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 13:14:46.634440
- Title: Walking Down the Memory Maze: Beyond Context Limit through Interactive
Reading
- Title(参考訳): メモリ迷路を歩き去る:インタラクティブな読書を通してコンテキスト制限を超えて
- Authors: Howard Chen, Ramakanth Pasunuru, Jason Weston, Asli Celikyilmaz
- Abstract要約: 我々は,長いコンテキストを要約ノードのツリーに処理する手法であるMemWalkerを紹介した。クエリを受信すると,モデルがこのツリーをナビゲートして関連する情報を検索し,十分な情報を収集すると応答する。
その結果,MemWalkerは,テキストを対話的に読み取る際の推論ステップを強調し,クエリに関連するテキストセグメントをピンポイントすることで,説明性の向上を図っている。
- 参考スコア(独自算出の注目度): 63.93888816206071
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have advanced in large strides due to the
effectiveness of the self-attention mechanism that processes and compares all
tokens at once. However, this mechanism comes with a fundamental issue -- the
predetermined context window is bound to be limited. Despite attempts to extend
the context window through methods like extrapolating the positional embedding,
using recurrence, or selectively retrieving essential parts of the long
sequence, long-text understanding continues to be a challenge. We propose an
alternative approach which instead treats the LLM as an interactive agent,
allowing it to decide how to read the text via iterative prompting. We
introduce MemWalker, a method that first processes the long context into a tree
of summary nodes. Upon receiving a query, the model navigates this tree in
search of relevant information, and responds once it gathers sufficient
information. On long-text question answering tasks our method outperforms
baseline approaches that use long context windows, recurrence, and retrieval.
We show that, beyond effective reading, MemWalker enhances explainability by
highlighting the reasoning steps as it interactively reads the text;
pinpointing the relevant text segments related to the query.
- Abstract(参考訳): 大規模言語モデル(LLM)は、全てのトークンを一度に処理し比較する自己保持機構の有効性のため、大きな進歩を遂げている。
しかし、このメカニズムには根本的な問題がある -- 所定のコンテキストウィンドウは制限される。
位置埋め込みの補間、リピートの使用、長いシーケンスの本質部分の選択的な検索などを通じてコンテキストウィンドウを拡張する試みにもかかわらず、長いテキスト理解は依然として課題である。
そこで本研究では,LLMを対話型エージェントとして扱う代わりに,反復的プロンプトによるテキストの読み方を決定する方法を提案する。
本稿では,まず,長いコンテキストを要約ノードのツリーに処理する手法であるMemWalkerを紹介する。
クエリを受け取ると、モデルは関連する情報を探すためにこのツリーをナビゲートし、十分な情報を集めると応答する。
長文質問応答タスクでは、長いコンテキストウィンドウ、繰り返し、検索を使用するベースラインアプローチよりも優れています。
その結果,MemWalkerは,テキストを対話的に読み取る際の推論ステップを強調表示し,クエリに関連するテキストセグメントをピンポイントすることで,説明性の向上を図っている。
関連論文リスト
- Effective and Efficient Conversation Retrieval for Dialogue State
Tracking with Implicit Text Summaries [51.11997829609478]
LLM (Large Language Models) を用いたDST (Few-shot dialogue state tracking) では,会話検索を効果的かつ効率的に行うことで,学習の迅速化を図っている。
従来は検索キーやクエリとして生の対話コンテキストを使用していた。
会話のテキスト要約に基づいて会話検索を行う。
LLMに基づく会話要約器がクエリとキー生成に採用され、効果的な内部製品探索が可能となる。
論文 参考訳(メタデータ) (2024-02-20T14:31:17Z) - A Human-Inspired Reading Agent with Gist Memory of Very Long Contexts [38.28085124489118]
本実験では,有効文脈長を最大20倍に向上させるエージェントシステムであるReadAgentを提案する。
人間が長い文書を対話的に読む方法に触発され、簡単なプロンプトシステムとしてReadAgentを実装した。
本稿では,検索手法を用いてベースラインに対するReadAgentの評価を行い,元の長コンテキストを用いて,gistメモリを用いて評価する。
論文 参考訳(メタデータ) (2024-02-15T05:40:21Z) - Tree-Based Hard Attention with Self-Motivation for Large Language Models [7.2677650379517775]
大きな言語モデル(LLM)は、平易なテキストの理解と生成に優れる。
階層的なテキスト構造を扱うように特別に調整されていない。
本稿では,大規模言語モデルのための自己モチベーションを用いた木ベースハードアテンションという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-14T00:40:51Z) - Recursively Summarizing Enables Long-Term Dialogue Memory in Large
Language Models [75.98775135321355]
長い会話をすると、大きな言語モデル(LLM)は過去の情報を思い出さず、一貫性のない応答を生成する傾向がある。
本稿では,長期記憶能力を高めるために,大規模言語モデル(LLM)を用いて要約/メモリを生成することを提案する。
論文 参考訳(メタデータ) (2023-08-29T04:59:53Z) - SSP: Self-Supervised Post-training for Conversational Search [63.28684982954115]
本稿では,対話型検索モデルを効率的に初期化するための3つの自己教師型タスクを備えた学習後パラダイムであるフルモデル(モデル)を提案する。
提案手法の有効性を検証するために,CAsT-19 と CAsT-20 の2つのベンチマークデータセットを用いて,会話検索タスクにモデルにより訓練後の会話エンコーダを適用した。
論文 参考訳(メタデータ) (2023-07-02T13:36:36Z) - Phrase Retrieval for Open-Domain Conversational Question Answering with
Conversational Dependency Modeling via Contrastive Learning [54.55643652781891]
Open-Domain Conversational Question Answering (ODConvQA)は、マルチターン会話を通じて質問に答えることを目的としている。
そこで本研究では,単語列に対する句検索方式を用いて,回答を直接予測する手法を提案する。
論文 参考訳(メタデータ) (2023-06-07T09:46:38Z) - Cue-CoT: Chain-of-thought Prompting for Responding to In-depth Dialogue
Questions with LLMs [59.74002011562726]
我々は、よりパーソナライズされ魅力的な応答を提供するために、新しい言語的キューに基づく思考の連鎖(textitCue-CoT)を提案する。
中国語と英語の6つのデータセットからなる詳細な対話質問を用いたベンチマークを構築した。
実験により,提案手法は,すべてのデータセットにおいて,テクステルパーフルネスとテクスチタアクセプタビリティの両方の観点から,標準的プロンプト法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-19T16:27:43Z) - A Methodology for Creating Question Answering Corpora Using Inverse Data
Annotation [16.914116942666976]
本稿では,構造化データに対する質問応答のためのコーパスを効率的に構築するための新しい手法を提案する。
本研究では,文脈自由文法からOTをランダムに生成する。
提案手法を適用して,大規模な意味解析コーパスであるOTTA(Operation Trees and Token Assignment)を作成する。
論文 参考訳(メタデータ) (2020-04-16T12:50:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。