論文の概要: From LLM to Conversational Agent: A Memory Enhanced Architecture with
Fine-Tuning of Large Language Models
- arxiv url: http://arxiv.org/abs/2401.02777v2
- Date: Tue, 30 Jan 2024 07:02:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 18:17:34.092674
- Title: From LLM to Conversational Agent: A Memory Enhanced Architecture with
Fine-Tuning of Large Language Models
- Title(参考訳): LLMから会話エージェントへ:大規模言語モデルの微調整によるメモリ拡張アーキテクチャ
- Authors: Na Liu, Liangyu Chen, Xiaoyu Tian, Wei Zou, Kaijiang Chen, Ming Cui
- Abstract要約: RAISE(Reasoning and Acting through Scratchpad and Examples)は、LLM(Large Language Models)を対話エージェントに統合する高度なアーキテクチャである。
会話の文脈と連続性を維持するために、人間の短期記憶と長期記憶をミラーリングするデュアルコンポーネントメモリシステムを備えている。
- 参考スコア(独自算出の注目度): 11.999652715036643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces RAISE (Reasoning and Acting through Scratchpad and
Examples), an advanced architecture enhancing the integration of Large Language
Models (LLMs) like GPT-4 into conversational agents. RAISE, an enhancement of
the ReAct framework, incorporates a dual-component memory system, mirroring
human short-term and long-term memory, to maintain context and continuity in
conversations. It entails a comprehensive agent construction scenario,
including phases like Conversation Selection, Scene Extraction, CoT Completion,
and Scene Augmentation, leading to the LLMs Training phase. This approach
appears to enhance agent controllability and adaptability in complex,
multi-turn dialogues. Our preliminary evaluations in a real estate sales
context suggest that RAISE has some advantages over traditional agents,
indicating its potential for broader applications. This work contributes to the
AI field by providing a robust framework for developing more context-aware and
versatile conversational agents.
- Abstract(参考訳): 本稿では,GPT-4のような大規模言語モデル(LLM)を対話エージェントに統合する高度なアーキテクチャであるRAISE(Reasoning and Acting through Scratchpad and Examples)を紹介する。
ReActフレームワークの強化であるRAISEは、会話におけるコンテキストと連続性を維持するために、人間の短期記憶と長期記憶をミラーするデュアルコンポーネントメモリシステムを備えている。
会話の選択、シーン抽出、CoT補完、Scene Augmentationなどのフェーズを含む包括的なエージェント構築シナリオが含まれており、LLMsトレーニングフェーズにつながっている。
このアプローチは複雑なマルチターン対話におけるエージェント制御性と適応性を高める。
不動産販売のコンテキストにおける当社の予備的な評価は、augmentが従来のエージェントよりもいくつかの利点があることを示唆している。
この研究は、よりコンテキスト対応で多用途な会話エージェントを開発するための堅牢なフレームワークを提供することで、ai分野に貢献する。
関連論文リスト
- HELPER-X: A Unified Instructable Embodied Agent to Tackle Four Interactive Vision-Language Domains with Memory-Augmented Language Models [13.963676467274109]
我々は、より広い例とプロンプトでメモリを拡張することで、HELPERの機能を拡張する。
この単純なHELPERの共有メモリへの拡張により、エージェントは対話、自然言語の命令、アクティブな質問、一般的な部屋の再編成から計画を実行するドメイン間で作業することができる。
本稿では,AChRED,TAA,DialFRED,Tidy Taskの4種類の対話型視覚言語エンボディエージェントについて評価を行った。
論文 参考訳(メタデータ) (2024-04-29T19:12:42Z) - Memory Sharing for Large Language Model based Agents [43.53494041932615]
大言語モデル(LLM)ベースのエージェントは、自然言語プロンプトを介してタスクを実行する。
詩の創造のようなオープンエンドな課題へのインコンテキスト学習の適用は、かなりの制限を明らかにしている。
本稿では,リアルタイムメモリストレージと検索システムを利用したLLMマルチエージェントのためのメモリ共有(MS)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-15T17:57:30Z) - On the Multi-turn Instruction Following for Conversational Web Agents [83.51251174629084]
本稿では,ユーザと環境の両方で複数回にまたがる高度なインタラクションを必要とする,対話型Webナビゲーションの新たなタスクを紹介する。
本稿では,メモリ利用と自己回帰技術を用いた自己反射型メモリ拡張計画(Self-MAP)を提案する。
論文 参考訳(メタデータ) (2024-02-23T02:18:12Z) - DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Self-Explanation Prompting Improves Dialogue Understanding in Large
Language Models [52.24756457516834]
大規模言語モデル(LLM)の理解能力を高めるための新たな「自己説明(Self-Explanation)」を提案する。
このタスクに依存しないアプローチでは、タスク実行前の各対話発話を分析し、様々な対話中心のタスクのパフォーマンスを向上させる必要がある。
6つのベンチマークデータセットによる実験結果から,本手法は他のゼロショットプロンプトよりも一貫して優れており,数ショットプロンプトの有効性を超えていることが明らかとなった。
論文 参考訳(メタデータ) (2023-09-22T15:41:34Z) - A Mixture-of-Expert Approach to RL-based Dialogue Management [56.08449336469477]
我々は、強化学習を用いて、近視性(一般的な発話の出力)を回避し、全体的なユーザ満足度を最大化する対話エージェントを開発する。
既存のRLアプローチのほとんどは、単語レベルでエージェントを訓練するので、中規模の語彙であっても、非常に複雑なアクション空間を扱う必要がある。
i)会話履歴の多様な意味を学習できるLMと、(ii)対応する発話を生成できる専門的なLM(または専門家)からなる、新しい専門家言語モデル(MoE-LM)を用いたRLベースのDMを開発する。
論文 参考訳(メタデータ) (2022-05-31T19:00:41Z) - A Simple But Effective Approach to n-shot Task-Oriented Dialogue
Augmentation [32.43362825854633]
本稿では,タスク指向対話を完全自動で生成するフレームワークを提案する。
我々のフレームワークはタスク指向対話における各ターンペアは特定の機能を持つという単純な考え方を用いています。
いくつかのドメインの微調整シナリオの大幅な改善を観察します。
論文 参考訳(メタデータ) (2021-02-27T18:55:12Z) - Video-Grounded Dialogues with Pretrained Generation Language Models [88.15419265622748]
我々は、ビデオ地上対話を改善するために、事前学習された言語モデルのパワーを利用する。
本稿では,シーケンス・ツー・グラウンドの対話タスクを,シーケンス・トゥ・グラウンドのタスクとして定式化するフレームワークを提案する。
我々のフレームワークは、微調整の言語モデルで複数のモダリティにまたがる依存関係をキャプチャできる。
論文 参考訳(メタデータ) (2020-06-27T08:24:26Z) - Exploring Recurrent, Memory and Attention Based Architectures for
Scoring Interactional Aspects of Human-Machine Text Dialog [9.209192502526285]
本稿は、複数のニューラルアーキテクチャを調べるために、この方向の以前の研究に基づいている。
我々は,クラウドベースの対話システムと対話する人間の学習者からテキストダイアログの対話データベース上で実験を行う。
複数のアーキテクチャの融合は、専門家間の合意に比較して、我々の自動スコアリングタスクにおいて有能に機能することがわかった。
論文 参考訳(メタデータ) (2020-05-20T03:23:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。