論文の概要: From LLM to Conversational Agent: A Memory Enhanced Architecture with
Fine-Tuning of Large Language Models
- arxiv url: http://arxiv.org/abs/2401.02777v1
- Date: Fri, 5 Jan 2024 12:26:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-08 15:04:00.247929
- Title: From LLM to Conversational Agent: A Memory Enhanced Architecture with
Fine-Tuning of Large Language Models
- Title(参考訳): LLMから会話エージェントへ:大規模言語モデルの微調整によるメモリ拡張アーキテクチャ
- Authors: Na Liu, Liangyu Chen, Xiaoyu Tian, Wei Zou, Kaijiang Chen, Ming Cui
- Abstract要約: RAISE(Reasoning and Acting through Scratchpad and Examples)は、LLM(Large Language Models)を対話エージェントに統合する高度なアーキテクチャである。
会話の文脈と連続性を維持するために、人間の短期記憶と長期記憶をミラーリングするデュアルコンポーネントメモリシステムを備えている。
- 参考スコア(独自算出の注目度): 11.999652715036643
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper introduces RAISE (Reasoning and Acting through Scratchpad and
Examples), an advanced architecture enhancing the integration of Large Language
Models (LLMs) like GPT-4 into conversational agents. RAISE, an enhancement of
the ReAct framework, incorporates a dual-component memory system, mirroring
human short-term and long-term memory, to maintain context and continuity in
conversations. It entails a comprehensive agent construction scenario,
including phases like Conversation Selection, Scene Extraction, CoT Completion,
and Scene Augmentation, leading to the LLMs Training phase. This approach
appears to enhance agent controllability and adaptability in complex,
multi-turn dialogues. Our preliminary evaluations in a real estate sales
context suggest that RAISE has some advantages over traditional agents,
indicating its potential for broader applications. This work contributes to the
AI field by providing a robust framework for developing more context-aware and
versatile conversational agents.
- Abstract(参考訳): 本稿では,GPT-4のような大規模言語モデル(LLM)を対話エージェントに統合する高度なアーキテクチャであるRAISE(Reasoning and Acting through Scratchpad and Examples)を紹介する。
ReActフレームワークの強化であるRAISEは、会話におけるコンテキストと連続性を維持するために、人間の短期記憶と長期記憶をミラーするデュアルコンポーネントメモリシステムを備えている。
会話の選択、シーン抽出、CoT補完、Scene Augmentationなどのフェーズを含む包括的なエージェント構築シナリオが含まれており、LLMsトレーニングフェーズにつながっている。
このアプローチは複雑なマルチターン対話におけるエージェント制御性と適応性を高める。
不動産販売のコンテキストにおける当社の予備的な評価は、augmentが従来のエージェントよりもいくつかの利点があることを示唆している。
この研究は、よりコンテキスト対応で多用途な会話エージェントを開発するための堅牢なフレームワークを提供することで、ai分野に貢献する。
関連論文リスト
- APT: Architectural Planning and Text-to-Blueprint Construction Using Large Language Models for Open-World Agents [8.479128275067742]
本稿では,自律型エージェントによるMinecraftの複雑な構造構築を可能にする,LLM(Large Language Model)駆動のフレームワークを提案する。
連鎖分解とマルチモーダル入力を用いることで、このフレームワークは詳細なアーキテクチャレイアウトと青写真を生成する。
本エージェントは, メモリとリフレクションモジュールの両方を組み込んで, 生涯学習, 適応的洗練, エラー訂正を容易にする。
論文 参考訳(メタデータ) (2024-11-26T09:31:28Z) - Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。
提案手法では,WavLMとWhisperエンコーダを用いて,話者の特徴や意味的文脈に敏感な多面的音声表現を抽出する。
包括的実験により,カクテルパーティーのシナリオにおいて提案システムであるMT-LLMが期待できる性能を示した。
論文 参考訳(メタデータ) (2024-09-13T07:28:28Z) - AgentRE: An Agent-Based Framework for Navigating Complex Information Landscapes in Relation Extraction [10.65417796726349]
複雑なシナリオにおける関係抽出(RE)は、多種多様な関係型や単一の文内のエンティティ間のあいまいな関係のような課題に直面します。
本稿では,複雑なシナリオにおいてREを実現するために,大規模言語モデルの可能性を完全に活用するエージェントベースのREフレームワークであるAgentREを提案する。
論文 参考訳(メタデータ) (2024-09-03T12:53:05Z) - The Compressor-Retriever Architecture for Language Model OS [20.56093501980724]
オペレーティングシステム(OS)のコアコンポーネントとして言語モデルを用いるという概念について検討する。
このようなLM OSを実現する上で重要な課題は、寿命の長いコンテキストを管理し、セッション間のステートフルネスを確保することだ。
本稿では,生涯のコンテキスト管理のために設計されたモデル非依存アーキテクチャであるコンプレッサー・レトリバーを紹介する。
論文 参考訳(メタデータ) (2024-09-02T23:28:15Z) - Hello Again! LLM-powered Personalized Agent for Long-term Dialogue [63.65128176360345]
モデルに依存しない長期対話エージェント(LD-Agent)を導入する。
イベント認識、ペルソナ抽出、応答生成のための3つの独立した調整可能なモジュールが組み込まれている。
LD-Agentの有効性, 汎用性, クロスドメイン性について実験的に検証した。
論文 参考訳(メタデータ) (2024-06-09T21:58:32Z) - HELPER-X: A Unified Instructable Embodied Agent to Tackle Four Interactive Vision-Language Domains with Memory-Augmented Language Models [13.963676467274109]
我々は、より広い例とプロンプトでメモリを拡張することで、HELPERの機能を拡張する。
この単純なHELPERの共有メモリへの拡張により、エージェントは対話、自然言語の命令、アクティブな質問、一般的な部屋の再編成から計画を実行するドメイン間で作業することができる。
本稿では,AChRED,TAA,DialFRED,Tidy Taskの4種類の対話型視覚言語エンボディエージェントについて評価を行った。
論文 参考訳(メタデータ) (2024-04-29T19:12:42Z) - DFA-RAG: Conversational Semantic Router for Large Language Model with Definite Finite Automaton [44.26173742405563]
本稿では,Definite Finite Automaton (DFA-RAG)を用いた検索強化大言語モデルを提案する。
DFA-RAGは,大規模言語モデル(LLM)を用いた対話エージェントの機能向上を目的としたフレームワークである。
論文 参考訳(メタデータ) (2024-02-06T21:14:45Z) - DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - A Mixture-of-Expert Approach to RL-based Dialogue Management [56.08449336469477]
我々は、強化学習を用いて、近視性(一般的な発話の出力)を回避し、全体的なユーザ満足度を最大化する対話エージェントを開発する。
既存のRLアプローチのほとんどは、単語レベルでエージェントを訓練するので、中規模の語彙であっても、非常に複雑なアクション空間を扱う必要がある。
i)会話履歴の多様な意味を学習できるLMと、(ii)対応する発話を生成できる専門的なLM(または専門家)からなる、新しい専門家言語モデル(MoE-LM)を用いたRLベースのDMを開発する。
論文 参考訳(メタデータ) (2022-05-31T19:00:41Z) - Video-Grounded Dialogues with Pretrained Generation Language Models [88.15419265622748]
我々は、ビデオ地上対話を改善するために、事前学習された言語モデルのパワーを利用する。
本稿では,シーケンス・ツー・グラウンドの対話タスクを,シーケンス・トゥ・グラウンドのタスクとして定式化するフレームワークを提案する。
我々のフレームワークは、微調整の言語モデルで複数のモダリティにまたがる依存関係をキャプチャできる。
論文 参考訳(メタデータ) (2020-06-27T08:24:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。