Fugu-MT 論文翻訳(概要): From LLM to Conversational Agent: A Memory Enhanced Architecture with Fine-Tuning of Large Language Models

論文の概要: From LLM to Conversational Agent: A Memory Enhanced Architecture with Fine-Tuning of Large Language Models

arxiv url: http://arxiv.org/abs/2401.02777v2
Date: Tue, 30 Jan 2024 07:02:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-31 18:17:34.092674
Title: From LLM to Conversational Agent: A Memory Enhanced Architecture with Fine-Tuning of Large Language Models
Title（参考訳）: LLMから会話エージェントへ:大規模言語モデルの微調整によるメモリ拡張アーキテクチャ
Authors: Na Liu, Liangyu Chen, Xiaoyu Tian, Wei Zou, Kaijiang Chen, Ming Cui
Abstract要約: RAISE(Reasoning and Acting through Scratchpad and Examples)は、LLM(Large Language Models)を対話エージェントに統合する高度なアーキテクチャである。会話の文脈と連続性を維持するために、人間の短期記憶と長期記憶をミラーリングするデュアルコンポーネントメモリシステムを備えている。
参考スコア（独自算出の注目度）: 11.999652715036643
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces RAISE (Reasoning and Acting through Scratchpad and Examples), an advanced architecture enhancing the integration of Large Language Models (LLMs) like GPT-4 into conversational agents. RAISE, an enhancement of the ReAct framework, incorporates a dual-component memory system, mirroring human short-term and long-term memory, to maintain context and continuity in conversations. It entails a comprehensive agent construction scenario, including phases like Conversation Selection, Scene Extraction, CoT Completion, and Scene Augmentation, leading to the LLMs Training phase. This approach appears to enhance agent controllability and adaptability in complex, multi-turn dialogues. Our preliminary evaluations in a real estate sales context suggest that RAISE has some advantages over traditional agents, indicating its potential for broader applications. This work contributes to the AI field by providing a robust framework for developing more context-aware and versatile conversational agents.
Abstract（参考訳）: 本稿では,GPT-4のような大規模言語モデル(LLM)を対話エージェントに統合する高度なアーキテクチャであるRAISE(Reasoning and Acting through Scratchpad and Examples)を紹介する。 ReActフレームワークの強化であるRAISEは、会話におけるコンテキストと連続性を維持するために、人間の短期記憶と長期記憶をミラーするデュアルコンポーネントメモリシステムを備えている。会話の選択、シーン抽出、CoT補完、Scene Augmentationなどのフェーズを含む包括的なエージェント構築シナリオが含まれており、LLMsトレーニングフェーズにつながっている。このアプローチは複雑なマルチターン対話におけるエージェント制御性と適応性を高める。不動産販売のコンテキストにおける当社の予備的な評価は、augmentが従来のエージェントよりもいくつかの利点があることを示唆している。この研究は、よりコンテキスト対応で多用途な会話エージェントを開発するための堅牢なフレームワークを提供することで、ai分野に貢献する。

関連論文リスト

AMUSE: Audio-Visual Benchmark and Alignment Framework for Agentic Multi-Speaker Understanding [73.05946667683259]
最近の大規模言語モデル(MLLM)は、強い認識を示すが、多話者、対話中心の設定に苦戦している。本質的にエージェント的なタスクを中心に設計されたベンチマークであるAMUSEを紹介します。我々は、報酬最適化と本質的なマルチモーダル自己評価を統合するデータ効率の高いエージェントアライメントフレームワークRAFTを提案する。
論文参考訳（メタデータ） (2025-12-18T07:01:47Z)
AI-Salesman: Towards Reliable Large Language Model Driven Telemarketing [79.0112532518727]
我々はTeleSalesCorpusをリリースした。次に、デュアルステージアーキテクチャを特徴とする新しいフレームワークであるAI-Salesmanを提案する。提案したAI-Salesmanは,自動測定と総合的な人的評価の両方において,ベースラインモデルを大幅に上回ることを示す。
論文参考訳（メタデータ） (2025-11-15T09:44:42Z)
OPEN-THEATRE: An Open-Source Toolkit for LLM-based Interactive Drama [62.00761178362677]
Open-Theatreは、LLMベースのインタラクティブドラマを体験し、カスタマイズするための最初のオープンソースツールキットである。効率的なマルチエージェントアーキテクチャと階層型検索ベースのメモリシステムによる事前処理を洗練する。
論文参考訳（メタデータ） (2025-09-20T14:53:14Z)
ToolACE-MT: Non-Autoregressive Generation for Agentic Multi-Turn Interaction [84.90394416593624]
大規模言語モデル(LLM)によるエージェント的タスク解決には,多ターン・マルチステップインタラクションが必要である。既存のシミュレーションベースのデータ生成手法は、複数のエージェント間のコストのかかる自己回帰的相互作用に大きく依存している。本稿では,高品質なマルチターンエージェント対話を構築するための非自己回帰反復生成フレームワークであるToolACE-MTを提案する。
論文参考訳（メタデータ） (2025-08-18T07:38:23Z)
Talk Structurally, Act Hierarchically: A Collaborative Framework for LLM Multi-Agent Systems [10.67359331022116]
textitTalk 構造的には、Act Hierarchically (TalkHier) はコンテキスト豊富な交換のための構造化通信プロトコルを導入する新しいフレームワークである。 textitTalkHierは、推論スケーリングモデル(OpenAI-o1)、オープンソースのマルチエージェントモデル(AgentVerseなど)など、さまざまな種類のSoTAを追い越している。
論文参考訳（メタデータ） (2025-02-16T12:26:58Z)
APT: Architectural Planning and Text-to-Blueprint Construction Using Large Language Models for Open-World Agents [8.479128275067742]
本稿では,自律型エージェントによるMinecraftの複雑な構造構築を可能にする,LLM(Large Language Model)駆動のフレームワークを提案する。連鎖分解とマルチモーダル入力を用いることで、このフレームワークは詳細なアーキテクチャレイアウトと青写真を生成する。本エージェントは, メモリとリフレクションモジュールの両方を組み込んで, 生涯学習, 適応的洗練, エラー訂正を容易にする。
論文参考訳（メタデータ） (2024-11-26T09:31:28Z)
Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。提案手法では,WavLMとWhisperエンコーダを用いて,話者の特徴や意味的文脈に敏感な多面的音声表現を抽出する。包括的実験により,カクテルパーティーのシナリオにおいて提案システムであるMT-LLMが期待できる性能を示した。
論文参考訳（メタデータ） (2024-09-13T07:28:28Z)
AgentRE: An Agent-Based Framework for Navigating Complex Information Landscapes in Relation Extraction [10.65417796726349]
複雑なシナリオにおける関係抽出(RE)は、多種多様な関係型や単一の文内のエンティティ間のあいまいな関係のような課題に直面します。本稿では,複雑なシナリオにおいてREを実現するために,大規模言語モデルの可能性を完全に活用するエージェントベースのREフレームワークであるAgentREを提案する。
論文参考訳（メタデータ） (2024-09-03T12:53:05Z)
The Compressor-Retriever Architecture for Language Model OS [20.56093501980724]
オペレーティングシステム(OS)のコアコンポーネントとして言語モデルを用いるという概念について検討する。このようなLM OSを実現する上で重要な課題は、寿命の長いコンテキストを管理し、セッション間のステートフルネスを確保することだ。本稿では,生涯のコンテキスト管理のために設計されたモデル非依存アーキテクチャであるコンプレッサー・レトリバーを紹介する。
論文参考訳（メタデータ） (2024-09-02T23:28:15Z)
Hello Again! LLM-powered Personalized Agent for Long-term Dialogue [63.65128176360345]
モデルに依存しない長期対話エージェント(LD-Agent)を導入する。イベント認識、ペルソナ抽出、応答生成のための3つの独立した調整可能なモジュールが組み込まれている。 LD-Agentの有効性, 汎用性, クロスドメイン性について実験的に検証した。
論文参考訳（メタデータ） (2024-06-09T21:58:32Z)
HELPER-X: A Unified Instructable Embodied Agent to Tackle Four Interactive Vision-Language Domains with Memory-Augmented Language Models [13.963676467274109]
我々は、より広い例とプロンプトでメモリを拡張することで、HELPERの機能を拡張する。この単純なHELPERの共有メモリへの拡張により、エージェントは対話、自然言語の命令、アクティブな質問、一般的な部屋の再編成から計画を実行するドメイン間で作業することができる。本稿では,AChRED,TAA,DialFRED,Tidy Taskの4種類の対話型視覚言語エンボディエージェントについて評価を行った。
論文参考訳（メタデータ） (2024-04-29T19:12:42Z)
DFA-RAG: Conversational Semantic Router for Large Language Model with Definite Finite Automaton [44.26173742405563]
本稿では,Definite Finite Automaton (DFA-RAG)を用いた検索強化大言語モデルを提案する。 DFA-RAGは,大規模言語モデル(LLM)を用いた対話エージェントの機能向上を目的としたフレームワークである。
論文参考訳（メタデータ） (2024-02-06T21:14:45Z)
DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文参考訳（メタデータ） (2024-01-02T07:40:12Z)
Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文参考訳（メタデータ） (2023-12-05T06:02:21Z)
Self-Explanation Prompting Improves Dialogue Understanding in Large Language Models [52.24756457516834]
大規模言語モデル(LLM)の理解能力を高めるための新たな「自己説明(Self-Explanation)」を提案する。このタスクに依存しないアプローチでは、タスク実行前の各対話発話を分析し、様々な対話中心のタスクのパフォーマンスを向上させる必要がある。 6つのベンチマークデータセットによる実験結果から,本手法は他のゼロショットプロンプトよりも一貫して優れており,数ショットプロンプトの有効性を超えていることが明らかとなった。
論文参考訳（メタデータ） (2023-09-22T15:41:34Z)
A Mixture-of-Expert Approach to RL-based Dialogue Management [56.08449336469477]
我々は、強化学習を用いて、近視性(一般的な発話の出力)を回避し、全体的なユーザ満足度を最大化する対話エージェントを開発する。既存のRLアプローチのほとんどは、単語レベルでエージェントを訓練するので、中規模の語彙であっても、非常に複雑なアクション空間を扱う必要がある。 i)会話履歴の多様な意味を学習できるLMと、(ii)対応する発話を生成できる専門的なLM(または専門家)からなる、新しい専門家言語モデル(MoE-LM)を用いたRLベースのDMを開発する。
論文参考訳（メタデータ） (2022-05-31T19:00:41Z)
Video-Grounded Dialogues with Pretrained Generation Language Models [88.15419265622748]
我々は、ビデオ地上対話を改善するために、事前学習された言語モデルのパワーを利用する。本稿では,シーケンス・ツー・グラウンドの対話タスクを,シーケンス・トゥ・グラウンドのタスクとして定式化するフレームワークを提案する。我々のフレームワークは、微調整の言語モデルで複数のモダリティにまたがる依存関係をキャプチャできる。
論文参考訳（メタデータ） (2020-06-27T08:24:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。