論文の概要: Memory-Driven Self-Improvement for Decision Making with Large Language Models
- arxiv url: http://arxiv.org/abs/2509.26340v1
- Date: Tue, 30 Sep 2025 14:46:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.170602
- Title: Memory-Driven Self-Improvement for Decision Making with Large Language Models
- Title(参考訳): 大規模言語モデルによる意思決定のためのメモリ駆動型自己改善
- Authors: Xue Yan, Zijing Ou, Mengyue Yang, Yan Song, Haifeng Zhang, Yingzhen Li, Jun Wang,
- Abstract要約: 大規模言語モデル(LLM)は、シーケンシャルな意思決定タスクのための効果的なアクションポリシーとして登場した。
本稿では,LLMの事前知識とドメイン固有体験のコンパクトメモリを組み合わせた,メモリ駆動型自己改善フレームワークを提案する。
- 参考スコア(独自算出の注目度): 26.996248662693997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have emerged as effective action policies for sequential decision-making (SDM) tasks due to their extensive prior knowledge. However, this broad yet general knowledge is often insufficient for specific decision-making tasks with limited task-related data, making it challenging to efficiently adapt LLMs to specific SDM tasks. To address this challenge, we propose a memory-driven self-improvement framework that combines LLM general prior knowledge with a compact memory of domain-specific experiences. Memory retains past interactions and associated Q-values, thereby capturing decision-relevant knowledge that facilitates accurate value estimation and informs the LLM prior refinement. The refined LLM prior, in turn, generates higher-reward trajectories that further enrich memory, forming a natural self-improvement framework where memory and LLM prior mutually reinforce each other. Experiments show that our memory-driven approach significantly outperforms both traditional RL and LLM-based baselines, e.g., improving performance by over 40\% on in-distribution tasks and over 75\% when generalized to unseen tasks in ALFWorld.
- Abstract(参考訳): 大規模言語モデル (LLM) は、事前知識が豊富なため、シーケンシャル意思決定 (SDM) タスクの効果的なアクションポリシーとして登場した。
しかし、この広範かつ一般的な知識は、タスク関連の限られたデータを持つ特定の意思決定タスクには不十分であり、特定のSDMタスクにLLMを効率的に適応することは困難である。
この課題に対処するために,LLMの事前知識とドメイン固有体験のコンパクトメモリを組み合わせた,メモリ駆動型自己改善フレームワークを提案する。
メモリは過去の相互作用と関連するQ-値を保持し、正確な値推定を容易にする決定関連知識を捕捉し、LCMの事前改善を通知する。
改良されたLDMは、メモリをさらに強化し、メモリとLDMが相互に強化される自然な自己改善フレームワークを形成する。
実験により、我々のメモリ駆動アプローチは従来のRLとLLMベースのベースライン、例えば、流通中のタスクで40%以上、ALFWorldで目に見えないタスクに一般化すると75%以上の性能向上を著しく上回っていることがわかった。
関連論文リスト
- Memory-R1: Enhancing Large Language Model Agents to Manage and Utilize Memories via Reinforcement Learning [59.16831804985279]
大規模言語モデル(LLM)は、幅広いNLPタスクで印象的な機能を示しているが、基本的にはステートレスである。
この制限に対処する最近の取り組みは、外部メモリバンクでLLMを増強することが多いが、既存のパイプラインのほとんどは静的で学習されている。
本稿では,LLMに外部メモリを積極的に管理・活用する機能を備えた強化学習フレームワークであるMemory-R1を提案する。
論文 参考訳(メタデータ) (2025-08-27T12:26:55Z) - Learn to Memorize: Optimizing LLM-based Agents with Adaptive Memory Framework [33.739298910759544]
メモリサイクルをモデル化し,適応型・データ駆動型メモリフレームワークを用いたLCMエージェントの最適化を提案する。
具体的には、メモリ検索を容易にするためのMoEゲート関数を設計し、メモリ利用を改善するための学習可能な集約プロセスを提案し、メモリ記憶に適応するためのタスク固有のリフレクションを開発する。
論文 参考訳(メタデータ) (2025-08-15T12:22:52Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - KBM: Delineating Knowledge Boundary for Adaptive Retrieval in Large Language Models [69.99274367773997]
大規模言語モデル(LLM)は知識を動的に変化させ、未知の静的情報を扱うのにしばしば苦労する。
Retrieval-Augmented Generation (RAG) はこれらの課題に対処するために使われ、LLMの性能向上に大きな影響を与えている。
本稿では,ある質問の既知/未知を表現し,RAGを起動する必要があるかどうかを判断するための知識境界モデル(KBM)を提案する。
論文 参考訳(メタデータ) (2024-11-09T15:12:28Z) - Efficient Reinforcement Learning with Large Language Model Priors [18.72288751305885]
大規模言語モデル(LLM)は、最近、強力な汎用ツールとして登場した。
本稿では,従来の行動分布としてLLMを扱い,それらをRLフレームワークに統合することを提案する。
LLMに基づくアクションの事前処理を取り入れることで、探索と複雑性の最適化が大幅に削減されることを示す。
論文 参考訳(メタデータ) (2024-10-10T13:54:11Z) - MemLLM: Finetuning LLMs to Use An Explicit Read-Write Memory [49.96019697955383]
本稿では,構造化および明示的な読み書きメモリモジュールを統合することで,大規模言語モデル(LLM)の拡張手法であるMemLLMを紹介する。
実験の結果, 言語モデリング, 特に知識集約型タスクにおいて, MemLLMはLLMの性能と解釈可能性を向上させることが示唆された。
論文 参考訳(メタデータ) (2024-04-17T18:13:16Z) - LLM-based Medical Assistant Personalization with Short- and Long-Term Memory Coordination [20.269899169364397]
大規模言語モデル(LLM)は、自然言語の理解と生成に優れた能力を発揮している。
本稿では,パラメータ効率のよい微細チューニング(PEFT)スキーマを備え,医療アシスタントをパーソナライズするための新しい計算バイオニックメモリ機構を提案する。
論文 参考訳(メタデータ) (2023-09-21T00:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。