論文の概要: Enhancing Decision-Making for LLM Agents via Step-Level Q-Value Models
- arxiv url: http://arxiv.org/abs/2409.09345v1
- Date: Sat, 14 Sep 2024 07:32:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 21:19:23.532317
- Title: Enhancing Decision-Making for LLM Agents via Step-Level Q-Value Models
- Title(参考訳): ステップレベルQ値モデルによるLCMエージェントの意思決定強化
- Authors: Yuanzhao Zhai, Tingkai Yang, Kele Xu, Feng Dawei, Cheng Yang, Bo Ding, Huaimin Wang,
- Abstract要約: 本稿では,タスク関連Q値モデルを用いて行動選択を導出する手法を提案する。
その結果,Q値モデルの性能は大幅に向上した。
- 参考スコア(独自算出の注目度): 22.43652231336764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agents significantly enhance the capabilities of standalone Large Language Models (LLMs) by perceiving environments, making decisions, and executing actions. However, LLM agents still face challenges in tasks that require multiple decision-making steps. Estimating the value of actions in specific tasks is difficult when intermediate actions are neither appropriately rewarded nor penalized. In this paper, we propose leveraging a task-relevant Q-value model to guide action selection. Specifically, we first collect decision-making trajectories annotated with step-level Q values via Monte Carlo Tree Search (MCTS) and construct preference data. We then use another LLM to fit these preferences through step-level Direct Policy Optimization (DPO), which serves as the Q-value model. During inference, at each decision-making step, LLM agents select the action with the highest Q value before interacting with the environment. We apply our method to various open-source and API-based LLM agents, demonstrating that Q-value models significantly improve their performance. Notably, the performance of the agent built with Phi-3-mini-4k-instruct improved by 103% on WebShop and 75% on HotPotQA when enhanced with Q-value models, even surpassing GPT-4o-mini. Additionally, Q-value models offer several advantages, such as generalization to different LLM agents and seamless integration with existing prompting strategies.
- Abstract(参考訳): エージェントは、環境を認識し、決定し、アクションを実行することで、スタンドアロンの大規模言語モデル(LLM)の機能を大幅に強化する。
しかし、LLMエージェントは、複数の意思決定ステップを必要とするタスクにおいて、依然として課題に直面している。
特定のタスクにおけるアクションの価値を推定することは、中間アクションが適切に報酬や罰せられなければ難しい。
本稿では,タスク関連Q値モデルを用いて行動選択を誘導する手法を提案する。
具体的には、まずモンテカルロ木探索(MCTS)を通してステップレベルのQ値に注釈を付けた意思決定トラジェクトリを収集し、選好データを構成する。
次に、Q値モデルとして機能するステップレベルの直接ポリシー最適化(DPO)を通じて、これらの嗜好に適合する別のLCMを使用します。
推論中、各意思決定ステップにおいて、LLMエージェントは環境と対話する前に、最も高いQ値のアクションを選択する。
提案手法を様々なオープンソースおよびAPIベースのLCMエージェントに適用し,Q値モデルによる性能向上を実証した。
特に、Phi-3-mini-4k-インストラクタで構築したエージェントの性能は、WebShopで103%向上し、Q値モデルで強化されたHotPotQAで75%向上し、GPT-4o-miniを上回った。
さらに、Q値モデルには、異なるLLMエージェントへの一般化や既存のプロンプト戦略とのシームレスな統合など、いくつかの利点がある。
関連論文リスト
- Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。
既存の評価は最終的な成功率にのみ依存する傾向がある。
本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:00Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Efficient Sequential Decision Making with Large Language Models [19.083642464977224]
本稿では,大規模言語モデル(LLM)の成功を逐次意思決定に拡張することに焦点を当てる。
既存の取り組みは、 (i) 意思決定のための再訓練または微調整 LLM または (ii) 事前訓練された LLM の設計プロンプトのいずれかである。
本稿では,オンラインモデル選択アルゴリズムを活用してLLMエージェントを逐次意思決定に効率的に組み込む手法を提案する。
論文 参考訳(メタデータ) (2024-06-17T22:13:22Z) - Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。
現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文 参考訳(メタデータ) (2024-03-29T03:48:12Z) - DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。
デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-27T12:26:07Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - KECP: Knowledge Enhanced Contrastive Prompting for Few-shot Extractive
Question Answering [28.18555591429343]
我々はKECP(Knowledge Enhanced Contrastive Prompt-tuning)という新しいフレームワークを提案する。
PLMにポインタヘッドを追加する代わりに、タスクを非自己回帰型マスケッド言語モデリング(MLM)生成問題に変換する。
提案手法は,数ショット設定における最先端のアプローチを大きなマージンで一貫して上回っている。
論文 参考訳(メタデータ) (2022-05-06T08:31:02Z) - Simple and Efficient ways to Improve REALM [24.182528719468227]
REALM(Guu et al., 2020)は、下流QA効率を改善するための事前トレーニングに依存するエンドツーエンドの高密度検索システムです。
Denseは、人気のあるスパース検索手法を超越して、Open Domain QAの関連文書の検索に有効であることが示されている。
論文 参考訳(メタデータ) (2021-04-18T04:32:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。