論文の概要: Convert Language Model into a Value-based Strategic Planner
- arxiv url: http://arxiv.org/abs/2505.06987v2
- Date: Wed, 11 Jun 2025 09:49:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-12 23:41:16.671847
- Title: Convert Language Model into a Value-based Strategic Planner
- Title(参考訳): 言語モデルを価値に基づく戦略的プランナに変換する
- Authors: Xiaoyu Wang, Yue Zhao, Qingqing Gu, Zhonglin Jiang, Xiaokai Chen, Yong Chen, Luo Ji,
- Abstract要約: 感情支援会話(ESC)は、効果的な会話を通じて個人の感情的苦痛を軽減することを目的としている。
状態モデルの観点からダイアグラムを定義するために,straQ* というフレームワークを提案する。
当社のフレームワークでは,ESC中にLCMをブートストラップし,長期的リターンに基づいて最適な戦略を決定し,最終的にLSMの応答を誘導する。
- 参考スコア(独自算出の注目度): 11.070654717643816
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Emotional support conversation (ESC) aims to alleviate the emotional distress of individuals through effective conversations. Although large language models (LLMs) have obtained remarkable progress on ESC, most of these studies might not define the diagram from the state model perspective, therefore providing a suboptimal solution for long-term satisfaction. To address such an issue, we leverage the Q-learning on LLMs, and propose a framework called straQ*. Our framework allows a plug-and-play LLM to bootstrap the planning during ESC, determine the optimal strategy based on long-term returns, and finally guide the LLM to response. Substantial experiments on ESC datasets suggest that straQ* outperforms many baselines, including direct inference, self-refine, chain of thought, finetuning, and finite state machines.
- Abstract(参考訳): 感情支援会話(ESC)は、効果的な会話を通じて個人の感情的苦痛を軽減することを目的としている。
大規模言語モデル(LLM)はESCにおいて顕著な進歩を遂げているが、これらの研究の多くは状態モデルの観点から図を定義していないため、長期的な満足度に対する準最適解を提供する。
このような問題に対処するために,LLM上でのQラーニングを活用し,straQ*というフレームワークを提案する。
当社のフレームワークでは,ESC中にLCMをブートストラップし,長期的リターンに基づいて最適な戦略を決定し,最終的にLSMの応答を誘導する。
ESCデータセットの実質的な実験は、 StraQ* が直接推論、自己定義、思考の連鎖、微調整、有限状態機械など、多くのベースラインを上回っていることを示唆している。
関連論文リスト
- FiSMiness: A Finite State Machine Based Paradigm for Emotional Support Conversations [11.718316719735832]
感情支援会話(ESC)は、効果的な会話を通じて個人の感情的苦痛を軽減することを目的としている。
我々は、FSM(Finite State Machine)を大規模言語モデルに活用し、FiSMinessと呼ばれるフレームワークを提案する。
我々のフレームワークは、単一のLCMがESC中のプランニングをブートストラップし、探索者の感情、支援戦略、そして各会話のターンに対する最終応答を自己推論することを可能にする。
論文 参考訳(メタデータ) (2025-04-16T07:52:06Z) - Guiding Reasoning in Small Language Models with LLM Assistance [23.3038074903744]
小さな言語モデルは、深く、多段階の論理的推論を必要とするタスクに適していると疑念を抱いた。
本稿では,Small Reasons, Large Hintsというフレームワークについて紹介する。
数学的推論データセットを用いた実験により, ターゲットとなる外部足場の性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2025-04-14T06:32:45Z) - Option Discovery Using LLM-guided Semantic Hierarchical Reinforcement Learning [16.654435148168172]
大規模言語モデル(LLM)は、推論と意思決定において顕著な将来性を示している。
サンプル効率,一般化,マルチタスク適応性を向上させるため,LDSCと呼ばれるLCM誘導階層型RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-24T15:49:56Z) - Embodied CoT Distillation From LLM To Off-the-shelf Agents [6.318203525449058]
DeDerは、大規模言語モデル(LLM)から具体的推論能力を分解し、蒸留するためのフレームワークである。
ALFREDベンチマークによる我々の実験は、DeDerが先進的な言語計画と蒸留アプローチを超越していることを示している。
論文 参考訳(メタデータ) (2024-12-16T07:18:02Z) - ESC-Eval: Evaluating Emotion Support Conversations in Large Language Models [55.301188787490545]
Emotion Support Conversation (ESC)は、人間のストレスを減らし、感情的なガイダンスを提供し、人間の精神的および身体的幸福を高めることを目的としている。
ロールプレイングエージェントを用いてESCモデルと対話するESC評価フレームワーク(ESC-Eval)を提案する。
異なるESCモデルの対話型マルチターン対話において、包括的なヒューマンアノテーションを行う。
論文 参考訳(メタデータ) (2024-06-21T08:03:33Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - AutoPlan: Automatic Planning of Interactive Decision-Making Tasks With
Large Language Models [11.895111124804503]
AutoPlanは、LCMベースのエージェントをガイドして、対話的な意思決定タスクを実現するアプローチである。
実験の結果,AutoPlanはベースラインと同等の成功率を達成した。
論文 参考訳(メタデータ) (2023-05-24T11:52:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。