論文の概要: Talk Less, Call Right: Enhancing Role-Play LLM Agents with Automatic Prompt Optimization and Role Prompting
- arxiv url: http://arxiv.org/abs/2509.00482v1
- Date: Sat, 30 Aug 2025 12:45:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.252697
- Title: Talk Less, Call Right: Enhancing Role-Play LLM Agents with Automatic Prompt Optimization and Role Prompting
- Title(参考訳): 自動プロンプト最適化とロールプロンプトによるロールプレイ型LLMエージェントの強化
- Authors: Saksorn Ruangtanusak, Pittawat Taveekitworachai, Kunat Pipatanakul,
- Abstract要約: 本稿では,コモンセンス・ペルソナ・グラウンドド・ダイアログ・チャレンジ(CPDC)2025のAPIトラックにおけるロールプレイング・ダイアログ・エージェントとして機能するツール強化された大規模言語モデルを提案する。
この設定では、対話エージェントは、ペルソナに従って効果的にツールを使用するのに失敗しながら、非常に長い文字内応答(過剰に話す)を生成することが多い。
1)基本的な役割プロンプト、2)人為的な役割プロンプト、3)自動プロンプト最適化(APO)、4)ルールベースの役割プロンプトである。
- 参考スコア(独自算出の注目度): 5.349968796938335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This report investigates approaches for prompting a tool-augmented large language model (LLM) to act as a role-playing dialogue agent in the API track of the Commonsense Persona-grounded Dialogue Challenge (CPDC) 2025. In this setting, dialogue agents often produce overly long in-character responses (over-speaking) while failing to use tools effectively according to the persona (under-acting), such as generating function calls that do not exist or making unnecessary tool calls before answering. We explore four prompting approaches to address these issues: 1) basic role prompting, 2) human-crafted role prompting, 3) automatic prompt optimization (APO), and 4) rule-based role prompting. The rule-based role prompting (RRP) approach achieved the best performance through two novel techniques--character-card/scene-contract design and strict enforcement of function calling--which led to an overall score of 0.571, improving on the zero-shot baseline score of 0.519. These findings demonstrate that RRP design can substantially improve the effectiveness and reliability of role-playing dialogue agents compared with more elaborate methods such as APO. To support future efforts in developing persona prompts, we are open-sourcing all of our best-performing prompts and the APO tool. Source code is available at https://github.com/scb-10x/apo.
- Abstract(参考訳): 本稿では,コモンセンス・ペルソナ・グラウンド・ダイアログ・チャレンジ(CPDC)2025のAPIトラックにおいて,ツール拡張大型言語モデル(LLM)がロールプレイング・ダイアログエージェントとして機能するよう促すアプローチについて検討する。
この設定では、対話エージェントは、存在していない関数呼び出しの生成や、応答前に不要なツール呼び出しなど、ペルソナ(アンダーアクション)に従って効果的にツールを使用するのに失敗しながら、非常に長いインキャラクタ応答(過剰言語)を生成することが多い。
これらの問題に対処するための4つの急進的なアプローチを探る。
1)基本的な役割の促進
2)人為的な役割の促進
3)自動プロンプト最適化(APO)、および
4) ルールに基づく役割の促進。
ルールベースのロールプロンプト(RRP)アプローチは、文字カード/シーン契約設計と関数呼び出しの厳格な実施という2つの新しい手法によって最高のパフォーマンスを達成し、全体的なスコアは0.571となり、ゼロショットベースラインスコアは0.519となった。
これらの結果から,ROP設計は,APOなどのより精巧な手法と比較して,ロールプレイング対話エージェントの有効性と信頼性を大幅に向上できることが示された。
ペルソナプロンプトの開発における今後の取り組みを支援するため、私たちは、最高のパフォーマンスのプロンプトとAPOツールをすべてオープンソース化しています。
ソースコードはhttps://github.com/scb-10x/apo.comで入手できる。
関連論文リスト
- Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations [58.65755268815283]
多くの実際の対話は対話的であり、つまりエージェントの発話が会話の相手に影響を与えるか、情報を引き出すか、意見を変えるかである。
この事実を利用して、既存の最適データを書き直し、拡張し、オフライン強化学習(RL)を介してトレーニングする。
実際の人間によるユーザ調査の結果、我々のアプローチは既存の最先端の対話エージェントを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-07T21:37:51Z) - ReSpAct: Harmonizing Reasoning, Speaking, and Acting Towards Building Large Language Model-Based Conversational AI Agents [11.118991548784459]
大規模言語モデル(LLM)ベースのエージェントは、ますます外部環境との対話に使われている。
ReSpActは、タスク解決のための推論、意思決定、動的対話をシームレスに統合するように設計されている。
タスク指向対話システム(MultiWOZ)や意思決定タスク(ALFWorld, WebShop)を含むユーザインタラクション設定におけるReSpActの評価を行う。
論文 参考訳(メタデータ) (2024-11-01T15:57:45Z) - ERABAL: Enhancing Role-Playing Agents through Boundary-Aware Learning [17.5855800570993]
ヒューマン・コンピュータ・インタラクション(HCI)分野におけるロールプレイング
大幅な進歩にもかかわらず、ロールプレイングエージェント(RPLA)は、会話間のロール一貫性を維持するのに依然として苦労している。
境界認識学習によるロールプレイング能力向上を目的としたフレームワークであるERABALを提案する。
論文 参考訳(メタデータ) (2024-09-23T05:12:13Z) - ChatSOP: An SOP-Guided MCTS Planning Framework for Controllable LLM Dialogue Agents [52.7201882529976]
対話エージェントの制御性を高めるため,SOP誘導モンテカルロ木探索(MCTS)計画フレームワークを提案する。
これを実現するために、GPT-4oを用いた半自動ロールプレイシステムを用いて、SOPアノテーション付きマルチシナリオ対話からなるデータセットをキュレートする。
また、SOP予測のための教師付き微調整と思考の連鎖推論を統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T12:23:02Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - JoTR: A Joint Transformer and Reinforcement Learning Framework for
Dialog Policy Learning [53.83063435640911]
対話政策学習(DPL)は対話モデリングの重要な構成要素である。
フレキシブルな対話行動を生成するための新しいフレームワークであるJoTRを導入する。
従来の方法とは異なり、JoTRはよりダイナミックで適応可能な対話アクション生成を可能にするワードレベルのポリシーを定式化している。
論文 参考訳(メタデータ) (2023-09-01T03:19:53Z) - Cue-CoT: Chain-of-thought Prompting for Responding to In-depth Dialogue
Questions with LLMs [59.74002011562726]
我々は、よりパーソナライズされ魅力的な応答を提供するために、新しい言語的キューに基づく思考の連鎖(textitCue-CoT)を提案する。
中国語と英語の6つのデータセットからなる詳細な対話質問を用いたベンチマークを構築した。
実験により,提案手法は,すべてのデータセットにおいて,テクステルパーフルネスとテクスチタアクセプタビリティの両方の観点から,標準的プロンプト法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-19T16:27:43Z) - Dual Task Framework for Debiasing Persona-grounded Dialogue Dataset [17.403065663306567]
我々は、ペルソナ条件の対話エージェントを改善するために、データ中心のアプローチを導入する。
具体的には,2つのタスクの原始的双対構造を活用することで,対話データセット/エージェントを改善するための関連するペルソナを強化する。
Persona-Chat の実験により,本手法は訓練済みの LM よりも精度が 11.7 ポイント向上していることが示された。
論文 参考訳(メタデータ) (2022-02-11T04:08:46Z) - NaRLE: Natural Language Models using Reinforcement Learning with Emotion
Feedback [0.37277730514654556]
NARLEは、対話システムの自然言語理解を改善するためのフレームワークである。
2つの意図的分類問題に対して、事前学習された教師付き学習モデルの微調整に強化学習を用いることで、最大43%の性能を向上させることを実証的に示す。
論文 参考訳(メタデータ) (2021-10-05T16:24:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。