論文の概要: Guess What I am Thinking: A Benchmark for Inner Thought Reasoning of Role-Playing Language Agents
- arxiv url: http://arxiv.org/abs/2503.08193v1
- Date: Tue, 11 Mar 2025 08:57:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:44:11.120014
- Title: Guess What I am Thinking: A Benchmark for Inner Thought Reasoning of Role-Playing Language Agents
- Title(参考訳): 私が考えていること:ロールプレイング言語エージェントの内的思考推論のためのベンチマーク
- Authors: Rui Xu, MingYu Wang, XinTao Wang, Dakuan Lu, Xiaoyu Tan, Wei Chu, Yinghui Xu,
- Abstract要約: ロールプレイング言語エージェント(RPLA)の内部思考プロセスは未解明のままである。
ROLETHINKは、文字の思考生成を評価するための文献から構築された新しいベンチマークである。
記憶を抽出し、文字反応を予測し、モチベーションを合成することで、文字思考を創り出す、チェーンオブ思考アプローチであるMIRRORを提案する。
- 参考スコア(独自算出の注目度): 48.52216655094884
- License:
- Abstract: Recent advances in LLM-based role-playing language agents (RPLAs) have attracted broad attention in various applications. While chain-of-thought reasoning has shown importance in many tasks for LLMs, the internal thinking processes of RPLAs remain unexplored. Understanding characters' inner thoughts is crucial for developing advanced RPLAs. In this paper, we introduce ROLETHINK, a novel benchmark constructed from literature for evaluating character thought generation. We propose the task of inner thought reasoning, which includes two sets: the gold set that compares generated thoughts with original character monologues, and the silver set that uses expert synthesized character analyses as references. To address this challenge, we propose MIRROR, a chain-of-thought approach that generates character thoughts by retrieving memories, predicting character reactions, and synthesizing motivations. Through extensive experiments, we demonstrate the importance of inner thought reasoning for RPLAs, and MIRROR consistently outperforms existing methods. Resources are available at https://github.com/airaer1998/RPA_Thought.
- Abstract(参考訳): LLMに基づくロールプレイング言語エージェント(RPLA)の最近の進歩は、様々な用途で広く注目を集めている。
チェーン・オブ・ソート推論はLLMにおける多くのタスクにおいて重要であるが、RPLAの内部思考プロセスは未解明のままである。
文字の内的思考を理解することは、高度なRPLAを開発する上で不可欠である。
本稿では,文字思考生成評価のための文献から構築した新しいベンチマークROLETHINKを紹介する。
本稿では、生成した思考と原文字のモノローグを比較対象とするゴールドセットと、専門家合成文字分析を参照として利用する銀セットの2つのセットを含む内的思考推論の課題を提案する。
この課題に対処するために,記憶を抽出し,文字反応を予測し,モチベーションを合成することで,文字思考を生成するチェーン・オブ・シント手法であるMIRRORを提案する。
広範囲な実験を通じて、RPLAに対する内的思考推論の重要性が示され、MIRRORは既存の手法よりも一貫して優れていた。
リソースはhttps://github.com/airaer1998/RPA_Thoughtで入手できる。
関連論文リスト
- Beyond Profile: From Surface-Level Facts to Deep Persona Simulation in LLMs [50.0874045899661]
本稿では,キャラクタの言語パターンと特徴的思考過程の両方を再現するモデルであるキャラクタボットを紹介する。
ケーススタディとしてLu Xunを用いて、17冊のエッセイコレクションから得られた4つのトレーニングタスクを提案する。
これには、外部の言語構造と知識を習得することに焦点を当てた事前訓練タスクと、3つの微調整タスクが含まれる。
言語的正確性と意見理解の3つのタスクにおいて、キャラクタボットを評価し、適応されたメトリクスのベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-02-18T16:11:54Z) - ToMATO: Verbalizing the Mental States of Role-Playing LLMs for Benchmarking Theory of Mind [25.524355451378593]
ToMATOは、会話よりもマルチチョイスQAとして定式化された新しいToMベンチマークである。
私たちは、信念、意図、欲望、感情、知識の5つのカテゴリにまたがって、一階と二階の精神状態を取ります。
ToMATOは5.4kの質問、753の会話、15の性格特性パターンで構成されている。
論文 参考訳(メタデータ) (2025-01-15T14:47:02Z) - The Essence of Contextual Understanding in Theory of Mind: A Study on Question Answering with Story Characters [67.61587661660852]
理論・オブ・ミンド(ToM)は、人間が他者の精神状態を理解し解釈することを可能にする。
本稿では,ToMにおける長期的個人的背景を理解することの重要性を検証する。
現実的な評価シナリオにおける機械のToM能力の評価を行う。
論文 参考訳(メタデータ) (2025-01-03T09:04:45Z) - Iteration of Thought: Leveraging Inner Dialogue for Autonomous Large Language Model Reasoning [0.0]
反復的人間のエンゲージメントは、大規模言語モデル(LLM)の高度な言語処理能力を活用するための一般的かつ効果的な手段である。
思考の反復(IoT)フレームワークを提案する。
静的アプローチや半静的アプローチとは異なり、IoTは進化するコンテキストに基づいて推論パスを動的に適応する。
論文 参考訳(メタデータ) (2024-09-19T09:44:17Z) - Thinking Before Speaking: A Role-playing Model with Mindset [0.6428333375712125]
大規模言語モデル(LLM)は人間の振る舞いをシミュレートする能力を持っている。
これらのモデルは、想定される役割が持たないという知識に直面すると、パフォーマンスが悪くなります。
本稿では,TBS(Thinking Before Talk)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-14T02:41:48Z) - The Drama Machine: Simulating Character Development with LLM Agents [1.999925939110439]
本稿では,多言語モデル (LLM) エージェントを用いたドラマティックシナリオにおける複雑な動的キャラクタのシミュレートについて検討する。
本稿では,異なる「エゴ」と「スーパーエゴ」の心理的役割を演じるLLMエージェント間の相互作用を協調するドラママシンフレームワークを提案する。
結果として、このマルチエージェントアプローチは、対話的なターンの連続を通して進化する、よりニュアンスで適応的な物語を生み出すことができることが示唆された。
論文 参考訳(メタデータ) (2024-08-03T09:40:26Z) - Reasoning in Conversation: Solving Subjective Tasks through Dialogue
Simulation for Large Language Models [56.93074140619464]
本稿では,対話シミュレーションによる主観的課題の解決に焦点を当てたRiC(Reasoning in Conversation)を提案する。
RiCのモチベーションは、チェーン・オブ・ソート・スタイルの合理性を提供するのではなく、対話をシミュレートすることで有用な文脈情報をマイニングすることである。
GPT-4、ChatGPT、OpenChatなど、APIベースのLLMとオープンソースのLLMの両方を12のタスクで評価する。
論文 参考訳(メタデータ) (2024-02-27T05:37:10Z) - Generating Chain-of-Thoughts with a Pairwise-Comparison Approach to Searching for the Most Promising Intermediate Thought [70.30423016640749]
CoT法(Chain-of- Thoughts)は、大規模言語モデルにステップバイステップの推論を誘導し、単純から複雑への問題解決を可能にする手法である。
大規模言語モデル (LLMs) による評価は、一般的にうるさく、信頼できないものであり、将来有望な中間的思考を選択する際の生成過程を誤解させる可能性がある。
本稿では,Vapnikの原理を動機として,ポイントワイドスコアではなくペアワイズ比較評価を用いて,有望な中間思考を探索する。
論文 参考訳(メタデータ) (2024-02-10T09:51:03Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。