論文の概要: Can LLMs Simulate Personas with Reversed Performance? A Benchmark for Counterfactual Instruction Following
- arxiv url: http://arxiv.org/abs/2504.06460v1
- Date: Tue, 08 Apr 2025 22:00:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 22:04:02.474976
- Title: Can LLMs Simulate Personas with Reversed Performance? A Benchmark for Counterfactual Instruction Following
- Title(参考訳): LLMは逆性能のペルソナをシミュレートできるか?
- Authors: Sai Adith Senthil Kumar, Hao Yan, Saipavan Perepa, Murong Yue, Ziyu Yao,
- Abstract要約: 大規模言語モデル(LLM)は、仮想環境におけるペルソナのシミュレートに広く使われている。
現状のLLMでさえ、逆性能のペルソナをシミュレートできないことを示す。
- 参考スコア(独自算出の注目度): 12.668201122427101
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are now increasingly widely used to simulate personas in virtual environments, leveraging their instruction-following capability. However, we discovered that even state-of-the-art LLMs cannot simulate personas with reversed performance (e.g., student personas with low proficiency in educational settings), which impairs the simulation diversity and limits the practical applications of the simulated environments. In this work, using mathematical reasoning as a representative scenario, we propose the first benchmark dataset for evaluating LLMs on simulating personas with reversed performance, a capability that we dub "counterfactual instruction following". We evaluate both open-weight and closed-source LLMs on this task and find that LLMs, including the OpenAI o1 reasoning model, all struggle to follow counterfactual instructions for simulating reversedly performing personas. Intersectionally simulating both the performance level and the race population of a persona worsens the effect even further. These results highlight the challenges of counterfactual instruction following and the need for further research.
- Abstract(参考訳): 大規模言語モデル(LLM)は、仮想環境におけるペルソナをシミュレートし、命令追従機能を活用するために、ますます広く使われている。
しかし、現状のLLMでさえ、逆性能のペルソナ(例えば、教育環境の習熟度が低い学生ペルソナ)をシミュレートすることはできず、シミュレーションの多様性が損なわれ、シミュレートされた環境の実践的応用が制限されることが判明した。
本研究では, 数理推論を代表的なシナリオとして用い, 逆性能のペルソナをシミュレーションした LLM 評価のための最初のベンチマークデータセットを提案する。
この課題に対して,オープンウェイトとクローズドソースの両方のLLMを評価し,OpenAI o1推論モデルを含むLLMが,逆動作ペルソナをシミュレートする対実的な指示に従うのに苦労していることを見出した。
中間的に人格のパフォーマンスレベルと人種人口の両方をシミュレートすると、その効果はさらに悪化する。
これらの結果は, 反実的指導の課題とさらなる研究の必要性を浮き彫りにしている。
関連論文リスト
- Exploring Human-Like Thinking in Search Simulations with Large Language Models [9.825091149361208]
ユーザ検索行動のシミュレーションは情報検索において重要な課題である。
大規模言語モデル(LLM)の最近の進歩は、人間のようなアクションを生成する新しい可能性を開く。
我々は,LLMを利用してユーザの隠れ認知過程をシミュレートすることで,人間的な思考を探索シミュレーションに統合することを検討する。
論文 参考訳(メタデータ) (2025-04-10T09:04:58Z) - If an LLM Were a Character, Would It Know Its Own Story? Evaluating Lifelong Learning in LLMs [55.8331366739144]
大規模言語モデル(LLM)における生涯学習評価のためのベンチマークであるLIFESTATE-BENCHを紹介する。
我々の事実チェック評価は、パラメトリックと非パラメトリックの両方のアプローチで、モデルの自己認識、エピソードメモリ検索、関係追跡を探索する。
論文 参考訳(メタデータ) (2025-03-30T16:50:57Z) - Beyond Believability: Accurate Human Behavior Simulation with Fine-Tuned LLMs [26.506531028553795]
近年の研究では、LSMは人間の行動をシミュレートして、プロンプトのみの手法でLSMエージェントに電力を供給できることが示されている。
我々は Web アクション生成タスクにおいて,主観的信頼性よりも LLM の客観的精度を評価することに注力する。
本稿では,Web アクション生成タスクにおける最先端 LLM の総合的定量的評価について述べる。
論文 参考訳(メタデータ) (2025-03-26T17:33:27Z) - Process-based Self-Rewarding Language Models [47.119444722849025]
大規模言語モデルは、様々な下流タスクで優れたパフォーマンスを示し、複数のシナリオで広く適用されてきた。
人間の嗜好データは、人間のパフォーマンスの上限に制約されるLCMの性能をさらに向上させるために訓練に使用される。
本稿では,LLM-as-a-Judgeとステップワイズ優先最適化を導入した,言語モデルのためのプロセスベースの自己回帰パイプラインを提案する。
論文 参考訳(メタデータ) (2025-03-05T18:58:44Z) - Can LLMs Reliably Simulate Human Learner Actions? A Simulation Authoring Framework for Open-Ended Learning Environments [1.4999444543328293]
学習者の行動のシミュレーションは、ストレステストのオープンエンドな対話型学習環境を支援し、デプロイ前に新しい適応のプロトタイプを作成する。
我々は,学習者行動に関する検証可能な仮説を組み合わせることで,専門家がシミュレーションを開発し,評価できるシミュレーションオーサリングフレームワークHyp-Mixを提案する。
論文 参考訳(メタデータ) (2024-10-03T00:25:40Z) - CIBench: Evaluating Your LLMs with a Code Interpreter Plugin [68.95137938214862]
データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。
評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。
コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2024-07-15T07:43:55Z) - Mitigating Catastrophic Forgetting in Large Language Models with Self-Synthesized Rehearsal [49.24054920683246]
大規模言語モデル(LLM)は、連続学習中に破滅的な忘れ込みに悩まされる。
自己合成リハーサル(Self-Synthesized Rehearsal, SSR)と呼ばれるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-02T16:11:23Z) - How Far Are LLMs from Believable AI? A Benchmark for Evaluating the Believability of Human Behavior Simulation [46.42384207122049]
我々は,人間の振る舞いをシミュレートする際の大規模言語モデル (LLM) の信頼性を評価するために SimulateBench を設計する。
SimulateBenchに基づいて、文字をシミュレートする際、広く使われている10個のLLMの性能を評価する。
論文 参考訳(メタデータ) (2023-12-28T16:51:11Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - CoMPosT: Characterizing and Evaluating Caricature in LLM Simulations [61.9212914612875]
本研究では,LLMシミュレーションを4次元(コンテキスト,モデル,ペルソナ,トピック)で特徴付けるフレームワークを提案する。
我々は,この枠組みを用いて,オープンエンドLLMシミュレーションのキャラクチュアへの感受性を測定する。
GPT-4では、特定の人口動態(政治的・疎外化グループ)と話題(一般には非論争的)のシミュレーションは、似顔絵に非常に敏感であることが判明した。
論文 参考訳(メタデータ) (2023-10-17T18:00:25Z) - User Behavior Simulation with Large Language Model based Agents [116.74368915420065]
LLMベースのエージェントフレームワークを提案し,実際のユーザ動作をシミュレートするサンドボックス環境を設計する。
実験結果から,本手法のシミュレーション行動は実人の行動に非常に近いことが判明した。
論文 参考訳(メタデータ) (2023-06-05T02:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。