論文の概要: RPA-Check: A Multi-Stage Automated Framework for Evaluating Dynamic LLM-based Role-Playing Agents
- arxiv url: http://arxiv.org/abs/2604.11655v1
- Date: Mon, 13 Apr 2026 16:08:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.667363
- Title: RPA-Check: A Multi-Stage Automated Framework for Evaluating Dynamic LLM-based Role-Playing Agents
- Title(参考訳): RPA-Check:動的LLMベースのロールプレイングエージェント評価のためのマルチステージ自動フレームワーク
- Authors: Riccardo Rosati, Edoardo Colucci, Massimiliano Bolognini, Adriano Mancini, Paolo Sernani,
- Abstract要約: 本稿では,LLM ベースの RPA の性能を客観的に評価する多段階自動評価フレームワーク RPA-Check を紹介する。
我々は,この枠組みを,いくつかの定量化ローカルモデルを含む法医学的な訓練のための真剣なゲームであるLLM Courtに適用することで検証する。
- 参考スコア(独自算出の注目度): 4.07447364754644
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The rapid adoption of Large Language Models (LLMs) in interactive systems has enabled the creation of dynamic, open-ended Role-Playing Agents (RPAs). However, evaluating these agents remains a significant challenge, as standard NLP metrics fail to capture the nuances of role adherence, logical consistency, and long-term narrative stability. This paper introduces RPA-Check, a multi-stage automated evaluation framework designed to objectively assess the performance of LLM-based RPAs in complex, constraints-heavy environments. Our methodology is based on a four-step pipeline: (1) Dimension Definition, establishing high-level qualitative behavioral criteria; (2) Augmentation, where these requirements are expanded into granular boolean checklist indicators; (3) Semantic Filtering, to ensure indicator objectivity, no redundancy and agent isolation; and (4) LLM-as-a-Judge Evaluation, which employs chain-of-thought verification to score agent fidelity. We validate this framework by applying it to LLM Court, a serious game for forensic training involving several quantized local models. Experimental results across five distinct legal scenarios demonstrate the framework's ability to identify subtle trade-offs between model size, reasoning depth, and operational stability. Notably, the findings reveal an inverse relationship between parametric scale and procedural consistency, showing that smaller, adequately instruction-tuned models (8-9B) can outperform larger architectures prone to user-alignment bias or sycophancy. RPA-Check thus provides a standardized and reproducible metric for future research in generative agent evaluation within specialized domains.
- Abstract(参考訳): 対話型システムにおけるLarge Language Models (LLM) の急速な採用により、動的でオープンなRole-Playing Agents (RPAs) の作成が可能になった。
しかしながら、これらのエージェントを評価することは、標準的なNLPメトリクスが役割の順守、論理的整合性、長期の物語安定性のニュアンスを捉えるのに失敗するため、大きな課題である。
本稿では,多段階自動評価フレームワークであるRPA-Checkを紹介する。
提案手法は,(1)次元定義,高レベルの質的行動基準の設定,(2)細粒度ブールチェックリスト指標への要件拡張,(3)指標の客観性,冗長性,エージェント分離の確保のための意味的フィルタリング,(4)エージェントの忠実度を評価するチェーン・オブ・ザ・ア・ジャッジ・ア・ジャッジ・アセスメントの4段階のパイプラインに基づく。
我々は,この枠組みを,いくつかの定量化ローカルモデルを含む法医学的な訓練のための真剣なゲームであるLLM Courtに適用することで検証する。
5つの異なる法的シナリオにわたる実験結果は、フレームワークがモデルサイズ、推論深さ、運用安定性の間の微妙なトレードオフを識別する能力を示している。
特に、パラメトリックスケールと手続き整合性の逆関係が明らかとなり、より小さく、適切に訓練されたモデル(8-9B)は、ユーザアライメントバイアスやサイコフィケーションに起因した大きなアーキテクチャよりも優れていることが示された。
したがって、RPA-Checkは、特殊なドメイン内の生成エージェント評価における将来の研究のための標準化され再現可能なメトリクスを提供する。
関連論文リスト
- SAGE: A Service Agent Graph-guided Evaluation Benchmark [27.342044311161654]
本稿では,SAGE(Service Agent Graph-Guided Evaluation)を提案する。
SAGEは構造化されていないSOPを動的ダイアロググラフに形式化し、論理的コンプライアンスの正確な検証を可能にする。
また、モデルが論理的失敗にもかかわらず丁寧な会話ファサードを維持する現象である「共感回復」も観察する。
論文 参考訳(メタデータ) (2026-04-10T12:55:23Z) - AgentCollab: A Self-Evaluation-Driven Collaboration Paradigm for Efficient LLM Agents [37.232397795331444]
我々は,エージェント実行中に異なる推論能力を持つモデルを動的にコーディネートする,自己駆動型協調推論フレームワークであるAgenCollabを提案する。
外部ルーティングモジュールに頼る代わりに、このフレームワークはエージェント自身の自己反射信号を使用して、現在の推論軌道が有意義な進歩を遂げているかどうかを判断する。
論文 参考訳(メタデータ) (2026-03-27T03:07:34Z) - Deconstructing Instruction-Following: A New Benchmark for Granular Evaluation of Large Language Model Instruction Compliance Abilities [2.9203730377983654]
既存のベンチマークでは、実際の使用を反映したり、コンプライアンスをタスクの成功から分離することができない。
アプリケーション指向の生成制約を最大20個まで含む動的に生成されたデータセットを使用するモジュール型フレームワークであるMOSAICを紹介した。
コンプライアンスはモノリシックな機能ではなく、制約タイプ、量、位置によって大きく異なります。
論文 参考訳(メタデータ) (2026-01-26T15:02:15Z) - Tractable Asymmetric Verification for Large Language Models via Deterministic Replicability [0.6117371161379209]
大規模言語モデル(LLM)の展望は、動的でマルチエージェントなシステムへと急速にシフトします。
本稿では, トラクタブルな非対称な作業を実現するための検証フレームワークを提案する。
対象検定は全再生の12倍以上の速さで行うことができる。
論文 参考訳(メタデータ) (2025-09-14T03:30:06Z) - Statistical Runtime Verification for LLMs via Robustness Estimation [0.0]
ランタイムクリティカルなアプリケーションにLLM(Large Language Models)を安全にデプロイするためには、逆の堅牢性検証が不可欠である。
ブラックボックス配置環境におけるLCMのオンライン実行時ロバスト性モニタとしての可能性を評価するために,RoMA統計検証フレームワークを適応・拡張するケーススタディを提案する。
論文 参考訳(メタデータ) (2025-04-24T16:36:19Z) - FACT-AUDIT: An Adaptive Multi-Agent Framework for Dynamic Fact-Checking Evaluation of Large Language Models [79.41859481668618]
大規模言語モデル(LLM)はファクトチェック研究を大幅に進歩させた。
既存のファクトチェック評価手法は静的データセットと分類基準に依存している。
本稿では, LLMのファクトチェック機能を適応的かつ動的に評価するエージェント駆動型フレームワークであるFACT-AUDITを紹介する。
論文 参考訳(メタデータ) (2025-02-25T07:44:22Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。