論文の概要: FURINA: A Fully Customizable Role-Playing Benchmark via Scalable Multi-Agent Collaboration Pipeline
- arxiv url: http://arxiv.org/abs/2510.06800v1
- Date: Wed, 08 Oct 2025 09:30:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.387476
- Title: FURINA: A Fully Customizable Role-Playing Benchmark via Scalable Multi-Agent Collaboration Pipeline
- Title(参考訳): FURINA: スケーラブルなマルチエージェントコラボレーションパイプラインによる完全なカスタマイズ可能なロールプレイングベンチマーク
- Authors: Haotian Wu, Shufan Jiang, Chios Chen, Yiyang Feng, Hehai Lin, Heqing Zou, Yao Shu, Yanran Li, Chengwei Qin,
- Abstract要約: FURINA-Builderは、任意のスケールで完全にカスタマイズ可能なRPベンチマークを自動的に構築する、新しいマルチエージェントコラボレーションパイプラインである。
RP領域の最初のベンチマークビルダーとして、さまざまなシナリオやプロンプトフォーマットで任意の文字を評価できる。
このパイプラインを使用して、確立されたテスト文字と合成されたテスト文字の両方を特徴とする、新しい包括的なロールプレイングベンチマークであるFURINA-Benchを構築します。
- 参考スコア(独自算出の注目度): 27.44767619907412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) advance in role-playing (RP) tasks, existing benchmarks quickly become obsolete due to their narrow scope, outdated interaction paradigms, and limited adaptability across diverse application scenarios. To address this gap, we introduce FURINA-Builder, a novel multi-agent collaboration pipeline that automatically constructs fully customizable RP benchmarks at any scale. It enables evaluation of arbitrary characters across diverse scenarios and prompt formats, as the first benchmark builder in RP area for adaptable assessment. FURINA-Builder simulates dialogues between a test character and other characters drawn from a well-constructed character-scene pool, while an LLM judge selects fine-grained evaluation dimensions and adjusts the test character's responses into final test utterances. Using this pipeline, we build FURINA-Bench, a new comprehensive role-playing benchmark featuring both established and synthesized test characters, each assessed with dimension-specific evaluation criteria. Human evaluation and preliminary separability analysis justify our pipeline and benchmark design. We conduct extensive evaluations of cutting-edge LLMs and find that o3 and DeepSeek-R1 achieve the best performance on English and Chinese RP tasks, respectively. Across all models, established characters consistently outperform synthesized ones, with reasoning capabilities further amplifying this disparity. Interestingly, we observe that model scale does not monotonically reduce hallucinations. More critically, for reasoning LLMs, we uncover a novel trade-off: reasoning improves RP performance but simultaneously increases RP hallucinations. This trade-off extends to a broader Pareto frontier between RP performance and reliability for all LLMs. These findings demonstrate the effectiveness of FURINA-Builder and the challenge posed by FURINA-Bench.
- Abstract(参考訳): 大きな言語モデル(LLM)がロールプレイング(RP)タスクに進歩するにつれて、既存のベンチマークはその範囲が狭く、時代遅れな相互作用パラダイムがあり、多様なアプリケーションシナリオにまたがる適応性に制限があるため、すぐに時代遅れになる。
このギャップに対処するために、あらゆるスケールで完全にカスタマイズ可能なRPベンチマークを自動的に構築する、新しいマルチエージェントコラボレーションパイプラインであるFURINA-Builderを紹介します。
RP領域の最初のベンチマークビルダーとして、さまざまなシナリオやプロンプトフォーマットで任意の文字の評価を可能にする。
FURINA-Builderは、よく構築されたキャラクタシーンプールから引き出されたテストキャラクタと他のキャラクタとの対話をシミュレートし、LCM判定器は、きめ細かい評価寸法を選択し、テストキャラクタの応答を最終テスト発話に調整する。
このパイプラインを用いて、確立されたテスト文字と合成されたテスト文字の両方を特徴とする、新しい総合的なロールプレイングベンチマークであるFURINA-Benchを構築し、それぞれが次元別評価基準で評価する。
人間の評価と予備的分離性分析は、パイプラインとベンチマーク設計を正当化する。
我々は,最先端LLMの広範囲な評価を行い,o3とDeepSeek-R1がそれぞれ英語と中国語のRPタスクにおいて最高の性能を発揮することを発見した。
すべてのモデルにおいて、確立された文字は一貫して合成文字よりも優れており、推論能力はこの格差をさらに増幅する。
興味深いことに、モデルスケールは幻覚を単調に減らさない。
より重要なことは、LLMの推論において、推論はRP性能を向上するが、同時にRP幻覚を増大させるという、新しいトレードオフを明らかにすることである。
このトレードオフは、RP性能と全てのLLMの信頼性の間のより広いParetoフロンティアにまで拡張されている。
これらの結果から, FURINA-Builderの有効性とFURINA-Benchによる課題が示唆された。
関連論文リスト
- LLM Agents at the Roundtable: A Multi-Perspective and Dialectical Reasoning Framework for Essay Scoring [16.19003387026304]
Roundtable Essay Scoring (RES) は、ゼロショット設定で正確でヒューマンアライメントのスコアリングを行うために設計されたマルチエージェント評価フレームワークである。
RESは弁証的推論プロセスを通じて個々の評価を集約し、最終的な総合的なスコアを生成する。
ChatGPTとClaudeを用いたASAPデータセットの実験では、RESは素早いプロンプトよりも平均QWKを34.86%改善した。
論文 参考訳(メタデータ) (2025-09-18T10:55:33Z) - What to Ask Next? Probing the Imaginative Reasoning of LLMs with TurtleSoup Puzzles [26.90890466164784]
TurtleSoup-Benchは、想像的推論のための、最初の大規模、バイリンガル、インタラクティブなベンチマークである。
また,この環境下でのLLMの性能を評価するための新しいエージェントであるMosaic-Agentを提案する。
論文 参考訳(メタデータ) (2025-08-14T05:55:42Z) - RMTBench: Benchmarking LLMs Through Multi-Turn User-Centric Role-Playing [111.06936588273868]
RMTBenchは、80の多様な文字と8000以上の対話ラウンドを特徴とする、総合的なテキストバプサー中心のバイリンガルロールプレイングベンチマークである。
本ベンチマークでは,文字記述よりも明示的なユーザモチベーションに基づく対話を構築し,実用的なユーザアプリケーションとの整合性を確保する。
RMTBenchは、キャラクタバックグラウンドからユーザ意図のフルフィルメントにフォーカスを移すことで、学術的な評価と実践的なデプロイメント要件のギャップを埋める。
論文 参考訳(メタデータ) (2025-07-27T16:49:47Z) - StoryBench: A Dynamic Benchmark for Evaluating Long-Term Memory with Multi Turns [7.60350050736492]
長期記憶は、自律的な知性を達成するために、大規模言語モデルにとって不可欠である。
既存のベンチマークでは、知識保持と動的シーケンシャル推論を評価する上で、課題に直面している。
インタラクティブなフィクションゲームに基づく新しいベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-16T10:54:31Z) - RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - A Personalized Conversational Benchmark: Towards Simulating Personalized Conversations [112.81207927088117]
PersonaConvBenchは、大規模言語モデル(LLM)とのマルチターン会話におけるパーソナライズされた推論と生成を評価するためのベンチマークである。
我々は,複数の商用およびオープンソース LLM を統一的なプロンプト設定でベンチマークし,パーソナライズされた履歴を組み込むことで大幅な性能向上が得られることを観察した。
論文 参考訳(メタデータ) (2025-05-20T09:13:22Z) - FB-Bench: A Fine-Grained Multi-Task Benchmark for Evaluating LLMs' Responsiveness to Human Feedback [33.532239489610056]
FB-Benchは、中国語の実際の使用シナリオ下での人間のフィードバックに対する大規模言語モデルの応答性を評価するために設計されたベンチマークである。
我々は,多種多様なLLMを広範囲に評価し,異なる相互作用シナリオにおける性能の顕著な変動を明らかにした。
我々の研究結果は、現在のモデルの強みと限界の両方を強調し、将来の研究に価値ある洞察と方向性を提供する。
論文 参考訳(メタデータ) (2024-10-12T07:40:01Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。