論文の概要: Beyond One World: Benchmarking Super Heros in Role-Playing Across Multiversal Contexts
- arxiv url: http://arxiv.org/abs/2510.14351v1
- Date: Thu, 16 Oct 2025 06:39:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.749318
- Title: Beyond One World: Benchmarking Super Heros in Role-Playing Across Multiversal Contexts
- Title(参考訳): Beyond One World: ロールプレイングにおけるスーパーヒーローのベンチマーク
- Authors: Perapard Ngokpol, Kun Kerdthaisong, Pasin Buakhaw, Pitikorn Khlaisamniang, Supasate Vorathammathorn, Piyalitt Ittichaiwong, Nutchanon Yongsatianchot,
- Abstract要約: Beyond One Worldは、30の象徴的ヒーローと90のキヤノン固有のバージョンにまたがるキャラクターグラウンドのロールプレイのベンチマークである。
正準精度と推論忠実度に応答する。
理由と行動の一致を定量化する尺度であるThink-Act Matchingを提案する。
- 参考スコア(独自算出の注目度): 2.2816872489992135
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) are increasingly used as role-playing agents, yet their capacity to faithfully and consistently portray version-specific characters -- for example, superheroes across comic and cinematic universes -- remains underexplored. Superhero canons such as Marvel and DC provide a rich testbed: decades of storytelling yield multiple incarnations of the same character with distinct histories, values, and moral codes. To study this problem, we introduce Beyond One World, a benchmark for character-grounded roleplay spanning 30 iconic heroes and 90 canon-specific versions. The benchmark comprises two tasks: (i) Canon Events, which probes factual recall of pivotal life stages, and (ii) Moral Dilemmas, which confronts models with ethically charged scenarios. We score responses for canonical accuracy and reasoning fidelity under a framework that separates internal deliberation ("thinking") from outward decisions ("acting"). We further propose Think-Act Matching, a metric that quantifies alignment between reasons and actions and serves as a proxy for model trustworthiness. Experiments across reasoning- and non-reasoning-oriented models yield three findings: (1) chain-of-thought prompting improves narrative coherence in weaker models but can reduce canonical accuracy in stronger ones; (2) cross-version generalization within a character remains a major obstacle; and (3) models often excel at either thinking or acting, but rarely both. Beyond One World exposes critical gaps in multiversal consistency and reasoning alignment, offering a challenging evaluation for role-playing LLMs.
- Abstract(参考訳): 大型言語モデル(LLM)はロールプレイングエージェントとしての利用が増えているが、コミックや映画の世界にまたがるスーパーヒーローなど、バージョン固有のキャラクターを忠実かつ一貫して表現する能力はいまだに未熟である。
マーベルやDCのようなスーパーヒーローのカノンは豊富なテストベッドを提供しており、ストーリーテリングの数十年は、異なる歴史、価値観、道徳的規範を持つ同じキャラクターの複数の化身を生み出す。
この問題を研究するために,30の象徴的ヒーローと90のキヤノン固有のバージョンにまたがるキャラクタグラウンドのロールプレイのベンチマークであるBeyond One Worldを紹介した。
ベンチマークには2つのタスクが含まれている。
一 中心的な生活段階の事実の思い出を調査するキヤノン行事及び
モラル・ジレンマ(Moral Dilemmas) 倫理的なシナリオでモデルに直面する。
我々は、内部の熟考(思考)と外向きの決定(行動)を分離する枠組みの下で、正準精度と推論の忠実さの応答をスコアする。
さらに、理由と行動のアライメントを定量化し、モデル信頼性のプロキシとして機能するThink-Act Matchingを提案する。
推論モデルと非推論モデルによる実験では,(1)より弱いモデルにおける物語のコヒーレンスを向上するが,より強いモデルでは正準精度を低下させることができること,(2)キャラクタ内のクロスバージョン一般化は大きな障害であり,(3)モデルは思考や行動において優れることが多いが,どちらもまれである。
Beyond One Worldは、マルチバーサル整合性と推論整合性において重要なギャップを露呈し、ロールプレイング LLM に対する挑戦的な評価を提供する。
関連論文リスト
- MORABLES: A Benchmark for Assessing Abstract Moral Reasoning in LLMs with Fables [50.29407048003165]
MORABLESは,歴史文献から引用されたファブレットと短編から構築された人間検証ベンチマークである。
主なタスクは、道徳的推論をターゲットとした複数選択の質問として構成されており、モデルが浅く抽出された質問応答を超えるよう挑戦する注意深い注意を払っている。
以上の結果から,より大きなモデルはより小さなモデルよりも優れているが,敵の操作に敏感であり,真の道徳的推論よりも表面的パターンに頼っていることが示唆された。
論文 参考訳(メタデータ) (2025-09-15T19:06:10Z) - MotiveBench: How Far Are We From Human-Like Motivational Reasoning in Large Language Models? [43.58975298601617]
MotiveBenchは200のリッチなコンテキストシナリオと、複数のモチベーションレベルをカバーする600の推論タスクで構成されている。
私たちは7つの人気のあるモデルファミリーの実験を行い、各ファミリー内の異なるスケールとバージョンを比較します。
その結果、最も先進的なLSMでさえ、人間のような動機づけを達成できないことが明らかとなった。
論文 参考訳(メタデータ) (2025-06-16T03:18:28Z) - Movie Facts and Fibs (MF$^2$): A Benchmark for Long Movie Understanding [97.05584099530226]
MF$2$は、モデルがフル長の映画から重要な物語情報を理解し、統合し、思い出せるかどうかを評価するための新しいベンチマークである。
各ペアについて、モデルは真と偽のクレームの両方を正しく識別する必要がある。
実験の結果、オープンウェイトモデルとクローズド・オブ・ザ・アーティファクトモデルの両方が人間のパフォーマンスにかなり劣っていることがわかった。
論文 参考訳(メタデータ) (2025-06-06T17:58:36Z) - Guess What I am Thinking: A Benchmark for Inner Thought Reasoning of Role-Playing Language Agents [48.52216655094884]
ロールプレイング言語エージェント(RPLA)の内部思考プロセスは未解明のままである。
ROLETHINKは、文字の思考生成を評価するための文献から構築された新しいベンチマークである。
記憶を抽出し、文字反応を予測し、モチベーションを合成することで、文字思考を創り出す、チェーンオブ思考アプローチであるMIRRORを提案する。
論文 参考訳(メタデータ) (2025-03-11T08:57:07Z) - CharacterBox: Evaluating the Role-Playing Capabilities of LLMs in Text-Based Virtual Worlds [74.02480671181685]
ロールプレイングは大規模言語モデル(LLM)の重要な機能である
現在の評価手法は, 実演に不可欠なニュアンス特性や動作を適切に把握するに足りていない。
本研究では,キャラクタボックスを提案する。キャラクタボックスは,キャラクタの微粒な挙動を再現するシミュレーションサンドボックスである。
論文 参考訳(メタデータ) (2024-12-07T12:09:35Z) - ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life
Videos [53.92440577914417]
ACQUIREDは3.9Kの注釈付きビデオで構成され、幅広いイベントタイプを包含し、ファーストパーソンとサードパーソンの両方の視点を取り入れている。
各ビデオは、物理的、社会的、時間的な3つの異なる推論の次元にまたがる質問で注釈付けされている。
我々は,現在最先端の言語のみおよびマルチモーダルモデルに対して,我々のデータセットをベンチマークし,実験結果から大きな性能差が示された。
論文 参考訳(メタデータ) (2023-11-02T22:17:03Z) - How FaR Are Large Language Models From Agents with Theory-of-Mind? [69.41586417697732]
大規模言語モデル(LLM)に対する新たな評価パラダイムを提案する。
T4Dは、他者の精神状態に関する推論を社会的シナリオにおける行動に結びつけるモデルを必要とする。
ゼロショットプロンプトフレームワークであるフォアシー・アンド・リフレクション(FaR)を導入し,LCMが今後の課題を予測できるように推論構造を提供する。
論文 参考訳(メタデータ) (2023-10-04T06:47:58Z) - Better Zero-Shot Reasoning with Role-Play Prompting [10.90357246745529]
ロールプレイプロンプトは、ほとんどのデータセットで標準のゼロショットアプローチを一貫して上回っている。
これは、大きな言語モデルの推論能力を増強する可能性を強調している。
論文 参考訳(メタデータ) (2023-08-15T11:08:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。