論文の概要: TimeChara: Evaluating Point-in-Time Character Hallucination of Role-Playing Large Language Models
- arxiv url: http://arxiv.org/abs/2405.18027v1
- Date: Tue, 28 May 2024 10:19:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 19:08:25.467616
- Title: TimeChara: Evaluating Point-in-Time Character Hallucination of Role-Playing Large Language Models
- Title(参考訳): TimeChara:ロールプレイング大言語モデルのポイント・イン・タイムキャラクタの幻覚評価
- Authors: Jaewoo Ahn, Taehyun Lee, Junyoung Lim, Jin-Hwa Kim, Sangdoo Yun, Hwaran Lee, Gunhee Kim,
- Abstract要約: 我々は,ロールプレイング LLM におけるポイントインタイムキャラクタ幻覚を評価するための新しいベンチマーク TimeChara を紹介する。
そこで本研究では,物語専門家を駆使したナラティブ・エクササイズ(Narrative-Experts)を提案する。
- 参考スコア(独自算出の注目度): 55.51648393234699
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) can serve as agents to simulate human behaviors (i.e., role-playing agents), we emphasize the importance of point-in-time role-playing. This situates characters at specific moments in the narrative progression for three main reasons: (i) enhancing users' narrative immersion, (ii) avoiding spoilers, and (iii) fostering engagement in fandom role-playing. To accurately represent characters at specific time points, agents must avoid character hallucination, where they display knowledge that contradicts their characters' identities and historical timelines. We introduce TimeChara, a new benchmark designed to evaluate point-in-time character hallucination in role-playing LLMs. Comprising 10,895 instances generated through an automated pipeline, this benchmark reveals significant hallucination issues in current state-of-the-art LLMs (e.g., GPT-4o). To counter this challenge, we propose Narrative-Experts, a method that decomposes the reasoning steps and utilizes narrative experts to reduce point-in-time character hallucinations effectively. Still, our findings with TimeChara highlight the ongoing challenges of point-in-time character hallucination, calling for further study.
- Abstract(参考訳): 大規模言語モデル(LLM)は人間の行動(例えばロールプレイングエージェント)をシミュレートするエージェントとして機能するが、ポイントインタイムロールプレイングの重要性を強調している。
これは、物語の進行の特定の瞬間の登場人物を3つの主な理由から定めている。
(i)利用者の物語の没入感を高めること。
(二)スポイラーを避けて、
(三)ファンダムロールプレイングにおけるエンゲージメントの育成。
特定の時点の文字を正確に表現するためには、エージェントは文字幻覚を避ける必要がある。
我々は,ロールプレイング LLM におけるポイントインタイムキャラクタ幻覚を評価するための新しいベンチマーク TimeChara を紹介する。
自動パイプラインを通じて生成される10,895のインスタンスを補完するこのベンチマークは、現在の最先端のLCM(例えば、GPT-4o)において、重大な幻覚の問題を明らかにする。
この課題に対処するため,ナラティブ・エクササイズ (Narrative-Experts) を提案する。
しかし、TimeCharaによる我々の発見は、現在進行中のポイント・イン・タイム・キャラクタ幻覚の課題を強調し、さらなる研究を求めている。
関連論文リスト
- Capturing Minds, Not Just Words: Enhancing Role-Playing Language Models with Personality-Indicative Data [58.92110996840019]
本稿では、パーソナリティを指標としたデータを用いて、ロールプレイング言語モデル(RPLM)を強化することを提案する。
具体的には、心理学的尺度からの質問を活用し、高度なRPAを蒸留し、文字の心を把握した対話を生成する。
実験により,本データセットを用いてトレーニングしたRPLMは,一般人格関連評価と人格関連評価の両面において,高度なロールプレイング能力を示した。
論文 参考訳(メタデータ) (2024-06-27T06:24:00Z) - Mitigating Hallucination in Fictional Character Role-Play [19.705708068900076]
我々は、架空のキャラクターロールプレイにおける幻覚の評価と緩和に焦点を当てる。
本稿では,知識の影響を調節して幻覚を緩和するロールプレイング手法であるRoleFactを提案する。
論文 参考訳(メタデータ) (2024-06-25T03:56:33Z) - CHIRON: Rich Character Representations in Long-Form Narratives [98.273323001781]
文字のテキスト情報を整理・フィルタリングする新しい文字シートの表現であるCHIRONを提案する。
実験の結果,CHIRONは類似の要約に基づくベースラインよりも優れ,柔軟であることが判明した。
CHIRONから派生したメトリクスは、ストーリーのキャラクター中心性を自動的に推測するために使用することができ、これらのメトリクスは人間の判断と一致している。
論文 参考訳(メタデータ) (2024-06-14T17:23:57Z) - Enhancing Consistency and Role-Specific Knowledge Capturing by Rebuilding Fictional Character's Persona [6.220415006158471]
アシスタントAPIは、情報抽出部が毎回異なるため、検索でしばしば達成できない。
Assistants APIへの入力としてペルソナドキュメントを使用することで、一貫性のあるペルソナを維持するのは難しい。
CharacterGPTは、Assistants APIの欠点を軽減する新しいペルソナ再構築フレームワークである。
論文 参考訳(メタデータ) (2024-05-30T07:44:16Z) - InCharacter: Evaluating Personality Fidelity in Role-Playing Agents through Psychological Interviews [57.04431594769461]
本稿では, RPAの性格的忠実度を心理的尺度で評価するための新しい視点を紹介する。
実験には様々な種類の RPA と LLM が含まれ、14の広く使用されている心理学的尺度で32の異なる文字をカバーしている。
InCharacterでは、現在最先端のRPAが人物の人格と高度に一致した個性を示し、80.7%の精度を達成している。
論文 参考訳(メタデータ) (2023-10-27T08:42:18Z) - Character-LLM: A Trainable Agent for Role-Playing [67.35139167985008]
大規模言語モデル(LLM)は、人間の振る舞いをシミュレートするエージェントとして用いられる。
本稿では, ベートーヴェン, クレオパトラ女王, ユリウス・カエサルなど, LLM に特定の人物として行動するように教えるキャラクタ-LLMを紹介する。
論文 参考訳(メタデータ) (2023-10-16T07:58:56Z) - AutoAD II: The Sequel -- Who, When, and What in Movie Audio Description [95.70092272297704]
フレーム,キャストリスト,音声の時間的位置のCLIP視覚的特徴を考慮し,映画ADを自動生成する新しいモデルを開発した。
我々は、アプレットとアプレットの比較において、ADテキスト生成の以前のアーキテクチャよりもどのように改善されているかを実証する。
論文 参考訳(メタデータ) (2023-10-10T17:59:53Z) - NarrativePlay: Interactive Narrative Understanding [27.440721435864194]
本研究では,ユーザが架空のキャラクターをロールプレイし,没入感のある環境で他のキャラクターと対話できる新しいシステムであるNarrativePlayを紹介する。
我々はLarge Language Models(LLMs)を利用して、物語から抽出された性格特性によって導かれる人間的な応答を生成する。
ナラティブプレイは2種類の物語、探偵と冒険の物語で評価されており、ユーザーは世界を探索したり、会話を通じて物語のキャラクターと親しみやすくしたりすることができる。
論文 参考訳(メタデータ) (2023-10-02T13:24:00Z) - "Let Your Characters Tell Their Story": A Dataset for Character-Centric
Narrative Understanding [31.803481510886378]
文芸作品の新しいデータセットLiSCUとその要約を、それらに現れる文字の記述と組み合わせて紹介する。
また、LiSCUにおける文字識別と文字記述生成という2つの新しいタスクについても紹介する。
これらの課題に適応した事前学習型言語モデルを用いた実験により,より優れた物語理解モデルの必要性が示された。
論文 参考訳(メタデータ) (2021-09-12T06:12:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。