論文の概要: RoleBreak: Character Hallucination as a Jailbreak Attack in Role-Playing Systems
- arxiv url: http://arxiv.org/abs/2409.16727v1
- Date: Wed, 25 Sep 2024 08:23:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 04:50:49.382713
- Title: RoleBreak: Character Hallucination as a Jailbreak Attack in Role-Playing Systems
- Title(参考訳): RoleBreak:ロールプレイングシステムにおけるジェイルブレイク攻撃としてのキャラクター幻覚
- Authors: Yihong Tang, Bo Wang, Xu Wang, Dongming Zhao, Jing Liu, Jijun Zhang, Ruifang He, Yuexian Hou,
- Abstract要約: 大規模言語モデル(LLM)を利用したロールプレイングシステムは,感情コミュニケーションアプリケーションにおいてますます影響力を増している。
これらのシステムは、事前に定義されたキャラクターロールから逸脱し、意図されたペルソナと矛盾しない応答を生成するという、キャラクター幻覚の影響を受けやすい。
本稿では,RoleBreakフレームワークを導入し,攻撃的視点からキャラクターの幻覚を初めて体系的に分析する。
- 参考スコア(独自算出の注目度): 20.786294377706717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Role-playing systems powered by large language models (LLMs) have become increasingly influential in emotional communication applications. However, these systems are susceptible to character hallucinations, where the model deviates from predefined character roles and generates responses that are inconsistent with the intended persona. This paper presents the first systematic analysis of character hallucination from an attack perspective, introducing the RoleBreak framework. Our framework identifies two core mechanisms-query sparsity and role-query conflict-as key factors driving character hallucination. Leveraging these insights, we construct a novel dataset, RoleBreakEval, to evaluate existing hallucination mitigation techniques. Our experiments reveal that even enhanced models trained to minimize hallucination remain vulnerable to attacks. To address these vulnerabilities, we propose a novel defence strategy, the Narrator Mode, which generates supplemental context through narration to mitigate role-query conflicts and improve query generalization. Experimental results demonstrate that Narrator Mode significantly outperforms traditional refusal-based strategies by reducing hallucinations, enhancing fidelity to character roles and queries, and improving overall narrative coherence.
- Abstract(参考訳): 大規模言語モデル(LLM)を利用したロールプレイングシステムは,感情コミュニケーションアプリケーションにおいてますます影響力を増している。
しかしながら、これらのシステムは、事前に定義されたキャラクターの役割から逸脱し、意図されたペルソナと矛盾しない応答を生成するという、キャラクター幻覚の影響を受けやすい。
本稿では,RoleBreakフレームワークを導入し,攻撃的視点からキャラクターの幻覚を初めて体系的に分析する。
本フレームワークでは, キャラクタ幻覚を駆動する要因として, 2つのコアメカニズム, スパーシリティとロールクエリコンフリクトを同定する。
これらの知見を活用して、既存の幻覚緩和技術を評価するために、新しいデータセットRoleBreakEvalを構築した。
実験の結果、幻覚を最小化するために訓練されたモデルでさえ、攻撃に対して脆弱であることが判明した。
これらの脆弱性に対処するため,ナレーションによって補足的コンテキストを生成する新たな防衛戦略であるナレーターモードを提案し,役割クエリの競合を緩和し,クエリの一般化を改善する。
実験の結果,ナレーターモードは幻覚を減らし,キャラクタロールやクェリへの忠実度を高め,全体的な物語コヒーレンスを向上させることによって,従来の拒絶に基づく戦略を著しく上回ることが示された。
関連論文リスト
- Eliciting Language Model Behaviors with Investigator Agents [93.34072434845162]
言語モデルは、自由形式のテキストで促されるとき、複雑で多様な振る舞いを示す。
本研究の目的は,特定の対象行動を引き起こすプロンプトを探索することである。
我々は調査員モデルを訓練し、ランダムに目的とする振る舞いを、それらを引き出す出力の多様な分布にマッピングする。
論文 参考訳(メタデータ) (2025-02-03T10:52:44Z) - Illusions of Relevance: Using Content Injection Attacks to Deceive Retrievers, Rerankers, and LLM Judges [52.96987928118327]
検索,リランカー,大型言語モデル(LLM)の埋め込みモデルは,コンテンツインジェクション攻撃に対して脆弱であることがわかった。
主な脅威は,(1) 意味不明な内容や有害な内容の挿入,(2) 関連性を高めるために,問合せ全体あるいはキークエリ用語の挿入,の2つである。
本研究は, 注射内容の配置や関連物質と非関連物質とのバランスなど, 攻撃の成功に影響を与える要因を系統的に検討した。
論文 参考訳(メタデータ) (2025-01-30T18:02:15Z) - CharacterBox: Evaluating the Role-Playing Capabilities of LLMs in Text-Based Virtual Worlds [74.02480671181685]
ロールプレイングは大規模言語モデル(LLM)の重要な機能である
現在の評価手法は, 実演に不可欠なニュアンス特性や動作を適切に把握するに足りていない。
本研究では,キャラクタボックスを提案する。キャラクタボックスは,キャラクタの微粒な挙動を再現するシミュレーションサンドボックスである。
論文 参考訳(メタデータ) (2024-12-07T12:09:35Z) - SHARP: Unlocking Interactive Hallucination via Stance Transfer in Role-Playing Agents [12.990119925990477]
多様な世界観においてインタラクティブなパターンを解き放つための、一般化可能で明示的で効果的なパラダイムを提案する。
具体的には、姿勢伝達に基づく対話型幻覚を定義し、一般的なコモンセンス知識グラフから関係を抽出し、ベンチマークSHARPを構築する。
本研究は,これらの指標に影響を及ぼす要因を考察し,役割に対する盲目の忠誠心と,RPAにおける事実への固執とのトレードオフについて考察した。
論文 参考訳(メタデータ) (2024-11-12T17:41:16Z) - Mitigating Hallucination in Fictional Character Role-Play [19.705708068900076]
我々は、架空のキャラクターロールプレイにおける幻覚の評価と緩和に焦点を当てる。
2,000人以上のキャラクタと72,000人のインタビューを含むデータセットを導入し、18,000人の敵の質問を行った。
パラメトリック知識の影響を調節して幻覚を緩和するロールプレイング手法であるRoleFactを提案する。
論文 参考訳(メタデータ) (2024-06-25T03:56:33Z) - TimeChara: Evaluating Point-in-Time Character Hallucination of Role-Playing Large Language Models [55.51648393234699]
我々は,ロールプレイング LLM におけるポイントインタイムキャラクタ幻覚を評価するための新しいベンチマーク TimeChara を紹介する。
そこで本研究では,物語専門家を駆使したナラティブ・エクササイズ(Narrative-Experts)を提案する。
論文 参考訳(メタデータ) (2024-05-28T10:19:18Z) - A Cause-Effect Look at Alleviating Hallucination of Knowledge-grounded Dialogue Generation [51.53917938874146]
我々は,対話知識の相互作用を利用して,KGDの幻覚を緩和するための解決策を提案する。
本手法は,他の対話性能を損なうことなく幻覚を低減できることを示す。
論文 参考訳(メタデータ) (2024-04-04T14:45:26Z) - Affective and Dynamic Beam Search for Story Generation [50.3130767805383]
面白い物語を生成するために、AffGen(Affective Story Generator)を提案する。
AffGenはDynamic Beam SizeとAffective Re rankという2つの新しいテクニックを採用している。
論文 参考訳(メタデータ) (2023-10-23T16:37:14Z) - M-SENSE: Modeling Narrative Structure in Short Personal Narratives Using
Protagonist's Mental Representations [14.64546899992196]
本研究では,登場人物の心的状態の推測を解析し,物語構造の顕著な要素を自動的に検出するタスクを提案する。
本稿では,物語構造の主要な要素,特にクライマックスと解像度のマニュアルアノテーションを含む,短い個人物語のSTORIESデータセットを紹介する。
我々のモデルは、クライマックスと解像度を識別するタスクにおいて、大幅な改善を達成できる。
論文 参考訳(メタデータ) (2023-02-18T20:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。