論文の概要: RoleBreak: Character Hallucination as a Jailbreak Attack in Role-Playing Systems
- arxiv url: http://arxiv.org/abs/2409.16727v1
- Date: Wed, 25 Sep 2024 08:23:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 04:50:49.382713
- Title: RoleBreak: Character Hallucination as a Jailbreak Attack in Role-Playing Systems
- Title(参考訳): RoleBreak:ロールプレイングシステムにおけるジェイルブレイク攻撃としてのキャラクター幻覚
- Authors: Yihong Tang, Bo Wang, Xu Wang, Dongming Zhao, Jing Liu, Jijun Zhang, Ruifang He, Yuexian Hou,
- Abstract要約: 大規模言語モデル(LLM)を利用したロールプレイングシステムは,感情コミュニケーションアプリケーションにおいてますます影響力を増している。
これらのシステムは、事前に定義されたキャラクターロールから逸脱し、意図されたペルソナと矛盾しない応答を生成するという、キャラクター幻覚の影響を受けやすい。
本稿では,RoleBreakフレームワークを導入し,攻撃的視点からキャラクターの幻覚を初めて体系的に分析する。
- 参考スコア(独自算出の注目度): 20.786294377706717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Role-playing systems powered by large language models (LLMs) have become increasingly influential in emotional communication applications. However, these systems are susceptible to character hallucinations, where the model deviates from predefined character roles and generates responses that are inconsistent with the intended persona. This paper presents the first systematic analysis of character hallucination from an attack perspective, introducing the RoleBreak framework. Our framework identifies two core mechanisms-query sparsity and role-query conflict-as key factors driving character hallucination. Leveraging these insights, we construct a novel dataset, RoleBreakEval, to evaluate existing hallucination mitigation techniques. Our experiments reveal that even enhanced models trained to minimize hallucination remain vulnerable to attacks. To address these vulnerabilities, we propose a novel defence strategy, the Narrator Mode, which generates supplemental context through narration to mitigate role-query conflicts and improve query generalization. Experimental results demonstrate that Narrator Mode significantly outperforms traditional refusal-based strategies by reducing hallucinations, enhancing fidelity to character roles and queries, and improving overall narrative coherence.
- Abstract(参考訳): 大規模言語モデル(LLM)を利用したロールプレイングシステムは,感情コミュニケーションアプリケーションにおいてますます影響力を増している。
しかしながら、これらのシステムは、事前に定義されたキャラクターの役割から逸脱し、意図されたペルソナと矛盾しない応答を生成するという、キャラクター幻覚の影響を受けやすい。
本稿では,RoleBreakフレームワークを導入し,攻撃的視点からキャラクターの幻覚を初めて体系的に分析する。
本フレームワークでは, キャラクタ幻覚を駆動する要因として, 2つのコアメカニズム, スパーシリティとロールクエリコンフリクトを同定する。
これらの知見を活用して、既存の幻覚緩和技術を評価するために、新しいデータセットRoleBreakEvalを構築した。
実験の結果、幻覚を最小化するために訓練されたモデルでさえ、攻撃に対して脆弱であることが判明した。
これらの脆弱性に対処するため,ナレーションによって補足的コンテキストを生成する新たな防衛戦略であるナレーターモードを提案し,役割クエリの競合を緩和し,クエリの一般化を改善する。
実験の結果,ナレーターモードは幻覚を減らし,キャラクタロールやクェリへの忠実度を高め,全体的な物語コヒーレンスを向上させることによって,従来の拒絶に基づく戦略を著しく上回ることが示された。
関連論文リスト
- Mitigating Hallucination in Fictional Character Role-Play [19.705708068900076]
我々は、架空のキャラクターロールプレイにおける幻覚の評価と緩和に焦点を当てる。
2,000人以上のキャラクタと72,000人のインタビューを含むデータセットを導入し、18,000人の敵の質問を行った。
パラメトリック知識の影響を調節して幻覚を緩和するロールプレイング手法であるRoleFactを提案する。
論文 参考訳(メタデータ) (2024-06-25T03:56:33Z) - TimeChara: Evaluating Point-in-Time Character Hallucination of Role-Playing Large Language Models [55.51648393234699]
我々は,ロールプレイング LLM におけるポイントインタイムキャラクタ幻覚を評価するための新しいベンチマーク TimeChara を紹介する。
そこで本研究では,物語専門家を駆使したナラティブ・エクササイズ(Narrative-Experts)を提案する。
論文 参考訳(メタデータ) (2024-05-28T10:19:18Z) - A Cause-Effect Look at Alleviating Hallucination of Knowledge-grounded Dialogue Generation [51.53917938874146]
我々は,対話知識の相互作用を利用して,KGDの幻覚を緩和するための解決策を提案する。
本手法は,他の対話性能を損なうことなく幻覚を低減できることを示す。
論文 参考訳(メタデータ) (2024-04-04T14:45:26Z) - Affective and Dynamic Beam Search for Story Generation [50.3130767805383]
面白い物語を生成するために、AffGen(Affective Story Generator)を提案する。
AffGenはDynamic Beam SizeとAffective Re rankという2つの新しいテクニックを採用している。
論文 参考訳(メタデータ) (2023-10-23T16:37:14Z) - Investigating Human-Identifiable Features Hidden in Adversarial
Perturbations [54.39726653562144]
我々の研究では、最大5つの攻撃アルゴリズムを3つのデータセットにわたって探索する。
対人摂動における人間の識別可能な特徴を同定する。
画素レベルのアノテーションを用いて、そのような特徴を抽出し、ターゲットモデルに妥協する能力を実証する。
論文 参考訳(メタデータ) (2023-09-28T22:31:29Z) - Conflicts, Villains, Resolutions: Towards models of Narrative Media
Framing [19.589945994234075]
我々は、物語の要素を明示的に捉えたコミュニケーション科学から、広く使われているフレーミングの概念化を再考する。
我々は、複雑なアノテーションタスクをより単純なバイナリー質問に分解する効果的なアノテーションパラダイムを適用します。
教師付きおよび半教師付きアプローチによるフレームの自動マルチラベル予測について検討する。
論文 参考訳(メタデータ) (2023-06-03T08:50:13Z) - M-SENSE: Modeling Narrative Structure in Short Personal Narratives Using
Protagonist's Mental Representations [14.64546899992196]
本研究では,登場人物の心的状態の推測を解析し,物語構造の顕著な要素を自動的に検出するタスクを提案する。
本稿では,物語構造の主要な要素,特にクライマックスと解像度のマニュアルアノテーションを含む,短い個人物語のSTORIESデータセットを紹介する。
我々のモデルは、クライマックスと解像度を識別するタスクにおいて、大幅な改善を達成できる。
論文 参考訳(メタデータ) (2023-02-18T20:48:02Z) - Adversarial Visual Robustness by Causal Intervention [56.766342028800445]
敵の訓練は、敵の例に対する事実上最も有望な防御である。
しかし、その受動性は必然的に未知の攻撃者への免疫を妨げる。
我々は、敵対的脆弱性の因果的視点を提供する: 原因は、学習に普遍的に存在する共同創設者である。
論文 参考訳(メタデータ) (2021-06-17T14:23:54Z) - Detecting Cross-Modal Inconsistency to Defend Against Neural Fake News [57.9843300852526]
我々は、画像やキャプションを含む機械生成ニュースに対して、より現実的で挑戦的な対策を導入する。
敵が悪用できる可能性のある弱点を特定するために、4つの異なる種類の生成された記事からなるNeuralNewsデータセットを作成します。
ユーザ実験から得られた貴重な知見に加えて,視覚的意味的不整合の検出にもとづく比較的効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2020-09-16T14:13:15Z) - Once Upon A Time In Visualization: Understanding the Use of Textual
Narratives for Causality [21.67542584041709]
因果性ビジュアライゼーションは、イベントの時間的連鎖を理解するのに役立つ。
しかし、これらのイベントシーケンスの規模と複雑さが大きくなるにつれて、これらの視覚化でさえ圧倒的に利用できなくなる。
本稿では、因果性可視化を強化するためのデータ駆動型ストーリーテリング手法として、テキスト物語の利用を提案する。
論文 参考訳(メタデータ) (2020-09-06T05:46:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。