論文の概要: Persona is a Double-edged Sword: Mitigating the Negative Impact of Role-playing Prompts in Zero-shot Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2408.08631v2
- Date: Sat, 19 Oct 2024 12:57:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 07:18:07.212845
- Title: Persona is a Double-edged Sword: Mitigating the Negative Impact of Role-playing Prompts in Zero-shot Reasoning Tasks
- Title(参考訳): ペルソナはダブルエッジソード:ゼロショット推論タスクにおけるロールプレイングプロンプトの負の影響を緩和する
- Authors: Junseok Kim, Nakyeong Yang, Kyomin Jung,
- Abstract要約: 言語モデルにペルソナを注入することによる潜在的な負の影響について検討する。
我々は、ロールプレイングと中立的なプロンプトの両方の結果をまとめる新しいフレームワーク、Jekyll & Hydeを提案する。
- 参考スコア(独自算出の注目度): 18.31329470667862
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent studies demonstrate that prompting a role-playing persona to an LLM improves reasoning capability. However, assigning an adequate persona is difficult since LLMs are extremely sensitive to assigned prompts; thus, inaccurately defined personas sometimes hinder LLMs and degrade their reasoning capabilities. In this paper, we first investigate the potential negative impact of injecting persona into language models. Furthermore, we propose a novel framework, Jekyll \& Hyde, which ensembles the outcomes of both role-playing and neutral prompts to enhance the robustness of reasoning ability. Specifically, Jekyll \& Hyde predicts an appropriate persona using an LLM when defining the role-playing prompt. Then, Jekyll \& Hyde collects two potential solutions from role-playing and neutral prompts and selects a better solution using the LLM evaluator. The experimental analysis demonstrates that role-playing prompts sometimes distract LLMs, degrading their reasoning abilities in 7 out of 12 datasets in llama3. Meanwhile, Jekyll \& Hyde improve reasoning capabilities by selecting better choices among the potential solutions on twelve widely-used natural language reasoning datasets. In addition, we reveal that assigning LLM-generated personas obtains more stable results than handcrafted personas.
- Abstract(参考訳): 近年の研究では、ロールプレイングペルソナをLLMに誘導することで推論能力が向上することが示されている。
しかし、LLMが割り当てられたプロンプトに対して極めて敏感であるため、適切なペルソナの割り当ては困難であり、不正確なペルソナがLLMを妨げ、それらの推論能力を低下させることがある。
本稿ではまず,言語モデルにペルソナを注入することによる負の影響について検討する。
さらに,ロールプレイングとニュートラルプロンプトの両方の結果をアンサンブル化し,推論能力の堅牢性を高める新しいフレームワークであるJerkyll \& Hydeを提案する。
特に、Jekyll \&Hydeはロールプレイングプロンプトを定義する際に、LLMを使用して適切なペルソナを予測する。
次に、Jekyll \&Hyde はロールプレイングとニュートラルプロンプトから2つの潜在的な解を収集し、LLM評価器を用いてより良い解を選択する。
実験分析では、ロールプレイングプロンプトがLLMを混乱させ、ラマ3の12のデータセットのうち7つの推論能力を低下させることが示されている。
一方、Jekyll \&Hydeは、広く使用されている12の自然言語推論データセット上で、潜在的なソリューションの中からよりよい選択肢を選択することで、推論機能を改善している。
さらに,LLM生成したペルソナを割り当てることで,手作りペルソナよりも安定した結果が得られることを明らかにした。
関連論文リスト
- Thinking Before Speaking: A Role-playing Model with Mindset [0.6428333375712125]
大規模言語モデル(LLM)は人間の振る舞いをシミュレートする能力を持っている。
これらのモデルは、想定される役割が持たないという知識に直面すると、パフォーマンスが悪くなります。
本稿では,TBS(Thinking Before Talk)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-14T02:41:48Z) - Character is Destiny: Can Role-Playing Language Agents Make Persona-Driven Decisions? [59.0123596591807]
我々は、ペルソナ駆動意思決定におけるLarge Language Models(LLM)の能力をベンチマークする。
高品質な小説において, LLM が先行する物語のキャラクターの判断を予測できるかどうかを検討する。
その結果、現状のLLMは、このタスクに有望な能力を示すが、改善の余地は残されている。
論文 参考訳(メタデータ) (2024-04-18T12:40:59Z) - Reinforcement Learning from Multi-role Debates as Feedback for Bias Mitigation in LLMs [6.090496490133132]
本稿では,従来のRLHFのフィードバックに取って代わるバイアス緩和手法であるReinforcement Learning from Multi-role Debates as Feedback (RLDF)を提案する。
強化学習における報酬モデルのトレーニングに,高バイアスと低バイアスの両方のインスタンスを含むデータセットを作成するために,LLMをマルチロール討論に活用する。
論文 参考訳(メタデータ) (2024-04-15T22:18:50Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - Large Language Models are Superpositions of All Characters: Attaining
Arbitrary Role-play via Self-Alignment [62.898963074989766]
本稿では,ロールプレイのための自己アライメント手法であるDittoを紹介する。
この方法は4000文字からなるロールプレイトレーニングセットを生成し、現在利用可能なデータセットのスケールを10倍に超える。
本稿では,ロールプレイ領域におけるクロススーパービジョンアライメント実験について紹介する。
論文 参考訳(メタデータ) (2024-01-23T03:56:22Z) - Probing the Multi-turn Planning Capabilities of LLMs via 20 Question
Games [14.063311955315077]
大規模言語モデル(LLM)は、明らかに求められている質問に答えるのに効果的である。
不明瞭なクエリに直面した場合、予測不能に動作し、誤った出力を生成することができる。
このことは、曖昧さを効果的に解決するために明確化を問うことができる知的エージェントの開発の必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2023-10-02T16:55:37Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z) - In-Context Impersonation Reveals Large Language Models' Strengths and
Biases [56.61129643802483]
我々は、視覚と言語タスクを解く前に、LLMに異なるペルソナを仮定するよう依頼する。
異なる年齢の子どものふりをしたLSMが、ヒトのような発達段階を回復することがわかった。
言語に基づく推論タスクでは、ドメインエキスパートを装うLLMが、ドメイン専門家を装うLLMよりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-05-24T09:13:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。