論文の概要: Persona is a Double-edged Sword: Enhancing the Zero-shot Reasoning by Ensembling the Role-playing and Neutral Prompts
- arxiv url: http://arxiv.org/abs/2408.08631v1
- Date: Fri, 16 Aug 2024 09:49:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 16:07:32.350452
- Title: Persona is a Double-edged Sword: Enhancing the Zero-shot Reasoning by Ensembling the Role-playing and Neutral Prompts
- Title(参考訳): ペルソナは、ロールプレイングとニュートラルプロンプトを組み込むことでゼロショット推論を促進するダブルエッジソードである
- Authors: Junseok Kim, Nakyeong Yang, Kyomin Jung,
- Abstract要約: 本稿では,ロールプレイングとニュートラルプロンプトの結果をアンサンブルする新しいフレームワークである Jekyll & Hyde を提案する。
Jekyll & Hydeはロールプレイングとニュートラルプロンプトの両方から潜在的な2つのソリューションを収集し、クロスチェック後により良いソリューションを選択する。
GPT-4 を用いても,ロールプレイングが LLM を邪魔し,12 つのデータセットのうち 4 つで推論能力を低下させることを示す。
- 参考スコア(独自算出の注目度): 18.31329470667862
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent studies demonstrate that prompting an appropriate role-playing persona to an LLM improves its reasoning capability. However, assigning a proper persona is difficult since an LLM's performance is extremely sensitive to assigned prompts; therefore, personas sometimes hinder LLMs and degrade their reasoning capabilities. In this paper, we propose a novel framework, Jekyll \& Hyde, which ensembles the results of role-playing and neutral prompts to eradicate performance degradation via unilateral use of role-playing prompted LLM and enhance the robustness of an LLM's reasoning ability. Specifically, Jekyll \& Hyde collects two potential solutions from both role-playing and neutral prompts and selects a better solution after cross-checking via an LLM evaluator. However, LLM-based evaluators tend to be affected by the order of those potential solutions within the prompt when selecting the proper solution; thus, we also propose a robust LLM evaluator to mitigate the position bias. The experimental analysis demonstrates that role-playing prompts distract LLMs and degrade their reasoning abilities in 4 out of 12 datasets, even when using GPT-4. In addition, we reveal that Jekyll \& Hyde improves reasoning capabilities by selecting better choices among the potential solutions on twelve widely-used reasoning datasets. We further show that our proposed LLM evaluator outperforms other baselines, proving the LLMs' position bias is successfully mitigated.
- Abstract(参考訳): 近年の研究では、適切なロールプレイングペルソナをLLMに導入することで、推論能力が向上することが示されている。
しかし、LLMのパフォーマンスが割り当てられたプロンプトに非常に敏感であるため、適切なペルソナの割り当ては困難である。
本稿では,ロールプレイングの一方的な使用によるパフォーマンス劣化を解消し,LLMの推論能力の堅牢性を高めるために,ロールプレイングと中立的なプロンプトの結果をまとめる新しいフレームワークであるJekyll \& Hydeを提案する。
具体的には、Jekyll \& Hydeはロールプレイングとニュートラルプロンプトの両方から2つの潜在的な解を収集し、LSM評価器を介してクロスチェックした後、より良い解を選択する。
しかし, LLMに基づく評価器は, 適切な解を選択する際に, プロンプト内の潜在的な解の順序に影響を受けやすいため, 位置バイアスを軽減する頑健なLCM評価器も提案する。
実験分析により,12データセット中4データセットにおいて,ロールプレイングがLDMを邪魔し,推論能力を低下させることが示された。
さらに、Jekyll \&Hydeは、12の広く使用されている推論データセット上で、潜在的なソリューションの中からよりよい選択肢を選択することにより、推論能力を改善することを明らかにした。
さらに,提案したLLM評価器が他のベースラインよりも優れており,LLMの位置バイアスが軽減されていることを示す。
関連論文リスト
- Thinking Before Speaking: A Role-playing Model with Mindset [0.6428333375712125]
大規模言語モデル(LLM)は人間の振る舞いをシミュレートする能力を持っている。
これらのモデルは、想定される役割が持たないという知識に直面すると、パフォーマンスが悪くなります。
本稿では,TBS(Thinking Before Talk)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-14T02:41:48Z) - Character is Destiny: Can Role-Playing Language Agents Make Persona-Driven Decisions? [59.0123596591807]
我々は、ペルソナ駆動意思決定におけるLarge Language Models(LLM)の能力をベンチマークする。
高品質な小説において, LLM が先行する物語のキャラクターの判断を予測できるかどうかを検討する。
その結果、現状のLLMは、このタスクに有望な能力を示すが、改善の余地は残されている。
論文 参考訳(メタデータ) (2024-04-18T12:40:59Z) - Reinforcement Learning from Multi-role Debates as Feedback for Bias Mitigation in LLMs [6.090496490133132]
本稿では,従来のRLHFのフィードバックに取って代わるバイアス緩和手法であるReinforcement Learning from Multi-role Debates as Feedback (RLDF)を提案する。
強化学習における報酬モデルのトレーニングに,高バイアスと低バイアスの両方のインスタンスを含むデータセットを作成するために,LLMをマルチロール討論に活用する。
論文 参考訳(メタデータ) (2024-04-15T22:18:50Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - Large Language Models are Superpositions of All Characters: Attaining
Arbitrary Role-play via Self-Alignment [62.898963074989766]
本稿では,ロールプレイのための自己アライメント手法であるDittoを紹介する。
この方法は4000文字からなるロールプレイトレーニングセットを生成し、現在利用可能なデータセットのスケールを10倍に超える。
本稿では,ロールプレイ領域におけるクロススーパービジョンアライメント実験について紹介する。
論文 参考訳(メタデータ) (2024-01-23T03:56:22Z) - Probing the Multi-turn Planning Capabilities of LLMs via 20 Question
Games [14.063311955315077]
大規模言語モデル(LLM)は、明らかに求められている質問に答えるのに効果的である。
不明瞭なクエリに直面した場合、予測不能に動作し、誤った出力を生成することができる。
このことは、曖昧さを効果的に解決するために明確化を問うことができる知的エージェントの開発の必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2023-10-02T16:55:37Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z) - In-Context Impersonation Reveals Large Language Models' Strengths and
Biases [56.61129643802483]
我々は、視覚と言語タスクを解く前に、LLMに異なるペルソナを仮定するよう依頼する。
異なる年齢の子どものふりをしたLSMが、ヒトのような発達段階を回復することがわかった。
言語に基づく推論タスクでは、ドメインエキスパートを装うLLMが、ドメイン専門家を装うLLMよりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-05-24T09:13:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。