論文の概要: Better Zero-Shot Reasoning with Role-Play Prompting
- arxiv url: http://arxiv.org/abs/2308.07702v2
- Date: Thu, 14 Mar 2024 02:07:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-16 02:52:50.027447
- Title: Better Zero-Shot Reasoning with Role-Play Prompting
- Title(参考訳): Role-Play Promptingによるゼロショット推論の改善
- Authors: Aobo Kong, Shiwan Zhao, Hao Chen, Qicheng Li, Yong Qin, Ruiqi Sun, Xin Zhou, Enzhi Wang, Xiaohang Dong,
- Abstract要約: ロールプレイプロンプトは、ほとんどのデータセットで標準のゼロショットアプローチを一貫して上回っている。
これは、大きな言語モデルの推論能力を増強する可能性を強調している。
- 参考スコア(独自算出の注目度): 10.90357246745529
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern large language models (LLMs) exhibit a remarkable capacity for role-playing, enabling them to embody not only human characters but also non-human entities. This versatility allows them to simulate complex human-like interactions and behaviors within various contexts, as well as to emulate specific objects or systems. While these capabilities have enhanced user engagement and introduced novel modes of interaction, the influence of role-playing on LLMs' reasoning abilities remains underexplored. In this study, we introduce a strategically designed role-play prompting methodology and assess its performance under the zero-shot setting across twelve diverse reasoning benchmarks. Our empirical results illustrate that role-play prompting consistently surpasses the standard zero-shot approach across most datasets. Notably, in experiments conducted using ChatGPT, accuracy on AQuA rises from 53.5% to 63.8%, and on Last Letter from 23.8% to 84.2%.Upon further comparison with the Zero-Shot-CoT technique, which prompts the model to "think step by step", our study demonstrates that role-play prompting acts as a more effective trigger for the CoT process. This highlights its potential to augment the reasoning capabilities of LLMs. We release our code at https://github.com/NKU-HLT/Role-Play-Prompting.
- Abstract(参考訳): 現代の大きな言語モデル(LLM)はロールプレイングの優れた能力を示しており、人間のキャラクターだけでなく、人間以外の実体を具現化することができる。
この汎用性は、複雑な人間のような相互作用や振る舞いを様々な文脈でシミュレートし、特定のオブジェクトやシステムをエミュレートすることを可能にする。
これらの能力はユーザエンゲージメントを高め、新しいインタラクションモードを導入したが、LLMの推論能力に対するロールプレイングの影響は未解明のままである。
本研究では、戦略的に設計されたロールプレイプロンプト手法を導入し、12の多様な推論ベンチマークにおいてゼロショット設定による性能評価を行う。
私たちの経験的結果は、ロールプレイのプロンプトが、ほとんどのデータセットで標準のゼロショットアプローチを一貫して上回っていることを示している。
特にChatGPTを用いた実験では、AQuAの精度は53.5%から63.8%に上昇し、Last Letterでは23.8%から84.2%に上昇した。
さらにZero-Shot-CoT技術と比較すると、このモデルが「ステップバイステップ」のモデルとなり、我々の研究はロールプレイ・プロンプトがCoTプロセスのより効果的なトリガーとなることを示した。
このことは、LLMの推論能力を増強する可能性を強調している。
コードをhttps://github.com/NKU-HLT/Role-Play-Promptingでリリースします。
関連論文リスト
- Law of the Weakest Link: Cross Capabilities of Large Language Models [102.91861246827797]
我々は,Large Language Models (LLMs) が "Law of the Weakest Link" を示すことを示した。
これらの結果は, クロスキャパビリティタスクにおけるLLMの低性能化を浮き彫りにした。
論文 参考訳(メタデータ) (2024-09-30T05:12:01Z) - How Well Can LLMs Echo Us? Evaluating AI Chatbots' Role-Play Ability with ECHO [55.25989137825992]
チューリングテストに触発された評価フレームワークECHOを紹介する。
この枠組みは、人間と機械が生成した反応を区別するために、対象個人の知名度に係わる。
基礎モデルとして GPT-3.5 と GPT-4 の3つのロールプレイング LLM をECHO を用いて評価した。
論文 参考訳(メタデータ) (2024-04-22T08:00:51Z) - Character is Destiny: Can Role-Playing Language Agents Make Persona-Driven Decisions? [59.0123596591807]
我々は、ペルソナ駆動意思決定におけるLarge Language Models(LLM)の能力をベンチマークする。
高品質な小説において, LLM が先行する物語のキャラクターの判断を予測できるかどうかを検討する。
その結果、現状のLLMは、このタスクに有望な能力を示すが、改善の余地は残されている。
論文 参考訳(メタデータ) (2024-04-18T12:40:59Z) - uTeBC-NLP at SemEval-2024 Task 9: Can LLMs be Lateral Thinkers? [7.0546788281657875]
本研究は,異なるプロンプト手法が,外的思考能力に固有の能力を明らかにするために,タスク上でのLLMの性能をいかに向上させるかを検討する。
我々は,GPT-4を用いて,グライダーとオプションの思考経路のデータセットを作成し,人間による品質評価を行った。
発見は、圧縮された情報伝達プロンプトが性能を大幅に向上させることを示している。
論文 参考訳(メタデータ) (2024-04-03T05:31:59Z) - Characteristic AI Agents via Large Language Models [40.10858767752735]
本研究は,特有なAIエージェント構築における大規模言語モデルの性能調査に焦点をあてる。
character100''と呼ばれるデータセットがこのベンチマークのために構築されており、ウィキペディアの言語モデルでロールプレイを行う最も訪問者の多い人々で構成されている。
実験結果から,LLMの能力向上に向けた潜在的な方向性が明らかにされた。
論文 参考訳(メタデータ) (2024-03-19T02:25:29Z) - Large Language Models are Contrastive Reasoners [8.427805316635318]
コントラスト的なプロンプトが,複雑な推論を行うための大規模言語モデルの能力を大幅に向上させることを示す。
様々な大きな言語モデルの実験では、ゼロショットのコントラストプロンプトが算術、常識、シンボリック推論タスクの性能を向上させることが示されている。
本手法は,ほとんどの算術的・常識的推論タスクにおいて,ゼロショットのCoTや少数ショットのCoTを超えるだけでなく,既存のプロンプトメソッドとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-13T03:15:05Z) - CogBench: a large language model walks into a psychology lab [12.981407327149679]
本稿では,7つの認知心理学実験から得られた10の行動指標を含むベンチマークであるCogBenchを紹介する。
本稿では,CagBenchを35大言語モデル(LLM)に適用し,統計的多レベルモデリング手法を用いて解析する。
オープンソースモデルは、プロプライエタリなモデルよりもリスクが高く、コードの微調整は必ずしもLLMの振舞いを促進しない。
論文 参考訳(メタデータ) (2024-02-28T10:43:54Z) - Large Language Models are Superpositions of All Characters: Attaining
Arbitrary Role-play via Self-Alignment [62.898963074989766]
本稿では,ロールプレイのための自己アライメント手法であるDittoを紹介する。
この方法は4000文字からなるロールプレイトレーニングセットを生成し、現在利用可能なデータセットのスケールを10倍に超える。
本稿では,ロールプレイ領域におけるクロススーパービジョンアライメント実験について紹介する。
論文 参考訳(メタデータ) (2024-01-23T03:56:22Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z) - Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。
注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。
さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文 参考訳(メタデータ) (2023-05-15T06:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。