論文の概要: Better Zero-Shot Reasoning with Role-Play Prompting
- arxiv url: http://arxiv.org/abs/2308.07702v1
- Date: Tue, 15 Aug 2023 11:08:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 13:09:55.349791
- Title: Better Zero-Shot Reasoning with Role-Play Prompting
- Title(参考訳): Role-Play Promptingによるゼロショット推論の改善
- Authors: Aobo Kong, Shiwan Zhao, Hao Chen, Qicheng Li, Yong Qin, Ruiqi Sun, Xin
Zhou
- Abstract要約: ロールプレイプロンプトは、ほとんどのデータセットで標準のゼロショットアプローチを一貫して上回っている。
ロールプレイプロンプトは暗黙の連鎖トリガーであり、それによって推論の品質が向上する、と仮定する。
- 参考スコア(独自算出の注目度): 12.392654648424752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern large language models (LLMs), such as ChatGPT, exhibit a remarkable
capacity for role-playing, enabling them to embody not only human characters
but also non-human entities like a Linux terminal. This versatility allows them
to simulate complex human-like interactions and behaviors within various
contexts, as well as to emulate specific objects or systems. While these
capabilities have enhanced user engagement and introduced novel modes of
interaction, the influence of role-playing on LLMs' reasoning abilities remains
underexplored. In this study, we introduce a strategically designed role-play
prompting methodology and assess its performance under the zero-shot setting
across twelve diverse reasoning benchmarks, encompassing arithmetic,
commonsense reasoning, symbolic reasoning, and more. Leveraging models such as
ChatGPT and Llama 2, our empirical results illustrate that role-play prompting
consistently surpasses the standard zero-shot approach across most datasets.
Notably, accuracy on AQuA rises from 53.5% to 63.8%, and on Last Letter from
23.8% to 84.2%. Beyond enhancing contextual understanding, we posit that
role-play prompting serves as an implicit Chain-of-Thought (CoT) trigger,
thereby improving the quality of reasoning. By comparing our approach with the
Zero-Shot-CoT technique, which prompts the model to "think step by step", we
further demonstrate that role-play prompting can generate a more effective CoT.
This highlights its potential to augment the reasoning capabilities of LLMs.
- Abstract(参考訳): ChatGPTのような現代の大きな言語モデル(LLM)は、ロールプレイングの優れた能力を示しており、人間の文字だけでなく、Linux端末のような非人間的な実体を具現化することができる。
この汎用性は、複雑な人間のような相互作用や振る舞いを様々な文脈でシミュレートし、特定のオブジェクトやシステムをエミュレートすることを可能にする。
これらの能力はユーザエンゲージメントを高め、対話の新たなモードを導入したが、LLMの推論能力に対するロールプレイングの影響は未解明のままである。
本研究では,戦略的に設計されたロールプレイプロンプト手法を導入し,算術,常識推論,象徴的推論などを含む12の多様な推論ベンチマークにおいて,ゼロショット設定下での性能を評価する。
chatgpt や llama 2 といったモデルを活用することで,多くのデータセットにおいて,ロールプレイプロンプトが標準的なゼロショットアプローチを一貫して越えていることが実証された。
特に、AQuAの精度は53.5%から63.8%に上昇し、Last Letterでは23.8%から84.2%に上昇した。
文脈的理解の強化以外にも、ロールプレイの促進が暗黙の連鎖(CoT)トリガーとなり、推論の品質が向上する、と仮定する。
我々のアプローチとZero-Shot-CoT技術を比較して、モデルに「ステップバイステップ」を推奨することで、ロールプレイプロンプトがより効果的なCoTを生成することをさらに実証する。
これはLLMの推論能力を増強する可能性を強調している。
関連論文リスト
- CoSER: Coordinating LLM-Based Persona Simulation of Established Roles [62.886267684392635]
CoSERデータセットは771冊の有名な書籍から17,966文字をカバーしている。
我々は,LLaMA-3.1 モデル上に構築された高度なオープンロールプレイング LLM である CoSER 8B と CoSER 70B を開発した。
論文 参考訳(メタデータ) (2025-02-13T08:55:24Z) - Law of the Weakest Link: Cross Capabilities of Large Language Models [102.91861246827797]
我々は,Large Language Models (LLMs) が "Law of the Weakest Link" を示すことを示した。
これらの結果は, クロスキャパビリティタスクにおけるLLMの低性能化を浮き彫りにした。
論文 参考訳(メタデータ) (2024-09-30T05:12:01Z) - How Well Can LLMs Echo Us? Evaluating AI Chatbots' Role-Play Ability with ECHO [55.25989137825992]
チューリングテストに触発された評価フレームワークECHOを紹介する。
この枠組みは、人間と機械が生成した反応を区別するために、対象個人の知名度に係わる。
基礎モデルとして GPT-3.5 と GPT-4 の3つのロールプレイング LLM をECHO を用いて評価した。
論文 参考訳(メタデータ) (2024-04-22T08:00:51Z) - Character is Destiny: Can Role-Playing Language Agents Make Persona-Driven Decisions? [59.0123596591807]
我々は、ペルソナ駆動意思決定におけるLarge Language Models(LLM)の能力をベンチマークする。
高品質な小説において, LLM が先行する物語のキャラクターの判断を予測できるかどうかを検討する。
その結果、現状のLLMは、このタスクに有望な能力を示すが、改善の余地は残されている。
論文 参考訳(メタデータ) (2024-04-18T12:40:59Z) - Characteristic AI Agents via Large Language Models [40.10858767752735]
本研究は,特有なAIエージェント構築における大規模言語モデルの性能調査に焦点をあてる。
character100''と呼ばれるデータセットがこのベンチマークのために構築されており、ウィキペディアの言語モデルでロールプレイを行う最も訪問者の多い人々で構成されている。
実験結果から,LLMの能力向上に向けた潜在的な方向性が明らかにされた。
論文 参考訳(メタデータ) (2024-03-19T02:25:29Z) - Large Language Models are Contrastive Reasoners [8.427805316635318]
コントラスト的なプロンプトが,複雑な推論を行うための大規模言語モデルの能力を大幅に向上させることを示す。
本手法は,ほとんどの算術的・常識的推論タスクにおいて,ゼロショット CoT と少数ショット CoT を超越する。
論文 参考訳(メタデータ) (2024-03-13T03:15:05Z) - CogBench: a large language model walks into a psychology lab [12.981407327149679]
本稿では,7つの認知心理学実験から得られた10の行動指標を含むベンチマークであるCogBenchを紹介する。
本稿では,CagBenchを35大言語モデル(LLM)に適用し,統計的多レベルモデリング手法を用いて解析する。
オープンソースモデルは、プロプライエタリなモデルよりもリスクが高く、コードの微調整は必ずしもLLMの振舞いを促進しない。
論文 参考訳(メタデータ) (2024-02-28T10:43:54Z) - Large Language Models are Superpositions of All Characters: Attaining
Arbitrary Role-play via Self-Alignment [62.898963074989766]
本稿では,ロールプレイのための自己アライメント手法であるDittoを紹介する。
この方法は4000文字からなるロールプレイトレーニングセットを生成し、現在利用可能なデータセットのスケールを10倍に超える。
本稿では,ロールプレイ領域におけるクロススーパービジョンアライメント実験について紹介する。
論文 参考訳(メタデータ) (2024-01-23T03:56:22Z) - Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。
注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。
さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文 参考訳(メタデータ) (2023-05-15T06:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。