論文の概要: Better Zero-Shot Reasoning with Role-Play Prompting
- arxiv url: http://arxiv.org/abs/2308.07702v1
- Date: Tue, 15 Aug 2023 11:08:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 13:09:55.349791
- Title: Better Zero-Shot Reasoning with Role-Play Prompting
- Title(参考訳): Role-Play Promptingによるゼロショット推論の改善
- Authors: Aobo Kong, Shiwan Zhao, Hao Chen, Qicheng Li, Yong Qin, Ruiqi Sun, Xin
Zhou
- Abstract要約: ロールプレイプロンプトは、ほとんどのデータセットで標準のゼロショットアプローチを一貫して上回っている。
ロールプレイプロンプトは暗黙の連鎖トリガーであり、それによって推論の品質が向上する、と仮定する。
- 参考スコア(独自算出の注目度): 12.392654648424752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern large language models (LLMs), such as ChatGPT, exhibit a remarkable
capacity for role-playing, enabling them to embody not only human characters
but also non-human entities like a Linux terminal. This versatility allows them
to simulate complex human-like interactions and behaviors within various
contexts, as well as to emulate specific objects or systems. While these
capabilities have enhanced user engagement and introduced novel modes of
interaction, the influence of role-playing on LLMs' reasoning abilities remains
underexplored. In this study, we introduce a strategically designed role-play
prompting methodology and assess its performance under the zero-shot setting
across twelve diverse reasoning benchmarks, encompassing arithmetic,
commonsense reasoning, symbolic reasoning, and more. Leveraging models such as
ChatGPT and Llama 2, our empirical results illustrate that role-play prompting
consistently surpasses the standard zero-shot approach across most datasets.
Notably, accuracy on AQuA rises from 53.5% to 63.8%, and on Last Letter from
23.8% to 84.2%. Beyond enhancing contextual understanding, we posit that
role-play prompting serves as an implicit Chain-of-Thought (CoT) trigger,
thereby improving the quality of reasoning. By comparing our approach with the
Zero-Shot-CoT technique, which prompts the model to "think step by step", we
further demonstrate that role-play prompting can generate a more effective CoT.
This highlights its potential to augment the reasoning capabilities of LLMs.
- Abstract(参考訳): ChatGPTのような現代の大きな言語モデル(LLM)は、ロールプレイングの優れた能力を示しており、人間の文字だけでなく、Linux端末のような非人間的な実体を具現化することができる。
この汎用性は、複雑な人間のような相互作用や振る舞いを様々な文脈でシミュレートし、特定のオブジェクトやシステムをエミュレートすることを可能にする。
これらの能力はユーザエンゲージメントを高め、対話の新たなモードを導入したが、LLMの推論能力に対するロールプレイングの影響は未解明のままである。
本研究では,戦略的に設計されたロールプレイプロンプト手法を導入し,算術,常識推論,象徴的推論などを含む12の多様な推論ベンチマークにおいて,ゼロショット設定下での性能を評価する。
chatgpt や llama 2 といったモデルを活用することで,多くのデータセットにおいて,ロールプレイプロンプトが標準的なゼロショットアプローチを一貫して越えていることが実証された。
特に、AQuAの精度は53.5%から63.8%に上昇し、Last Letterでは23.8%から84.2%に上昇した。
文脈的理解の強化以外にも、ロールプレイの促進が暗黙の連鎖(CoT)トリガーとなり、推論の品質が向上する、と仮定する。
我々のアプローチとZero-Shot-CoT技術を比較して、モデルに「ステップバイステップ」を推奨することで、ロールプレイプロンプトがより効果的なCoTを生成することをさらに実証する。
これはLLMの推論能力を増強する可能性を強調している。
関連論文リスト
- Law of the Weakest Link: Cross Capabilities of Large Language Models [102.91861246827797]
我々は,Large Language Models (LLMs) が "Law of the Weakest Link" を示すことを示した。
これらの結果は, クロスキャパビリティタスクにおけるLLMの低性能化を浮き彫りにした。
論文 参考訳(メタデータ) (2024-09-30T05:12:01Z) - How Well Can LLMs Echo Us? Evaluating AI Chatbots' Role-Play Ability with ECHO [55.25989137825992]
チューリングテストに触発された評価フレームワークECHOを紹介する。
この枠組みは、人間と機械が生成した反応を区別するために、対象個人の知名度に係わる。
基礎モデルとして GPT-3.5 と GPT-4 の3つのロールプレイング LLM をECHO を用いて評価した。
論文 参考訳(メタデータ) (2024-04-22T08:00:51Z) - uTeBC-NLP at SemEval-2024 Task 9: Can LLMs be Lateral Thinkers? [7.0546788281657875]
本研究は,異なるプロンプト手法が,外的思考能力に固有の能力を明らかにするために,タスク上でのLLMの性能をいかに向上させるかを検討する。
我々は,GPT-4を用いて,グライダーとオプションの思考経路のデータセットを作成し,人間による品質評価を行った。
発見は、圧縮された情報伝達プロンプトが性能を大幅に向上させることを示している。
論文 参考訳(メタデータ) (2024-04-03T05:31:59Z) - Characteristic AI Agents via Large Language Models [40.10858767752735]
本研究は,特有なAIエージェント構築における大規模言語モデルの性能調査に焦点をあてる。
character100''と呼ばれるデータセットがこのベンチマークのために構築されており、ウィキペディアの言語モデルでロールプレイを行う最も訪問者の多い人々で構成されている。
実験結果から,LLMの能力向上に向けた潜在的な方向性が明らかにされた。
論文 参考訳(メタデータ) (2024-03-19T02:25:29Z) - Large Language Models are Contrastive Reasoners [8.427805316635318]
コントラスト的なプロンプトが,複雑な推論を行うための大規模言語モデルの能力を大幅に向上させることを示す。
様々な大きな言語モデルの実験では、ゼロショットのコントラストプロンプトが算術、常識、シンボリック推論タスクの性能を向上させることが示されている。
本手法は,ほとんどの算術的・常識的推論タスクにおいて,ゼロショットのCoTや少数ショットのCoTを超えるだけでなく,既存のプロンプトメソッドとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-13T03:15:05Z) - CogBench: a large language model walks into a psychology lab [12.981407327149679]
本稿では,7つの認知心理学実験から得られた10の行動指標を含むベンチマークであるCogBenchを紹介する。
本稿では,CagBenchを35大言語モデル(LLM)に適用し,統計的多レベルモデリング手法を用いて解析する。
オープンソースモデルは、プロプライエタリなモデルよりもリスクが高く、コードの微調整は必ずしもLLMの振舞いを促進しない。
論文 参考訳(メタデータ) (2024-02-28T10:43:54Z) - Large Language Models are Superpositions of All Characters: Attaining
Arbitrary Role-play via Self-Alignment [62.898963074989766]
本稿では,ロールプレイのための自己アライメント手法であるDittoを紹介する。
この方法は4000文字からなるロールプレイトレーニングセットを生成し、現在利用可能なデータセットのスケールを10倍に超える。
本稿では,ロールプレイ領域におけるクロススーパービジョンアライメント実験について紹介する。
論文 参考訳(メタデータ) (2024-01-23T03:56:22Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z) - Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。
注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。
さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文 参考訳(メタデータ) (2023-05-15T06:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。