Fugu-MT 論文翻訳(概要): Better Zero-Shot Reasoning with Role-Play Prompting

論文の概要: Better Zero-Shot Reasoning with Role-Play Prompting

arxiv url: http://arxiv.org/abs/2308.07702v1
Date: Tue, 15 Aug 2023 11:08:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-16 13:09:55.349791
Title: Better Zero-Shot Reasoning with Role-Play Prompting
Title（参考訳）: Role-Play Promptingによるゼロショット推論の改善
Authors: Aobo Kong, Shiwan Zhao, Hao Chen, Qicheng Li, Yong Qin, Ruiqi Sun, Xin Zhou
Abstract要約: ロールプレイプロンプトは、ほとんどのデータセットで標準のゼロショットアプローチを一貫して上回っている。ロールプレイプロンプトは暗黙の連鎖トリガーであり、それによって推論の品質が向上する、と仮定する。
参考スコア（独自算出の注目度）: 12.392654648424752
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Modern large language models (LLMs), such as ChatGPT, exhibit a remarkable capacity for role-playing, enabling them to embody not only human characters but also non-human entities like a Linux terminal. This versatility allows them to simulate complex human-like interactions and behaviors within various contexts, as well as to emulate specific objects or systems. While these capabilities have enhanced user engagement and introduced novel modes of interaction, the influence of role-playing on LLMs' reasoning abilities remains underexplored. In this study, we introduce a strategically designed role-play prompting methodology and assess its performance under the zero-shot setting across twelve diverse reasoning benchmarks, encompassing arithmetic, commonsense reasoning, symbolic reasoning, and more. Leveraging models such as ChatGPT and Llama 2, our empirical results illustrate that role-play prompting consistently surpasses the standard zero-shot approach across most datasets. Notably, accuracy on AQuA rises from 53.5% to 63.8%, and on Last Letter from 23.8% to 84.2%. Beyond enhancing contextual understanding, we posit that role-play prompting serves as an implicit Chain-of-Thought (CoT) trigger, thereby improving the quality of reasoning. By comparing our approach with the Zero-Shot-CoT technique, which prompts the model to "think step by step", we further demonstrate that role-play prompting can generate a more effective CoT. This highlights its potential to augment the reasoning capabilities of LLMs.
Abstract（参考訳）: ChatGPTのような現代の大きな言語モデル(LLM)は、ロールプレイングの優れた能力を示しており、人間の文字だけでなく、Linux端末のような非人間的な実体を具現化することができる。この汎用性は、複雑な人間のような相互作用や振る舞いを様々な文脈でシミュレートし、特定のオブジェクトやシステムをエミュレートすることを可能にする。これらの能力はユーザエンゲージメントを高め、対話の新たなモードを導入したが、LLMの推論能力に対するロールプレイングの影響は未解明のままである。本研究では,戦略的に設計されたロールプレイプロンプト手法を導入し,算術,常識推論,象徴的推論などを含む12の多様な推論ベンチマークにおいて,ゼロショット設定下での性能を評価する。 chatgpt や llama 2 といったモデルを活用することで,多くのデータセットにおいて,ロールプレイプロンプトが標準的なゼロショットアプローチを一貫して越えていることが実証された。特に、AQuAの精度は53.5%から63.8%に上昇し、Last Letterでは23.8%から84.2%に上昇した。文脈的理解の強化以外にも、ロールプレイの促進が暗黙の連鎖(CoT)トリガーとなり、推論の品質が向上する、と仮定する。我々のアプローチとZero-Shot-CoT技術を比較して、モデルに「ステップバイステップ」を推奨することで、ロールプレイプロンプトがより効果的なCoTを生成することをさらに実証する。これはLLMの推論能力を増強する可能性を強調している。

関連論文リスト

RMTBench: Benchmarking LLMs Through Multi-Turn User-Centric Role-Playing [111.06936588273868]
RMTBenchは、80の多様な文字と8000以上の対話ラウンドを特徴とする、総合的なテキストバプサー中心のバイリンガルロールプレイングベンチマークである。本ベンチマークでは,文字記述よりも明示的なユーザモチベーションに基づく対話を構築し,実用的なユーザアプリケーションとの整合性を確保する。 RMTBenchは、キャラクタバックグラウンドからユーザ意図のフルフィルメントにフォーカスを移すことで、学術的な評価と実践的なデプロイメント要件のギャップを埋める。
論文参考訳（メタデータ） (2025-07-27T16:49:47Z)
Test-Time-Matching: Decouple Personality, Memory, and Linguistic Style in LLM-based Role-Playing Language Agent [18.67432557362308]
TTM(Test-Time-Matching)は、テスト時間スケーリングとコンテキストエンジニアリングによる、トレーニング不要なロールプレイングフレームワークである。我々のフレームワークは、これらの機能を制御されたロールプレイングに利用する、構造化された3段階生成パイプラインを含んでいる。高忠実なロールプレイングのパフォーマンスを実現し、多様な言語スタイルのシームレスな組み合わせや、個性や記憶のバリエーションも実現している。
論文参考訳（メタデータ） (2025-07-22T17:47:44Z)
Improving LLM Reasoning through Interpretable Role-Playing Steering [23.75554062102392]
ロールプレイングは大規模言語モデル(LLM)の推論能力を高める効果的な手法として登場した。 Sparse Autoencoder Role-Playing Steering (SRPS) は、ロールプレイング行動に関連する内部モデルの特徴を特定し、操作する新しいフレームワークである。提案手法は,ロールプレイプロンプトから潜在表現を抽出し,アクティベーションパターンに基づいて最も関連性の高い特徴を選択し,制御可能な強度でモデルの残留ストリームに注入可能なステアリングベクトルを構築する。
論文参考訳（メタデータ） (2025-06-09T00:31:17Z)
If an LLM Were a Character, Would It Know Its Own Story? Evaluating Lifelong Learning in LLMs [55.8331366739144]
大規模言語モデル(LLM)における生涯学習評価のためのベンチマークであるLIFESTATE-BENCHを紹介する。我々の事実チェック評価は、パラメトリックと非パラメトリックの両方のアプローチで、モデルの自己認識、エピソードメモリ検索、関係追跡を探索する。
論文参考訳（メタデータ） (2025-03-30T16:50:57Z)
Enhancing Persona Consistency for LLMs' Role-Playing using Persona-Aware Contrastive Learning [7.836439251883518]
モデルロールプレイング行動を調整するために,textbfunderlinePersona-Aware textbfunderlineContrastive textbfunderlineLearning (PCL) という新しいフレームワークを提案する。自動評価法と人手による評価では,PCLはバニラLLMよりも有意に優れていた。
論文参考訳（メタデータ） (2025-03-22T06:12:34Z)
CoSER: Coordinating LLM-Based Persona Simulation of Established Roles [62.886267684392635]
CoSERデータセットは771冊の有名な書籍から17,966文字をカバーしている。我々は,LLaMA-3.1 モデル上に構築された高度なオープンロールプレイング LLM である CoSER 8B と CoSER 70B を開発した。
論文参考訳（メタデータ） (2025-02-13T08:55:24Z)
Law of the Weakest Link: Cross Capabilities of Large Language Models [102.91861246827797]
我々は,Large Language Models (LLMs) が "Law of the Weakest Link" を示すことを示した。これらの結果は, クロスキャパビリティタスクにおけるLLMの低性能化を浮き彫りにした。
論文参考訳（メタデータ） (2024-09-30T05:12:01Z)
How Well Can LLMs Echo Us? Evaluating AI Chatbots' Role-Play Ability with ECHO [55.25989137825992]
チューリングテストに触発された評価フレームワークECHOを紹介する。この枠組みは、人間と機械が生成した反応を区別するために、対象個人の知名度に係わる。基礎モデルとして GPT-3.5 と GPT-4 の3つのロールプレイング LLM をECHO を用いて評価した。
論文参考訳（メタデータ） (2024-04-22T08:00:51Z)
Character is Destiny: Can Role-Playing Language Agents Make Persona-Driven Decisions? [59.0123596591807]
我々は、ペルソナ駆動意思決定におけるLarge Language Models(LLM)の能力をベンチマークする。高品質な小説において, LLM が先行する物語のキャラクターの判断を予測できるかどうかを検討する。その結果、現状のLLMは、このタスクに有望な能力を示すが、改善の余地は残されている。
論文参考訳（メタデータ） (2024-04-18T12:40:59Z)
uTeBC-NLP at SemEval-2024 Task 9: Can LLMs be Lateral Thinkers? [7.0546788281657875]
本研究は,異なるプロンプト手法が,外的思考能力に固有の能力を明らかにするために,タスク上でのLLMの性能をいかに向上させるかを検討する。我々は,GPT-4を用いて,グライダーとオプションの思考経路のデータセットを作成し,人間による品質評価を行った。発見は、圧縮された情報伝達プロンプトが性能を大幅に向上させることを示している。
論文参考訳（メタデータ） (2024-04-03T05:31:59Z)
Characteristic AI Agents via Large Language Models [40.10858767752735]
本研究は,特有なAIエージェント構築における大規模言語モデルの性能調査に焦点をあてる。 character100''と呼ばれるデータセットがこのベンチマークのために構築されており、ウィキペディアの言語モデルでロールプレイを行う最も訪問者の多い人々で構成されている。実験結果から,LLMの能力向上に向けた潜在的な方向性が明らかにされた。
論文参考訳（メタデータ） (2024-03-19T02:25:29Z)
Large Language Models are Contrastive Reasoners [8.427805316635318]
コントラスト的なプロンプトが,複雑な推論を行うための大規模言語モデルの能力を大幅に向上させることを示す。様々な大きな言語モデルの実験では、ゼロショットのコントラストプロンプトが算術、常識、シンボリック推論タスクの性能を向上させることが示されている。本手法は,ほとんどの算術的・常識的推論タスクにおいて,ゼロショットのCoTや少数ショットのCoTを超えるだけでなく,既存のプロンプトメソッドとシームレスに統合できる。
論文参考訳（メタデータ） (2024-03-13T03:15:05Z)
CogBench: a large language model walks into a psychology lab [12.981407327149679]
本稿では,7つの認知心理学実験から得られた10の行動指標を含むベンチマークであるCogBenchを紹介する。本稿では,CagBenchを35大言語モデル(LLM)に適用し,統計的多レベルモデリング手法を用いて解析する。オープンソースモデルは、プロプライエタリなモデルよりもリスクが高く、コードの微調整は必ずしもLLMの振舞いを促進しない。
論文参考訳（メタデータ） (2024-02-28T10:43:54Z)
Large Language Models are Superpositions of All Characters: Attaining Arbitrary Role-play via Self-Alignment [62.898963074989766]
本稿では,ロールプレイのための自己アライメント手法であるDittoを紹介する。この方法は4000文字からなるロールプレイトレーニングセットを生成し、現在利用可能なデータセットのスケールを10倍に超える。本稿では,ロールプレイ領域におけるクロススーパービジョンアライメント実験について紹介する。
論文参考訳（メタデータ） (2024-01-23T03:56:22Z)
Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文参考訳（メタデータ） (2023-10-02T09:47:40Z)
Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文参考訳（メタデータ） (2023-05-15T06:24:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。