論文の概要: Boosting Theory-of-Mind Performance in Large Language Models via
Prompting
- arxiv url: http://arxiv.org/abs/2304.11490v3
- Date: Wed, 26 Apr 2023 04:02:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-27 10:52:54.794280
- Title: Boosting Theory-of-Mind Performance in Large Language Models via
Prompting
- Title(参考訳): プロンプティングによる大規模言語モデルの性能向上
- Authors: Shima Rahimi Moghaddam, Christopher J. Honey
- Abstract要約: 本研究は,GPT-4および3種類のGPT-3.5のToM特性を測定する。
ToM理解の改善における文脈内学習の有効性を検討した。
- 参考スコア(独自算出の注目度): 2.538209532048867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) excel in many tasks in 2023, but they still face
challenges in complex reasoning. Theory-of-mind (ToM) tasks, which require
understanding agents' beliefs, goals, and mental states, are essential for
common-sense reasoning involving humans, making it crucial to enhance LLM
performance in this area. This study measures the ToM performance of GPT-4 and
three GPT-3.5 variants (Davinci-2, Davinci-3, GPT-3.5-Turbo), and investigates
the effectiveness of in-context learning in improving their ToM comprehension.
We evaluated prompts featuring two-shot chain of thought reasoning and
step-by-step thinking instructions. We found that LLMs trained with
Reinforcement Learning from Human Feedback (RLHF) (all models excluding
Davinci-2) improved their ToM accuracy via in-context learning. GPT-4 performed
best in zero-shot settings, reaching nearly 80% ToM accuracy, but still fell
short of the 87% human accuracy on the test set. However, when supplied with
prompts for in-context learning, all RLHF-trained LLMs exceeded 80% ToM
accuracy, with GPT-4 reaching 100%. These results demonstrate that appropriate
prompting enhances LLM ToM reasoning, and they underscore the context-dependent
nature of LLM cognitive capacities.
- Abstract(参考訳): 大規模言語モデル(llm)は2023年に多くのタスクで優れているが、複雑な推論では依然として課題に直面している。
エージェントの信念、目標、精神状態を理解することを必要とする理論・オブ・ミンド(ToM)タスクは、人間を含む常識的推論に不可欠であり、この分野におけるLLMのパフォーマンスを高めることが不可欠である。
本研究では, GPT-4 と 3 つの GPT-3.5 変種 (Davinci-2, Davinci-3, GPT-3.5-Turbo) のTOM 性能を測定し, テキスト内学習の有効性を検討した。
思考推論の2ショット連鎖とステップバイステップ思考指示を特徴とするプロンプトを評価した。
人間のフィードバックからの強化学習(RLHF)で訓練したLSM(Davinci-2を除く全てのモデル)は、文脈内学習によりToMの精度を向上させた。
GPT-4はゼロショットで最高の性能を示し、80%の精度に達したが、それでもテストセットの87%の精度には届かなかった。
しかし、インコンテキスト学習のプロンプトを供給された場合、全てのRLHF学習LLMは80%ToMの精度を達成し、GPT-4は100%に達した。
これらの結果は、適切なプロンプトがLLM ToM推論を促進することを示し、LLM認知能力の文脈依存性を強調している。
関連論文リスト
- LEAF: Learning and Evaluation Augmented by Fact-Checking to Improve Factualness in Large Language Models [11.453585039783901]
LEAF: Fact-Checkingによって強化された学習と評価は、大規模言語モデル(LLM)の現実的信頼性を高めるために設計された新しいアプローチである。
最初の戦略であるFact-Check-Then-RAGは、ファクトチェック結果を取り入れて、モデルパラメータを更新せずに検索プロセスをガイドすることによって、検索精度を向上させる。
第2の戦略であるLearning from Fact-Checks via Self-Trainingは、ファクトチェックされた応答の監督された微調整(SFT)や、ファクトチェックをランキングメカニズムとして適用するSimple Preference Optimization(SimPO)である。
論文 参考訳(メタデータ) (2024-10-31T00:18:05Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - A Comprehensive Evaluation of Large Language Models on Mental Illnesses [0.8458496687170665]
GPT-4とLlama 3はバイナリ障害検出において優れた性能を示し、特定のデータセットで最大85%の精度に達した。
素早いエンジニアリングは モデル性能を高める上で 重要な役割を担った
有望な結果にもかかわらず、我々の分析では、データセット間のパフォーマンスのばらつきや、注意深いプロンプトエンジニアリングの必要性など、いくつかの課題を特定した。
論文 参考訳(メタデータ) (2024-09-24T02:58:52Z) - Exposing the Achilles' Heel: Evaluating LLMs Ability to Handle Mistakes in Mathematical Reasoning [11.63133816413199]
大言語モデル (LLM) は数学語問題 (MWP) に適用されている。
本稿では,ルールベース手法とより小さな言語モデルにより生成される正しい推論ステップと誤推論ステップをMWPに組み込んだ,新しいデータセットMWP-MISTAKEを提案する。
GPT-$oの誤り検出と修正における優れた性能と、より小さなモデルで直面する永続的な課題を強調した。
論文 参考訳(メタデータ) (2024-06-16T08:06:05Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Mixed Distillation Helps Smaller Language Model Better Reasoning [27.934081882868902]
本稿では,大規模言語モデル (LLM) におけるプログラム・オブ・シント (PoT) とチェーン・オブ・シント (CoT) の強みを生かした混合蒸留 (MD) フレームワークを紹介する。
実験の結果, MDは, 様々なタスクにおいて, より小さなモデルのシングルパスとマルチパス推論能力を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-12-17T14:28:28Z) - Branch-Solve-Merge Improves Large Language Model Evaluation and Generation [136.7876524839751]
大規模言語モデル(LLM)は多面的言語生成や評価タスクに頻繁に使用される。
本稿では,これらの課題に対処するための大規模言語モデルプログラムであるブランチ・マージ(BSM)を提案する。
BSMは、人間とLLMの合意を最大26%向上させることにより、各LLMの評価正当性と整合性を向上させる。
論文 参考訳(メタデータ) (2023-10-23T17:29:48Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs [60.61002524947733]
従来の信頼性推論手法は、内部モデル情報やモデル微調整へのホワイトボックスアクセスに依存していた。
これにより、不確実性推定のためのブラックボックスアプローチの未解決領域を探索する必要性が高まっている。
言語的信頼を導き出すための戦略の推進、複数の応答を生成するためのサンプリング方法、一貫性を計算するための集約手法の3つの要素からなる体系的フレームワークを定義する。
論文 参考訳(メタデータ) (2023-06-22T17:31:44Z) - LIMA: Less Is More for Alignment [112.93890201395477]
65B パラメータ LLaMa 言語モデル LIMA のトレーニングを行う。
LIMAは、非常に強力なパフォーマンスを示し、少数の例から特定のレスポンスフォーマットに従うことを学ぶ。
制御されたヒトの研究では、LIMAからの反応は43%の症例において、GPT-4に等しいか、厳格に好まれる。
論文 参考訳(メタデータ) (2023-05-18T17:45:22Z) - Evaluating Large Language Models in Theory of Mind Tasks [11.622327857276389]
11つの大規模言語モデル (LLM) は、偽確認タスクのカスタムメイドバッテリを用いて評価された。
バッテリーには640のプロンプトが含まれており、40のタスクにまたがっている。
1つのタスクを解決するには、8つのシナリオすべてに16のプロンプトを正しく答える必要がある。
論文 参考訳(メタデータ) (2023-02-04T03:50:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。