論文の概要: Could you be wrong: Debiasing LLMs using a metacognitive prompt for improving human decision making
- arxiv url: http://arxiv.org/abs/2507.10124v1
- Date: Mon, 14 Jul 2025 10:09:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:24.6645
- Title: Could you be wrong: Debiasing LLMs using a metacognitive prompt for improving human decision making
- Title(参考訳): 人間の意思決定を改善するためのメタ認知的プロンプトを用いたLSMの偏見
- Authors: Thomas T. Hills,
- Abstract要約: メタ認知的プロンプトは、意思決定中に潜在的な知識を認識させるように設計されている。
「どうかしたの?」とLLMは自覚バイアスを識別し、コジェントなメタ認知反射を発生させる。
この研究は、人間の心理学が素早い工学のための新しい道を提供すると主張している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identifying bias in LLMs is ongoing. Because they are still in development, what is true today may be false tomorrow. We therefore need general strategies for debiasing that will outlive current models. Strategies developed for debiasing human decision making offer one promising approach as they incorporate an LLM-style prompt intervention designed to bring latent knowledge into awareness during decision making. LLMs trained on vast amounts of information contain information about potential biases, counter-arguments, and contradictory evidence, but that information may only be brought to bear if prompted. Metacognitive prompts developed in the human decision making literature are designed to achieve this, and as I demonstrate here, they show promise with LLMs. The prompt I focus on here is "could you be wrong?" Following an LLM response, this prompt leads LLMs to produce additional information, including why they answered as they did, errors, biases, contradictory evidence, and alternatives, none of which were apparent in their initial response. Indeed, this metaknowledge often reveals that how LLMs and users interpret prompts are not aligned. Here I demonstrate this prompt using a set of questions taken from recent articles about LLM biases, including implicit discriminatory biases and failures of metacognition. "Could you be wrong" prompts the LLM to identify its own biases and produce cogent metacognitive reflection. I also present another example involving convincing but incomplete information, which is readily corrected by the metacognitive prompt. In sum, this work argues that human psychology offers a new avenue for prompt engineering, leveraging a long history of effective prompt-based improvements to human decision making.
- Abstract(参考訳): LLMのバイアスの特定が進行中である。
彼らはまだ開発中なので、今日真実は明日偽りかもしれない。
したがって、現在のモデルを上回るようなデバイアスの一般的な戦略が必要です。
人間の意思決定を嫌悪するために開発された戦略は、意思決定中に潜在的知識を認識させるように設計されたLLMスタイルの迅速な介入を取り入れることで、有望なアプローチを提供する。
膨大な量の情報に基づいて訓練されたLSMには、潜在的なバイアス、逆論、矛盾する証拠に関する情報が含まれているが、その情報が引き起こされるのは、引き起こされた場合のみである。
人間の意思決定文献で発達したメタ認知的プロンプトは、これを実現するために設計されており、ここでお見せするように、LLMとの約束を示す。
ここで私が注目するのは,“間違いを犯すか?
LLM応答の後、このプロンプトはLCMに、なぜ彼らが答えたのか、エラー、バイアス、矛盾する証拠、代替案など、追加情報を生成するよう促す。
実際、このメタ知識は、LLMとユーザーがどのようにプロンプトを解釈するかが一致していないことをしばしば明らかにする。
本稿では,LLMバイアスに関する最近の記事から,暗黙の識別バイアスやメタ認知の失敗など,一連の質問を用いて,このプロンプトを実演する。
「君が間違っているか」とLLMは自覚バイアスを識別し、コジェントなメタ認知反射を発生させる。
また、メタ認知的プロンプトによって容易に修正される、説得力のある不完全な情報を含む別の事例も提示する。
まとめると、この研究は、人間の心理学が、人間の意思決定に効果的な素早い改善の長い歴史を生かして、迅速なエンジニアリングのための新しい道を提供すると主張している。
関連論文リスト
- An Empirical Analysis of LLMs for Countering Misinformation [4.832131829290864]
LLM(Large Language Models)は、オンラインの誤報を増幅するが、誤報に対処することを約束する。
我々は、政治的誤報に対処する3つのLDM(ChatGPT、Gemini、Claude)の能力を実証的に研究する。
以上の結果から,モデルが実際のニュースソースで回答を得るのに苦労し,左利きの情報源を引用する傾向が示唆された。
論文 参考訳(メタデータ) (2025-02-28T07:12:03Z) - Understanding the Dark Side of LLMs' Intrinsic Self-Correction [55.51468462722138]
LLMの応答を改善するために,本質的な自己補正法が提案された。
近年の研究では、LLMの内在的な自己補正は、フィードバックのプロンプトとして、オラクルラベルなしで失敗することが示されている。
内在的な自己補正は、中途半端な回答と最終回答の両方を LLM が揺らぎ、単純な事実的質問に対する素早い偏見をもたらす可能性がある。
論文 参考訳(メタデータ) (2024-12-19T15:39:31Z) - Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。
本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。
本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文 参考訳(メタデータ) (2024-07-20T11:19:58Z) - LLM-Generated Black-box Explanations Can Be Adversarially Helpful [16.49758711633611]
大規模言語モデル(LLM)は,デジタルアシスタントとして機能することで,複雑な問題の解決と理解を支援する。
私たちの研究は、このアプローチに結びついている隠れたリスクを明らかにします。
LLMの説明が間違った答えを正しく見せると、これは起こります。
論文 参考訳(メタデータ) (2024-05-10T20:23:46Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - When Do LLMs Need Retrieval Augmentation? Mitigating LLMs' Overconfidence Helps Retrieval Augmentation [66.01754585188739]
大規模言語モデル(LLM)は、特定の知識を持っていないことを知るのが困難であることが判明した。
Retrieval Augmentation (RA)はLLMの幻覚を緩和するために広く研究されている。
本稿では,LLMの知識境界に対する認識を高めるためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2024-02-18T04:57:19Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Learn to Refuse: Making Large Language Models More Controllable and Reliable through Knowledge Scope Limitation and Refusal Mechanism [0.0]
大規模言語モデル(LLM)は印象的な言語理解と生成能力を示している。
これらのモデルは欠陥がなく、しばしばエラーや誤報を含む応答を生成する。
本稿では,LLMに対して,誤りを避けるために,難解な質問への回答を拒否するように指示する拒絶機構を提案する。
論文 参考訳(メタデータ) (2023-11-02T07:20:49Z) - Knowing What LLMs DO NOT Know: A Simple Yet Effective Self-Detection Method [36.24876571343749]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて大きな可能性を示している。
近年の文献では、LLMは断続的に非実効応答を生成する。
本研究では,LLM が知らない質問が非現実的な結果を生成する傾向にあることを検知する新たな自己検出手法を提案する。
論文 参考訳(メタデータ) (2023-10-27T06:22:14Z) - Avalon's Game of Thoughts: Battle Against Deception through Recursive
Contemplation [80.126717170151]
本研究では,複雑なアバロンゲームを用いて,認知環境におけるLSMの可能性を探究する。
本稿では,LLMの偽情報識別・対策能力を高めるための新しいフレームワークRecursive Contemplation(ReCon)を提案する。
論文 参考訳(メタデータ) (2023-10-02T16:27:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。