Fugu-MT 論文翻訳(概要): Do Large Language Models Exhibit Cognitive Dissonance? Studying the Difference Between Revealed Beliefs and Stated Answers

論文の概要: Do Large Language Models Exhibit Cognitive Dissonance? Studying the Difference Between Revealed Beliefs and Stated Answers

arxiv url: http://arxiv.org/abs/2406.14986v2
Date: Tue, 2 Jul 2024 14:02:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-04 06:39:57.050029
Title: Do Large Language Models Exhibit Cognitive Dissonance? Studying the Difference Between Revealed Beliefs and Stated Answers
Title（参考訳）: 大規模言語モデルは認知的不協和性を制限するか? : 回答と回答の相違について
Authors: Manuel Mondal, Ljiljana Dolamic, Gérôme Bovet, Philippe Cudré-Mauroux, Julien Audiffren,
Abstract要約: 我々は,これらの能力が調整プロンプトとMCQの外部で測定可能かどうかを検討する。以上の結果から, LLMの回答は, Stated Answer と大きく異なることが示唆された。テキスト補完はLLMの中核にあるため,これらの結果は共通評価手法が部分画像のみを提供する可能性があることを示唆している。
参考スコア（独自算出の注目度）: 13.644277507363036
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Prompting and Multiple Choices Questions (MCQ) have become the preferred approach to assess the capabilities of Large Language Models (LLMs), due to their ease of manipulation and evaluation. Such experimental appraisals have pointed toward the LLMs' apparent ability to perform causal reasoning or to grasp uncertainty. In this paper, we investigate whether these abilities are measurable outside of tailored prompting and MCQ by reformulating these issues as direct text completion - the foundation of LLMs. To achieve this goal, we define scenarios with multiple possible outcomes and we compare the prediction made by the LLM through prompting (their Stated Answer) to the probability distributions they compute over these outcomes during next token prediction (their Revealed Belief). Our findings suggest that the Revealed Belief of LLMs significantly differs from their Stated Answer and hint at multiple biases and misrepresentations that their beliefs may yield in many scenarios and outcomes. As text completion is at the core of LLMs, these results suggest that common evaluation methods may only provide a partial picture and that more research is needed to assess the extent and nature of their capabilities.
Abstract（参考訳）: Prompting and Multiple Choices Questions (MCQ) は、操作や評価の容易さから、LLM(Large Language Models)の能力を評価するために好まれるアプローチとなっている。このような実験的な評価は、LSMが因果推論を行ったり、不確実性を把握する能力に向けられている。本稿では,これらの能力が調整プロンプトの外部で測定可能かどうかについて検討し,これらの問題を直接テキスト補完(LCM)の基盤として再構成することでMCQについて検討する。この目的を達成するために、複数の可能な結果を持つシナリオを定義し、次のトークン予測(Revealed Belief)において、それらの結果に対して計算した確率分布をプロンプト(ステートド・アンサー)することで、LCMが生成した予測と比較する。以上の結果から,LSMの回答は,彼らの回答とは大きく異なることが示唆され,その信念が多くのシナリオや成果をもたらす可能性があるという複数のバイアスや誤表現が示唆された。テキスト補完はLLMの中核にあるため、これらの結果は、共通評価手法は部分的な図のみを提供するものであり、それらの能力の程度と性質を評価するためにはより多くの研究が必要であることを示唆している。

関連論文リスト

Reasoning Under Uncertainty: Exploring Probabilistic Reasoning Capabilities of LLMs [47.20307724127832]
我々は,大規模言語モデル(LLM)の推論能力について,初めて包括的な研究を行った。我々は,3つの注意深く設計されたタスク,モード識別,最大推定,サンプル生成のモデルを評価する。経験的評価を通じて、より小さなモデルと大きなモデルの間に明らかなパフォーマンスギャップがあることを実証する。
論文参考訳（メタデータ） (2025-09-12T22:58:05Z)
Can Multiple Responses from an LLM Reveal the Sources of Its Uncertainty? [11.309445539128733]
大規模言語モデル(LLM)は、さまざまな領域で大きなブレークスルーをもたらしたが、信頼できない、あるいは誤解を招くアウトプットを生成することができる。 LLMが不確実である場合、その多重応答間の不一致パターンには、不確実性の根本原因に関する深い手がかりが含まれていることが示される。
論文参考訳（メタデータ） (2025-08-28T20:14:35Z)
Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)の評価には,MCQA(Multiple-Choice Question Answering)が広く用いられている。報告されたLCMの性能には,複数の要因が大きな影響を及ぼす可能性が示唆された。既存の回答抽出手法が人間の判断と一致しているかどうかを解析する。
論文参考訳（メタデータ） (2025-03-19T08:45:03Z)
Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文参考訳（メタデータ） (2024-07-20T11:19:58Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
Language Models can Evaluate Themselves via Probability Discrepancy [38.54454263880133]
様々な大規模言語モデル(LLM)の有効性を評価するための自己評価手法ProbDiffを提案する。テスト中のLSMを、初期応答と修正バージョンの間の確率差を計算するために独自に利用する。以上の結果から, ProbDiff は GPT-4 に基づく評価結果と同等の結果を得た。
論文参考訳（メタデータ） (2024-05-17T03:50:28Z)
"I'm Not Sure, But...": Examining the Impact of Large Language Models' Uncertainty Expression on User Reliance and Trust [51.542856739181474]
不確実性の自然言語表現の違いが、参加者の信頼、信頼、全体的なタスクパフォーマンスにどのように影響するかを示す。その結果, 一人称表情は, 参加者のシステムに対する信頼度を低下させ, 参加者の正確性を高めつつ, システムの回答に同調する傾向にあることがわかった。以上の結果から,不確実性の自然言語表現の使用は,LLMの過度な依存を軽減するための効果的なアプローチである可能性が示唆された。
論文参考訳（メタデータ） (2024-05-01T16:43:55Z)
Evaluating Consistency and Reasoning Capabilities of Large Language Models [0.0]
大規模言語モデル(LLM)は現在、学術、研究、ビジネス、金融など様々な分野で広く使われている。広く採用されているにもかかわらず、これらのモデルはしばしば誤った誤解を招く情報を生み出し、幻覚の傾向を示す。本稿では,パブリックおよびプロプライエタリLLMの整合性と推論能力を評価・比較することを目的とする。
論文参考訳（メタデータ） (2024-04-25T10:03:14Z)
Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は、システムの異なる部分への介入の下で因果効果を推定することができる。 LLMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを実証分析して評価する。我々は、様々な因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成し、介入に基づく推論の研究を可能にする。
論文参考訳（メタデータ） (2024-04-08T14:15:56Z)
FairBelief - Assessing Harmful Beliefs in Language Models [25.032952666134157]
言語モデル(LM)は、マイノリティを損なう可能性のある望ましくない偏見を継承することが示されている。本論文は,信仰を捉え,評価するための分析的アプローチであるFairBeliefを提案する。
論文参考訳（メタデータ） (2024-02-27T10:31:00Z)
Exploring Value Biases: How LLMs Deviate Towards the Ideal [57.99044181599786]
LLM(Large-Language-Models)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。価値バイアスは、人間の研究結果と同様、異なるカテゴリにわたるLSMにおいて強いことが示される。
論文参考訳（メタデータ） (2024-02-16T18:28:43Z)
Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文参考訳（メタデータ） (2024-02-15T18:46:24Z)
Learning to Generate Explainable Stock Predictions using Self-Reflective Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文参考訳（メタデータ） (2024-02-06T03:18:58Z)
You don't need a personality test to know these models are unreliable: Assessing the Reliability of Large Language Models on Psychometric Instruments [37.03210795084276]
本稿では, 大規模言語モデルが応答を一貫した, 頑健な方法で引き起こすかどうかを考察する。 17種類のLDM実験により,単純な摂動でさえモデルの問合せ能力を大幅に低下させることが判明した。その結果,現在広く普及しているプロンプトは,モデル知覚を正確にかつ確実に捉えるには不十分であることが示唆された。
論文参考訳（メタデータ） (2023-11-16T09:50:53Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)
Generating with Confidence: Uncertainty Quantification for Black-box Large Language Models [37.63939774027709]
自然言語生成(NLG)に特化した大規模言語モデル(LLM)が,最近,有望な機能を示すようになった。我々は、信頼できない結果が無視されるか、さらなる評価のために得られるような、選択的なNLG*に適用し、いくつかの信頼/不確実性対策を提案し、比較する。その結果, セマンティックな分散の簡易な測定は, LLM応答の質の信頼性を予測できることがわかった。
論文参考訳（メタデータ） (2023-05-30T16:31:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。