論文の概要: Potemkin Understanding in Large Language Models
- arxiv url: http://arxiv.org/abs/2506.21521v1
- Date: Thu, 26 Jun 2025 17:41:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.229042
- Title: Potemkin Understanding in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるポテトキン理解
- Authors: Marina Mancoridis, Bec Weeks, Keyon Vafa, Sendhil Mullainathan,
- Abstract要約: 大規模言語モデル(LLM)は、ベンチマークデータセットを使用して定期的に評価される。
本稿ではまず,この問題に対処するための正式な枠組みを紹介する。
ポテムキンはモデル、タスク、ドメインにまたがってユビキタスである。
- 参考スコア(独自算出の注目度): 2.7941822406428702
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are regularly evaluated using benchmark datasets. But what justifies making inferences about an LLM's capabilities based on its answers to a curated set of questions? This paper first introduces a formal framework to address this question. The key is to note that the benchmarks used to test LLMs -- such as AP exams -- are also those used to test people. However, this raises an implication: these benchmarks are only valid tests if LLMs misunderstand concepts in ways that mirror human misunderstandings. Otherwise, success on benchmarks only demonstrates potemkin understanding: the illusion of understanding driven by answers irreconcilable with how any human would interpret a concept. We present two procedures for quantifying the existence of potemkins: one using a specially designed benchmark in three domains, the other using a general procedure that provides a lower-bound on their prevalence. We find that potemkins are ubiquitous across models, tasks, and domains. We also find that these failures reflect not just incorrect understanding, but deeper internal incoherence in concept representations.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ベンチマークデータセットを使用して定期的に評価される。
しかし、LLMの能力に関する推測を、その質問に対する回答に基づいて正当化するのは何だろうか?
本稿ではまず,この問題に対処するための正式な枠組みを紹介する。
鍵となるのは、LLM(AP試験など)のテストに使用されたベンチマークも、人々のテストに使用されたベンチマークであることだ。
これらのベンチマークは、LLMが人間の誤解を反映する方法で概念を誤解している場合にのみ有効なテストである。
さもなければ、ベンチマークの成功はポテムキンの理解を証明しているだけである: 人間が概念をどう解釈するかとは相容れない答えによって駆動される理解の錯覚。
本稿では,ポテムキンの存在を定量化する2つの方法を提案する。1つは3つの領域で特別に設計されたベンチマークを用いており,もう1つはそれらの頻度に低いバウンドを与える一般的な手順を用いている。
ポテムキンはモデル、タスク、ドメインにまたがってユビキタスである。
また、これらの失敗は単に誤った理解だけでなく、概念表現におけるより深い内部的不整合を反映していることも判明した。
関連論文リスト
- Ice Cream Doesn't Cause Drowning: Benchmarking LLMs Against Statistical Pitfalls in Causal Inference [16.706959860667133]
大規模言語モデル(LLM)が厳密で信頼性の高い統計的因果推論を扱えるかどうかは不明である。
CausalPitfallsベンチマークは、信頼できる因果推論システムの開発を進めるための重要なガイダンスと定量的指標を提供する。
論文 参考訳(メタデータ) (2025-05-19T23:06:00Z) - Inside-Out: Hidden Factual Knowledge in LLMs [50.79758420289131]
この研究は、大言語モデル(LLM)が出力で表現したものよりも、パラメータの事実的知識を符号化するかどうかを評価するためのフレームワークを示す。
まず、与えられた質問に対して、正解が上位にランクされている正解対の分数として、その知識の形式的定義を定量化する。
次に、このフレームワークを3つの人気のあるオープンウェイト LLM に適用し、クローズドブック QA セットアップのケーススタディを示す。
論文 参考訳(メタデータ) (2025-03-19T15:21:48Z) - Prompting Science Report 1: Prompt Engineering is Complicated and Contingent [0.0]
これは、ビジネス、教育、政策リーダーがAIを扱う技術的詳細を理解するのを助けるための一連の短いレポートの最初のものだ。
LLM(Large Language Model)がベンチマークをパスするかどうかを測定するための標準は存在しない。
特定のプロンプトアプローチが LLM の特定の質問に答えられるかどうかを事前に知るのは難しい。
論文 参考訳(メタデータ) (2025-03-04T21:09:12Z) - InductionBench: LLMs Fail in the Simplest Complexity Class [53.70978746199222]
大規模言語モデル(LLM)は推論において顕著に改善されている。
帰納的推論(inductive reasoning)は、観測されたデータから基礎となるルールを推測するものであり、まだ探索されていない。
本稿では, LLMの帰納的推論能力を評価するための新しいベンチマークであるインジェクションベンチを紹介する。
論文 参考訳(メタデータ) (2025-02-20T03:48:00Z) - Unveiling the Magic of Code Reasoning through Hypothesis Decomposition and Amendment [54.62926010621013]
我々は,大規模言語モデルの推論能力に対する新たな視点を提供するために,新しいタスクであるコード推論を導入する。
論理的推論の確立した形式に基づいて3つのメタベンチマークを要約し、8つの特定のベンチマークタスクにインスタンス化する。
本稿では,人間の複雑な問題解決手法に触発された新たな経路探索パイプラインを提案する。
論文 参考訳(メタデータ) (2025-02-17T10:39:58Z) - Do Large Language Model Benchmarks Test Reliability? [66.1783478365998]
モデル信頼性の定量化について検討する。
信頼性評価におけるこのギャップにより、我々はいわゆるプラチナベンチマークの概念を提案する。
我々は、これらのプラチナベンチマークにおいて、幅広いモデルを評価し、実際、フロンティアLSMは、単純なタスクで失敗を示す。
論文 参考訳(メタデータ) (2025-02-05T18:58:19Z) - Leaving the barn door open for Clever Hans: Simple features predict LLM benchmark answers [10.786564839628952]
AIベンチマークの内部的妥当性は、要因の相違のないことを保証するために不可欠である。
我々は、AIシステムが意図しない方法でベンチマークを解決し、テスト対象の能力を回避できる可能性を調査する。
論文 参考訳(メタデータ) (2024-10-15T15:05:41Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z) - The Goldilocks of Pragmatic Understanding: Fine-Tuning Strategy Matters
for Implicature Resolution by LLMs [26.118193748582197]
我々は、広く使われている最先端モデルの4つのカテゴリを評価する。
2進推論を必要とする発話のみを評価するにもかかわらず、3つのカテゴリのモデルはランダムに近い性能を示す。
これらの結果は、特定の微調整戦略がモデルにおける実用的理解を誘導する上ではるかに優れていることを示唆している。
論文 参考訳(メタデータ) (2022-10-26T19:04:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。