論文の概要: Potemkin Understanding in Large Language Models
- arxiv url: http://arxiv.org/abs/2506.21521v1
- Date: Thu, 26 Jun 2025 17:41:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.229042
- Title: Potemkin Understanding in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるポテトキン理解
- Authors: Marina Mancoridis, Bec Weeks, Keyon Vafa, Sendhil Mullainathan,
- Abstract要約: 大規模言語モデル(LLM)は、ベンチマークデータセットを使用して定期的に評価される。
本稿ではまず,この問題に対処するための正式な枠組みを紹介する。
ポテムキンはモデル、タスク、ドメインにまたがってユビキタスである。
- 参考スコア(独自算出の注目度): 2.7941822406428702
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are regularly evaluated using benchmark datasets. But what justifies making inferences about an LLM's capabilities based on its answers to a curated set of questions? This paper first introduces a formal framework to address this question. The key is to note that the benchmarks used to test LLMs -- such as AP exams -- are also those used to test people. However, this raises an implication: these benchmarks are only valid tests if LLMs misunderstand concepts in ways that mirror human misunderstandings. Otherwise, success on benchmarks only demonstrates potemkin understanding: the illusion of understanding driven by answers irreconcilable with how any human would interpret a concept. We present two procedures for quantifying the existence of potemkins: one using a specially designed benchmark in three domains, the other using a general procedure that provides a lower-bound on their prevalence. We find that potemkins are ubiquitous across models, tasks, and domains. We also find that these failures reflect not just incorrect understanding, but deeper internal incoherence in concept representations.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ベンチマークデータセットを使用して定期的に評価される。
しかし、LLMの能力に関する推測を、その質問に対する回答に基づいて正当化するのは何だろうか?
本稿ではまず,この問題に対処するための正式な枠組みを紹介する。
鍵となるのは、LLM(AP試験など)のテストに使用されたベンチマークも、人々のテストに使用されたベンチマークであることだ。
これらのベンチマークは、LLMが人間の誤解を反映する方法で概念を誤解している場合にのみ有効なテストである。
さもなければ、ベンチマークの成功はポテムキンの理解を証明しているだけである: 人間が概念をどう解釈するかとは相容れない答えによって駆動される理解の錯覚。
本稿では,ポテムキンの存在を定量化する2つの方法を提案する。1つは3つの領域で特別に設計されたベンチマークを用いており,もう1つはそれらの頻度に低いバウンドを与える一般的な手順を用いている。
ポテムキンはモデル、タスク、ドメインにまたがってユビキタスである。
また、これらの失敗は単に誤った理解だけでなく、概念表現におけるより深い内部的不整合を反映していることも判明した。
関連論文リスト
- Unveiling the Magic of Code Reasoning through Hypothesis Decomposition and Amendment [54.62926010621013]
我々は,大規模言語モデルの推論能力に対する新たな視点を提供するために,新しいタスクであるコード推論を導入する。
論理的推論の確立した形式に基づいて3つのメタベンチマークを要約し、8つの特定のベンチマークタスクにインスタンス化する。
本稿では,人間の複雑な問題解決手法に触発された新たな経路探索パイプラインを提案する。
論文 参考訳(メタデータ) (2025-02-17T10:39:58Z) - Leaving the barn door open for Clever Hans: Simple features predict LLM benchmark answers [10.786564839628952]
AIベンチマークの内部的妥当性は、要因の相違のないことを保証するために不可欠である。
我々は、AIシステムが意図しない方法でベンチマークを解決し、テスト対象の能力を回避できる可能性を調査する。
論文 参考訳(メタデータ) (2024-10-15T15:05:41Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z) - The Goldilocks of Pragmatic Understanding: Fine-Tuning Strategy Matters
for Implicature Resolution by LLMs [26.118193748582197]
我々は、広く使われている最先端モデルの4つのカテゴリを評価する。
2進推論を必要とする発話のみを評価するにもかかわらず、3つのカテゴリのモデルはランダムに近い性能を示す。
これらの結果は、特定の微調整戦略がモデルにおける実用的理解を誘導する上ではるかに優れていることを示唆している。
論文 参考訳(メタデータ) (2022-10-26T19:04:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。