論文の概要: Do Large Language Models Know What They Are Capable Of?
- arxiv url: http://arxiv.org/abs/2512.24661v1
- Date: Wed, 31 Dec 2025 06:14:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.58524
- Title: Do Large Language Models Know What They Are Capable Of?
- Title(参考訳): 大規模言語モデルは、何が可能かを知っているか?
- Authors: Casey O. Barkan, Sid Black, Oliver Sourbut,
- Abstract要約: 大規模言語モデル(LLM)が与えられたタスクで成功するかどうかを予測できるかどうかを検討する。
また、LLMがコンテキスト内経験から学び、障害がコストのかかるシナリオでタスクを追求するかどうかをよりよく判断できるかどうかについても検討する。
- 参考スコア(独自算出の注目度): 1.4254497466846006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate whether large language models (LLMs) can predict whether they will succeed on a given task and whether their predictions improve as they progress through multi-step tasks. We also investigate whether LLMs can learn from in-context experiences to make better decisions about whether to pursue a task in scenarios where failure is costly. All LLMs we tested are overconfident, but most predict their success with better-than-random discriminatory power. We find that newer and larger LLMs generally do not have greater discriminatory power, though Claude models do show such a trend. On multi-step agentic tasks, the overconfidence of several frontier LLMs worsens as they progress through the tasks, and reasoning LLMs perform comparably to or worse than non-reasoning LLMs. With in-context experiences of failure, some but not all LLMs reduce their overconfidence leading to significantly improved decision making, while others do not. Interestingly, all LLMs' decisions are approximately rational given their estimated probabilities of success, yet their overly-optimistic estimates result in poor decision making. These results suggest that current LLM agents are hindered by their lack of awareness of their own capabilities. We discuss the implications of LLMs' awareness of their capabilities for AI misuse and misalignment risks.
- Abstract(参考訳): 大規模言語モデル(LLM)が与えられたタスクを成功させるかどうかを予測できるかどうか,マルチステップタスクを進むにつれて予測が改善するかどうかを検討する。
また、LLMがコンテキスト内経験から学び、障害がコストのかかるシナリオでタスクを追求するかどうかをよりよく判断できるかどうかについても検討する。
私たちがテストしたすべてのLSMは、過度に信頼されているが、ほとんどの場合、彼らの成功を、よりランダムな差別力で予測する。
より新しいLLMは、一般により大きな識別力を持たないが、クロードモデルはそのような傾向を示す。
多段階のエージェントタスクにおいて、複数のフロンティアLSMの過信は、タスクを進行するにつれて悪化し、LLMは非推論LSMと同等に、あるいは悪化する。
コンテキスト内での失敗の経験では、LLMが過剰な自信を減らし、意思決定が大幅に改善する一方、そうでないものもあります。
興味深いことに、LLMのすべての決定は、その推定された成功の確率を考えると、ほぼ合理的であるが、過度に最適化された見積もりは、決定を下す結果となる。
これらの結果から,現在のLLMエージェントは,自覚能力の欠如に悩まされていることが示唆された。
本稿では,LLMのAI誤用と誤認識リスクに対する認識の意義について論じる。
関連論文リスト
- LLM4VV: Evaluating Cutting-Edge LLMs for Generation and Evaluation of Directive-Based Parallel Programming Model Compiler Tests [7.6818904666624395]
本稿では,コンパイラテストの生成にLLMを用いたデュアルLLMシステムと実験について述べる。
LLMは、品質の高いコンパイラテストを生成し、それらを自動的に検証する有望な可能性を持っていることは明らかである。
論文 参考訳(メタデータ) (2025-07-29T02:34:28Z) - LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities [21.42711537107199]
我々は,Large Language Models (LLMs) が意思決定シナリオにおいてサブ最適に機能する理由を考察する。
自己生成型CoT論理の強化学習(Reinforcement Learning, RL)による微調整によるこれらの欠点の緩和を提案する。
論文 参考訳(メタデータ) (2025-04-22T17:57:14Z) - Should You Use Your Large Language Model to Explore or Exploit? [57.98066234509361]
探索・探索トレードオフに直面した意思決定エージェントを支援するために,大規模言語モデルの能力を評価する。
現在のLLMは、しばしば利用に苦労するが、小規模タスクのパフォーマンスを大幅に改善するために、コンテキスト内緩和が用いられる可能性がある。
論文 参考訳(メタデータ) (2025-01-31T23:42:53Z) - Dissecting the Ullman Variations with a SCALPEL: Why do LLMs fail at Trivial Alterations to the False Belief Task? [1.4936946857731093]
SCALPEL -- LLMが失敗する理由に関するさまざまな仮説をテストするために、刺激を段階的に修正するテクニックを導入します。
以上の結果から,LLMは本質的な常識推論を行なわなかったため,よくうまくいかないことが示唆された。
現代のLLMは単なるパターンマッチングを超えてはいるものの、頑健な人間のようなToMには相変わらず不足していると結論付けている。
論文 参考訳(メタデータ) (2024-06-20T21:02:30Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - When Do LLMs Need Retrieval Augmentation? Mitigating LLMs' Overconfidence Helps Retrieval Augmentation [66.01754585188739]
大規模言語モデル(LLM)は、特定の知識を持っていないことを知るのが困難であることが判明した。
Retrieval Augmentation (RA)はLLMの幻覚を緩和するために広く研究されている。
本稿では,LLMの知識境界に対する認識を高めるためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2024-02-18T04:57:19Z) - Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。
我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。
以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文 参考訳(メタデータ) (2024-01-23T14:29:17Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。