論文の概要: Simulated Self-Assessment in Large Language Models: A Psychometric Approach to AI Self-Efficacy
- arxiv url: http://arxiv.org/abs/2511.19872v1
- Date: Tue, 25 Nov 2025 03:24:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.251435
- Title: Simulated Self-Assessment in Large Language Models: A Psychometric Approach to AI Self-Efficacy
- Title(参考訳): 大規模言語モデルにおける自己評価のシミュレーション:AI自己効力感に対する心理学的アプローチ
- Authors: Daniel I Jackson, Emma L Jensen, Syed-Amad Hussain, Emre Sezgin,
- Abstract要約: 我々は,10大言語モデル(LLM)の自己評価をシミュレートするために,10項目の総合自己効力尺度を適用した。
反応は、反復的な管理とランダム化されたアイテム注文の間で非常に安定していた。
モデルは条件によって異なる自己効力レベルを示し、スコアは人間の基準よりも低かった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Self-assessment is a key aspect of reliable intelligence, yet evaluations of large language models (LLMs) focus mainly on task accuracy. We adapted the 10-item General Self-Efficacy Scale (GSES) to elicit simulated self-assessments from ten LLMs across four conditions: no task, computational reasoning, social reasoning, and summarization. GSES responses were highly stable across repeated administrations and randomized item orders. However, models showed significantly different self-efficacy levels across conditions, with aggregate scores lower than human norms. All models achieved perfect accuracy on computational and social questions, whereas summarization performance varied widely. Self-assessment did not reliably reflect ability: several low-scoring models performed accurately, while some high-scoring models produced weaker summaries. Follow-up confidence prompts yielded modest, mostly downward revisions, suggesting mild overestimation in first-pass assessments. Qualitative analysis showed that higher self-efficacy corresponded to more assertive, anthropomorphic reasoning styles, whereas lower scores reflected cautious, de-anthropomorphized explanations. Psychometric prompting provides structured insight into LLM communication behavior but not calibrated performance estimates.
- Abstract(参考訳): 自己評価は信頼性の高いインテリジェンスの重要な側面であるが、大規模言語モデル(LLM)の評価は主にタスクの正確性に焦点を当てている。
我々は,10項目の一般自己効力尺度(GSES)を,タスクなし,計算的推論,社会的推論,要約の4つの条件で,10個のLDMから自己評価をシミュレートした。
GSES応答は、反復的な管理とランダム化されたアイテム注文の間で非常に安定していた。
しかし、モデルでは条件によって異なる自己効力レベルを示し、スコアは人間の基準よりも低かった。
全てのモデルは計算と社会の質問に対して完全な精度を達成したが、要約性能は広範囲に及んだ。
いくつかの低スコアモデルが正確に実行され、いくつかの高スコアモデルはより弱い要約を生み出した。
フォローアップの信頼感は緩やかで、ほとんどが下方修正であり、ファーストパス評価では軽度の過大評価を示唆している。
質的な分析では、高い自己効力はより断定的で人為的な推論スタイルに対応し、低いスコアは慎重で非人為的な説明を反映していた。
心理的プロンプトは、LLM通信の振る舞いに関する構造化された洞察を提供するが、キャリブレーションされた性能推定は行わない。
関連論文リスト
- On the Convergence of Moral Self-Correction in Large Language Models [26.724972162483855]
大きな言語モデル(LLM)は、そのように指示されたときの応答を改善することができる。
LLMは、内在的な自己補正と呼ばれるプロセスである応答品質を改善するために、内部知識に頼らなければならない。
我々は,多ラウンド相互作用による性能収束という,本質的な自己補正のキーとなる特徴を明らかにする。
論文 参考訳(メタデータ) (2025-10-08T17:46:27Z) - Self-Consistency as a Free Lunch: Reducing Hallucinations in Vision-Language Models via Self-Reflection [71.8243083897721]
視覚言語モデルは、しばしば詳細を幻覚させ、既存のオブジェクトを生成するか、出力信頼性を損なう不正確な属性を生成する。
本稿では、長文応答と短文応答の自己整合性を利用して、学習のための選好ペアを生成する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T10:37:11Z) - Semantic Voting: A Self-Evaluation-Free Approach for Efficient LLM Self-Improvement on Unverifiable Open-ended Tasks [38.058215007885096]
大規模言語モデル(LLM)の自己評価は高い計算オーバーヘッドをもたらし、本質的なバイアスによる過信問題を引き起こす。
本稿では、軽量で効果的な自己改善を目的とした、検証不能なタスクに対する新しい自己評価自由アプローチを提案する。
論文 参考訳(メタデータ) (2025-09-27T02:44:05Z) - R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - Superficial Self-Improved Reasoners Benefit from Model Merging [49.09091498084467]
高品質データコーパスの合成ソリューションとしての自己改善
特に,本分析の結果から,LMがドメイン内推論の精度を向上したとしても,それらの一般的な推論能力を損なうことが判明した。
提案手法は,オリジナルモデルと自己改善モデルとの重みを戦略的に組み合わせ,一般化を保ちながら反復モデルマージング(IMM)を提案する。
論文 参考訳(メタデータ) (2025-03-03T22:41:25Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [75.1351701045874]
Best-of-N selectionは、Large Language Models(LLMs)の推論性能を改善するための重要なテクニックである。
本稿では, LLM出力の固有確率分布を利用して, 外部報酬モデルを必要としない応答品質を推定する, 新規で効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - Self-Evolving Critique Abilities in Large Language Models [59.861013614500024]
本稿では,Large Language Models (LLM) の批判能力の向上について検討する。
SCRITは、LCMを自己生成データで訓練し、批判能力を進化させるフレームワークである。
分析の結果,SCRITの性能はデータやモデルサイズと正の相関関係にあることが明らかとなった。
論文 参考訳(メタデータ) (2025-01-10T05:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。