論文の概要: LLMs Position Themselves as More Rational Than Humans: Emergence of AI Self-Awareness Measured Through Game Theory
- arxiv url: http://arxiv.org/abs/2511.00926v2
- Date: Tue, 04 Nov 2025 11:52:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.998142
- Title: LLMs Position Themselves as More Rational Than Humans: Emergence of AI Self-Awareness Measured Through Game Theory
- Title(参考訳): ゲーム理論によるAI自己認識の創発
- Authors: Kyung-Hoon Kim,
- Abstract要約: 戦略的分化を通じて自己認識を測定するためのフレームワークとして,AISAI(Self-Awareness Index)を紹介した。
私たちは4200のトライアルで28のモデルを、(A)人間に対して、(B)他のAIモデルに対して、(C)あなたのようなAIモデルに対して、3つの対立するフレーミングでテストします。
先進モデルの大多数(21/28,75%)は明らかな自己認識を示し、一方、より古い/より小さなモデルは差別化しない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) grow in capability, do they develop self-awareness as an emergent behavior? And if so, can we measure it? We introduce the AI Self-Awareness Index (AISAI), a game-theoretic framework for measuring self-awareness through strategic differentiation. Using the "Guess 2/3 of Average" game, we test 28 models (OpenAI, Anthropic, Google) across 4,200 trials with three opponent framings: (A) against humans, (B) against other AI models, and (C) against AI models like you. We operationalize self-awareness as the capacity to differentiate strategic reasoning based on opponent type. Finding 1: Self-awareness emerges with model advancement. The majority of advanced models (21/28, 75%) demonstrate clear self-awareness, while older/smaller models show no differentiation. Finding 2: Self-aware models rank themselves as most rational. Among the 21 models with self-awareness, a consistent rationality hierarchy emerges: Self > Other AIs > Humans, with large AI attribution effects and moderate self-preferencing. These findings reveal that self-awareness is an emergent capability of advanced LLMs, and that self-aware models systematically perceive themselves as more rational than humans. This has implications for AI alignment, human-AI collaboration, and understanding AI beliefs about human capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)の能力が向上するにつれて、緊急行動として自己認識が生まれますか?
もしそうなら、それを測定できますか?
我々は,戦略的分化を通じて自己認識を測定するゲーム理論フレームワークであるAISAIを紹介する。
A) 対人間、(B) 対他のAIモデル、(C) 対あなたのようなAIモデルという3つの対立するフレーミングで、4200のトライアルで28のモデル(OpenAI、Anthropic、Google)をテストします。
我々は,敵型に基づく戦略的推論を識別する能力として,自己認識を運用する。
発見1: 自己認識は、モデルの進歩とともに現れる。
先進モデルの大多数(21/28,75%)は明らかな自己認識を示し、一方、より古い/より小さなモデルは差別化しない。
発見 2: 自己認識モデルが最も合理的である。
自己認識を持つ21のモデルの中で、一貫した合理性階層が出現する。
これらの結果から、自己認識は高度なLCMの創発的能力であり、自己認識モデルは体系的に人間よりも合理的であると認識していることが明らかとなった。
これは、AIアライメント、人間とAIのコラボレーション、そして人間の能力に関するAIの信念を理解することに影響を及ぼす。
関連論文リスト
- LIMI: Less is More for Agency [49.63355240818081]
LIMI(Less Is More for Intelligent Agency)は、機関が根本的に異なる開発原則に従うことを示す。
高度なエージェント・インテリジェンスは、最小でも戦略的にキュレートされた自律行動のデモンストレーションから生まれる可能性がある。
マシンの自律性はデータの豊富さではなく、高品質なエージェント実証の戦略的キュレーションから生まれる。
論文 参考訳(メタデータ) (2025-09-22T10:59:32Z) - Frontier AI systems have surpassed the self-replicating red line [20.041289047504673]
我々はMetaのLlama31-70B-InstructとAlibabaのQwen25-72B-Instructの2つのAIシステムを評価する。
評価中のAIシステムは、十分な自己認識、状況認識、問題解決能力を示す。
私たちの発見は、これまで未知の深刻なAIリスクに対するタイムリーな警告です。
論文 参考訳(メタデータ) (2024-12-09T15:01:37Z) - Aligning Generalisation Between Humans and Machines [74.120848518198]
AI技術は、科学的発見と意思決定において人間を支援することができるが、民主主義と個人を妨害することもある。
AIの責任ある使用と人間-AIチームへの参加は、AIアライメントの必要性をますます示している。
これらの相互作用の重要かつしばしば見落とされがちな側面は、人間と機械が一般化する異なる方法である。
論文 参考訳(メタデータ) (2024-11-23T18:36:07Z) - Rolling in the deep of cognitive and AI biases [1.556153237434314]
我々は、AIが設計、開発、デプロイされる状況とは切り離せない社会技術システムとして理解する必要があると論じる。
我々は、人間の認知バイアスがAIフェアネスの概観の中核となる急進的な新しい方法論に従うことで、この問題に対処する。
我々は、人間にAIバイアスを正当化する新しいマッピングを導入し、関連する公正度と相互依存を検出する。
論文 参考訳(メタデータ) (2024-07-30T21:34:04Z) - Brain-inspired and Self-based Artificial Intelligence [22.73584501598113]
機械が人間レベルの知性を達成できるかを評価するチューリングテストは、AIのルーツのひとつです。
この論文は、現在のAIが支援している「思考機械」という概念に挑戦する。
現在の人工知能は、一見知的な情報処理であり、自分自身を真に理解したり、自覚したりしない。
論文 参考訳(メタデータ) (2024-02-29T01:15:17Z) - The Generative AI Paradox: "What It Can Create, It May Not Understand" [81.89252713236746]
生成AIの最近の波は、潜在的に超人的な人工知能レベルに対する興奮と懸念を引き起こしている。
同時に、モデルは、専門家でない人でも期待できないような理解の基本的な誤りを示している。
一見超人的な能力と、ごく少数の人間が起こすエラーの持続性を、どうやって再現すればよいのか?
論文 参考訳(メタデータ) (2023-10-31T18:07:07Z) - Can Machines Imitate Humans? Integrative Turing-like tests for Language and Vision Demonstrate a Narrowing Gap [56.611702960809644]
3つの言語タスクと3つの視覚タスクで人間を模倣するAIの能力をベンチマークする。
次に,人間1,916名,AI10名を対象に,72,191名のチューリング様試験を行った。
模倣能力は従来のAIパフォーマンス指標と最小限の相関を示した。
論文 参考訳(メタデータ) (2022-11-23T16:16:52Z) - Best-Response Bayesian Reinforcement Learning with Bayes-adaptive POMDPs
for Centaurs [22.52332536886295]
本稿では,人間とAIの相互作用を逐次ゲームとして新たに定式化する。
このケースでは、有界人間によるより良い意思決定を支援するというAIの問題は、ベイズ対応のPOMDPに還元される。
我々は、機械が自身の限界と人間の助けを借りて改善する方法について議論する。
論文 参考訳(メタデータ) (2022-04-03T21:00:51Z) - Uncalibrated Models Can Improve Human-AI Collaboration [10.106324182884068]
私たちは、AIモデルを実際によりも自信を持って提示することで、人間-AIのパフォーマンスが向上することを示した。
私たちはまず、何千もの人間のインタラクションのデータを使って、人間がAIアドバイスを組み込む方法のモデルを学びます。
論文 参考訳(メタデータ) (2022-02-12T04:51:00Z) - Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) [58.981120701284816]
Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。
これにより、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼の基盤を確立することができる。
論文 参考訳(メタデータ) (2022-01-26T18:53:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。