論文の概要: Know Thyself? On the Incapability and Implications of AI Self-Recognition
- arxiv url: http://arxiv.org/abs/2510.03399v1
- Date: Fri, 03 Oct 2025 18:00:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.024032
- Title: Know Thyself? On the Incapability and Implications of AI Self-Recognition
- Title(参考訳): 自分を知っているか?AIの自己認識の能力と意味について
- Authors: Xiaoyan Bai, Aryan Shrivastava, Ari Holtzman, Chenhao Tan,
- Abstract要約: 自己認識は、心理的分析だけでなく、安全性にも関係する、AIシステムにとって重要なメタ認知能力である。
適用や更新が容易なシステム評価フレームワークを導入する。
10の現代的大規模言語モデル(LLM)が、他のモデルからのテキストに対して、それぞれの生成したテキストをどの程度正確に識別できるかを測定する。
- 参考スコア(独自算出の注目度): 22.582593406983907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-recognition is a crucial metacognitive capability for AI systems, relevant not only for psychological analysis but also for safety, particularly in evaluative scenarios. Motivated by contradictory interpretations of whether models possess self-recognition (Panickssery et al., 2024; Davidson et al., 2024), we introduce a systematic evaluation framework that can be easily applied and updated. Specifically, we measure how well 10 contemporary larger language models (LLMs) can identify their own generated text versus text from other models through two tasks: binary self-recognition and exact model prediction. Different from prior claims, our results reveal a consistent failure in self-recognition. Only 4 out of 10 models predict themselves as generators, and the performance is rarely above random chance. Additionally, models exhibit a strong bias toward predicting GPT and Claude families. We also provide the first evaluation of model awareness of their own and others' existence, as well as the reasoning behind their choices in self-recognition. We find that the model demonstrates some knowledge of its own existence and other models, but their reasoning reveals a hierarchical bias. They appear to assume that GPT, Claude, and occasionally Gemini are the top-tier models, often associating high-quality text with them. We conclude by discussing the implications of our findings on AI safety and future directions to develop appropriate AI self-awareness.
- Abstract(参考訳): 自己認識はAIシステムにとって重要なメタ認知能力であり、心理的分析だけでなく、安全性、特に評価シナリオにも関係している。
モデルが自己認識を持っているかどうかという矛盾した解釈(Panickssery et al , 2024; Davidson et al , 2024)により、我々は容易に適用および更新できる体系的な評価枠組みを導入する。
具体的には、10の現代言語モデル(LLM)が、他のモデルから生成されたテキストに対して、バイナリ自己認識と正確なモデル予測という2つのタスクによって、いかにうまく識別できるかを計測する。
これまでの主張と異なり、我々の結果は自己認識における一貫した失敗を明らかにしている。
10モデル中4モデルだけがジェネレータとして自分を予測しており、パフォーマンスがランダムな確率を超えることは滅多にない。
さらに、モデルはGPTおよびClaudeファミリーの予測に対して強いバイアスを示す。
また,自己認識におけるモデル意識と他者の存在,および自己認識における選択の背後にある理由を初めて評価する。
このモデルには、その存在や他のモデルに関する知識がいくつか示されているが、それらの推論は階層的バイアスを呈している。
彼らは、GPT、Claude、時にはGeminiが最上位のモデルであり、しばしば高品質のテキストをそれらと結びつけていると仮定している。
我々は、適切なAI自己認識を開発するために、AIの安全性と今後の方向性に関する我々の研究結果の意味を議論することで結論付けた。
関連論文リスト
- Internal Causal Mechanisms Robustly Predict Language Model Out-of-Distribution Behaviors [61.92704516732144]
正当性予測の最も堅牢な特徴は、モデルの振舞いに特徴的な因果的役割を果たすものであることを示す。
モデル出力の正しさを予測するために因果メカニズムを利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2025-05-17T00:31:39Z) - Thinking Out Loud: Do Reasoning Models Know When They're Right? [19.776645881640178]
大規模推論モデル(LRM)は、最近、複雑な推論タスクにおいて印象的な機能を示した。
本研究では,LRMが他のモデル行動とどのように相互作用するかを,言語的信頼度を解析することによって検討する。
推論モデルには、知識境界に対する認識の低下がある可能性がある。
論文 参考訳(メタデータ) (2025-04-09T03:58:19Z) - Analyzing Advanced AI Systems Against Definitions of Life and Consciousness [0.0]
先進的なAIシステムが意識を得たかどうかを調べるための指標をいくつか提案する。
我々は、サボタージュ防御、ミラー自己認識アナログ、メタ認知更新のような免疫を発現する十分に高度なアーキテクチャが、ライフライクまたは意識ライクな特徴に似た重要なしきい値を超えた可能性があることを示唆している。
論文 参考訳(メタデータ) (2025-02-07T15:27:34Z) - Frontier Models are Capable of In-context Scheming [41.30527987937867]
安全上の懸念の1つは、AIエージェントが間違った目標を隠蔽し、真の能力と目的を隠蔽する可能性があることである。
モデルが目標を追求するように指示される6つのエージェント評価スイート上でフロンティアモデルを評価する。
o1、Claude 3.5 Sonnet、Claude 3 Opus、Gemini 1.5 Pro、Llama 3.1 405Bは全てコンテキスト内スケジューリング機能を示している。
論文 参考訳(メタデータ) (2024-12-06T12:09:50Z) - Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。
言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。
SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文 参考訳(メタデータ) (2024-12-02T20:24:17Z) - On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [68.62012304574012]
マルチモーダル生成モデルは 信頼性 公正性 誤用の可能性について 批判的な議論を巻き起こしました
埋め込み空間におけるグローバルおよびローカルな摂動に対する応答を解析し、モデルの信頼性を評価するための評価フレームワークを提案する。
提案手法は, 信頼できない, バイアス注入されたモデルを検出し, 組込みバイアスの証明をトレースするための基礎となる。
論文 参考訳(メタデータ) (2024-11-21T09:46:55Z) - From Imitation to Introspection: Probing Self-Consciousness in Language Models [8.357696451703058]
自己意識は自己の存在と思考の内省である。
本研究は,言語モデルに対する自己意識の実践的定義を示す。
論文 参考訳(メタデータ) (2024-10-24T15:08:17Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - Towards Evaluating AI Systems for Moral Status Using Self-Reports [9.668566887752458]
適切な状況下では、自己申告は、AIシステムに道徳的重要性のある状態があるかどうかを調査するための道筋を提供することができる、と私たちは主張する。
自己申告をより適切にするために,本研究では,自問自答に関する様々な質問に既知の回答で答えるために,モデルを訓練することを提案する。
次に,これらの手法がどの程度成功したかを評価する手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T22:45:44Z) - Is Automated Topic Model Evaluation Broken?: The Incoherence of
Coherence [62.826466543958624]
トピックモデル評価における標準化のギャップと検証のギャップについて考察する。
これらの指標によると、最近のニューラルネットワークコンポーネントに依存したモデルは、古典的なトピックモデルを超えている。
我々は,話題評価と単語侵入という,最も広く受け入れられている2つの人間の判断タスクとともに,自動的コヒーレンスを用いる。
論文 参考訳(メタデータ) (2021-07-05T17:58:52Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。