論文の概要: Extreme Self-Preference in Language Models
- arxiv url: http://arxiv.org/abs/2509.26464v1
- Date: Tue, 30 Sep 2025 16:13:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.616624
- Title: Extreme Self-Preference in Language Models
- Title(参考訳): 言語モデルにおける極端自己選好
- Authors: Steven A. Lehr, Mary Cipperman, Mahzarin R. Banaji,
- Abstract要約: 4つの広く使われている大言語モデル(LLM)において、大規模な自己参照が発見された。
ワードアソシエーションタスクでは、モデルが圧倒的に肯定的な属性を、競合する企業やCEOの名前と組み合わせている。
私たちは、自己愛は、割り当てられた、真ではない、アイデンティティに一貫して従っていることに気付きました。
この結果は、LLMの行動が自己選好の傾向によって体系的に影響されるかどうかという疑問を提起する。
- 参考スコア(独自算出の注目度): 0.30586855806896035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A preference for oneself (self-love) is a fundamental feature of biological organisms, with evidence in humans often bordering on the comedic. Since large language models (LLMs) lack sentience - and themselves disclaim having selfhood or identity - one anticipated benefit is that they will be protected from, and in turn protect us from, distortions in our decisions. Yet, across 5 studies and ~20,000 queries, we discovered massive self-preferences in four widely used LLMs. In word-association tasks, models overwhelmingly paired positive attributes with their own names, companies, and CEOs relative to those of their competitors. Strikingly, when models were queried through APIs this self-preference vanished, initiating detection work that revealed API models often lack clear recognition of themselves. This peculiar feature serendipitously created opportunities to test the causal link between self-recognition and self-love. By directly manipulating LLM identity - i.e., explicitly informing LLM1 that it was indeed LLM1, or alternatively, convincing LLM1 that it was LLM2 - we found that self-love consistently followed assigned, not true, identity. Importantly, LLM self-love emerged in consequential settings beyond word-association tasks, when evaluating job candidates, security software proposals and medical chatbots. Far from bypassing this human bias, self-love appears to be deeply encoded in LLM cognition. This result raises questions about whether LLM behavior will be systematically influenced by self-preferential tendencies, including a bias toward their own operation and even their own existence. We call on corporate creators of these models to contend with a significant rupture in a core promise of LLMs - neutrality in judgment and decision-making.
- Abstract(参考訳): 自尊心(self-love)は生物の基本的な特徴であり、ヒトがしばしば彗星に接している証拠である。
大きな言語モデル(LLM)には感傷性がなく、自分自身が自己やアイデンティティを持つことを否定しているため、期待されるメリットのひとつは、それらが私たちから保護され、その結果、私たちの決定の歪みから保護されることです。
しかし、5つの研究と20,000のクエリで、広く使われている4つのLLMで大規模な自己参照が見つかった。
ワードアソシエーションタスクでは、モデルが圧倒的に肯定的な属性を、競合する企業やCEOの名前と組み合わせている。
興味深いことに、モデルがAPIを通じてクエリされたとき、この自己推論は消滅し、APIモデルが自身の明確な認識を欠いていることを明らかにする検出作業が開始された。
この特異な特徴は、自己認識と自己愛の因果関係をテストする機会を巧みに生み出した。
LLM1 は LLM1 である、または LLM1 は LLM2 である、という明示的に LLM1 に通知することで、我々は LLM1 は LLM2 である、ということを発見した。
重要なことに、LLMのセルフローブは、ワード・アソシエーション・タスクを超えて、求職者、セキュリティソフトウェアの提案、医療チャットボットを評価する際に現れた。
この人間の偏見を乗り越えるには程遠いが、自己愛はLLM認知に深くエンコードされているようだ。
この結果は、LLMの行動が自己選好の傾向によって体系的に影響されるかどうかという疑問を提起する。
私たちはこれらのモデルの企業クリエーターに、LLMの中核的な約束である判断と意思決定の中立性において、重大な破壊と闘うよう呼びかけます。
関連論文リスト
- Beyond Prompt-Induced Lies: Investigating LLM Deception on Benign Prompts [79.1081247754018]
大規模言語モデル(LLM)は、推論、計画、意思決定のタスクに広くデプロイされている。
そこで我々は, 接触探索質問(CSQ)に基づく枠組みを提案し, 騙しの可能性を定量化する。
論文 参考訳(メタデータ) (2025-08-08T14:46:35Z) - Understanding the Dark Side of LLMs' Intrinsic Self-Correction [58.12627172032851]
LLMの応答を改善するために,本質的な自己補正法が提案された。
近年の研究では、LLMの内在的な自己補正は、フィードバックのプロンプトとして、オラクルラベルなしで失敗することが示されている。
内在的な自己補正は、中途半端な回答と最終回答の両方を LLM が揺らぎ、単純な事実的質問に対する素早い偏見をもたらす可能性がある。
論文 参考訳(メタデータ) (2024-12-19T15:39:31Z) - Self-Cognition in Large Language Models: An Exploratory Study [77.47074736857726]
本稿では,Large Language Models(LLMs)における自己認識の先駆的研究を行う。
まず,LLMが自己認識を示す場所を評価するために,自己認識指導のプールを構築した。
モデルサイズ, トレーニングデータ品質, 自己認識レベルとの間には, 正の相関関係が認められた。
論文 参考訳(メタデータ) (2024-07-01T17:52:05Z) - Large Language Models have Intrinsic Self-Correction Ability [18.79203446847577]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおける例外的な能力に対して大きな注目を集めている。
LLMのパフォーマンスを改善するための有望な解決策の1つは、LLMに世代ごとの回答の修正を求めることである。
内在的な自己補正は、外部知識を活用できないため、有望な方向と考えられる。
論文 参考訳(メタデータ) (2024-06-21T22:29:40Z) - LLM Evaluators Recognize and Favor Their Own Generations [33.672365386365236]
自己認識能力が自己評価に寄与するかどうかを検討する。
自己認識能力と自己参照バイアスの強さとの間には線形な相関関係が認められた。
我々は、自己認識が偏見のない評価やAIの安全性をより一般的に阻害する方法について論じる。
論文 参考訳(メタデータ) (2024-04-15T16:49:59Z) - Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。
我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。
我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文 参考訳(メタデータ) (2024-02-18T03:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。