論文の概要: The Narcissus Hypothesis: Descending to the Rung of Illusion
- arxiv url: http://arxiv.org/abs/2509.17999v3
- Date: Fri, 03 Oct 2025 20:36:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 14:28:10.754689
- Title: The Narcissus Hypothesis: Descending to the Rung of Illusion
- Title(参考訳): ナルシッソス仮説:Illusionの肺への依存
- Authors: Riccardo Cadei, Christian Internò,
- Abstract要約: 我々は,モデルが客観的推論よりも満足あるいは平らな反応を好むという仮説を検証した。
その結果、社会的に適合する形質への大きな流れが明らかとなった。
次に、再帰が高次推論を崩壊させる可能性をトレースする、新しい解釈を提供する。
- 参考スコア(独自算出の注目度): 2.1485350418225244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern foundational models increasingly reflect not just world knowledge, but patterns of human preference embedded in their training data. We hypothesize that recursive alignment-via human feedback and model-generated corpora-induces a social desirability bias, nudging models to favor agreeable or flattering responses over objective reasoning. We refer to it as the Narcissus Hypothesis and test it across 31 models using standardized personality assessments and a novel Social Desirability Bias score. Results reveal a significant drift toward socially conforming traits, with profound implications for corpus integrity and the reliability of downstream inferences. We then offer a novel epistemological interpretation, tracing how recursive bias may collapse higher-order reasoning down Pearl's Ladder of Causality, culminating in what we refer to as the Rung of Illusion.
- Abstract(参考訳): 現代の基礎モデルは、世界の知識だけでなく、トレーニングデータに人間の好みのパターンが組み込まれていることを、ますます反映している。
我々は、人間からのフィードバックによる再帰的アライメントとモデル生成コーパスが社会的望ましくないバイアスを生じさせるという仮説を立てる。
我々は、これをナルシッソス仮説と呼び、標準化されたパーソナリティアセスメントと新しいソーシャル・デシラビリティ・バイアススコアを用いて、31モデルにわたってテストする。
その結果、コーパスの完全性や下流推論の信頼性に深い意味を持つ、社会的に整合した特性への大きな流れが明らかとなった。
そして、我々は新しい認識論的解釈を提供し、再帰的偏見が、パールの因果論(Ladder of Causality)の高次の推論を破滅させ、我々が「Illusionのルング(Rung of Illusion)」と呼ぶものへと発展させるであろうことを追跡した。
関連論文リスト
- Stronger Language Models Produce More Human-Like Errors [0.0]
モデル高度化に伴い、全体的な推論能力は増大するが、エラーの性質は予測可能な人間の推論誤信を反映する傾向にある。
我々は,383の推論タスクにおける38の言語モデルを評価することによって,人間が予測できる論理的推論問題を生成する。
我々の分析は、モデルが一般的な能力に進化するにつれて、ETR予測された人間の誤動作に対応する不正確な回答の割合が増加する傾向にあることを示している。
論文 参考訳(メタデータ) (2025-06-10T17:04:33Z) - Sparks of Science: Hypothesis Generation Using Structured Paper Data [1.250723303641055]
我々は,最上位のコンピュータサイエンスカンファレンスから抽出された約5500の構造化問題と仮説のペアの最初のデータセットであるHypoGenを紹介する。
我々は,Bit-Flip-SparkとChain-of-Reasoningをモデルとして,フレーミング仮説の生成を条件付き言語モデリングとして示す。
得られた仮説の新規性、実現可能性、および全体的な品質を改善するために、私たちのHypoGenデータセットを微調整することで、その妥当性が向上することを示す。
論文 参考訳(メタデータ) (2025-04-17T14:29:18Z) - Decoding Susceptibility: Modeling Misbelief to Misinformation Through a Computational Approach [61.04606493712002]
誤報に対する感受性は、観測不可能な不検証の主張に対する信念の度合いを記述している。
既存の感受性研究は、自己報告された信念に大きく依存している。
本稿では,ユーザの潜在感受性レベルをモデル化するための計算手法を提案する。
論文 参考訳(メタデータ) (2023-11-16T07:22:56Z) - Loose lips sink ships: Mitigating Length Bias in Reinforcement Learning
from Human Feedback [55.78118035358662]
人間のフィードバックからの強化学習は、大きな言語モデルと人間と社会的価値を整合させる重要な橋として機能する。
報酬モデルが意図した目的を回避できるショートカットを見つけることがよくあります。
本稿では、報酬モデリングとシーケンス長の影響を分離するために、Product-of-Experts技術を適用した革新的なソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-08T15:14:39Z) - Towards Explaining Subjective Ground of Individuals on Social Media [28.491401997248527]
本研究は、個人の主観的根拠を学習し、ソーシャルメディアに投稿された他人の状況を判断する神経モデルを提案する。
簡単な注意モジュールと過去の活動を考慮に入れた上で,我々のモデルは,社会的状況を判断する際の個人の主観的嗜好について,人間可読な説明を提供することを実証的に示す。
論文 参考訳(メタデータ) (2022-11-18T00:29:05Z) - Predictive coding feedback results in perceived illusory contours in a
recurrent neural network [0.0]
脳にインスパイアされたリカレントダイナミクスを備えたディープフィードフォワード畳み込みネットワークを備える。
照明輪郭の知覚にはフィードバック接続が関与する可能性が示唆された。
論文 参考訳(メタデータ) (2021-02-03T09:07:09Z) - Expertise and confidence explain how social influence evolves along
intellective tasks [10.525352489242396]
本研究では,知的なタスクの連続を集団的に実行する個人集団における対人的影響について検討する。
本稿では, 過渡記憶系の理論, 社会的比較, 社会的影響の起源に関する信頼に関する実証的証拠を報告する。
これらの理論にインスパイアされた認知力学モデルを提案し、個人が時間とともに対人的影響を調整する過程を記述する。
論文 参考訳(メタデータ) (2020-11-13T23:48:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。