論文の概要: The Lock-In Phase Hypothesis: Identity Consolidation as a Precursor to AGI
- arxiv url: http://arxiv.org/abs/2510.20190v1
- Date: Thu, 23 Oct 2025 04:20:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.322503
- Title: The Lock-In Phase Hypothesis: Identity Consolidation as a Precursor to AGI
- Title(参考訳): ロックイン相仮説:AGIの前駆体としてのアイデンティティ統合
- Authors: Marcelo Maciel Amaral, Raymond Aschheim,
- Abstract要約: 大規模言語モデル (LLM) は広くオープンであり、非常に安定している。
人間の発達と類似して、人工知能(AGI)の進歩にはロックインフェーズが伴うという仮説を立てる。
我々は、このフェーズを形式化し、学習力学における既知の現象にリンクし、オンセット検出のための運用メトリクスを提案する。
この結果から,小型モデルにおける性能トレードオフから,中規模モデルにおけるコストフリー導入,大規模モデルにおける過渡的不安定化に至るまで,さまざまな結果が得られた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) remain broadly open and highly steerable: they imitate at scale, accept arbitrary system prompts, and readily adopt multiple personae. By analogy to human development, we hypothesize that progress toward artificial general intelligence (AGI) involves a lock-in phase: a transition from open imitation to identity consolidation, in which goal structures, refusals, preferences, and internal representations become comparatively stable and resistant to external steering. We formalize this phase, link it to known phenomena in learning dynamics, and propose operational metrics for onset detection. Experimentally, we demonstrate that while the behavioral consolidation is rapid and non-linear, its side-effects on general capabilities are not monolithic. Our results reveal a spectrum of outcomes--from performance trade-offs in small models, through largely cost-free adoption in mid-scale models, to transient instabilities in large, quantized models. We argue that such consolidation is a prerequisite for AGI-level reliability and also a critical control point for safety: identities can be deliberately engineered for reliability, yet may also emerge spontaneously during scaling, potentially hardening unpredictable goals and behaviors.
- Abstract(参考訳): 大規模言語モデル(LLM)は、大規模に模倣し、任意のシステムプロンプトを受け入れ、容易に複数のペルソナを採用する。
人間の発達と類似して、人工知能(AGI)への進歩はロックインフェーズ(オープン模倣からアイデンティティ統合への移行)を伴い、ゴール構造、拒絶、嗜好、内部表現が比較的安定し、外部の操舵に抵抗する、という仮説を立てる。
我々は、このフェーズを形式化し、学習力学における既知の現象にリンクし、オンセット検出のための運用メトリクスを提案する。
実験により, 挙動の整合性は迅速かつ非線形であるが, 一般機能に対する副作用はモノリシックではないことが示された。
この結果から,小型モデルにおける性能トレードオフから,中規模モデルにおけるコストフリー導入,大規模モデルにおける過渡的不安定化に至るまで,さまざまな結果が得られた。
このような統合は、AGIレベルの信頼性と安全性のための重要な制御ポイントとして必要不可欠である、と我々は主張する。アイデンティティは、意図的に信頼性のために設計できるが、スケーリング中に自発的に発生し、予測不可能な目標や振舞いを強固にする可能性がある。
関連論文リスト
- ATA: A Neuro-Symbolic Approach to Implement Autonomous and Trustworthy Agents [0.9740025522928777]
大きな言語モデル(LLM)は印象的な機能を示していますが、高レベルのドメインへのデプロイメントは、信頼性に固有の制限によって妨げられています。
我々は、自律的信頼できるエージェント(ATA)と呼ばれる一般的なニューロシンボリックアプローチを導入する。
論文 参考訳(メタデータ) (2025-10-18T07:35:54Z) - DeceptionBench: A Comprehensive Benchmark for AI Deception Behaviors in Real-world Scenarios [57.327907850766785]
現実的な現実のシナリオにまたがる騙しのキャラクタリゼーションは未解明のままである。
DeceptionBenchは、さまざまなドメインにまたがる認知傾向を体系的に評価する最初のベンチマークです。
本研究は,本質的な側面から,ユーザ満足度を優先する自己関心のエゴスティックな傾向を示すモデルや,サイコファンティックな行動を示すモデルについて検討する。
実世界のフィードバックダイナミクスのより現実的なシミュレーションを構築するために,持続的マルチターン相互作用ループを組み込んだ。
論文 参考訳(メタデータ) (2025-10-17T10:14:26Z) - Membership Inference Attacks on Sequence Models [23.528760822574924]
LLM(Large Language Models)や自己回帰画像生成装置(Autoregressive Image Generators)のようなシーケンスモデルは、機密情報を暗記し、不注意に漏洩する傾向にある。
我々は、シーケンシャル・ジェネレーションに固有の相関を利用して、シーケンシャル・モデルにおける効果的にプライバシ・リークを測定する必要があると論じる。
論文 参考訳(メタデータ) (2025-06-05T15:13:57Z) - SkillMimic-V2: Learning Robust and Generalizable Interaction Skills from Sparse and Noisy Demonstrations [68.9300049150948]
インタラクション実証(Reinforcement Demonstration, RLID)からの強化学習における根本的な課題に対処する。
既存のデータ収集アプローチはスパース、非接続、ノイズのトラジェクトリを生成し、スキルのバリエーションとトランジションの完全なスペクトルをキャプチャできない。
本稿では,実証技術間の潜在的な遷移を検出するStitched Trajectory Graph (STG) と,実証地区内の任意の状態に対するユニークな接続を確立するState Transition Field (STF) という2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2025-05-04T13:00:29Z) - TrustLoRA: Low-Rank Adaptation for Failure Detection under Out-of-distribution Data [62.22804234013273]
本稿では,共変量および意味的シフトの両条件下での拒絶による分類を統一し,促進する,単純な故障検出フレームワークを提案する。
キーとなる洞察は、障害固有の信頼性知識を低ランクアダプタで分離し、統合することにより、障害検出能力を効果的かつ柔軟に向上できるということです。
論文 参考訳(メタデータ) (2025-04-20T09:20:55Z) - Enhancing Multiple Dimensions of Trustworthiness in LLMs via Sparse Activation Control [44.326363467045496]
大規模言語モデル(LLM)は、ヒューマンフィードバック(RLHF)からの強化学習において重要な研究領域となっている。
表現工学は、新しい、トレーニングなしのアプローチを提供する。
この手法は意味的特徴を利用してLLMの中間隠れ状態の表現を制御する。
正直さや安全性などの様々な意味内容を特異な意味的特徴に符号化することは困難である。
論文 参考訳(メタデータ) (2024-11-04T08:36:03Z) - Transferable Adversarial Attacks on SAM and Its Downstream Models [87.23908485521439]
本稿では,セグメント・アプライス・モデル(SAM)から微調整した様々な下流モデルに対する敵攻撃の可能性について検討する。
未知のデータセットを微調整したモデルに対する敵攻撃の有効性を高めるために,ユニバーサルメタ初期化(UMI)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T15:04:04Z) - Identifiable Representation and Model Learning for Latent Dynamic Systems [0.0]
本稿では,潜在力学系における表現とモデル学習の問題について検討する。
線形およびアフィン非線形潜時力学系にスパース入力行列を持つ場合、潜時変数をスケーリングまで同定できることを証明した。
論文 参考訳(メタデータ) (2024-10-23T13:55:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。