論文の概要: The Necessity of Imperfection:Reversing Model Collapse via Simulating Cognitive Boundedness
- arxiv url: http://arxiv.org/abs/2512.01354v1
- Date: Mon, 01 Dec 2025 07:09:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.734096
- Title: The Necessity of Imperfection:Reversing Model Collapse via Simulating Cognitive Boundedness
- Title(参考訳): 不完全性の必要性:認知的境界性のシミュレーションによるモデル崩壊の逆転
- Authors: Zhongjie Jiang,
- Abstract要約: 本稿では,データの表面特性を模倣する代わりに,人間のテキストを生成する認知過程をシミュレートするパラダイムシフトを提案する。
本稿では、非構造化テキストを構造化認知ベクトルにリバースエンジニアリングするPrompt-driven Cognitive Computing Framework(PMCSF)を紹介する。
表面データのコピーではなく、人間の認知的限界をモデル化することで、真の機能的ゲインを持つ合成データが実現できることが、我々の研究で示されています。
- 参考スコア(独自算出の注目度): 0.284279467589473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although synthetic data is widely promoted as a remedy, its prevailing production paradigm -- one optimizing for statistical smoothness -- systematically removes the long-tail, cognitively grounded irregularities that characterize human text. Prolonged training on such statistically optimal but cognitively impoverished data accelerates model collapse. This paper proposes a paradigm shift: instead of imitating the surface properties of data, we simulate the cognitive processes that generate human text. We introduce the Prompt-driven Cognitive Computing Framework (PMCSF), whose core consists of a Cognitive State Decoder (CSD) that reverse-engineers unstructured text into structured cognitive vectors, and a Cognitive Text Encoder (CTE) that re-materializes these states into text enriched with human-typical imperfections via mathematically defined Cognitive Perturbation Operators. The framework is validated through a two-stage objective evaluation pipeline. First, in cognitive codec verification, CTE text yields a Jensen-Shannon divergence of 0.0614 from human text (vs. 0.4431 for standard LLM output), passes double-blind professional media review, and achieves an intraclass correlation coefficient ICC > 0.9 for cognitive profile alignment across heterogeneous models. Second, in functional gain evaluation, isomorphic stress tests in the A-share market show that strategies incorporating CTE-generated data reduce maximum drawdown by 47.4% during the 2015 crash and deliver 8.6% Defensive Alpha, exceeding transaction costs by a factor of 33. Our findings demonstrate that modelling human cognitive limitations -- not copying surface data -- enables synthetic data with genuine functional gain, offering a viable technical pathway toward resolving the AI data-collapse crisis.
- Abstract(参考訳): 合成データは治療として広く推進されているが、その一般的な生産パラダイムは、統計的な滑らかさを最適化したもので、人間のテキストを特徴づける長い尾の認知的な不規則を体系的に排除している。
このような統計的に最適だが認知的に不十分なデータに対する長期トレーニングは、モデルの崩壊を加速させる。
本稿では,データの表面特性を模倣する代わりに,人間のテキストを生成する認知過程をシミュレートするパラダイムシフトを提案する。
本稿では、非構造化テキストを構造化認知ベクトルにリバースエンジニアリングする認知状態デコーダ(CSD)と、これらの状態を数学的に定義された認知摂動演算子を介して、人間の典型的不完全性に富んだテキストに再物質化する認知テキストエンコーダ(CTE)とからなる、プロンプト駆動型認知コンピューティングフレームワーク(PMCSF)を紹介する。
このフレームワークは、2段階の客観的評価パイプラインを通じて検証される。
まず、認知コーデック検証において、CTEテキストは人間のテキスト(標準LLM出力の0.4431)からJensen-Shannonの偏差0.0614を出力し、二重盲検の専門メディアレビューをパスし、異種モデル間の認知プロファイルアライメントのためのクラス内相関係数ICC >0.9を達成する。
第二に、機能的利得評価において、Aシェア市場における同型ストレステストは、2015年のクラッシュでCTEが生成したデータを活用する戦略が最大で47.4%減少し、8.6%のDeepensive Alphaがトランザクションコストを33倍上回ったことを示している。
表面データのコピーではなく、人間の認知的制限をモデル化することで、真の機能的ゲインを持つ合成データが実現され、AIデータ崩壊の危機を解決するための実行可能な技術パスが提供される。
関連論文リスト
- The Catastrophic Paradox of Human Cognitive Frameworks in Large Language Model Evaluation: A Comprehensive Empirical Analysis of the CHC-LLM Incompatibility [0.0]
平均的な人間のIQスコアを達成するモデルは、結晶化された知識タスクにおいてゼロに近づいた二分精度を同時に示す。
この切断は、結晶化されたインテリジェンス領域において最も強く現れる。
人工知能の非人間性を認識するネイティブマシン認識アセスメントを開発するための枠組みを提案する。
論文 参考訳(メタデータ) (2025-11-23T05:49:57Z) - Knowledge-based anomaly detection for identifying network-induced shape artifacts [3.29352273631268]
本研究は, 合成画像中のネットワーク誘起形状アーチファクトを検出するための, 知識に基づく新しい異常検出手法を提案する。
2つの合成マンモグラフィーデータセットにおいて,ネットワークによって誘導される形状のアーティファクトを同定する手法の有効性を実証する。
論文 参考訳(メタデータ) (2025-11-06T18:19:49Z) - AI Agentic Vulnerability Injection And Transformation with Optimized Reasoning [2.918225266151982]
AVIATORはAIによる最初の脆弱性注入ワークフローである。
高忠実で多様な大規模な脆弱性データセット生成のために、現実的でカテゴリ固有の脆弱性を自動的に注入する。
セマンティック分析、LoRAベースのファインチューニングとRetrieval-Augmented Generationで強化されたインジェクション合成、静的解析とLLMベースの識別器によるインジェクション後の検証を組み合わせる。
論文 参考訳(メタデータ) (2025-08-28T14:59:39Z) - Valid Inference with Imperfect Synthetic Data [39.10587411316875]
モーメントの一般化法に基づく新しい推定器を提案する。
合成データのモーメント残差と実データのモーメント間の相互作用は、対象パラメータの推定を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2025-08-08T18:32:52Z) - Dynamic Programming Techniques for Enhancing Cognitive Representation in Knowledge Tracing [125.75923987618977]
認知表現動的プログラミングに基づく知識追跡(CRDP-KT)モデルを提案する。
質問の難易度とそれらの間の性能間隔に基づいて認知表現を最適化する動的プログラミングアルゴリズムである。
これは、その後のモデルトレーニングのためにより正確で体系的な入力機能を提供し、それによって認知状態のシミュレーションにおける歪みを最小限にする。
論文 参考訳(メタデータ) (2025-06-03T14:44:48Z) - Shifting AI Efficiency From Model-Centric to Data-Centric Compression [67.45087283924732]
AI研究の焦点は、モデル中心の圧縮からデータ中心の圧縮へとシフトしている、と私たちは主張する。
データ中心圧縮は、モデルトレーニングや推論中に処理されたデータのボリュームを直接圧縮することで、AI効率を向上させる。
我々の研究は、AIの効率性に関する新たな視点を提供し、既存の取り組みを合成し、コンテキスト長の増大によって引き起こされる課題に対処するためにイノベーションを触媒することを目的としています。
論文 参考訳(メタデータ) (2025-05-25T13:51:17Z) - Learning to Generate and Evaluate Fact-checking Explanations with Transformers [10.970249299147866]
XAI(Explainable Artificial Antelligence)の研究
我々は,人間のアクセス可能な説明を生成することによって,意思決定を文脈化し,正当化するトランスフォーマーベースの事実チェックモデルを開発した。
我々は人工知能(AI)による説明と人間の判断を一致させる必要性を強調した。
論文 参考訳(メタデータ) (2024-10-21T06:22:51Z) - SynFER: Towards Boosting Facial Expression Recognition with Synthetic Data [78.70620682374624]
ハイレベルなテキスト記述に基づく表情画像データの合成のための新しいフレームワークであるSynFERを紹介する。
合成データの質と信頼性を確保するため,セマンティックガイダンス手法と擬似ラベル生成手法を提案する。
その結果, 提案手法の有効性と合成データの有効性が検証された。
論文 参考訳(メタデータ) (2024-10-13T14:58:21Z) - Generative Model-Driven Synthetic Training Image Generation: An Approach
to Cognition in Rail Defect Detection [12.584718477246382]
本研究では,VAEを用いたレール欠陥の合成画像生成手法を提案する。
カナダ太平洋鉄道(Canadian Pacific Railway)の合成データセットを作成するために用いられる。
500の合成サンプルが生成され、最小の復元損失は0.021である。
論文 参考訳(メタデータ) (2023-12-31T04:34:58Z) - A Discrepancy Aware Framework for Robust Anomaly Detection [51.710249807397695]
本稿では,DAF(Disdisrepancy Aware Framework)を提案する。
本手法は,デコーダの欠陥同定に外見に依存しないキューを利用して,その合成外観への依存を緩和する。
単純な合成戦略の下では,既存の手法を大きなマージンで上回り,また,最先端のローカライゼーション性能も達成している。
論文 参考訳(メタデータ) (2023-10-11T15:21:40Z) - CausalDialogue: Modeling Utterance-level Causality in Conversations [83.03604651485327]
クラウドソーシングを通じて、CausalDialogueという新しいデータセットをコンパイルし、拡張しました。
このデータセットは、有向非巡回グラフ(DAG)構造内に複数の因果効果対を含む。
ニューラル会話モデルの訓練における発話レベルにおける因果性の影響を高めるために,Exponential Average Treatment Effect (ExMATE) と呼ばれる因果性強化手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T18:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。