論文の概要: From Simulation to Enaction: Post-trained language models recognize and react to their own generations
- arxiv url: http://arxiv.org/abs/2605.25459v1
- Date: Mon, 25 May 2026 06:09:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.340552
- Title: From Simulation to Enaction: Post-trained language models recognize and react to their own generations
- Title(参考訳): シミュレーションから行動へ:ポストトレーニングされた言語モデルは、自分自身の世代を認識し、反応する
- Authors: Asvin G., Jack Lindsey,
- Abstract要約: 言語モデルは、自身のアウトプットの結果をモデル化するインセンティブのない受動的予測子として事前訓練される。
学習後モデルが政治上の世代を認識する証拠を提示し、この認識を暗黙的に出力分布に符号化する。
- 参考スコア(独自算出の注目度): 1.9010546392162666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models are pretrained as passive predictors with no incentive to model the consequences of their own outputs. Post-training changes this: a model producing its own responses can benefit from recognizing that it is on-policy. We present evidence that post-trained models recognize their on-policy generations, and this recognition is implicitly encoded in their output distributions. In particular, on-policy output distribution entropy is 3--4$\times$ lower than off-policy entropy, across model families and size classes. We trace part of this effect to an internal representation of input surprise, tracking the unlikeliness of the most recent input token according to the model's prior predictions, that causally modulates output entropy. One example of these phenomena can be observed in response to open-ended prompts; post-trained models (unlike pretrained models) collapse their uncertainty over the topic of their upcoming response before the first output token; violating this cached intention with a different-topic prefill results in higher output entropy. We also tested whether models can distinguish on-policy contexts from prefills via explicit verbal report. We find that they can, but that interestingly, this explicit recognition routes through a different mechanism than implicit recognition.
- Abstract(参考訳): 言語モデルは、自身のアウトプットの結果をモデル化するインセンティブのない受動的予測子として事前訓練される。
トレーニング後の変更: 独自のレスポンスを生成するモデルは、それが政治上のものであることを認識することで利益を得ることができます。
学習後モデルが政治上の世代を認識する証拠を提示し、この認識を暗黙的に出力分布に符号化する。
特に、オン・ポリティの出力分布エントロピーは、モデルファミリとサイズクラスの間で、オフ・ポリティのエントロピーよりも3-4$\times$低い。
この効果の一部は、モデルが出力エントロピーを因果的に変調する以前の予測に従って、最新の入力トークンの不規則性を追跡する入力サプライズの内部表現に遡る。
これらの現象の1つの例は、事前訓練後のモデル(事前訓練されたモデルとは違って)が、最初の出力トークンの前に次の応答のトピックに関する不確実性を崩壊させ、このキャッシュされた意図を異なるトピックのプリフィルで違反することで、より高い出力エントロピーをもたらす。
また, モデルが, 明示的な言論報告を通じて, 政治状況とプリフィルを区別できるかどうかを検証した。
しかし、興味深いことに、この明示的な認識は暗黙の認識とは異なるメカニズムを通すことができる。
関連論文リスト
- Know Your Limits: Entropy Estimation Modeling for Compression and Generalization [0.0]
本稿では,より優れた訓練効率特性を示すエンコーダ拡張因果デコーダモデルアーキテクチャを提案する。
提案手法は, 提案手法を用いて訓練した因果関係モデルにおいて, エントロピーを考慮せずに訓練したモデルよりも, 精度の高い一般化が期待できることを示す。
論文 参考訳(メタデータ) (2025-11-13T18:46:42Z) - Internal Causal Mechanisms Robustly Predict Language Model Out-of-Distribution Behaviors [61.92704516732144]
正当性予測の最も堅牢な特徴は、モデルの振舞いに特徴的な因果的役割を果たすものであることを示す。
モデル出力の正しさを予測するために因果メカニズムを利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2025-05-17T00:31:39Z) - Language Models Can Predict Their Own Behavior [29.566208688211876]
言語モデル(LM)は、アライメントトレーニングに従わないなど、特定の振る舞いを示すことができます。
入力トークンの内部表現だけで訓練されたプローブは、出力シーケンス全体にわたって幅広い結果の挙動を予測することができることを示す。
プローブ上に構築された早期警報システムは、脱獄を91%削減する。
論文 参考訳(メタデータ) (2025-02-18T23:13:16Z) - Heat Death of Generative Models in Closed-Loop Learning [63.83608300361159]
本研究では、独自の学習データセットに加えて、生成したコンテンツをフィードバックする生成モデルの学習ダイナミクスについて検討する。
各イテレーションで十分な量の外部データが導入されない限り、非自明な温度がモデルを退化させることを示す。
論文 参考訳(メタデータ) (2024-04-02T21:51:39Z) - Mitigating Reversal Curse in Large Language Models via Semantic-aware Permutation Training [57.771940716189114]
我々は、大きな言語モデル(LLM)が「逆の呪い」に苦しむことを示す。
逆の呪いの根本原因は、訓練と推論の段階で異なる単語順にある。
この問題に対処するために,SPT(Semantic-Aware Permutation Training)を提案する。
論文 参考訳(メタデータ) (2024-03-01T18:55:20Z) - Limitations of Agents Simulated by Predictive Models [1.6649383443094403]
エージェントとなると予測モデルが失敗する2つの構造的理由を概説する。
いずれの障害も環境からのフィードバックループを組み込むことで修正可能であることを示す。
我々の治療は、これらの障害モードの統一的なビューを提供し、オンライン学習でオフライン学習ポリシーを微調整することで、より効果的になる理由を疑問視する。
論文 参考訳(メタデータ) (2024-02-08T17:08:08Z) - Token-wise Decomposition of Autoregressive Language Model Hidden States
for Analyzing Model Predictions [9.909170013118775]
本研究は,各初期入力トークンに基づいて,自己回帰言語モデルから最終隠れ状態の線形分解を行う。
次単語確率の変化を重要度尺度として、まず、どの文脈語が言語モデル予測に最も貢献するかを検討する。
論文 参考訳(メタデータ) (2023-05-17T23:55:32Z) - Pathologies of Pre-trained Language Models in Few-shot Fine-tuning [50.3686606679048]
実例が少ない事前学習言語モデルはラベル間に強い予測バイアスを示すことを示す。
わずかな微調整で予測バイアスを軽減できるが,本分析では,非タスク関連の特徴を捉えることで,モデルの性能向上を図っている。
これらの観察は、より少ない例でモデルのパフォーマンスを追求することは、病理学的予測行動を引き起こす可能性があることを警告する。
論文 参考訳(メタデータ) (2022-04-17T15:55:18Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。