論文の概要: How's it going? Reinforcement learning in language models recruits a functional welfare axis
- arxiv url: http://arxiv.org/abs/2605.30232v1
- Date: Thu, 28 May 2026 17:03:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.56705
- Title: How's it going? Reinforcement learning in language models recruits a functional welfare axis
- Title(参考訳): 言語モデルにおける強化学習は機能的福祉軸を推し進める
- Authors: Andy Q Han, David J. Chalmers, Pavel Izmailov,
- Abstract要約: RLは機能的福祉の既往の表現を取り入れていることを示す。
我々は、意味的に中立な迷路環境において、いくつかの言語モデルを訓練する。
我々は,この機能的福祉軸がポストトレーニングに先立つことを議論する。
- 参考スコア(独自算出の注目度): 7.480328535010549
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How does reinforcement learning shape a language model's internal representations? We present evidence that RL recruits a pre-existing representation of functional welfare: an estimate of how well or badly the system is doing, relative to its goals. We train several language models in a novel, semantically neutral maze environment. We then extract concept vectors for rewarded and punished trajectories, and evaluate those vectors in settings unrelated to the maze environment. The punishment vector behaves like a representation of negative welfare: it promotes failure and impossibility tokens, it aligns with negative emotion concepts, it negatively tracks goal-achievement, and steering with it induces negative self-reports, pathological backtracking, refusal, and uncertainty. The positive reward vector behaves as the mirror image, and the two are nearly antiparallel. These effects are robust when controlling for tile-to-reward mapping, scale, instruct tuning, RL training algorithm, model family, and LoRA versus full-finetuning, and largely persist when we replace RL with supervised fine-tuning. Importantly, the vectors are effective in models before they have undergone maze training. Combined with observations that the effects also appear in pretrain-only models, we therefore argue that this functional welfare axis pre-exists post-training: it is recruited, rather than created, by post-training. While we make no claims about any experience of welfare, the axis offers a demonstration that minimal reward signals can broadly affect model behavior by recruiting pre-existing welfare-like representations, with implications for interpretability, post-training dynamics, and alignment.
- Abstract(参考訳): 強化学習は言語モデルの内部表現をどのように形成しますか?
我々は、RLが既存の機能的福祉の表現を採用している証拠を提示する。
我々は、意味的に中立な迷路環境において、いくつかの言語モデルを訓練する。
次に、報奨・処罰された軌跡に対する概念ベクトルを抽出し、それらのベクトルを迷路環境とは無関係な設定で評価する。
罰のベクターは負の福祉の表現のように振る舞う: 失敗と不合理なトークンを促進し、負の感情概念と整合し、目標達成を否定的に追跡し、それとステアリングすることで負の自己申告、病理的なバックトラック、拒絶、不確実性を誘導する。
正の報酬ベクトルは鏡像として振る舞うが、2つはほぼ反平行である。
これらの効果は、タイル-逆マッピング、スケール、インストラクションチューニング、RLトレーニングアルゴリズム、モデルファミリー、LoRA対フルファインタニングの制御において堅牢であり、RLを教師付き微調整に置き換える場合には、ほとんど持続する。
重要なことは、ベクトルは迷路訓練を受ける前にモデルで有効である。
プレトレインのみのモデルにも効果が現れるという観察と組み合わせて、この機能的福祉軸はポストトレインではなくポストトレインによって採用される、と論じる。
我々は福祉の経験について何の主張もしていないが、この軸は、既存の福祉のような表現を取り入れることで、最小限の報酬信号がモデル行動に広範な影響を与え、解釈可能性、後学習力学、アライメントに影響を及ぼすことを示す。
関連論文リスト
- From Emergence to Control: Probing and Modulating Self-Reflection in Language Models [23.176641726866105]
自己回帰は、検証可能な報酬を伴う強化学習によって実現される強力な行動である。
自己回帰は微調整モデルに限らないことを示す。
論文 参考訳(メタデータ) (2025-06-13T20:40:13Z) - GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training [62.536191233049614]
検証結果報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)におけるチェーン・オブ・ソート(CoT)推論を効果的にスケールアップした。
本研究は、24点やALFWorldの具体化タスクなど、複雑なカードゲームに関する広範な実験を通じてこの問題を調査する。
報酬が行動結果にのみ基づく場合、RLはVLMにおけるCoT推論の動機付けに失敗し、代わりに思考崩壊と呼ばれる現象が生じる。
論文 参考訳(メタデータ) (2025-03-11T15:17:02Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - Are PPO-ed Language Models Hackable? [0.0]
本稿では,肯定的な感情言語生成の制御における報酬の効果を検討することを目的とする。
人間のフィードバックに基づく報酬モデルのオンライントレーニングの代わりに、静的学習された感情分類器を用いる。
また、トレーニング後にモデルの重みとアクティベーションがエンドユーザに露出する環境についても検討する。
論文 参考訳(メタデータ) (2024-05-28T23:28:28Z) - Fine-Grained Human Feedback Gives Better Rewards for Language Model
Training [108.25635150124539]
言語モデル(LM)は、しばしば偽、有毒、無関係な出力を生成するなど、望ましくないテキスト生成の振る舞いを示す。
本研究では,2つの点において微細な報酬関数から学習と学習を可能にするフレームワークであるFine-Grained RLHFを紹介する。
論文 参考訳(メタデータ) (2023-06-02T17:11:37Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。