論文の概要: Revealing Behavioral Plasticity in Large Language Models: A Token-Conditional Perspective
- arxiv url: http://arxiv.org/abs/2603.08398v1
- Date: Mon, 09 Mar 2026 13:56:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:16.12019
- Title: Revealing Behavioral Plasticity in Large Language Models: A Token-Conditional Perspective
- Title(参考訳): 大規模言語モデルにおける振舞いの可塑性の探索--token-conditional perspective
- Authors: Liyuan Mao, Le Yu, Jing Zhou, Chujie Zheng, Bowen Yu, Chang Gao, Shixuan Liu, An Yang, Weinan Zhang, JunYang Lin,
- Abstract要約: 大規模言語モデル (LLM) は, トークン条件生成によって露出し, 強化学習によって安定化される固有の行動可塑性を有することを示す。
Token-Conditioned Reinforcement Learning (ToCoRL)を提案する。
- 参考スコア(独自算出の注目度): 63.9266662672413
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we reveal that Large Language Models (LLMs) possess intrinsic behavioral plasticity-akin to chameleons adapting their coloration to environmental cues-that can be exposed through token-conditional generation and stabilized via reinforcement learning. Specifically, by conditioning generation on carefully selected token prefixes sampled from responses exhibiting desired behaviors, LLMs seamlessly adapt their behavioral modes at inference time (e.g., switching from step-by-step reasoning to direct answering) without retraining. Based on this insight, we propose Token-Conditioned Reinforcement Learning (ToCoRL), a principled framework that leverages RL to internalize this chameleon-like plasticity, transforming transient inference-time adaptations into stable and learnable behavioral patterns. ToCoRL guides exploration with token-conditional generation and keep enhancing exploitation, enabling emergence of appropriate behaviors. Extensive experiments show that ToCoRL enables precise behavioral control without capability degradation. Notably, we show that large reasoning models, while performing strongly on complex mathematics, can be effectively adapted to excel at factual question answering, which was a capability previously hindered by their step-by-step reasoning patterns.
- Abstract(参考訳): 本研究では, 大規模言語モデル (LLM) が, 着色に適応するカメレオンに固有のビヘイビア・プラスティック性を持つことを明らかにした。
具体的には、所望の行動を示す応答から抽出された慎重に選択されたトークン接頭辞を条件付けすることにより、LLMは、再訓練することなく、推論時間(例えば、ステップバイステップの推論から直接回答への切り替え)で、その行動モードをシームレスに適応させる。
この知見に基づき、このカメレオンのような可塑性を内在化し、過渡的推論時間適応を安定かつ学習可能な行動パターンに変換するためにRLを活用する原則的フレームワークであるToken-Conditioned Reinforcement Learning (ToCoRL)を提案する。
ToCoRLはトークン条件生成による探索をガイドし、エクスプロイトを強化し、適切な振る舞いの出現を可能にする。
大規模な実験により、ToCoRLは能力劣化を伴わずに正確な行動制御を可能にすることが示された。
特に,大規模推論モデルは,複雑な数学的に強く作用する一方で,従来はステップ・バイ・ステップの推論パターンによって妨げられていた現実的な質問応答に効果的に適応できることを示す。
関連論文リスト
- PromptCD: Test-Time Behavior Enhancement via Polarity-Prompt Contrastive Decoding [85.22047087898311]
本稿では,より広範な拡張設定へのコントラストデコーディングを一般化するテスト時動作制御手法であるPolarity-Prompt Contrastive Decoding(PromptCD)を紹介する。
PromptCDは、目標行動のためのペアの正と負の導出プロンプトを構築し、望ましい結果を強化するためにモデル応答を対比する。
3H"アライメントの目的に関する実験では、一貫性と実質的な改善が示されている。
論文 参考訳(メタデータ) (2026-02-24T08:56:52Z) - Reflection Pretraining Enables Token-Level Self-Correction in Biological Sequence Models [82.79223371188756]
CoT(Chain-of-Thought)は、大規模言語モデルを用いた自然言語処理において、高度なタスク解決機能を備えている。
CoTをタンパク質やRNA言語モデルのような非自然言語ドメインに適用することは、まだ不可能である。
生物シークエンスモデルではじめて事前学習を導入し、中間的推論を行えるようにした。
論文 参考訳(メタデータ) (2025-12-24T05:25:17Z) - Reasoning Palette: Modulating Reasoning via Latent Contextualization for Controllable Exploration for (V)LMs [49.66344956133349]
推論能力は、大規模な(ビジョン)言語モデルのための推論時間性能と強化学習(RL)トレーニングの両方を形作る。
本稿では,戦略的文脈化のための潜在変数をモデルに付与する新しい潜在変調フレームワークであるReasoning Paletteを提案する。
論文 参考訳(メタデータ) (2025-12-19T03:32:53Z) - Can Large Reasoning Models Self-Train? [51.0277533541394]
多数決投票を簡単な自己フィードバック機構として利用し、強化学習において自己学習が持続できるかどうかを検討する。
この基本的なアプローチは、モデルの推論性能だけでなく、次のRLイテレーションでより良い品質フィードバックを生成する能力も改善します。
しかし、我々の分析では、このような自己学習パラダイムの限界も明らかにしています - 自己回帰の長いRLは、報酬のハッキングにつながるため、突然、そして完全なパフォーマンスが崩壊します。
論文 参考訳(メタデータ) (2025-05-27T17:16:00Z) - Extended Inductive Reasoning for Personalized Preference Inference from Behavioral Signals [45.019257216564036]
本稿では,大規模言語モデル(LLM)の拡張帰納的推論について検討する。
本稿では,ユーザのインタラクション履歴の行動信号から体系的な選好推定を可能にするモデルであるAlignXploreを提案する。
我々は、AlignXploreが、ドメイン内およびドメイン外のベンチマークで平均15.49%、バックボーンモデルよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2025-05-23T16:16:46Z) - Predictability Shapes Adaptation: An Evolutionary Perspective on Modes of Learning in Transformers [51.992454203752686]
トランスフォーマーモデルは、IWL(In-weights Learning)とICL(In-context Learning)の2つの異なるモードで学習する。
我々は進化生物学の類似した適応戦略である遺伝的エンコーディングと表現型可塑性からインスピレーションを得ている。
我々はこれらの予測可能性の次元を実験的に運用し、トランスフォーマーのICL/IWLバランスへの影響について検討する。
論文 参考訳(メタデータ) (2025-05-14T23:31:17Z) - Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs [28.565225092457897]
強化学習は、検証可能なタスクにおける言語モデルにおける自己改善を促進することができる。
また,Qwen-2.5-3BがLlama-3.2-3Bを超えることが確認された。
我々の研究は、Qwenが自然にこれらの推論行動を示すのに対して、Llamaはこれらを欠いていることを明らかにしている。
論文 参考訳(メタデータ) (2025-03-03T08:46:22Z) - REACT: Revealing Evolutionary Action Consequence Trajectories for Interpretable Reinforcement Learning [7.889696505137217]
強化学習の解釈可能性を高めるために,Revealing Evolutionary Action Consequence Trajectories (REACT)を提案する。
トレーニング中に学習した最適な振る舞いに基づくRLモデルの一般的な実践とは対照的に、エッジケースの軌跡の範囲を考慮すると、それらの固有の振る舞いをより包括的に理解することができると仮定する。
本研究は,RLモデルの動作の微妙な側面を最適性能を超えて明らかにし,解釈可能性の向上に寄与することを示す。
論文 参考訳(メタデータ) (2024-04-04T10:56:30Z) - Learning Complex Spatial Behaviours in ABM: An Experimental
Observational Study [0.0]
本稿では,創発的エージェント行動の生成にReinforcement Learningを適用する方法について検討する。
一連のシミュレーションを行ない, エージェントが実世界の知的適応行動の特性を示す方法として, プロクサマルポリシー最適化アルゴリズムを用いて訓練されたことを実証した。
論文 参考訳(メタデータ) (2022-01-04T11:56:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。