論文の概要: Online Experiential Learning for Language Models
- arxiv url: http://arxiv.org/abs/2603.16856v1
- Date: Tue, 17 Mar 2026 17:57:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.467635
- Title: Online Experiential Learning for Language Models
- Title(参考訳): 言語モデルのためのオンライン体験学習
- Authors: Tianzhu Ye, Li Dong, Qingxiu Dong, Xun Wu, Shaohan Huang, Furu Wei,
- Abstract要約: Online Experiential Learning (OEL)は、言語モデルが自身のデプロイメントエクスペリエンスから継続的に改善できるフレームワークである。
OELは、まず、転送可能な経験知識を抽出し、ユーザ側で収集された相互作用軌跡から蓄積する。
テキストベースのゲーム環境において,複数のモデルスケールでOELを評価し,思考と非思考の両バリエーションについて検討した。
- 参考スコア(独自算出の注目度): 99.90826536842337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The prevailing paradigm for improving large language models relies on offline training with human annotations or simulated environments, leaving the rich experience accumulated during real-world deployment entirely unexploited. We propose Online Experiential Learning (OEL), a framework that enables language models to continuously improve from their own deployment experience. OEL operates in two stages: first, transferable experiential knowledge is extracted and accumulated from interaction trajectories collected on the user side; second, this knowledge is consolidated into model parameters via on-policy context distillation, requiring no access to the user-side environment. The two stages are iterated to form an online learning loop, where the improved model collects higher-quality trajectories that yield richer experiential knowledge for subsequent rounds. We evaluate OEL on text-based game environments across multiple model scales and both thinking and non-thinking variants. OEL achieves consistent improvements over successive iterations, enhancing both task accuracy and token efficiency while preserving out-of-distribution performance. Our analysis further shows that extracted experiential knowledge is significantly more effective than raw trajectories, and that on-policy consistency between the knowledge source and the policy model is critical for effective learning.
- Abstract(参考訳): 大規模な言語モデルを改善するための一般的なパラダイムは、人間のアノテーションやシミュレートされた環境によるオフライントレーニングに依存しており、実世界のデプロイ中に蓄積された豊富なエクスペリエンスは、完全に公開されていないままである。
我々は、言語モデルが自身のデプロイメント経験から継続的に改善できるフレームワークであるOnline Experiential Learning (OEL)を提案する。
OELは、まず、ユーザ側で収集されたインタラクショントラジェクトリから、転送可能な経験的知識を抽出し、蓄積する。
2つの段階を反復してオンライン学習ループを形成し、改良されたモデルが高品質な軌跡を収集し、その後のラウンドでより豊富な経験的知識を得る。
テキストベースのゲーム環境において,複数のモデルスケールでOELを評価し,思考と非思考の両バリエーションについて検討した。
OELは連続したイテレーションよりも一貫した改善を実現し、アウト・オブ・ディストリビューション性能を維持しながらタスク精度とトークン効率を向上する。
さらに,抽出した経験的知識は生の軌跡よりも有意に有効であり,知識源と政策モデルとの政治的整合性は効果的な学習に不可欠であることを示す。
関連論文リスト
- On-Policy Context Distillation for Language Models [92.82835176360864]
本稿では, オンライン蒸留とコンテキスト蒸留を橋渡しするフレームワークである, オン・ポリティ・コンテキスト蒸留(OPCD)を提案する。
実験的知識蒸留とシステム急速蒸留の2つの重要な応用におけるOPCDの有効性を実証する。
論文 参考訳(メタデータ) (2026-02-12T18:58:28Z) - Decouple to Generalize: Context-First Self-Evolving Learning for Data-Scarce Vision-Language Reasoning [41.523848964102]
最近の視覚言語モデル(VLM)は強化学習(RL)を通して顕著な推論を実現する
RLは、経験の時代に連続的に進化する大規模視覚言語モデル(LVLM)を実現するための実現可能なソリューションを提供する。
合成データや自己回帰機構といった既存の戦略は、限られた分布とアライメントの困難に悩まされている。
問題解決ではなく,まず文脈から学習するようにモデルに誘導する,二重分離フレームワークDoGeを提案する。
論文 参考訳(メタデータ) (2025-12-07T13:17:31Z) - Experience Scaling: Post-Deployment Evolution For Large Language Models [44.48142891798125]
大規模言語モデル(LLM)の継続的デプロイ後進化のためのフレームワークであるエクスペリエンススケーリングを提案する。
このフレームワークは,以前には見つからなかったが関連するタスク,繰り返しクエリ,過飽和知識ストアへの一般化を含む実世界のシナリオで検証される。
その結果、構造化されたデプロイ後学習は、静的な人間生成データの限界を超えてLLM能力を拡張できることを示した。
論文 参考訳(メタデータ) (2025-09-23T08:04:58Z) - Beyond Random Sampling: Efficient Language Model Pretraining via Curriculum Learning [23.900888224619]
カリキュラム学習は,初等・中等教育段階におけるコンバージェンスを継続的に改善することを示す。
圧縮比、語彙の多様性、可読性は、設定間の効果的な難易度信号として同定する。
論文 参考訳(メタデータ) (2025-06-12T21:06:57Z) - UniErase: Towards Balanced and Precise Unlearning in Language Models [69.04923022755547]
大規模言語モデル(LLM)は、古い情報問題に対処するために反復的な更新を必要とする。
UniEraseは、知識の未学習と能力保持の間の精度とバランスの取れたパフォーマンスを示す、新しいアンラーニングフレームワークである。
論文 参考訳(メタデータ) (2025-05-21T15:53:28Z) - Disentangled World Models: Learning to Transfer Semantic Knowledge from Distracting Videos for Reinforcement Learning [65.85335291827086]
本稿では,オフラインからオンラインまでの潜水蒸留とフレキシブルなゆがみ制約を通したビデオから,セマンティックな違いを学習し,理解することを試みる。
動作自由なビデオ予測モデルを非干渉正規化によりオフラインでトレーニングし、注意をそらすビデオから意味的知識を抽出する。
オンライン環境での微調整には、事前学習されたモデルからの知識を活用し、世界モデルに絡み合った制約を導入する。
論文 参考訳(メタデータ) (2025-03-11T13:50:22Z) - Training a Generally Curious Agent [77.61142660542599]
Paprikaは、言語モデルが一般的な意思決定機能を開発することを可能にする微調整のアプローチである。
Paprika氏は、より勾配の更新をすることなく、コンテキスト内の環境フィードバックに基づいて、新しいタスクで彼らの振る舞いを探索し、適応するようにモデルに教えている。
結果は、シーケンシャルな意思決定問題を自律的に解決できるAIシステムへの有望な道のりを示唆している。
論文 参考訳(メタデータ) (2025-02-24T18:56:58Z) - An Active Learning Framework for Inclusive Generation by Large Language Models [32.16984263644299]
大規模言語モデル(LLM)は、多様なサブ集団を表すテキストを生成する。
本稿では,知識蒸留により強化されたクラスタリングに基づくアクティブラーニングフレームワークを提案する。
2つの新しいデータセットをモデルトレーニングと組み合わせて構築し、ベースラインモデルよりも2%-10%の性能向上を示した。
論文 参考訳(メタデータ) (2024-10-17T15:09:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。