論文の概要: GIFT: Games as Informal Training for Generalizable LLMs
- arxiv url: http://arxiv.org/abs/2601.05633v1
- Date: Fri, 09 Jan 2026 08:42:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.915977
- Title: GIFT: Games as Informal Training for Generalizable LLMs
- Title(参考訳): GIFT:汎用LDMのインフォーマルトレーニングとしてのゲーム
- Authors: Nuoyan Lyu, Bingbing Xu, Weihao Meng, Yige Yuan, Yang Zhang, Zhiyong Huang, Tat-Seng Chua, Huawei Shen,
- Abstract要約: 大規模言語モデル(LLM)は「実践的な知恵」と一般化可能な知性に苦しむ。
このギャップは、目標指向の指示よりもインタラクティブなフィードバックに長けている非公式な学習の欠如から生じる。
LLMの非公式学習におけるゲーム処理環境として,本質的な報酬信号と抽象化された複雑性を活用することを提案する。
- 参考スコア(独自算出の注目度): 64.47890325824763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) have achieved remarkable success in formal learning tasks such as mathematics and code generation, they still struggle with the "practical wisdom" and generalizable intelligence, such as strategic creativity and social reasoning, that characterize human cognition. This gap arises from a lack of informal learning, which thrives on interactive feedback rather than goal-oriented instruction. In this paper, we propose treating Games as a primary environment for LLM informal learning, leveraging their intrinsic reward signals and abstracted complexity to cultivate diverse competencies. To address the performance degradation observed in multi-task learning, we introduce a Nested Training Framework. Unlike naive task mixing optimizing an implicit "OR" objective, our framework employs sequential task composition to enforce an explicit "AND" objective, compelling the model to master multiple abilities simultaneously to achieve maximal rewards. Using GRPO-based reinforcement learning across Matrix Games, TicTacToe, and Who's the Spy games, we demonstrate that integrating game-based informal learning not only prevents task interference but also significantly bolsters the model's generalization across broad ability-oriented benchmarks. The framework and implementation are publicly available.
- Abstract(参考訳): 大規模言語モデル(LLM)は数学やコード生成といった形式的な学習タスクにおいて顕著な成功を収めてきたが、人間の認知を特徴づける戦略的創造性や社会的推論といった「実践的な知恵」や一般化可能な知性に苦戦している。
このギャップは、目標指向の指示よりもインタラクティブなフィードバックに長けている非公式な学習の欠如から生じる。
本稿では, LLM の非公式学習におけるゲーム処理環境として, 内在的な報酬信号を活用すること, 多様な能力の育成に複雑性を抽象化することを提案する。
マルチタスク学習における性能劣化に対処するために,Nested Training Frameworkを導入する。
暗黙的な「OR」目標を最適化する単純なタスクミキシングとは異なり、我々のフレームワークはシーケンシャルなタスク合成を用いて明示的な「AND」目標を強制し、モデルに最大報酬を達成するために複数の能力を同時に習得するよう促す。
GRPO ベースの強化学習を Matrix Games,TicTacToe,Who's the Spy ゲーム間で使用することにより,ゲームベースの非公式学習を統合することで,タスクの干渉を防止できるだけでなく,幅広い能力指向のベンチマークでモデルの一般化を著しく促進することを示す。
フレームワークと実装は公開されています。
関連論文リスト
- Unified Reinforcement and Imitation Learning for Vision-Language Models [84.84277196012907]
VLM(Vision-Language Models)は目覚ましい進歩を遂げているが、その大規模化によって資源制約のある環境では実用的でないことがしばしばある。
本稿では、強力で軽量なVLMを作成するために設計された、新規で効率的なトレーニングアルゴリズムであるUnified Reinforcement and Imitation Learning (RIL)を紹介する。
論文 参考訳(メタデータ) (2025-10-22T07:12:14Z) - Omni-Thinker: Scaling Multi-Task RL in LLMs with Hybrid Reward and Task Scheduling [66.0871543682453]
我々はOmni-Thinkerについて紹介する。Omni-Thinkerは多種多様なタスクにわたって大きな言語モデルをスケールする統合強化学習フレームワークである。
我々のスケジューラは,BWTに基づいてタスクを順序付けし,マルチタスク性能を向上する。
論文 参考訳(メタデータ) (2025-07-20T01:50:16Z) - LLM-powered Multi-agent Framework for Goal-oriented Learning in Intelligent Tutoring System [54.71619734800526]
GenMentorは、ITS内で目標指向でパーソナライズされた学習を提供するために設計されたマルチエージェントフレームワークである。
学習者の目標を、カスタムのゴール・トゥ・スキルデータセットでトレーニングされた微調整LDMを使用して、必要なスキルにマッピングする。
GenMentorは、個々の学習者のニーズに合わせて探索・描画・統合機構で学習内容を調整する。
論文 参考訳(メタデータ) (2025-01-27T03:29:44Z) - Benchmarking General-Purpose In-Context Learning [19.40952728849431]
In-context Learning (ICL) は、生成モデルに新しいタスクを効果的に、かつ効率的にオンザフライで対処する権限を与える。
本稿では,より広い範囲の課題に対処するためのICLの拡張について検討する。
GPICLの機能のトレーニングと評価に特化して開発されたベンチマークを2つ導入する。
論文 参考訳(メタデータ) (2024-05-27T14:50:42Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Weakly Supervised Disentangled Representation for Goal-conditioned
Reinforcement Learning [15.698612710580447]
本稿では,サンプル効率の向上と政策一般化を目的としたスキル学習フレームワークDR-GRLを提案する。
本稿では,解釈可能かつ制御可能な表現を学習するための空間変換オートエンコーダ(STAE)を提案する。
DR-GRLは, 試料効率と政策一般化において, 従来の手法よりも有意に優れていたことを実証的に実証した。
論文 参考訳(メタデータ) (2022-02-28T09:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。