論文の概要: GIFT: Games as Informal Training for Generalizable LLMs
- arxiv url: http://arxiv.org/abs/2601.05633v1
- Date: Fri, 09 Jan 2026 08:42:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.915977
- Title: GIFT: Games as Informal Training for Generalizable LLMs
- Title(参考訳): GIFT:汎用LDMのインフォーマルトレーニングとしてのゲーム
- Authors: Nuoyan Lyu, Bingbing Xu, Weihao Meng, Yige Yuan, Yang Zhang, Zhiyong Huang, Tat-Seng Chua, Huawei Shen,
- Abstract要約: 大規模言語モデル(LLM)は「実践的な知恵」と一般化可能な知性に苦しむ。
このギャップは、目標指向の指示よりもインタラクティブなフィードバックに長けている非公式な学習の欠如から生じる。
LLMの非公式学習におけるゲーム処理環境として,本質的な報酬信号と抽象化された複雑性を活用することを提案する。
- 参考スコア(独自算出の注目度): 64.47890325824763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) have achieved remarkable success in formal learning tasks such as mathematics and code generation, they still struggle with the "practical wisdom" and generalizable intelligence, such as strategic creativity and social reasoning, that characterize human cognition. This gap arises from a lack of informal learning, which thrives on interactive feedback rather than goal-oriented instruction. In this paper, we propose treating Games as a primary environment for LLM informal learning, leveraging their intrinsic reward signals and abstracted complexity to cultivate diverse competencies. To address the performance degradation observed in multi-task learning, we introduce a Nested Training Framework. Unlike naive task mixing optimizing an implicit "OR" objective, our framework employs sequential task composition to enforce an explicit "AND" objective, compelling the model to master multiple abilities simultaneously to achieve maximal rewards. Using GRPO-based reinforcement learning across Matrix Games, TicTacToe, and Who's the Spy games, we demonstrate that integrating game-based informal learning not only prevents task interference but also significantly bolsters the model's generalization across broad ability-oriented benchmarks. The framework and implementation are publicly available.
- Abstract(参考訳): 大規模言語モデル(LLM)は数学やコード生成といった形式的な学習タスクにおいて顕著な成功を収めてきたが、人間の認知を特徴づける戦略的創造性や社会的推論といった「実践的な知恵」や一般化可能な知性に苦戦している。
このギャップは、目標指向の指示よりもインタラクティブなフィードバックに長けている非公式な学習の欠如から生じる。
本稿では, LLM の非公式学習におけるゲーム処理環境として, 内在的な報酬信号を活用すること, 多様な能力の育成に複雑性を抽象化することを提案する。
マルチタスク学習における性能劣化に対処するために,Nested Training Frameworkを導入する。
暗黙的な「OR」目標を最適化する単純なタスクミキシングとは異なり、我々のフレームワークはシーケンシャルなタスク合成を用いて明示的な「AND」目標を強制し、モデルに最大報酬を達成するために複数の能力を同時に習得するよう促す。
GRPO ベースの強化学習を Matrix Games,TicTacToe,Who's the Spy ゲーム間で使用することにより,ゲームベースの非公式学習を統合することで,タスクの干渉を防止できるだけでなく,幅広い能力指向のベンチマークでモデルの一般化を著しく促進することを示す。
フレームワークと実装は公開されています。
関連論文リスト
- Unified Reinforcement and Imitation Learning for Vision-Language Models [84.84277196012907]
VLM(Vision-Language Models)は目覚ましい進歩を遂げているが、その大規模化によって資源制約のある環境では実用的でないことがしばしばある。
本稿では、強力で軽量なVLMを作成するために設計された、新規で効率的なトレーニングアルゴリズムであるUnified Reinforcement and Imitation Learning (RIL)を紹介する。
論文 参考訳(メタデータ) (2025-10-22T07:12:14Z) - MEJO: MLLM-Engaged Surgical Triplet Recognition via Inter- and Intra-Task Joint Optimization [52.149337961205624]
手術用三重項認識のためのタスク間最適化とタスク内最適化を両立する枠組みを提案する。
タスク間最適化のために、タスク共有およびタスク固有コンポーネントに表現を分解する共有特徴分散学習スキーム(S$2$D)を導入する。
タスク内最適化競合に対して,正負の曖昧さを識別・再バランスするコーディネート・グラディエント・ラーニング(CGL)戦略を開発する。
論文 参考訳(メタデータ) (2025-09-16T09:48:52Z) - Think in Games: Learning to Reason in Games via Reinforcement Learning with Large Language Models [21.600469921661233]
Think in Games (TiG) は、ゲーム環境と直接対話することで、手続き的理解を開発するために、大規模言語モデルに権限を与える新しいフレームワークである。
我々は,TiGが宣言的知識と手続き的知識のギャップを埋めることに成功したことを示す。
論文 参考訳(メタデータ) (2025-08-29T07:13:39Z) - Omni-Thinker: Scaling Multi-Task RL in LLMs with Hybrid Reward and Task Scheduling [66.0871543682453]
我々はOmni-Thinkerについて紹介する。Omni-Thinkerは多種多様なタスクにわたって大きな言語モデルをスケールする統合強化学習フレームワークである。
我々のスケジューラは,BWTに基づいてタスクを順序付けし,マルチタスク性能を向上する。
論文 参考訳(メタデータ) (2025-07-20T01:50:16Z) - GROVE: A Generalized Reward for Learning Open-Vocabulary Physical Skill [25.686589649523587]
シミュレーションエージェントのオープンボキャブラリ物理スキルを学ぶことは、人工知能において重要な課題である。
我々は,手動工学やタスク固有の実演を使わずに,オープン語彙の物理スキル学習を可能にする汎用的な報酬フレームワークであるGROVEを紹介する。
シミュレーションと自然画像の領域ギャップを埋めるために,エージェントのポーズを直接意味的特徴空間に投影する軽量マッパーPose2CLIPを開発した。
論文 参考訳(メタデータ) (2025-04-05T14:44:47Z) - LLM-powered Multi-agent Framework for Goal-oriented Learning in Intelligent Tutoring System [54.71619734800526]
GenMentorは、ITS内で目標指向でパーソナライズされた学習を提供するために設計されたマルチエージェントフレームワークである。
学習者の目標を、カスタムのゴール・トゥ・スキルデータセットでトレーニングされた微調整LDMを使用して、必要なスキルにマッピングする。
GenMentorは、個々の学習者のニーズに合わせて探索・描画・統合機構で学習内容を調整する。
論文 参考訳(メタデータ) (2025-01-27T03:29:44Z) - Benchmarking General-Purpose In-Context Learning [19.40952728849431]
In-context Learning (ICL) は、生成モデルに新しいタスクを効果的に、かつ効率的にオンザフライで対処する権限を与える。
本稿では,より広い範囲の課題に対処するためのICLの拡張について検討する。
GPICLの機能のトレーニングと評価に特化して開発されたベンチマークを2つ導入する。
論文 参考訳(メタデータ) (2024-05-27T14:50:42Z) - Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。
我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。
提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文 参考訳(メタデータ) (2024-05-16T17:50:19Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Weakly Supervised Disentangled Representation for Goal-conditioned
Reinforcement Learning [15.698612710580447]
本稿では,サンプル効率の向上と政策一般化を目的としたスキル学習フレームワークDR-GRLを提案する。
本稿では,解釈可能かつ制御可能な表現を学習するための空間変換オートエンコーダ(STAE)を提案する。
DR-GRLは, 試料効率と政策一般化において, 従来の手法よりも有意に優れていたことを実証的に実証した。
論文 参考訳(メタデータ) (2022-02-28T09:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。