論文の概要: Mixing Expert Knowledge: Bring Human Thoughts Back To the Game of Go
- arxiv url: http://arxiv.org/abs/2601.16447v1
- Date: Fri, 23 Jan 2026 05:00:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.543735
- Title: Mixing Expert Knowledge: Bring Human Thoughts Back To the Game of Go
- Title(参考訳): 専門家の知識を混ぜ合わせる:人間の思考を囲碁に戻す
- Authors: Yichuan Ma, Linyang Li, Yongkang Chen, Peiji Li, Jiasheng Ye, Qipeng Guo, Dahua Lin, Kai Chen,
- Abstract要約: 大規模言語モデル (LLM) は数学やコーディングなどの推論タスクにおいて例外的な性能を示した。
LoGosは、優れた一般的な推論能力を維持するだけでなく、自然言語でGoのゲームプレイも行う強力なLLMである。
LoGosは人間のプロプレイヤーに匹敵するパフォーマンスを達成し、既存のLLMをはるかに上回っている。
- 参考スコア(独自算出の注目度): 74.28228642327726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated exceptional performance in reasoning tasks such as mathematics and coding, matching or surpassing human capabilities. However, these impressive reasoning abilities face significant challenges in specialized domains. Taking Go as an example, although AlphaGo has established the high performance ceiling of AI systems in Go, mainstream LLMs still struggle to reach even beginner-level proficiency, let alone perform natural language reasoning. This performance gap between general-purpose LLMs and domain experts is significantly limiting the application of LLMs on a wider range of domain-specific tasks. In this work, we aim to bridge the divide between LLMs' general reasoning capabilities and expert knowledge in domain-specific tasks. We perform mixed fine-tuning with structured Go expertise and general long Chain-of-Thought (CoT) reasoning data as a cold start, followed by reinforcement learning to integrate expert knowledge in Go with general reasoning capabilities. Through this methodology, we present \textbf{LoGos}, a powerful LLM that not only maintains outstanding general reasoning abilities, but also conducts Go gameplay in natural language, demonstrating effective strategic reasoning and accurate next-move prediction. LoGos achieves performance comparable to human professional players, substantially surpassing all existing LLMs. Through this work, we aim to contribute insights on applying general LLM reasoning capabilities to specialized domains. We will release the first large-scale Go dataset for LLM training, the first LLM Go evaluation benchmark, and the first general LLM that reaches human professional-level performance in Go at: https://github.com/Entarochuan/LoGos.
- Abstract(参考訳): 大規模言語モデル(LLM)は、数学やコーディング、マッチング、あるいは人間の能力を超えるようなタスクの推論において、例外的な性能を示してきた。
しかし、これらの印象的な推論能力は、専門分野において重大な課題に直面している。
例として、AlphaGoはGoのAIシステムの高性能天井を確立しているが、メインストリームのLLMは、自然言語の推論だけでなく、初心者レベルの習熟度にまで達することにも苦戦している。
汎用LLMとドメインエキスパートのこのパフォーマンスギャップは、広い範囲のドメイン固有のタスクに対するLLMの適用を著しく制限している。
本研究では,LLMの一般的な推論能力と,ドメイン固有のタスクにおける専門知識の相違を橋渡しすることを目的としている。
構造化されたGoの専門知識と、コールドスタートとしてのCoT(Chain-of-Thought)推論データとの混合微調整を行い、その後、Goのエキスパート知識と一般的な推論機能を統合するための強化学習を行った。
本手法では,優れた一般的な推論能力を維持するだけでなく,自然言語で囲碁を行ない,効果的な戦略的推論と正確な次移動予測を実証する強力なLLMであるtextbf{LoGos}を提案する。
LoGosは人間のプロプレイヤーに匹敵するパフォーマンスを達成し、既存のLLMをはるかに上回っている。
本研究は,一般LLM推論能力を専門分野に適用するための知見の提供を目的としている。
LLMトレーニングのための最初の大規模Goデータセット、最初のLLM Go評価ベンチマーク、およびGoのプロフェッショナルレベルのパフォーマンスに到達した最初の一般LSMをリリースする。
関連論文リスト
- Multi-Agent Evolve: LLM Self-Improve through Co-evolution [53.00458074754831]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高める大きな可能性を証明している。
近年のSelf-Play RL法は,ゲームやGoのパラダイムの成功に触発されて,人間に注釈を付けることなくLSM推論能力を向上することを目指している。
数学,推論,一般知識Q&Aなど多種多様な課題の解決において,LLMが自己発展できるフレームワークであるMulti-Agent Evolve(MAE)を提案する。
論文 参考訳(メタデータ) (2025-10-27T17:58:02Z) - Truly Assessing Fluid Intelligence of Large Language Models through Dynamic Reasoning Evaluation [106.17986469245302]
大きな言語モデル(LLM)は、人間のような思考を反映する印象的な推論能力を示している。
既存の推論ベンチマークでは、ドメイン固有の知識(結晶化インテリジェンス)に焦点を当てるか、解釈可能性に欠ける。
階層的認知フレームワークを基盤とした動的推論評価ベンチマークであるDRE-Benchを提案する。
論文 参考訳(メタデータ) (2025-06-03T09:01:08Z) - Efficient Dynamic Ensembling for Multiple LLM Experts [44.41847678666002]
異なるLLM専門家の強みに対するアンサンブル推論は、多様な入力に対して一貫した満足なパフォーマンスを達成するために重要である。
本研究では,動的入力を前提とした複数のLDMエキスパートの強みを統合するために,DERと呼ばれる効率的な動的アンサンブル推論パラダイムを提案する。
実験により,本手法では,最先端のベースラインに比べて計算資源が少なく,性能が向上することが示された。
論文 参考訳(メタデータ) (2024-12-10T12:05:56Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - Linguistic Intelligence in Large Language Models for Telecommunications [5.06945923921948]
自然言語処理(NLP)分野において,Large Language Models (LLMs) が大きな進歩を遂げている。
本研究は,電気通信分野におけるLLMの知識と理解能力を評価することを目的とする。
評価の結果,ゼロショットLLMは現状の細調整モデルに匹敵する性能を達成できることがわかった。
論文 参考訳(メタデータ) (2024-02-24T14:01:07Z) - KnowledgeNavigator: Leveraging Large Language Models for Enhanced
Reasoning over Knowledge Graph [11.808990571175269]
大規模言語モデル(LLM)は、その強力な自然言語理解とゼロショット能力によって、様々な下流タスクにおいて優れたパフォーマンスを達成しているが、LLMは依然として知識制限に悩まされている。
本稿では,知識グラフから外部知識を効率的に正確に検索し,これらの課題に対処する新しいフレームワークであるKnowledgeNavigatorを提案する。
我々は,複数のKGQAベンチマーク上でKnowledgeNavigatorを評価し,そのフレームワークの有効性と一般化を実証した。
論文 参考訳(メタデータ) (2023-12-26T04:22:56Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。