論文の概要: Leveraging Group Relative Policy Optimization to Advance Large Language Models in Traditional Chinese Medicine
- arxiv url: http://arxiv.org/abs/2510.17402v1
- Date: Mon, 20 Oct 2025 10:43:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.414336
- Title: Leveraging Group Relative Policy Optimization to Advance Large Language Models in Traditional Chinese Medicine
- Title(参考訳): 集団相対的政策最適化を活用した漢方医学における大規模言語モデルの構築
- Authors: Jiacheng Xie, Shuai Zeng, Yang Yu, Xiaoting Tang, Guanghui An, Dong Xu,
- Abstract要約: グループ相対ポリシー最適化で訓練された最初のTCMにフォーカスした大規模言語モデルであるLadder-baseを紹介します。
Ladder-baseはQwen2.5-7B-Instructファンデーションモデルに基づいて構築され、TCM-Ladderベンチマークのテキストサブセットにのみ訓練されている。
- 参考スコア(独自算出の注目度): 9.74563376905193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional Chinese Medicine (TCM) presents a rich and structurally unique knowledge system that challenges conventional applications of large language models (LLMs). Although previous TCM-specific LLMs have shown progress through supervised fine-tuning, they often face limitations in alignment, data quality, and evaluation consistency. In this study, we introduce Ladder-base, the first TCM-focused LLM trained with Group Relative Policy Optimization (GRPO), a reinforcement learning method that improves reasoning and factual consistency by optimizing response selection based on intra-group comparisons. Ladder-base is built upon the Qwen2.5-7B-Instruct foundation model and trained exclusively on the textual subset of the TCM-Ladder benchmark, using 80 percent of the data for training and the remaining 20 percent split evenly between validation and test sets. Through standardized evaluation, Ladder-base demonstrates superior performance across multiple reasoning metrics when compared to both state-of-the-art general-purpose LLMs such as GPT-4, Gemini 2.5, Claude 3, and Qwen3 and domain-specific TCM models including BenTsao, HuatuoGPT2, and Zhongjing. These findings suggest that GRPO provides an effective and efficient strategy for aligning LLMs with expert-level reasoning in traditional medical domains and supports the development of trustworthy and clinically grounded TCM artificial intelligence systems.
- Abstract(参考訳): 伝統的な中国医学(TCM)は、大規模言語モデル(LLM)の従来の応用に挑戦する、豊かで構造的にユニークな知識システムを提供する。
以前のTCM固有のLLMは、教師付き微調整によって進歩しているものの、アライメント、データ品質、評価一貫性の制限に直面していることが多い。
本研究では,グループ間比較に基づいて応答選択を最適化することにより,推論と事実整合性を改善する強化学習手法であるGRPO(Group Relative Policy Optimization)で訓練された最初のTCMにフォーカスしたLLMであるLadder-baseを紹介する。
Ladder-baseはQwen2.5-7B-Instructファウンデーションモデルに基づいて構築されており、TCM-Ladderベンチマークのテキストサブセットのみをトレーニングに使用し、残りの20%は検証とテストセットを均等に分割する。
標準化された評価により、Ladder-baseは、GPT-4、Gemini 2.5、Claude 3、Qwen3のような最先端の汎用LLMと、BenTsao、HuatuoGPT2、Zhongjingといったドメイン固有のTCMモデルの両方と比較して、複数の推論指標で優れた性能を示している。
これらの結果から,GRPOは従来の医療領域における専門家レベルの推論とLCMを整合させる効果的な戦略を提供し,信頼性と臨床基盤を有するTCM人工知能システムの開発を支援することが示唆された。
関連論文リスト
- BenCao: An Instruction-Tuned Large Language Model for Traditional Chinese Medicine [11.485720230834922]
伝統的な中国医学(TCM)は、世界の医療において重要な役割を果たしている。
大規模言語モデル(LLM)をTCMに適用することは、全体的な推論、暗黙の論理、マルチモーダルな診断方法に依存しているため、依然として難しい。
我々は、TCMのためのChatGPTベースのマルチモーダルアシスタントであるBenCaoを開発し、構造化知識ベース、診断データ、専門家のフィードバック改善を統合した。
BenCaoは、パラメータの再訓練ではなく、自然言語のインストラクションチューニングを通じて訓練され、専門家レベルの推論とTCM特有の倫理的規範と整合した。
論文 参考訳(メタデータ) (2025-10-20T10:57:37Z) - ShizhenGPT: Towards Multimodal LLMs for Traditional Chinese Medicine [53.91744478760689]
我々は、中国伝統医学(TCM)に適した最初の多モーダル言語モデルであるシージエンGPTを提示する。
シッシェンGPTは、深いTCM知識とマルチモーダル推論を達成するために、事前訓練され、訓練されている。
実験によると、ShizhenGPTはLLMよりも優れており、より大きなプロプライエタリモデルと競合する。
論文 参考訳(メタデータ) (2025-08-20T13:30:20Z) - Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。
古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。
コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文 参考訳(メタデータ) (2025-07-21T10:52:14Z) - T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:44:59Z) - A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。
大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。
我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文 参考訳(メタデータ) (2025-04-12T01:27:49Z) - MCTS-RAG: Enhancing Retrieval-Augmented Generation with Monte Carlo Tree Search [61.11836311160951]
本稿では,知識集約型タスクにおける小言語モデルの推論能力を高める新しいアプローチであるMCTS-RAGを紹介する。
通常、推論から独立して情報を取得する標準的なRAG法とは異なり、MCTS-RAGは構造化推論と適応的検索を組み合わせる。
この統合されたアプローチは意思決定を強化し、幻覚を減らし、事実の正確性と応答の整合性を向上させる。
論文 参考訳(メタデータ) (2025-03-26T17:46:08Z) - TCM-3CEval: A Triaxial Benchmark for Assessing Responses from Large Language Models in Traditional Chinese Medicine [10.74071774496229]
大規模言語モデル (LLMs) は, 様々なNLPタスクや現代医学に優れるが, 伝統的な漢方医学(TCM)における評価は過小評価されている。
そこで本研究では,TCM における LLM の評価を行うベンチマークである TCM3CEval について紹介する。
全てのモデルはメリディアン・アンド・アクポイント理論や様々なTCMスクールのような特殊性に制限があり、現在の能力と臨床ニーズのギャップを明らかにする。
論文 参考訳(メタデータ) (2025-03-10T08:29:15Z) - BianCang: A Traditional Chinese Medicine Large Language Model [33.738284400742124]
そこで本研究では,まずドメイン固有知識を注入し,まず目標刺激によって調整し,診断と識別能力を向上させる,TCM固有の大規模言語モデルであるBianCangを提案する。
実際の病院記録に基づく事前学習コーパス,ChP-TCMデータセット,および中華人民共和国の薬局類由来のChP-TCMデータセットを構築した。
我々は,TCMと医用コーパスを総合的に収集し,TCMの理解を深めるための包括的データセットを構築した。
論文 参考訳(メタデータ) (2024-11-17T10:17:01Z) - Preference Alignment Improves Language Model-Based TTS [76.70693823683091]
選好アライメントアルゴリズムは、報酬モデルの嗜好に合わせてLMを調整し、生成されたコンテンツの望ましさを高める。
1.15B のパラメータ LM に基づく TTS モデルを用いて、嗜好の整合性は常に知性、話者類似性、代用主観的評価スコアを向上することを示した。
論文 参考訳(メタデータ) (2024-09-19T01:58:19Z) - TCMBench: A Comprehensive Benchmark for Evaluating Large Language Models in Traditional Chinese Medicine [19.680694337954133]
大規模言語モデル(LLM)の専門的評価ベンチマークは、伝統的な中国医学(TCM)領域ではまだカバーされていない。
そこで本研究では,TCMにおけるLLM性能を評価するための総合的なベンチマークであるTCM-Benchを紹介する。
TCM-EDデータセットは、TCM Licensing Exam (TCMLE)から得られた5,473の質問から成り、権威分析を伴う1,300の質問を含む。
質問応答の精度を超えてLLMを評価するために,TCM関連質問に対してLLMが生成する回答の質を評価するための指標であるTCMScoreを提案する。
論文 参考訳(メタデータ) (2024-06-03T09:11:13Z) - TCM-GPT: Efficient Pre-training of Large Language Models for Domain
Adaptation in Traditional Chinese Medicine [11.537289359051975]
ドメイン固有コーパスを用いた効率的な事前学習を行うTCMDA(TCM Domain Adaptation)アプローチを提案する。
具体的には、まず、ドメインキーワードを識別し、一般コーパスから再帰することで、TCM固有の大規模コーパスTCM-Corpus-1Bを構築する。
そこで,本TCMDAでは,事前学習および微調整のために,事前学習したモデルの重量を凍結するLoRAを活用し,ランク分解行列を用いて特定の密度層を効率的に訓練する。
論文 参考訳(メタデータ) (2023-11-03T08:54:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。