論文の概要: Enhancing Reasoning Skills in Small Persian Medical Language Models Can Outperform Large-Scale Data Training
- arxiv url: http://arxiv.org/abs/2510.20059v1
- Date: Wed, 22 Oct 2025 22:22:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.928442
- Title: Enhancing Reasoning Skills in Small Persian Medical Language Models Can Outperform Large-Scale Data Training
- Title(参考訳): 小ペルシア語医療言語モデルにおける推論スキルの強化は大規模データトレーニングより優れている
- Authors: Mehrdad Ghassabi, Sadra Hakim, Hamidreza Baradaran Kashani, Pedram Rostami,
- Abstract要約: 我々は、汎用ペルシャ語モデルの推論スキルを改善するために、AIフィードバックを用いた強化学習(RLAIF)と直接選好最適化(DPO)を採用している。
これを実現するために,複数の質問応答データセットをペルシア語に翻訳し,RLAIFを用いて提案された回答ペアを生成した。
- 参考スコア(独自算出の注目度): 2.6599014990168834
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Enhancing reasoning capabilities in small language models is critical for specialized applications such as medical question answering, particularly in underrepresented languages like Persian. In this study, we employ Reinforcement Learning with AI Feedback (RLAIF) and Direct preference optimization (DPO) to improve the reasoning skills of a general-purpose Persian language model. To achieve this, we translated a multiple-choice medical question-answering dataset into Persian and used RLAIF to generate rejected-preferred answer pairs, which are essential for DPO training. By prompting both teacher and student models to produce Chain-of-Thought (CoT) reasoning responses, we compiled a dataset containing correct and incorrect reasoning trajectories. This dataset, comprising 2 million tokens in preferred answers and 2.5 million tokens in rejected ones, was used to train a baseline model, significantly enhancing its medical reasoning capabilities in Persian. Remarkably, the resulting model outperformed its predecessor, gaokerena-V, which was trained on approximately 57 million tokens, despite leveraging a much smaller dataset. These results highlight the efficiency and effectiveness of reasoning-focused training approaches in developing domain-specific language models with limited data availability.
- Abstract(参考訳): 小さな言語モデルにおける推論能力の強化は、医学的質問応答のような専門的な応用、特にペルシア語のような表現不足言語において重要である。
本研究では,AIフィードバックを用いた強化学習(RLAIF)と直接選好最適化(DPO)を用いて,汎用ペルシャ語モデルの推論能力を向上させる。
そこで我々は,DPOトレーニングに欠かせない回答ペアを生成するために,多項目の医療質問応答データセットをペルシア語に翻訳し,RLAIFを用いた。
教師モデルと学生モデルの両方にCoT(Chain-of-Thought)推論応答を生成するように促すことで、正しい推論軌跡を含むデータセットをコンパイルした。
このデータセットは、望ましい回答で200万のトークンと拒否された回答で250万のトークンで構成され、ベースラインモデルをトレーニングするために使用され、ペルシアの医学的推論能力を大幅に向上させた。
驚くべきことに、結果として得られたモデルでは、データセットがはるかに小さいにもかかわらず、約5700万トークンでトレーニングされた前任者のgaokerena-Vよりも優れていた。
これらの結果は、データ可用性に制限のあるドメイン固有言語モデルの開発において、推論に焦点を当てたトレーニングアプローチの有効性と効果を強調した。
関連論文リスト
- Pensez: Less Data, Better Reasoning -- Rethinking French LLM [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な機能を示した。
しかし、数学的推論や非英語言語のような専門分野における強力なパフォーマンスを達成するには、大規模なデータセットに対する広範なトレーニングが必要となることが多い。
本稿では,小規模で高品質なバイリンガル(英語-フランス語)データセットを戦略的に微調整する,対照的なアプローチについて検討する。
論文 参考訳(メタデータ) (2025-03-17T19:09:11Z) - DAEDRA: A language model for predicting outcomes in passive
pharmacovigilance reporting [0.0]
DAEDRAは、有害事象報告における規制関連結果を検出するために設計された大きな言語モデルである。
本稿では,DAEDRAの概念,設計,訓練,評価について述べる。
論文 参考訳(メタデータ) (2024-02-10T16:48:45Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - Tokenizer Choice For LLM Training: Negligible or Crucial? [30.33170936148845]
24個の単言語LLMと多言語LLMを学習し,トークン化選択が大規模言語モデル(LLM)の下流性能に与える影響について検討した。
トークン化ツールの選択は、ダウンストリームのパフォーマンスとトレーニングコストに大きな影響を与えます。
ヨーロッパの5言語で訓練された多言語トークン化器は,英語と比較して語彙サイズが3倍に大きくなることが示唆された。
論文 参考訳(メタデータ) (2023-10-12T22:44:19Z) - Investigating Pre-trained Language Models on Cross-Domain Datasets, a
Step Closer to General AI [0.8889304968879164]
本研究では、事前学習された言語モデルが、異なる非言語タスクに一般化する能力について検討する。
私たちが使用した4つの事前訓練モデル、T5、BART、BERT、GPT-2は優れた結果を得た。
論文 参考訳(メタデータ) (2023-06-21T11:55:17Z) - Arithmetic-Based Pretraining -- Improving Numeracy of Pretrained
Language Models [67.48894919842576]
最先端の事前訓練された言語モデルは、数式を必要とするタスクにアウト・オブ・ボックスを適用すると、その能力より劣る傾向にある。
本稿では,Arithmetic-Based Pretrainingと呼ばれる拡張事前学習手法を提案する。
本実験は,算数性の向上を必要とする3つのタスクにおいて,算術的事前学習の有効性を示す。
論文 参考訳(メタデータ) (2022-05-13T16:10:13Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。