論文の概要: Empowering Smaller Models: Tuning LLaMA and Gemma with Chain-of-Thought for Ukrainian Exam Tasks
- arxiv url: http://arxiv.org/abs/2503.13988v1
- Date: Tue, 18 Mar 2025 07:44:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:18:01.225089
- Title: Empowering Smaller Models: Tuning LLaMA and Gemma with Chain-of-Thought for Ukrainian Exam Tasks
- Title(参考訳): より小さなモデルを強化する: ウクライナのエクサムタスクのためのチェーン・オブ・サートによるLLaMAとGemmaのチューニング
- Authors: Mykyta Syromiatnikov, Victoria Ruvinskaya, Nataliia Komleva,
- Abstract要約: 小型またはコンパクトなモデルの方が効率的だが、表現不足の言語を十分にサポートしていないことが多い。
この研究は、推論集約的なタスクを扱うために、コンパクトなオープンウェイト言語モデルのパラメータ効率の良い微調整の可能性を探る。
統合タスクトピックとステップバイステップのソリューション生成によるチューニング手法は、マッチングタスクにおける標準チェーン・オブ・シンキングよりも優れる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Leading large language models have demonstrated impressive capabilities in reasoning-intensive tasks, such as standardized educational testing. However, they often require extensive training in low-resource settings with inaccessible infrastructure. Small or compact models, though more efficient, frequently lack sufficient support for underrepresented languages, leaving a performance gap in critical domains. This work explores the potential of parameter-efficient fine-tuning of compact open-weight language models to handle reasoning-intensive tasks in the underrepresented Ukrainian language, building on the findings of the ZNO-Eval benchmark. Parameter-efficient fine-tuning of LLaMA 3.1 (8 billion parameters), LLaMA 3.2 (3 billion parameters), and Gemma 2 (9 billion parameters) models on chain-of-thought solutions resulted in a modest test score improvement of up to 17.4% on complex matching tasks and 1.6% overall compared to tuning on answer letters alone, offering enhanced interpretability and robustness. In addition, the proposed tuning method with joint task topic and step-by-step solution generation outperforms standard chain-of-thought tuning in matching tasks and provides a 5.4% gain over the best LLaMA 3.2 model due to guiding the model to recall and apply domain-relevant information. Contrasting obtained results with zero-shot evaluations of leading open-weight and proprietary models such as Qwen, DeepSeek R1, OpenAI o1 and o3, Gemini, and Claude, highlight that fine-tuning LLaMA and Gemma models with 2,032 step-by-step solutions and 20 to 50 million trainable parameters on a single A100 GPU lets them outperform GPT-4o mini, Mistral Large, and larger open-weight models. This research also evaluates how merging the quantized adapter with the base model influences the generation quality. Source code and tuned models are available at https://github.com/NLPForUA/ZNO.
- Abstract(参考訳): 大きな言語モデルを導くことは、標準化された教育テストのような推論集約的なタスクにおいて印象的な能力を示している。
しかし、アクセス不能なインフラストラクチャを持つ低リソース設定では、大規模なトレーニングが必要になることが多い。
小型またはコンパクトなモデルの方が効率的だが、表現不足の言語に対する十分なサポートが欠如しており、重要なドメインのパフォーマンスのギャップが残っている。
本研究は、ZNO-Evalベンチマークの結果に基づいて、未表現のウクライナ語における推論集約的なタスクを処理するためのコンパクトなオープンウェイト言語モデルのパラメータ効率の良い微調整の可能性を探る。
LLaMA 3.1(80億のパラメータ)、LLaMA 3.2(30億のパラメータ)、Gemma 2(90億のパラメータ)のチェイン・オブ・シント・ソリューションにおけるパラメータ効率の良い微調整により、複雑なマッチングタスクでは最大17.4%、回答文字だけでは1.6%という緩やかなテストスコアが向上し、解釈性と堅牢性が向上した。
さらに,統合タスクトピックとステップ・バイ・ステップ・ソリューション生成を用いたチューニング手法は,マッチングタスクにおける標準チェーン・オブ・シンキングよりも優れており,ドメイン関連情報をリコール・適用するためのモデルによって,最高のLLaMA 3.2モデルよりも5.4%向上している。
Qwen、DeepSeek R1、OpenAI o1、o3、Gemini、Claudeといった主要なオープンウェイトおよびプロプライエタリモデルのゼロショット評価では、ステップバイステップのソリューションが2,032で、A100 GPU上で20~5000万のトレーニング可能なパラメータがGPT-4o mini、Mistral Large、およびより大きなオープンウェイトモデルを上回っている。
また,量子化アダプタとベースモデルとのマージが生成品質に与える影響についても検討した。
ソースコードとチューニングされたモデルはhttps://github.com/NLPForUA/ZNO.comで入手できる。
関連論文リスト
- S*: Test Time Scaling for Code Generation [55.11863577956177]
コード生成のための最初のハイブリッドテストタイムスケーリングフレームワークであるS*を提案する。
S*は生成されたコードのカバレッジと選択精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-02-20T09:18:53Z) - Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。
LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。
複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文 参考訳(メタデータ) (2024-11-06T22:02:30Z) - Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。
既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。
この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T02:41:04Z) - Concept Distillation from Strong to Weak Models via Hypotheses-to-Theories Prompting [7.146498833443095]
概念蒸留(CD)は、複雑なタスクにおいてより弱いモデルを強化するための自動プロンプト最適化手法である。
CDは、(1)ベースプロンプト(初期化)による弱いモデルによるミスの収集、(2)強いモデルを使用してこれらのミスの原因を生成し、弱いモデル(推論)のためのルール/概念を作成し、(3)検証セットのパフォーマンスに基づいてこれらのルールをフィルタリングする。
我々はNL2Codeと数学的推論タスクにおけるCDの評価を行い、より小型で弱い言語モデルに対する顕著な性能向上を観察した。
論文 参考訳(メタデータ) (2024-08-18T05:37:48Z) - MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases [46.997172696192195]
本稿では、クラウドコストの増大とレイテンシの懸念により、モバイルデバイス上での効率的な大規模言語モデル(LLM)の必要性に対処する。
モバイルデプロイメントの実践的な選択として,10億未満のパラメータで高品質なLLMを設計することに重点を置いています。
論文 参考訳(メタデータ) (2024-02-22T18:58:55Z) - Large language models for aspect-based sentiment analysis [0.0]
GPT-4 と GPT-3.5 の性能をゼロショット, 少ないショット, 微調整で評価した。
微調整 GPT-3.5 は、共同アスペクト項抽出と極性分類タスクにおいて最先端の F1 スコア 83.8 を達成する。
論文 参考訳(メタデータ) (2023-10-27T10:03:21Z) - Text Alignment Is An Efficient Unified Model for Massive NLP Tasks [24.069447197357164]
次単語予測は、多くのNLPタスクの効率的な定式化ではないことが多い。
テキストアライメントは、幅広い重要なタスクに対して効率的な統一モデルとして提案する。
私たちのモデルは、より小さなモデルサイズで同等か、あるいはさらに優れたパフォーマンスを提供します。
論文 参考訳(メタデータ) (2023-07-06T02:28:31Z) - Chain-of-Thought Hub: A Continuous Effort to Measure Large Language
Models' Reasoning Performance [35.38549845444575]
Chain-of-Thought Hubは、大規模な言語モデルの多段階推論機能に関するオープンソースの評価スイートである。
提案するChain-of-Thought Hubは,大規模言語モデルの多段階推論機能に関するオープンソース評価スイートである。
論文 参考訳(メタデータ) (2023-05-26T23:46:42Z) - The False Promise of Imitating Proprietary LLMs [158.65692029352584]
より弱い言語モデルを安価に改善するための新しい方法は、より強力なモデルからの出力に対してそれを微調整することである。
このアプローチは、より弱いオープンソースモデルを使用して、プロプライエタリなモデルの機能を安価に模倣することを目指している。
まず、様々なベースモデルサイズを用いてChatGPTを模倣する一連のLMを微調整する。
次に、群衆レーダと標準NLPベンチマークを用いてモデルを評価する。
論文 参考訳(メタデータ) (2023-05-25T05:00:12Z) - Zemi: Learning Zero-Shot Semi-Parametric Language Models from Multiple
Tasks [77.90900650816046]
ゼロショットセミパラメトリック言語モデルである$textZemi$を紹介します。
私たちは、新しいセミパラメトリックマルチタスクによるトレーニングパラダイムで、textZemi$をトレーニングします。
具体的には、大規模タスクに依存しない未ラベルコーパスからの検索により、マルチタスクトレーニングとゼロショット評価を強化する。
論文 参考訳(メタデータ) (2022-10-01T04:08:50Z) - GLaM: Efficient Scaling of Language Models with Mixture-of-Experts [84.33607245023049]
我々はGLaM(Generalist Language Model)という言語モデル群を提案し,開発する。
GLaMは、厳密な変種に比べてトレーニングコストを大幅に削減しつつ、モデルのキャパシティを拡大するために、わずかに活性化されたミックス・オブ・エキスパートアーキテクチャを使用する。
GPT-3の訓練に使用するエネルギーの1/3しか消費せず、推論にはフロップの半分しか必要とせず、29のNLPタスクにまたがる全体的なゼロショットとワンショットのパフォーマンスは向上している。
論文 参考訳(メタデータ) (2021-12-13T18:58:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。