論文の概要: Enhancing Generalization in Chain of Thought Reasoning for Smaller Models
- arxiv url: http://arxiv.org/abs/2501.09804v1
- Date: Thu, 16 Jan 2025 19:23:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 14:01:01.956865
- Title: Enhancing Generalization in Chain of Thought Reasoning for Smaller Models
- Title(参考訳): より小さなモデルに対する思考推論の連鎖における一般化の促進
- Authors: Maxwell J. Yin, Dingyi Jiang, Yongbing Chen, Boyu Wang, Charles Ling,
- Abstract要約: より小さな言語モデルにおけるChain-of-Thought (CoT)推論は、自然言語処理の問題である。
既存のCOT知識蒸留法は、小規模のLLMにおいて過度に保守的な適応性に悩まされることが多い。
多様なCoTドメインを統合した原理的な微調整フレームワークであるPRADAを提案する。
- 参考スコア(独自算出の注目度): 5.297025364137428
- License:
- Abstract: Chain-of-Thought (CoT) reasoning in smaller language models is a challenging natural language process problem yet highly desirable in many real-life applications. Existing CoT knowledge distillation methods often suffer from overly conservative memorization in smaller LLMs, leading to low generalization confidence. As fully preserving the CoT ability of teacher model is impossible, we hypothesize that adversarial CoT fine-tuning is crucial for developing smaller LLM with robust CoT generalization. To this end, we propose \textit{PRompt-Assisted Domain-Adversarial fine-tuning} (PRADA), a principled fine-tuning framework that integrates diverse CoT domains. Specifically, PRADA pioneers two CoT improvements in smaller LLM: (1) Recovering the domain-invariant feature insight which typically lost during distillation with domain adversarial fine-tuning; (2) Enhancing the domain adaptability of CoT prompt engineering by employing domain-adversarial approaches. We theoretically demonstrate the effectiveness of our approach and empirically show that it significantly outperforms the state of the arts in a wide range of tasks. Moreover, our empirical findings reveal that the smaller LLM, when leveraging PRADA, aligns closely with domain knowledge, thereby improving the explainability of our approach.
- Abstract(参考訳): より小さな言語モデルにおけるChain-of-Thought(CoT)推論は、自然言語処理の問題であり、現実の多くのアプリケーションで非常に望ましい。
既存のCoT知識蒸留法は、小さなLLMにおいて、過度に保守的な記憶を損なうことが多く、一般化の信頼性が低い。
教師モデルのCoT能力を完全保存することは不可能であるため,より堅牢なCoT一般化による小型LCMの開発には,逆CoT微調整が不可欠である,という仮説を立てる。
この目的のために,多様なCoTドメインを統合する基本的微調整フレームワークであるtextit{PRompt-Assisted Domain-Adversarial Fine-tuning} (PRADA)を提案する。
具体的には, PRADA による小規模 LLM における CoT 改良の先駆的手法として, 1) ドメイン逆極微調整による蒸留中に失われるドメイン不変の特徴的洞察の回復, (2) ドメイン逆極的アプローチを用いて, CoT のドメイン適応性を向上する。
提案手法の有効性を理論的に実証し,多岐にわたる課題における最先端技術よりも優れていることを示す。
さらに,本実験の結果から,PRADAを利用する場合のLLMはドメイン知識と密接に一致していることが判明した。
関連論文リスト
- When More is Less: Understanding Chain-of-Thought Length in LLMs [53.77747102201451]
CoT推論は大規模言語モデル(LLM)の多段階推論能力を高める
しかし、ほとんどのモデルやタスクでは、CoT長の増加は一貫して推論精度の向上につながりますか?
本稿では, 推論ステップの数が増加するにつれて, 性能は向上するが, 最終的には低下する,というニュアンスな関係を観察する。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - Efficient Reasoning with Hidden Thinking [48.96945580741641]
CoT(Chain-of-Thought)推論は、複雑な問題解決能力を改善するための強力なフレームワークになっています。
我々は,隠された潜在空間におけるCoTの推論を利用した効率的な推論フレームワークであるtextbfHeima$(隠されたラマとして)を提案する。
ハイマモデルは、ゼロショットタスクの精度を維持しつつ、より高い生成効率を達成する。
論文 参考訳(メタデータ) (2025-01-31T15:10:29Z) - Combining Domain and Alignment Vectors to Achieve Better Knowledge-Safety Trade-offs in LLMs [64.83462841029089]
我々は、ドメインとアライメントベクトルを補間し、より安全なドメイン固有モデルを作成する、textscMergeAlignと呼ばれる効率的なマージベースのアライメント手法を導入する。
医学やファイナンスの専門家であるLlama3の変種にtextscMergeAlignを適用することで、ドメイン固有のベンチマークを最小限または全く劣化させることなく、大幅なアライメントの改善が得られる。
論文 参考訳(メタデータ) (2024-11-11T09:32:20Z) - Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。
性能ギャップを実証的に説明するための一連の実験を考案する。
論文 参考訳(メタデータ) (2024-09-27T05:06:43Z) - On the Hardness of Faithful Chain-of-Thought Reasoning in Large Language Models [25.029579061612456]
大規模言語モデル(LLM)は、医療などの重要な領域における現実世界のアプリケーションにますます採用されている。
これらのモデルによって生成されたCoT(Chain-of-Thought)推論が、その基盤となる振る舞いを忠実に捉えることが重要である。
論文 参考訳(メタデータ) (2024-06-15T13:16:44Z) - On the Convergence of Zeroth-Order Federated Tuning for Large Language Models [36.277423093218275]
Federated Learning and Large Language Models (LLMs) は、プライバシを保存する自然言語処理の新しい時代を支えている。
メモリ効率のゼロ階最適化は、FedMeZOと呼ばれる相乗効果である。
LLMの文脈でFedMeZOの理論的基盤を最初に検討した。
論文 参考訳(メタデータ) (2024-02-08T18:56:40Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Constrained Maximum Cross-Domain Likelihood for Domain Generalization [14.91361835243516]
ドメインの一般化は、複数のソースドメイン上で一般化可能なモデルを学ぶことを目的としている。
本稿では,異なる領域の後方分布間のKL偏差を最小限に抑える新しい領域一般化法を提案する。
Digits-DG、PACS、Office-Home、MiniDomainNetの4つの標準ベンチマークデータセットの実験は、我々のメソッドの優れたパフォーマンスを強調している。
論文 参考訳(メタデータ) (2022-10-09T03:41:02Z) - Learning Invariant Representations and Risks for Semi-supervised Domain
Adaptation [109.73983088432364]
半教師付きドメイン適応(Semi-DA)の設定の下で不変表現とリスクを同時に学習することを目的とした最初の手法を提案する。
共同で textbfLearning textbfInvariant textbfRepresentations と textbfRisks の LIRR アルゴリズムを導入する。
論文 参考訳(メタデータ) (2020-10-09T15:42:35Z) - Learning to Learn Single Domain Generalization [18.72451358284104]
本稿では,このアウト・オブ・ディストリビューション(OOD)一般化問題を解くために,逆領域拡張という新しい手法を提案する。
鍵となる考え方は、敵の訓練を活用して「現実的」だが「混み合う」人口を作り出すことである。
高速で望ましいドメイン拡張を容易にするため、メタラーニング方式でモデルトレーニングを行い、Wasserstein Auto-Encoder (WAE) を用いて、広く使われている最悪のケース制約を緩和する。
論文 参考訳(メタデータ) (2020-03-30T04:39:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。