論文の概要: MinT: Boosting Generalization in Mathematical Reasoning via Multi-View
Fine-Tuning
- arxiv url: http://arxiv.org/abs/2307.07951v1
- Date: Sun, 16 Jul 2023 05:41:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 16:40:00.746684
- Title: MinT: Boosting Generalization in Mathematical Reasoning via Multi-View
Fine-Tuning
- Title(参考訳): MinT:マルチビューファインチューニングによる数学的推論における一般化の促進
- Authors: Zhenwen Liang, Dian Yu, Xiaoman Pan, Wenlin Yao, Qingkai Zeng,
Xiangliang Zhang, Dong Yu
- Abstract要約: 数学領域における推論は、小言語モデル(LM)にとって重要な課題である。
多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。
実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
- 参考スコア(独自算出の注目度): 53.90744622542961
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning in mathematical domains remains a significant challenge for
relatively small language models (LMs). Many current methods focus on
specializing LMs in mathematical reasoning and rely heavily on knowledge
distillation from powerful but inefficient large LMs (LLMs). In this work, we
explore a new direction that avoids over-reliance on LLM teachers, introducing
a multi-view fine-tuning method that efficiently exploits existing mathematical
problem datasets with diverse annotation styles. Our approach uniquely
considers the various annotation formats as different "views" and leverages
them in training the model. By postpending distinct instructions to input
questions, models can learn to generate solutions in diverse formats in a
flexible manner. Experimental results show that our strategy enables a LLaMA-7B
model to outperform prior approaches that utilize knowledge distillation, as
well as carefully established baselines. Additionally, the proposed method
grants the models promising generalization ability across various views and
datasets, and the capability to learn from inaccurate or incomplete noisy data.
We hope our multi-view training paradigm could inspire future studies in other
machine reasoning domains.
- Abstract(参考訳): 数学領域における推論は、比較的小さな言語モデル(LM)にとって重要な課題である。
現在の多くの手法は、数学的推論におけるLMの専門化に重点を置いており、強力なが非効率な大規模LM(LLM)からの知識蒸留に大きく依存している。
本研究では,llm教師への過度な依存を回避し,既存の数理問題データセットを多種多様なアノテーションスタイルで効率的に活用するマルチビュー微調整手法を導入する。
このアプローチでは,様々なアノテーション形式を異なる"ビュー"として一意に考慮し,モデルのトレーニングに活用する。
入力する質問に対して異なる指示をポストすることで、モデルは柔軟な方法で様々な形式でソリューションを生成することができる。
実験結果から,LLaMA-7Bモデルでは,知識蒸留を生かした先行手法と,慎重に確立されたベースラインを達成できる可能性が示唆された。
さらに,提案手法は,様々なビューやデータセットにまたがる一般化能力を期待するモデルと,不正確あるいは不完全なノイズデータから学習する能力を与える。
私たちのマルチビュートレーニングパラダイムが、他のマシン推論領域における将来の研究を刺激することを期待しています。
関連論文リスト
- Model Composition for Multimodal Large Language Models [73.70317850267149]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - The Curious Case of Nonverbal Abstract Reasoning with Multi-Modal Large
Language Models [20.177263185773153]
MLLM(Multi-modal large language model)は、言語情報と視覚情報を統合したものである。
MLLMの革新的展望にもかかわらず、推論能力に対する我々の理解は限られている。
論文 参考訳(メタデータ) (2024-01-22T16:57:05Z) - Multi-View Class Incremental Learning [57.14644913531313]
マルチビュー学習(MVL)は、下流タスクのパフォーマンスを改善するためにデータセットの複数の視点から情報を統合することで大きな成功を収めている。
本稿では,複数視点クラスインクリメンタルラーニング(MVCIL)と呼ばれる新しいパラダイムについて考察する。
論文 参考訳(メタデータ) (2023-06-16T08:13:41Z) - Model Sparsity Can Simplify Machine Unlearning [33.18951938708467]
最近のデータ規制要件に応えて、マシン・アンラーニング(MU)が重要なプロセスとして登場した。
本研究は,ウェイトプルーニングによるモデルスペーシフィケーションという,新しいモデルベース視点を紹介する。
理論と実践の両方において、モデルスパーシティは、近似アンラーナーのマルチ基準アンラーニング性能を高めることができることを示す。
論文 参考訳(メタデータ) (2023-04-11T02:12:02Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Model-Based Deep Learning: On the Intersection of Deep Learning and
Optimization [101.32332941117271]
決定アルゴリズムは様々なアプリケーションで使われている。
数理モデルに頼らずにデータから調整された高度パラメトリックアーキテクチャを使用するディープラーニングアプローチが、ますます人気が高まっている。
モデルに基づく最適化とデータ中心のディープラーニングは、しばしば異なる規律とみなされる。
論文 参考訳(メタデータ) (2022-05-05T13:40:08Z) - Beyond Explaining: Opportunities and Challenges of XAI-Based Model
Improvement [75.00655434905417]
説明可能な人工知能(XAI)は、高度に複雑な機械学習(ML)モデルに透明性をもたらす新たな研究分野である。
本稿では,機械学習モデルの諸特性を改善するために,XAIを実用的に応用する手法を概観する。
実験では,モデル一般化能力や推論などの特性を改善する上で,説明がどのように役立つのかを,おもちゃと現実的な設定で実証的に示す。
論文 参考訳(メタデータ) (2022-03-15T15:44:28Z) - SAGE: Generating Symbolic Goals for Myopic Models in Deep Reinforcement
Learning [18.37286885057802]
従来使用できなかった不完全モデルのクラスを利用するための学習と計画を組み合わせたアルゴリズムを提案する。
これは、象徴的な計画とニューラルネットワークのアプローチの長所を、タクシーの世界とマインクラフトのバリエーションで競合する手法を上回る、新しい方法で組み合わせたものだ。
論文 参考訳(メタデータ) (2022-03-09T22:55:53Z) - MeLIME: Meaningful Local Explanation for Machine Learning Models [2.819725769698229]
我々のアプローチであるMeLIMEは、異なるMLモデル上での他の手法と比較して、より意味のある説明を生成する。
MeLIMEはLIME法を一般化し、より柔軟な摂動サンプリングと異なる局所解釈可能なモデルの使用を可能にした。
論文 参考訳(メタデータ) (2020-09-12T16:06:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。