論文の概要: DIMSUM: Discourse in Mathematical Reasoning as a Supervision Module
- arxiv url: http://arxiv.org/abs/2503.04685v1
- Date: Thu, 06 Mar 2025 18:27:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:00:05.064139
- Title: DIMSUM: Discourse in Mathematical Reasoning as a Supervision Module
- Title(参考訳): DIMSUM:スーパービジョンモジュールとしての数学的推論における談話
- Authors: Krish Sharma, Niyar R Barman, Nicholas Asher, Akshay Chaturvedi,
- Abstract要約: より少ないデータや劣るトレーニング理由を持つモデルを支援するための新しい情報ソース、談話構造を導入する。
Llama2 13bのようなモデルでは,談話構造が最大160%向上することを示す。
- 参考スコア(独自算出の注目度): 3.2623791881739033
- License:
- Abstract: We look at reasoning on GSM8k, a dataset of short texts presenting primary school, math problems. We find, with Mirzadeh et al. (2024), that current LLM progress on the data set may not be explained by better reasoning but by exposure to a broader pretraining data distribution. We then introduce a novel information source for helping models with less data or inferior training reason better: discourse structure. We show that discourse structure improves performance for models like Llama2 13b by up to 160%. Even for models that have most likely memorized the data set, adding discourse structural information to the model still improves predictions and dramatically improves large model performance on out of distribution examples.
- Abstract(参考訳): GSM8kは小学校の数学問題を示す短いテキストのデータセットである。
Mirzadeh et al (2024) では、データセット上の現在のLCMの進捗は、より良い推論によって説明されず、より広範な事前学習データ分布に露出することによって説明できる。
次に、より少ないデータや劣るトレーニング理由を持つモデルを支援するための新しい情報ソース、談話構造を導入します。
Llama2 13bのようなモデルでは,談話構造が最大160%向上することを示す。
データセットを記憶した可能性が最も高いモデルであっても、モデルに談話構造情報を追加することで予測が改善し、分散例からの大きなモデルパフォーマンスが劇的に向上する。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Scaling Diffusion Language Models via Adaptation from Autoregressive Models [105.70889434492143]
拡散言語モデル(DLM)は、テキスト生成モデルのための将来性のある新しいパラダイムとして登場した。
170Mから7BまでのARモデルをDiffuGPTとDiffuLLaMAの拡散モデルに変換し、200B未満のトークンでトレーニングできることを示す。
実験の結果,これらのモデルは初期のDLMよりも優れており,ARと競合していることがわかった。
論文 参考訳(メタデータ) (2024-10-23T14:04:22Z) - Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。
LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。
フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - Learning to Reduce: Towards Improving Performance of Large Language Models on Structured Data [39.29778853025738]
大規模言語モデル(LLM)は、幅広い下流タスクにおいて有能なパフォーマンスを実現している。
本稿では、オン・ポリシー・ラーニングを用いて言語モデルを微調整し、入力された構造化データの縮小版を生成するフレームワークであるLearning to Reduceを提案する。
論文 参考訳(メタデータ) (2024-07-03T01:51:50Z) - Learning to Reduce: Optimal Representations of Structured Data in
Prompting Large Language Models [42.16047343029512]
大規模言語モデル(LLM)は汎用AIエージェントとして広く利用されている。
本稿では,入力コンテキストの縮小バージョンを生成するために,言語モデルを微調整するフレームワークであるLearning to Reduceを提案する。
入力コンテキストから関連する証拠を選択する際に,本モデルが同等の精度を達成することを示す。
論文 参考訳(メタデータ) (2024-02-22T00:41:23Z) - Show Me How It's Done: The Role of Explanations in Fine-Tuning Language
Models [0.45060992929802207]
言語モデルの性能を向上させるために,説明付き微調整を用いることによる重要な利点を示す。
私たちは、6000万のパラメータしか持たない小さな言語モデルでさえ、このアプローチからかなり恩恵を受けていることに気付きました。
論文 参考訳(メタデータ) (2024-02-12T10:11:50Z) - Hallucination Augmented Recitations for Language Models [1.6080650468299018]
本稿では, 言語モデルにおける幻覚を利用して, 対実的データセットを作成するためのHARを提案する。
ケーススタディとしてオープンブックQAについて,本論文のデータセットを微調整したモデルでは,テキストのグラウンド化が向上し,オープンブックQAのパフォーマンスが向上し,F1スコアが最大8.0%向上することを示した。
ファクトデータセットは,4倍小さいデータセットと4倍小さいモデルであっても,人為的なファクトデータセットを使用する場合よりも,はるかにパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-11-13T15:58:18Z) - MGit: A Model Versioning and Management System [7.2678752235785735]
MGitはモデルバージョニングと管理システムであり、モデルデリバティブの保存、テスト、更新、コラボレーションを容易にする。
MGitは、ライングラフのストレージフットプリントを最大7倍に削減し、アップストリームモデルの更新に応じて、ダウンストリームモデルを自動的に更新する。
論文 参考訳(メタデータ) (2023-07-14T17:56:48Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - What do we expect from Multiple-choice QA Systems? [70.86513724662302]
複数のMultiple Choice Question Answering(MCQA)データセット上で,トップパフォーマンスモデルを検討する。
このようなモデルから得られる可能性のある一連の期待値に対して、モデル入力のゼロ情報摂動を用いて評価する。
論文 参考訳(メタデータ) (2020-11-20T21:27:10Z) - ReClor: A Reading Comprehension Dataset Requiring Logical Reasoning [85.33459673197149]
標準化された大学院受験試験から抽出した論理的推論(ReClor)を必要とする新たな読解データセットを提案する。
本稿では、偏りのあるデータポイントを識別し、それらをEASY集合と残りをHARD集合に分離することを提案する。
実験結果によると、最先端のモデルでは、データセットに含まれるバイアスをEASYセット上で高精度にキャプチャする能力に優れていた。
しかし、彼らはランダムな推測に近い性能のHARDセットに苦慮しており、現在のモデルの論理的推論能力を本質的に向上させるためには、より多くの研究が必要であることを示している。
論文 参考訳(メタデータ) (2020-02-11T11:54:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。