論文の概要: Masked Measurement Prediction: Learning to Jointly Predict Quantities
and Units from Textual Context
- arxiv url: http://arxiv.org/abs/2112.08616v1
- Date: Thu, 16 Dec 2021 04:42:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-18 06:03:52.354513
- Title: Masked Measurement Prediction: Learning to Jointly Predict Quantities
and Units from Textual Context
- Title(参考訳): マスキング計測予測:テキスト文脈から量と単位を共同で予測する学習
- Authors: Daniel Spokoyny, Ivan Lee, Zhao Jin, Taylor Berg-Kirkpatrick
- Abstract要約: そこで本研究では,マスク付きテキストに関連付けられたユニットとともに,モデルが数値を再構成することを学ぶ,新しいタスクであるMasked Measurement Prediction (MMP)を導入する。
MMPは、新しい数値的なモデルのトレーニングだけでなく、既存のシステムの数値性の評価にも有用である。
本稿では,GeMM(Generative Masked Measurement)モデルを提案する。
- 参考スコア(独自算出の注目度): 27.510965119815058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Physical measurements constitute a large portion of numbers in academic
papers, engineering reports, and web tables. Current benchmarks fall short of
properly evaluating numeracy of pretrained language models on measurements,
hindering research on developing new methods and applying them to numerical
tasks. To that end, we introduce a novel task, Masked Measurement Prediction
(MMP), where a model learns to reconstruct a number together with its
associated unit given masked text. MMP is useful for both training new
numerically informed models as well as evaluating numeracy of existing systems.
In order to address this task, we introduce a new Generative Masked Measurement
(GeMM) model that jointly learns to predict numbers along with their units. We
perform fine-grained analyses comparing our model with various ablations and
baselines. We use linear probing of traditional pretrained transformer models
(RoBERTa) to show that they significantly underperform jointly trained
number-unit models, highlighting the difficulty of this new task and the
benefits of our proposed pretraining approach. We hope this framework
accelerates the progress towards building more robust numerical reasoning
systems in the future.
- Abstract(参考訳): 物理測定は学術論文、エンジニアリングレポート、ウェブテーブルにおいて大きな数を占めている。
現在のベンチマークでは、事前訓練された言語モデルの数値性を測定上に適切に評価するに足りず、新しい手法の開発や数値処理への応用を妨げている。
そこで,本研究では,マスク付きテキストが与えられた単位とともに,モデルが数値を再構成することを学ぶ,新しいタスクであるMasked Measurement Prediction (MMP)を導入する。
mmpは、新しい数値情報モデルのトレーニングと既存のシステムの数量評価の両方に有用である。
そこで本研究では,この課題に対処するために,生成的マスキング計測(gemm)モデルを提案する。
本モデルと各種アブレーションおよびベースラインとの比較を行った。
我々は,従来の事前学習型トランスフォーマーモデル (RoBERTa) の線形探索を用いて,共同で訓練した数値ユニットモデルを著しく過小評価し,この課題の難しさと提案した事前学習手法の利点を明らかにする。
このフレームワークが今後,より堅牢な数値推論システムの構築を進めることを願っている。
関連論文リスト
- LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - FILM: How can Few-Shot Image Classification Benefit from Pre-Trained
Language Models? [14.582209994281374]
少数のサンプルしか持たない新しいクラスに一般化可能なモデルをトレーニングすることを目的としている。
コントラスト学習に基づく事前学習言語モデルを用いた新しい数発学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-09T08:07:43Z) - Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey [66.18478838828231]
マルチモーダルな事前訓練型大型モデルは近年ますます注目を集めている。
本稿では, 自然言語処理, コンピュータビジョン, 音声処理における従来の深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・
次に,マルチモーダル・プレトレーニング・モデル(MM-PTM)のタスク定義,課題,メリットを紹介し,データ,目的,ネットワーク,知識強化による事前トレーニングに着目して,MM-PTMについて議論する。
論文 参考訳(メタデータ) (2023-02-20T15:34:03Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Mutual Information Divergence: A Unified Metric for Multimodal
Generative Models [19.520177195241704]
我々は,MID(Multual Information Divergence)を用いて作成したCLIP特徴を統一計量として用いた負のガウス交叉情報を提案する。
我々は、テキスト・ツー・イメージ生成や画像キャプションタスクにおいて、慎重に生成された、あるいは人手による判断を用いて、競合する指標と比較した。
提案したMIDは、ベンチマーク、サンプルパーシモニー、および悪用されたCLIPモデルに対するロバスト性によって、競合する手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2022-05-25T09:34:37Z) - Interpreting Language Models Through Knowledge Graph Extraction [42.97929497661778]
BERTに基づく言語モデルを,学習過程の逐次的な段階において取得した知識のスナップショットを通じて比較する。
本稿では, クローズイン・ザ・ブランク文から知識グラフを抽出し, 知識獲得のタイムラインを提示する手法を提案する。
この分析を, BERTモデル(DistilBERT, BERT-base, RoBERTa)の事前学習変化の比較に拡張する。
論文 参考訳(メタデータ) (2021-11-16T15:18:01Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - To Pretrain or Not to Pretrain: Examining the Benefits of Pretraining on
Resource Rich Tasks [25.05882459314221]
トレーニングサンプルの数が数百万に増加するにつれ,細粒化BERTモデルと訓練用バニラLSTMとの精度のギャップは,スクラッチ狭さから1%以内に拡大した。
その結果,教師付きデータのサイズが大幅に大きくなるにつれて,事前学習したモデルではリターンポイントが低下する可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-15T18:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。