論文の概要: Numerical reasoning in machine reading comprehension tasks: are we there
yet?
- arxiv url: http://arxiv.org/abs/2109.08207v1
- Date: Thu, 16 Sep 2021 20:13:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-20 14:52:57.351751
- Title: Numerical reasoning in machine reading comprehension tasks: are we there
yet?
- Title(参考訳): 機械読解作業における数値推論--まだ存在するか?
- Authors: Hadeel Al-Negheimish, Pranava Madhyastha, Alessandra Russo
- Abstract要約: 数値推論に基づく機械読解は、加算、減算、ソート、数え上げなどの算術演算を併用して、理解を読み取るタスクである。
DROPベンチマークは、この課題を解決することを目的としたNLPモデルの設計にインスピレーションを与えた最近のデータセットである。
DROPリーダーボードにおけるこれらのモデルの現在の立場は、標準メトリクスよりも、モデルがほぼ人間に近いパフォーマンスを達成したことを示唆している。
- 参考スコア(独自算出の注目度): 79.07883990966077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Numerical reasoning based machine reading comprehension is a task that
involves reading comprehension along with using arithmetic operations such as
addition, subtraction, sorting, and counting. The DROP benchmark (Dua et al.,
2019) is a recent dataset that has inspired the design of NLP models aimed at
solving this task. The current standings of these models in the DROP
leaderboard, over standard metrics, suggest that the models have achieved
near-human performance. However, does this mean that these models have learned
to reason? In this paper, we present a controlled study on some of the
top-performing model architectures for the task of numerical reasoning. Our
observations suggest that the standard metrics are incapable of measuring
progress towards such tasks.
- Abstract(参考訳): 数値推論に基づく機械読解は、加算、減算、ソート、数え上げなどの算術演算を併用して、理解を読み取るタスクである。
drop benchmark (dua et al., 2019)は、この問題を解決するためのnlpモデルの設計に影響を与えた最近のデータセットである。
drop leaderboardにおけるこれらのモデルの現在の状況は、標準メトリクスよりも、モデルが人間に近いパフォーマンスを達成したことを示唆している。
しかし、これはこれらのモデルが理由を学習したことを意味するのだろうか?
本稿では,数値推論の課題に対するトップパフォーマンスモデルアーキテクチャのいくつかに関する制御された研究について述べる。
我々の観察では、標準メトリクスはそのようなタスクの進捗を測ることができないことが示唆されている。
関連論文リスト
- Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach [70.44265766483633]
本稿では,潜在空間における暗黙的推論によるテスト時間計算のスケールアップが可能な,新しい言語モデルアーキテクチャについて検討する。
我々のモデルは繰り返しブロックを繰り返すことで動作し、テスト時に任意の深さに展開する。
結果のモデルが推論ベンチマークの性能を劇的に改善できることが示される。
論文 参考訳(メタデータ) (2025-02-07T18:55:02Z) - Statistical Uncertainty Quantification for Aggregate Performance Metrics in Machine Learning Benchmarks [0.0]
複数のタスクにまたがって集約されたメトリクスの不確かさを定量化するために,統計的手法がいかに用いられるかを示す。
これらの技術は、全体的なパフォーマンスが劣っているにもかかわらず、特定のタスクに対する特定のモデルの優位性のような洞察を浮き彫りにする。
論文 参考訳(メタデータ) (2025-01-08T02:17:34Z) - Establishing Task Scaling Laws via Compute-Efficient Model Ladders [123.8193940110293]
我々は,事前訓練された言語モデル(LM)のタスク性能を予測するために,タスクスケーリング法則とモデルはしごを開発する。
まず、タスク固有の損失を予測するためにモデルとデータサイズを使用し、次にタスクの損失を使ってタスクパフォーマンスを予測する。
論文 参考訳(メタデータ) (2024-12-05T18:21:49Z) - Attribute-to-Delete: Machine Unlearning via Datamodel Matching [65.13151619119782]
機械学習 -- 事前訓練された機械学習モデルで、小さな"ターゲットセット"トレーニングデータを効率的に削除する -- は、最近関心を集めている。
最近の研究では、機械学習技術はこのような困難な環境では耐えられないことが示されている。
論文 参考訳(メタデータ) (2024-10-30T17:20:10Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Evaluating Correctness and Faithfulness of Instruction-Following Models for Question Answering [26.34649731975005]
Retriever-augmented instruction-following modelは、質問応答のための微調整アプローチ(QA)の魅力的な代替品である
モデル応答は自然で流動的である傾向にあるが、追加の冗長性により、モデルパフォーマンスを正確に定量化するために従来のQA評価指標は信頼できない。
1) ユーザの情報要求(正確性)をどの程度満足させるか,2) 提供された知識(忠実性)に基づいて応答を生成するか,という2つの次元に沿って,これらのモデルを評価するために,自動評価と人的評価の両方を用いる。
論文 参考訳(メタデータ) (2023-07-31T17:41:00Z) - Emergent inabilities? Inverse scaling over the course of pretraining [0.6091702876917281]
本研究は,訓練期間を通じて,一般的な性能を維持しながら,特定のタスクにおける言語モデルの性能が低下するか否かを考察する。
逆スケーリングチャレンジの2つのタスク – 引用-繰り返しと再定義-マス – に対して,これは事実です。
これは、たとえ全体的なパフォーマンスが改善したとしても、追加データでトレーニングされるたびに、すべての関連するベンチマークでモデルパフォーマンスをテストすることの重要性を強調します。
論文 参考訳(メタデータ) (2023-05-24T03:42:43Z) - FairCanary: Rapid Continuous Explainable Fairness [8.362098382773265]
本稿では,新しいモデルバイアス量化尺度であるQuantile Demographic Drift(QDD)を提案する。
QDDは継続的な監視シナリオに最適であり、従来のしきい値ベースのバイアスメトリクスの統計的制限に悩まされない。
QDDをFairCanaryと呼ばれる継続的モデル監視システムに組み込み、各予測毎に計算された既存の説明を再利用します。
論文 参考訳(メタデータ) (2021-06-13T17:47:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。