Fugu-MT 論文翻訳(概要): Numerical reasoning in machine reading comprehension tasks: are we there yet?

論文の概要: Numerical reasoning in machine reading comprehension tasks: are we there yet?

arxiv url: http://arxiv.org/abs/2109.08207v1
Date: Thu, 16 Sep 2021 20:13:56 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-20 14:52:57.351751
Title: Numerical reasoning in machine reading comprehension tasks: are we there yet?
Title（参考訳）: 機械読解作業における数値推論--まだ存在するか?
Authors: Hadeel Al-Negheimish, Pranava Madhyastha, Alessandra Russo
Abstract要約: 数値推論に基づく機械読解は、加算、減算、ソート、数え上げなどの算術演算を併用して、理解を読み取るタスクである。 DROPベンチマークは、この課題を解決することを目的としたNLPモデルの設計にインスピレーションを与えた最近のデータセットである。 DROPリーダーボードにおけるこれらのモデルの現在の立場は、標準メトリクスよりも、モデルがほぼ人間に近いパフォーマンスを達成したことを示唆している。
参考スコア（独自算出の注目度）: 79.07883990966077
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Numerical reasoning based machine reading comprehension is a task that involves reading comprehension along with using arithmetic operations such as addition, subtraction, sorting, and counting. The DROP benchmark (Dua et al., 2019) is a recent dataset that has inspired the design of NLP models aimed at solving this task. The current standings of these models in the DROP leaderboard, over standard metrics, suggest that the models have achieved near-human performance. However, does this mean that these models have learned to reason? In this paper, we present a controlled study on some of the top-performing model architectures for the task of numerical reasoning. Our observations suggest that the standard metrics are incapable of measuring progress towards such tasks.
Abstract（参考訳）: 数値推論に基づく機械読解は、加算、減算、ソート、数え上げなどの算術演算を併用して、理解を読み取るタスクである。 drop benchmark (dua et al., 2019)は、この問題を解決するためのnlpモデルの設計に影響を与えた最近のデータセットである。 drop leaderboardにおけるこれらのモデルの現在の状況は、標準メトリクスよりも、モデルが人間に近いパフォーマンスを達成したことを示唆している。しかし、これはこれらのモデルが理由を学習したことを意味するのだろうか? 本稿では,数値推論の課題に対するトップパフォーマンスモデルアーキテクチャのいくつかに関する制御された研究について述べる。我々の観察では、標準メトリクスはそのようなタスクの進捗を測ることができないことが示唆されている。

関連論文リスト

Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach [70.44265766483633]
本稿では,潜在空間における暗黙的推論によるテスト時間計算のスケールアップが可能な,新しい言語モデルアーキテクチャについて検討する。我々のモデルは繰り返しブロックを繰り返すことで動作し、テスト時に任意の深さに展開する。結果のモデルが推論ベンチマークの性能を劇的に改善できることが示される。
論文参考訳（メタデータ） (2025-02-07T18:55:02Z)
Statistical Uncertainty Quantification for Aggregate Performance Metrics in Machine Learning Benchmarks [0.0]
複数のタスクにまたがって集約されたメトリクスの不確かさを定量化するために,統計的手法がいかに用いられるかを示す。これらの技術は、全体的なパフォーマンスが劣っているにもかかわらず、特定のタスクに対する特定のモデルの優位性のような洞察を浮き彫りにする。
論文参考訳（メタデータ） (2025-01-08T02:17:34Z)
Establishing Task Scaling Laws via Compute-Efficient Model Ladders [123.8193940110293]
我々は,事前訓練された言語モデル(LM)のタスク性能を予測するために,タスクスケーリング法則とモデルはしごを開発する。まず、タスク固有の損失を予測するためにモデルとデータサイズを使用し、次にタスクの損失を使ってタスクパフォーマンスを予測する。
論文参考訳（メタデータ） (2024-12-05T18:21:49Z)
Attribute-to-Delete: Machine Unlearning via Datamodel Matching [65.13151619119782]
機械学習 -- 事前訓練された機械学習モデルで、小さな"ターゲットセット"トレーニングデータを効率的に削除する -- は、最近関心を集めている。最近の研究では、機械学習技術はこのような困難な環境では耐えられないことが示されている。
論文参考訳（メタデータ） (2024-10-30T17:20:10Z)
RAR-b: Reasoning as Retrieval Benchmark [7.275757292756447]
我々は、推論タスクを検索タスクに変換し、レトリバーモデルに格納された推論能力を評価する。最近のデコーダベースの埋め込みモデルは、ギャップを狭めることに非常に有望である。 Reasoning as Retrieval Benchmark (RAR-b) は、検索モデルに格納された推論能力を評価するためのタスクと設定の総合的なスイートである。
論文参考訳（メタデータ） (2024-04-09T14:34:48Z)
Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文参考訳（メタデータ） (2024-02-07T13:41:53Z)
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文参考訳（メタデータ） (2023-09-20T10:31:17Z)
Evaluating Correctness and Faithfulness of Instruction-Following Models for Question Answering [26.34649731975005]
Retriever-augmented instruction-following modelは、質問応答のための微調整アプローチ(QA)の魅力的な代替品であるモデル応答は自然で流動的である傾向にあるが、追加の冗長性により、モデルパフォーマンスを正確に定量化するために従来のQA評価指標は信頼できない。 1) ユーザの情報要求(正確性)をどの程度満足させるか,2) 提供された知識(忠実性)に基づいて応答を生成するか,という2つの次元に沿って,これらのモデルを評価するために,自動評価と人的評価の両方を用いる。
論文参考訳（メタデータ） (2023-07-31T17:41:00Z)
FERMAT: An Alternative to Accuracy for Numerical Reasoning [11.893004722079557]
数値推論は、既存のデータセットの単一スコアを用いて測定される。我々は、FERMATと呼ばれる、英語の数値推論のための多視点評価セットを導入する。 FerMATは、数理解、数学的操作、訓練依存など、様々な重要な数値推論の側面でモデルを評価する。
論文参考訳（メタデータ） (2023-05-27T15:00:45Z)
Emergent inabilities? Inverse scaling over the course of pretraining [0.6091702876917281]
本研究は,訓練期間を通じて,一般的な性能を維持しながら,特定のタスクにおける言語モデルの性能が低下するか否かを考察する。逆スケーリングチャレンジの2つのタスク – 引用-繰り返しと再定義-マス – に対して,これは事実です。これは、たとえ全体的なパフォーマンスが改善したとしても、追加データでトレーニングされるたびに、すべての関連するベンチマークでモデルパフォーマンスをテストすることの重要性を強調します。
論文参考訳（メタデータ） (2023-05-24T03:42:43Z)
Discover, Explanation, Improvement: An Automatic Slice Detection Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文参考訳（メタデータ） (2022-11-08T19:00:00Z)
Impact of Pretraining Term Frequencies on Few-Shot Reasoning [51.990349528930125]
事前学習された言語モデルが、事前学習データにおいてあまり頻度の低い用語でどの程度理にかなっているかを検討する。我々は,様々な数値推論タスクにおいて,GPTに基づく言語モデルに対して,この相関関係の強さを計測する。 LMは数秒の数値推論タスクにおいて高い性能を示すが,本研究の結果は,事前学習データを超えるモデルが実際にどれだけ一般化されるのかという疑問を提起する。
論文参考訳（メタデータ） (2022-02-15T05:43:54Z)
FairCanary: Rapid Continuous Explainable Fairness [8.362098382773265]
本稿では,新しいモデルバイアス量化尺度であるQuantile Demographic Drift(QDD)を提案する。 QDDは継続的な監視シナリオに最適であり、従来のしきい値ベースのバイアスメトリクスの統計的制限に悩まされない。 QDDをFairCanaryと呼ばれる継続的モデル監視システムに組み込み、各予測毎に計算された既存の説明を再利用します。
論文参考訳（メタデータ） (2021-06-13T17:47:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。