論文の概要: Do Smaller Language Models Answer Contextualised Questions Through
Memorisation Or Generalisation?
- arxiv url: http://arxiv.org/abs/2311.12337v1
- Date: Tue, 21 Nov 2023 04:06:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 02:08:25.346544
- Title: Do Smaller Language Models Answer Contextualised Questions Through
Memorisation Or Generalisation?
- Title(参考訳): より小さな言語モデルは記憶や一般化を通して文脈化された質問に答えるのか?
- Authors: Tim Hartill, Joshua Bensemann, Michael Witbrock and Patricia J. Riddle
- Abstract要約: モデルは、非常に類似したトレーニングサンプルから直接記憶される評価サンプルのラベルを予測できる能力と、しばしば区別される。
本稿では,本モデルが解答を記憶する可能性が極めて低い評価サンプルを同定する手法を提案する。
- 参考スコア(独自算出の注目度): 8.51696622847778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A distinction is often drawn between a model's ability to predict a label for
an evaluation sample that is directly memorised from highly similar training
samples versus an ability to predict the label via some method of
generalisation. In the context of using Language Models for question-answering,
discussion continues to occur as to the extent to which questions are answered
through memorisation. We consider this issue for questions that would ideally
be answered through reasoning over an associated context. We propose a method
of identifying evaluation samples for which it is very unlikely our model would
have memorised the answers. Our method is based on semantic similarity of input
tokens and label tokens between training and evaluation samples. We show that
our method offers advantages upon some prior approaches in that it is able to
surface evaluation-train pairs that have overlap in either contiguous or
discontiguous sequences of tokens. We use this method to identify unmemorisable
subsets of our evaluation datasets. We train two Language Models in a multitask
fashion whereby the second model differs from the first only in that it has two
additional datasets added to the training regime that are designed to impart
simple numerical reasoning strategies of a sort known to improve performance on
some of our evaluation datasets but not on others. We then show that there is
performance improvement between the two models on the unmemorisable subsets of
the evaluation datasets that were expected to benefit from the additional
training datasets. Specifically, performance on unmemorisable subsets of two of
our evaluation datasets, DROP and ROPES significantly improves by 9.0%, and
25.7% respectively while other evaluation datasets have no significant change
in performance.
- Abstract(参考訳): モデルは、非常に類似したトレーニングサンプルから直接記憶される評価サンプルのラベルを予測できる能力と、一般化の方法によってラベルを予測する能力とを区別することが多い。
質問応答に言語モデルを使うという文脈では、記憶によってどの質問に答えるかという議論が続いている。
関連する文脈を推論することで、理想的に答えられるような質問に対して、この問題を考える。
本稿では,本モデルが解答を記憶する可能性が極めて低い評価サンプルを同定する手法を提案する。
本手法は,トレーニングと評価サンプル間の入力トークンとラベルトークンの意味的類似性に基づく。
提案手法は,連続あるいは不連続なトークン列で重なり合う評価・訓練ペアを表面化できるという点で,いくつかの先行手法に利点があることを示す。
この方法で評価データセットの記憶不能なサブセットを識別します。
2つの言語モデルをマルチタスク形式でトレーニングする。2つ目のモデルが1つ目のモデルと異なるのは、トレーニングレジームに2つの追加データセットを追加して、私たちの評価データセットのいくつかのパフォーマンスを改善することで知られる、ある種の単純な数値推論戦略を与えるように設計されていることだ。
次に,評価データセットの記憶不能なサブセット上での2つのモデル間の性能改善が,追加のトレーニングデータセットのメリットを期待できることを示す。
具体的には、2つの評価データセットの記憶できないサブセットのパフォーマンスが9.0%、ロープが25.7%改善しましたが、他の評価データセットはパフォーマンスに大きな変化はありません。
関連論文リスト
- SureMap: Simultaneous Mean Estimation for Single-Task and Multi-Task Disaggregated Evaluation [75.56845750400116]
分散評価(disaggregated evaluation) -- 異なるサブポピュレーション上での機械学習モデルのパフォーマンスの推定 - は、AIシステムのパフォーマンスとグループフェアネスを評価する上で、中核的なタスクである。
ブラックボックスモデルの評価において,マルチタスクとシングルタスクの双方に対して高い推定精度を持つSureMapを開発した。
提案手法は, ウェル・チョーゼンを用いた最大後部推定と, スタインの非バイアスリスク推定(SURE)によるクロスバリデーションフリーチューニングを併用する。
論文 参考訳(メタデータ) (2024-11-14T17:53:35Z) - Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。
提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - FRACTAL: Fine-Grained Scoring from Aggregate Text Labels [17.052047103156372]
大規模言語モデル(LLM)は、書き込み、ファクト検索、クエリ、推論といった複雑な生成タスクをパワーアップするように調整されている。
伝統的に、LLM性能の評価とチューニングのための人間またはモデルフィードバックが応答レベルで提供されてきた。
最近の研究は、文レベルのラベルがLLM最適化のためのより正確で解釈可能なフィードバックを提供する可能性を示唆している。
論文 参考訳(メタデータ) (2024-04-07T05:54:28Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - DualView: Data Attribution from the Dual Perspective [16.083769847895336]
代理モデルに基づくポストホックデータ属性の新しい手法であるDualViewを提案する。
DualViewは、他の手法に比べて計算資源がかなり少ないのに対して、評価指標間では同等のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-02-19T13:13:16Z) - ACTOR: Active Learning with Annotator-specific Classification Heads to
Embrace Human Label Variation [35.10805667891489]
積極的学習は、アノテーションのコスト削減戦略として、不一致から学ぶという文脈で完全には研究されていない。
アクティブな学習環境では、不確実性推定の観点から、マルチヘッドモデルの方がシングルヘッドモデルよりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2023-10-23T14:26:43Z) - Phoneme Segmentation Using Self-Supervised Speech Models [13.956691231452336]
音素セグメンテーションのタスクに伝達学習を適用し、タスクの自己教師型事前学習において学習した表現の有用性を実証する。
我々のモデルは、事前学習で学んだ特徴を操作する戦略的に配置された畳み込みによるトランスフォーマースタイルのエンコーダを拡張している。
論文 参考訳(メタデータ) (2022-11-02T19:57:31Z) - Learning to Model and Ignore Dataset Bias with Mixed Capacity Ensembles [66.15398165275926]
本稿では,データセット固有のパターンを自動的に検出・無視する手法を提案する。
我々の方法は、より高い容量モデルでアンサンブルで低容量モデルを訓練する。
視覚的質問応答データセットの10ポイントゲインを含む,すべての設定の改善を示す。
論文 参考訳(メタデータ) (2020-11-07T22:20:03Z) - Few-shot Visual Reasoning with Meta-analogical Contrastive Learning [141.2562447971]
本稿では,類似推論に頼って,数ショット(または低ショット)の視覚推論問題を解くことを提案する。
両領域の要素間の構造的関係を抽出し、類似学習と可能な限り類似するように強制する。
RAVENデータセット上での本手法の有効性を検証し, トレーニングデータが少ない場合, 最先端の手法より優れることを示す。
論文 参考訳(メタデータ) (2020-07-23T14:00:34Z) - Pointwise Paraphrase Appraisal is Potentially Problematic [21.06607915149245]
本研究では,2つの文を1つのシーケンスでペア化することにより,文のパラフレーズ識別のための細調整BERTの標準的な手法が,最先端性能のモデルとなることを示す。
また、これらのモデルでは、一対の同一文よりも高いパラフレーズスコアを持つランダム選択文を予測できることを示した。
論文 参考訳(メタデータ) (2020-05-25T09:27:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。