論文の概要: How Much Annotation is Needed to Compare Summarization Models?
- arxiv url: http://arxiv.org/abs/2402.18756v1
- Date: Wed, 28 Feb 2024 23:34:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 16:30:06.445312
- Title: How Much Annotation is Needed to Compare Summarization Models?
- Title(参考訳): 要約モデルの比較にはどの程度のアノテーションが必要か?
- Authors: Chantal Shaib, Joe Barrow, Alexa F. Siu, Byron C. Wallace, Ani Nenkova
- Abstract要約: ニュース要約の文脈で好むモデルを選択するのに必要なテストサンプルサイズについて検討する。
自動メトリクスはより小さなサンプルサイズで安定しているが、人間の好みに応じてモデルの勝利率を適度に予測できるのは一部の自動メトリクスのみである。
- 参考スコア(独自算出の注目度): 31.899027054430153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern instruction-tuned models have become highly capable in text generation
tasks such as summarization, and are expected to be released at a steady pace.
In practice one may now wish to choose confidently, but with minimal effort,
the best performing summarization model when applied to a new domain or
purpose. In this work, we empirically investigate the test sample size
necessary to select a preferred model in the context of news summarization.
Empirical results reveal that comparative evaluation converges quickly for both
automatic and human evaluation, with clear preferences for a system emerging
from under 100 examples. The human preference data allows us to quantify how
well automatic scores can reproduce preference rankings across a variety of
downstream summarization tasks. We find that, while automatic metrics are
stable at smaller sample sizes, only some automatic metrics are able to
moderately predict model win rates according to human preference.
- Abstract(参考訳): 最近の命令調整モデルは要約などのテキスト生成タスクにおいて高度に機能し、安定したペースでリリースされることが期待されている。
実際には、自信を持って選択したい場合もありますが、最小限の労力で、新しいドメインや目的に適用した場合、最高の要約モデルを実行します。
本研究では,ニュース要約の文脈で望ましいモデルを選択するために必要なテストサンプルサイズを実証的に検討する。
実験結果から,100例未満のシステムにおいて,比較評価は自動評価と人的評価の両方に迅速に収束することが明らかとなった。
人間の選好データは、ダウンストリームのさまざまな要約タスクで、自動スコアが選好ランキングをどのように再現できるかを定量化する。
自動メトリクスはより小さなサンプルサイズで安定しているが、人間の好みに応じてモデルの勝利率を適度に予測できる指標はいくつかしかない。
関連論文リスト
- LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - Introducing Flexible Monotone Multiple Choice Item Response Theory Models and Bit Scales [0.0]
本稿では,複数選択データに対する新しいモデルであるモノトーン多重選択(MMC)モデルを提案する。
MMCモデルは、適合性の観点から、従来の名目応答IRTモデルよりも優れていることを実証的に実証する。
論文 参考訳(メタデータ) (2024-10-02T12:33:16Z) - Self-Evolution Learning for Mixup: Enhance Data Augmentation on Few-Shot
Text Classification Tasks [75.42002070547267]
テキスト分類におけるデータ拡張のための自己進化学習(SE)に基づくミックスアップ手法を提案する。
モデル出力と原サンプルの1つのホットラベルを線形に補間して,新しい軟質なラベル混在を生成する,新しいインスタンス固有ラベル平滑化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T23:43:23Z) - Generating Query Focused Summaries without Fine-tuning the
Transformer-based Pre-trained Models [0.6124773188525718]
新しいデータセットごとに自然言語処理(NLP)モデルを微調整するには、炭素フットプリントの増加とコストの増大に伴う高い計算時間が必要である。
本稿では,MMR(Marginal Maximum Relevance)に基づくアプローチが,事前学習に使用しなかった新しいデータセットから直接,クエリ中心の要約を得る上で有効かどうかを検討する。
実験結果から示すように,MMRに基づく手法では,最も関連性の高い文を要約としてランク付けし,個々の事前学習モデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-03-10T22:40:15Z) - Model ensemble instead of prompt fusion: a sample-specific knowledge
transfer method for few-shot prompt tuning [85.55727213502402]
我々は、ソースタスクのソフトプロンプトから知識を伝達することで、プロンプトチューニングにおける数ショットのパフォーマンスを改善することに集中する。
我々はソースモデル(SESoM)のサンプル固有アンサンブルを提案する。
SESoMは、ソースモデルが出力されるときに、ターゲットの各サンプルに対するソースモデルのコントリビューションを個別に調整することを学ぶ。
論文 参考訳(メタデータ) (2022-10-23T01:33:16Z) - Efficient Learning of Accurate Surrogates for Simulations of Complex Systems [0.0]
サンプリング駆動サンプリングによって強化されたオンライン学習手法を提案する。
モデル応答面上のすべての旋回点がトレーニングデータに含まれることを保証する。
本手法を核物質のシミュレーションに適用し,高精度なサロゲートを確実に自動生成できることを実証する。
論文 参考訳(メタデータ) (2022-07-11T20:51:11Z) - BRIO: Bringing Order to Abstractive Summarization [107.97378285293507]
非決定論的分布を前提とした新しい学習パラダイムを提案する。
提案手法は, CNN/DailyMail (47.78 ROUGE-1) と XSum (49.07 ROUGE-1) のデータセット上で, 最新の結果が得られる。
論文 参考訳(メタデータ) (2022-03-31T05:19:38Z) - Few-shot learning through contextual data augmentation [74.20290390065475]
機械翻訳モデルは、時間とともに性能を維持するために新しいデータに適応する必要がある。
一つの例から5つの例への適応が可能であることを示す。
本モデルでは,平均313個の並列例でトレーニングした基準システムよりも精度がよいことを示す。
論文 参考訳(メタデータ) (2021-03-31T09:05:43Z) - One for More: Selecting Generalizable Samples for Generalizable ReID
Model [92.40951770273972]
本稿では,選択したサンプルを損失関数として一般化する1対3の学習目標を提案する。
提案した1対3のサンプルは,ReIDトレーニングフレームワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2020-12-10T06:37:09Z) - Evaluating Text Coherence at Sentence and Paragraph Levels [17.99797111176988]
本稿では,既存の文順序付け手法の段落順序付けタスクへの適応について検討する。
また、ミニデータセットとノイズの多いデータセットを人工的に作成することで、既存のモデルの学習性と堅牢性を比較する。
我々は、リカレントグラフニューラルネットワークに基づくモデルがコヒーレンスモデリングの最適選択であると結論付けている。
論文 参考訳(メタデータ) (2020-06-05T03:31:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。