論文の概要: Summarization from Leaderboards to Practice: Choosing A Representation
Backbone and Ensuring Robustness
- arxiv url: http://arxiv.org/abs/2306.10555v1
- Date: Sun, 18 Jun 2023 13:35:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 19:54:06.935298
- Title: Summarization from Leaderboards to Practice: Choosing A Representation
Backbone and Ensuring Robustness
- Title(参考訳): リーダボードから実践への要約:表現バックボーンの選択と堅牢性確保
- Authors: David Demeter, Oshin Agarwal, Simon Ben Igeri, Marko Sterbentz, Neil
Molino, John M. Conroy, Ani Nenkova
- Abstract要約: 自動評価と人的評価の両方において、BARTはPEGやT5よりも優れている。
システム出力のかなりのばらつきは、人間の評価でのみ捉えられる。
- 参考スコア(独自算出の注目度): 21.567112955050582
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Academic literature does not give much guidance on how to build the best
possible customer-facing summarization system from existing research
components. Here we present analyses to inform the selection of a system
backbone from popular models; we find that in both automatic and human
evaluation, BART performs better than PEGASUS and T5. We also find that when
applied cross-domain, summarizers exhibit considerably worse performance. At
the same time, a system fine-tuned on heterogeneous domains performs well on
all domains and will be most suitable for a broad-domain summarizer. Our work
highlights the need for heterogeneous domain summarization benchmarks. We find
considerable variation in system output that can be captured only with human
evaluation and are thus unlikely to be reflected in standard leaderboards with
only automatic evaluation.
- Abstract(参考訳): 学術文献は、既存の研究コンポーネントから最大限の顧客向け要約システムを構築する方法についてはあまりガイダンスを提供していない。
本稿では,一般的なモデルからシステムバックボーンの選択を知らせる解析を行い,自動評価と人間評価の両方において,bartがペガサスやt5よりも優れた性能を示す。
また,クロスドメインを適用した場合,要約処理の性能が著しく低下することが判明した。
同時に、異種ドメインに微調整されたシステムは、すべてのドメインでうまく動作し、幅広いドメインの要約に最も適します。
我々の研究は異種ドメイン要約ベンチマークの必要性を強調している。
システム出力のかなりのばらつきは、人間による評価だけでは捉えられず、自動評価だけでは標準のリーダーボードに反映されそうにない。
関連論文リスト
- Unified Examination of Entity Linking in Absence of Candidate Sets [3.55026004901472]
本稿では,エンティティリンクの性能に及ぼす候補集合の影響について,アブレーション研究を用いて検討する。
制約の少ない候補集合間のトレードオフ、推論時間の増加、いくつかのモデルのメモリフットプリントを示す。
論文 参考訳(メタデータ) (2024-04-17T04:37:58Z) - Domain-Expanded ASTE: Rethinking Generalization in Aspect Sentiment Triplet Extraction [67.54420015049732]
Aspect Sentiment Triplet extract (ASTE) は感情分析における課題であり、人間の感情に対するきめ細かい洞察を提供することを目的としている。
既存のベンチマークは2つのドメインに限定されており、目に見えないドメイン上でのモデルパフォーマンスを評価しない。
各種ドメインのサンプルに注釈を付けることでドメイン拡張ベンチマークを導入し,ドメイン内設定とドメイン外設定の両方でモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-05-23T18:01:49Z) - To Adapt or to Annotate: Challenges and Interventions for Domain
Adaptation in Open-Domain Question Answering [46.403929561360485]
オープンドメイン質問応答(ODQA)のエンドツーエンドモデルの性能について検討する。
モデルが一般化に失敗するだけでなく、高い検索スコアが解答予測の精度を低下させることもしばしばある。
終末回答F1のスコアを最大24ポイント改善するいくつかの介入手法を提案し,評価する。
論文 参考訳(メタデータ) (2022-12-20T16:06:09Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z) - Vote'n'Rank: Revision of Benchmarking with Social Choice Theory [7.224599819499157]
本稿では,社会的選択論の原理に基づき,マルチタスクベンチマークにおけるシステムランキングの枠組みであるVote'n'Rankを提案する。
いくつかのMLサブフィールドにおいて,ベンチマークに関する新たな洞察を引き出すために,我々の手法を効率的に活用できることを実証する。
論文 参考訳(メタデータ) (2022-10-11T20:19:11Z) - Review-Based Domain Disentanglement without Duplicate Users or Contexts
for Cross-Domain Recommendation [1.2074552857379273]
クロスドメインレコメンデーションは、データスパーシリティとコールドスタート問題を解決する上で有望な結果を示している。
我々のモデル(SER)は、3つのテキスト解析モジュールを使用し、1つのドメイン識別器で案内され、非絡み合い表現学習を行う。
論文 参考訳(メタデータ) (2021-10-25T05:17:58Z) - Semi-Supervised Domain Generalization with Stochastic StyleMatch [90.98288822165482]
実世界のアプリケーションでは、アノテーションのコストが高いため、各ソースドメインから利用可能なラベルはわずかです。
本研究では,より現実的で実践的な半教師付き領域一般化について検討する。
提案手法であるStyleMatchは,擬似ラベルに基づく最先端の半教師付き学習手法であるFixMatchに着想を得たものである。
論文 参考訳(メタデータ) (2021-06-01T16:00:08Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - RADDLE: An Evaluation Benchmark and Analysis Platform for Robust
Task-oriented Dialog Systems [75.87418236410296]
我々はraddleベンチマーク、コーパスのコレクション、および様々なドメインのモデルのパフォーマンスを評価するためのツールを紹介します。
RADDLEは強力な一般化能力を持つモデルを好んで奨励するように設計されている。
先行学習と微調整に基づく最近の最先端システムの評価を行い,異種ダイアログコーパスに基づく基礎的な事前学習が,ドメインごとの個別モデルをトレーニングするよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-29T08:58:49Z) - Learning Meta Face Recognition in Unseen Domains [74.69681594452125]
メタ顔認識(MFR)というメタラーニングを用いた新しい顔認識手法を提案する。
MFRは、メタ最適化目標を用いてソース/ターゲットドメインシフトを合成する。
一般化顔認識評価のためのベンチマークを2つ提案する。
論文 参考訳(メタデータ) (2020-03-17T14:10:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。