論文の概要: Multi-document Summarization: A Comparative Evaluation
- arxiv url: http://arxiv.org/abs/2309.04951v2
- Date: Tue, 12 Sep 2023 04:19:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 15:58:49.827460
- Title: Multi-document Summarization: A Comparative Evaluation
- Title(参考訳): 多文書要約:比較評価
- Authors: Kushan Hewapathirana (1 and 2), Nisansa de Silva (1), C.D. Athuraliya
(2) ((1) Department of Computer Science & Engineering, University of
Moratuwa, Sri Lanka, (2) ConscientAI, Sri Lanka)
- Abstract要約: 本論文は,多文書要約(MDS)のための最先端モデルの評価を,様々な領域の異なるタイプのデータセット上で行うことを目的としている。
我々は,Big-SurveyおよびMS$2$データセット上でのPRIMERAおよびPEGモデルの性能を解析した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper is aimed at evaluating state-of-the-art models for Multi-document
Summarization (MDS) on different types of datasets in various domains and
investigating the limitations of existing models to determine future research
directions. To address this gap, we conducted an extensive literature review to
identify state-of-the-art models and datasets. We analyzed the performance of
PRIMERA and PEGASUS models on BigSurvey-MDS and MS$^2$ datasets, which posed
unique challenges due to their varied domains. Our findings show that the
General-Purpose Pre-trained Model LED outperforms PRIMERA and PEGASUS on the
MS$^2$ dataset. We used the ROUGE score as a performance metric to evaluate the
identified models on different datasets. Our study provides valuable insights
into the models' strengths and weaknesses, as well as their applicability in
different domains. This work serves as a reference for future MDS research and
contributes to the development of accurate and robust models which can be
utilized on demanding datasets with academically and/or scientifically complex
data as well as generalized, relatively simple datasets.
- Abstract(参考訳): 本論文は,多文書要約(MDS)のさまざまな分野のデータセットに対する最先端モデルの評価と,今後の研究方向を決定するための既存モデルの限界について検討することを目的とする。
このギャップに対処するため、我々は最先端のモデルとデータセットを特定するための広範な文献レビューを行った。
我々は,BigSurvey-MDSおよびMS$^2$データセット上でのPRIMERAおよびPEGASUSモデルの性能を解析した。
以上の結果から,汎用事前学習型LEDは,MS$^2$データセット上でPRIMERAとPEGASUSより優れていた。
我々は、ROUGEスコアをパフォーマンス指標として、異なるデータセット上で識別されたモデルを評価する。
本研究は,モデルの強みと弱み,および異なる領域における適用性に関する貴重な知見を提供する。
この研究は将来のMDS研究の参考として機能し、学術的および科学的に複雑なデータと一般化された比較的単純なデータセットの要求されたデータセットに利用できる正確で堅牢なモデルの開発に貢献する。
関連論文リスト
- LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - On Evaluation of Vision Datasets and Models using Human Competency Frameworks [20.802372291783488]
アイテム応答理論(IRT)は、モデルと各データセット項目のアンサンブルに対して解釈可能な潜在パラメータを推論するフレームワークである。
モデルキャリブレーションを評価し、情報的データサブセットを選択し、コンピュータビジョンにおけるモデルとデータセットを解析・比較するための潜在パラメータの有用性を実証する。
論文 参考訳(メタデータ) (2024-09-06T06:20:11Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - State-of-the-art Models for Object Detection in Various Fields of
Application [0.0]
COCOミニバル、COCOテスト、Pascal VOC 2007、ADE20K、ImageNetがレビューされている。
データセットは、多様性、データの質、バイアスの最小化、品質のラベル付けなどの観点から、他と密に比較した後、手作業で取得される。
各データセットの上位モデルとその最適なユースケースをリストアップする。
論文 参考訳(メタデータ) (2022-11-01T20:25:32Z) - Deep Learning Models for Knowledge Tracing: Review and Empirical
Evaluation [2.423547527175807]
我々は,オープンで広く利用されているデータセットを用いた深層学習知識追跡(DLKT)モデルをレビューし,評価する。
評価されたDLKTモデルは、以前報告した結果の再現性と評価のために再実装されている。
論文 参考訳(メタデータ) (2021-12-30T14:19:27Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information
Retrieval Models [41.45240621979654]
情報検索のための異種ベンチマークであるBEIRを紹介する。
ゼロショット評価設定における9つの最先端の検索モデルの有効性を検討する。
Dense-Retrievalモデルは計算効率が良いが、他のアプローチでは性能が劣ることが多い。
論文 参考訳(メタデータ) (2021-04-17T23:29:55Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。