論文の概要: SEAM: A Stochastic Benchmark for Multi-Document Tasks
- arxiv url: http://arxiv.org/abs/2406.16086v1
- Date: Sun, 23 Jun 2024 11:57:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 19:04:12.776192
- Title: SEAM: A Stochastic Benchmark for Multi-Document Tasks
- Title(参考訳): SEAM: マルチドキュメントタスクの確率ベンチマーク
- Authors: Gili Lior, Avi Caciularu, Arie Cattan, Shahar Levy, Ori Shapira, Gabriel Stanovsky,
- Abstract要約: 現在、マルチドキュメントタスクにおける大規模言語モデル(LLM)の能力を測定するベンチマークは存在しない。
マルチドキュメントタスクの評価手法であるSEAM(SEAM: Evaluation Approach for Multi-document task)を提案する。
マルチドキュメントタスクは,70Bパラメータを持つ最先端モデルであっても,LLMにとって大きな課題となる。
- 参考スコア(独自算出の注目度): 30.153949809172605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Various tasks, such as summarization, multi-hop question answering, or coreference resolution, are naturally phrased over collections of real-world documents. Such tasks present a unique set of challenges, revolving around the lack of coherent narrative structure across documents, which often leads to contradiction, omission, or repetition of information. Despite their real-world application and challenging properties, there is currently no benchmark which specifically measures the abilities of large language models (LLMs) on multi-document tasks. To bridge this gap, we present SEAM (a Stochastic Evaluation Approach for Multi-document tasks), a conglomerate benchmark over a diverse set of multi-document datasets, setting conventional evaluation criteria, input-output formats, and evaluation protocols. In particular, SEAM addresses the sensitivity of LLMs to minor prompt variations through repeated evaluations, where in each evaluation we sample uniformly at random the values of arbitrary factors (e.g., the order of documents). We evaluate different LLMs on SEAM finding that multi-document tasks pose a significant challenge for LLMs, even for state-of-the-art models with 70B parameters. In addition, we show that the stochastic approach uncovers underlying statistical trends which cannot be observed in a static benchmark. We hope that SEAM will spur progress via consistent and meaningful evaluation of multi-document tasks.
- Abstract(参考訳): 要約、マルチホップ質問応答、コア参照解決といった様々なタスクは、現実世界の文書のコレクションに自然に記述される。
このようなタスクは、文書にまたがる一貫性のある物語構造が欠如し、しばしば矛盾、欠落、情報の繰り返しを引き起こすという、ユニークな課題の集合を示す。
現実世界のアプリケーションと挑戦的な特性にもかかわらず、マルチドキュメントタスクにおける大規模言語モデル(LLM)の能力を特に測定するベンチマークは今のところ存在しない。
このギャップを埋めるために,従来の評価基準,入力出力フォーマット,評価プロトコルの設定など,多文書データセットの多種多様な集合に対するコングロマリットベンチマークであるSEAM(Stochastic Evaluation Approach for Multi-document task)を提案する。
特にSEAMは, 任意の因子(例えば文書の順序)の値をランダムにランダムにサンプリングし, 繰り返し評価することで, LLMの感度を若干の即時変動に対処する。
マルチドキュメントタスクは,70Bパラメータを持つ最先端モデルであっても,多文書タスクがLLMにとって重要な課題となることをSEAM上で評価した。
また,統計的手法により,静的なベンチマークでは観測できない統計的傾向が明らかになった。
マルチドキュメントタスクの一貫性と意味のある評価を通じて,SEAMが進展を加速することを期待している。
関連論文リスト
- MetaSumPerceiver: Multimodal Multi-Document Evidence Summarization for Fact-Checking [0.283600654802951]
マルチモーダルデータセットからファクトチェックに有用なクレーム固有の要約を生成するために設計された要約モデルを提案する。
任意の長さの複数のモードから入力を処理できる動的知覚モデルを提案する。
提案手法は,MOCHEGデータセットのクレーム検証タスクにおいて,SOTAアプローチを4.6%向上させる。
論文 参考訳(メタデータ) (2024-07-18T01:33:20Z) - Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。
我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。
既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文 参考訳(メタデータ) (2024-06-11T13:09:16Z) - Multi-Conditional Ranking with Large Language Models [4.390998479503661]
大規模言語モデルを用いて項目をランク付けすることは、レコメンデーションと検索システムにおいて一般的なアプローチとなっている。
しかし、現実のシナリオは、比較的小さな項目のセットをランク付けするなど、異なる課題を呈することが多い。
本稿では, 条件を抽出し, ソルティングし, 項目を反復的にランク付けする, 分割推論手法を提案する。
論文 参考訳(メタデータ) (2024-03-30T01:26:05Z) - Benchmarking LLMs on the Semantic Overlap Summarization Task [9.656095701778975]
本稿では,セマンティック・オーバーラップ・サマリゼーション(SOS)タスクにおいて,Large Language Models (LLM) を包括的に評価する。
本稿では, ROUGE, BERTscore, SEM-F1$などの定評ある指標を, 2種類の代替物語のデータセット上で報告する。
論文 参考訳(メタデータ) (2024-02-26T20:33:50Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z) - Embrace Divergence for Richer Insights: A Multi-document Summarization Benchmark and a Case Study on Summarizing Diverse Information from News Articles [136.84278943588652]
同一イベントを含む複数のニュース記事において遭遇する多様な情報を要約する新しい課題を提案する。
この作業を容易にするために、多様な情報を特定するためのデータ収集スキーマの概要と、DiverseSummというデータセットをキュレートした。
データセットには245のニュース記事が含まれており、各ストーリーは10のニュース記事からなり、人間公認の参照と組み合わせられる。
論文 参考訳(メタデータ) (2023-09-17T20:28:17Z) - Peek Across: Improving Multi-Document Modeling via Cross-Document
Question-Answering [49.85790367128085]
我々は,事前学習対象に答える新しいクロスドキュメント質問から,汎用的なマルチドキュメントモデルを事前学習する。
この新規なマルチドキュメントQA定式化は、クロステキスト情報関係をよりよく回復させるようモデルに指示する。
分類タスクや要約タスクに焦点を当てた従来のマルチドキュメントモデルとは異なり、事前学習対象の定式化により、短いテキスト生成と長いテキスト生成の両方を含むタスクを実行できる。
論文 参考訳(メタデータ) (2023-05-24T17:48:40Z) - UniSumm and SummZoo: Unified Model and Diverse Benchmark for Few-Shot
Summarization [54.59104881168188]
textscUniSummは、複数の要約タスクで事前訓練された、統合された数ショットの要約モデルである。
textscSummZooは、スクリーンショットの要約をよりよく評価するための新しいベンチマークである。
論文 参考訳(メタデータ) (2022-11-17T18:54:47Z) - WSL-DS: Weakly Supervised Learning with Distant Supervision for Query
Focused Multi-Document Abstractive Summarization [16.048329028104643]
Query Focused Multi-Document Summarization (QF-MDS)タスクでは、ドキュメントのセットとクエリが与えられ、そこでこれらのドキュメントから要約を生成する。
このタスクの大きな課題のひとつは、ラベル付きトレーニングデータセットの可用性の欠如である。
本稿では,遠隔指導による弱教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-03T02:02:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。