論文の概要: Guided Exploration of Data Summaries
- arxiv url: http://arxiv.org/abs/2205.13956v1
- Date: Fri, 27 May 2022 13:06:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-30 15:22:02.088617
- Title: Guided Exploration of Data Summaries
- Title(参考訳): データ要約の指導的探索
- Authors: Brit Youngmann, Sihem Amer-Yahia, and Aur\'elien Personnaz
- Abstract要約: 有用な要約は k 個の単体一様集合を含み、それらは集合的に多様であり、代表的である。
このような要約を見つけることは、データが非常に多様で大規模な場合、難しい作業である。
本研究では,データ要約への探索データ解析(EDA)の適用性について検討し,Eda4Sumを定式化する。
- 参考スコア(独自算出の注目度): 24.16170440895994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data summarization is the process of producing interpretable and
representative subsets of an input dataset. It is usually performed following a
one-shot process with the purpose of finding the best summary. A useful summary
contains k individually uniform sets that are collectively diverse to be
representative. Uniformity addresses interpretability and diversity addresses
representativity. Finding such as summary is a difficult task when data is
highly diverse and large. We examine the applicability of Exploratory Data
Analysis (EDA) to data summarization and formalize Eda4Sum, the problem of
guided exploration of data summaries that seeks to sequentially produce
connected summaries with the goal of maximizing their cumulative utility.
EdA4Sum generalizes one-shot summarization. We propose to solve it with one of
two approaches: (i) Top1Sum which chooses the most useful summary at each step;
(ii) RLSum which trains a policy with Deep Reinforcement Learning that rewards
an agent for finding a diverse and new collection of uniform sets at each step.
We compare these approaches with one-shot summarization and top-performing EDA
solutions. We run extensive experiments on three large datasets. Our results
demonstrate the superiority of our approaches for summarizing very large data,
and the need to provide guidance to domain experts.
- Abstract(参考訳): データ要約は、入力データセットの解釈可能および代表的サブセットを生成するプロセスである。
通常は、最善の要約を見つける目的で、ワンショットのプロセスに従って実行される。
有用な要約は k 個の一様集合を含み、一括して表現できる。
一様性は解釈可能性に対処し、多様性は表現性に対処する。
データが高度に多様で大きい場合、サマリを見つけることは難しい作業です。
本研究では,データ要約への探索データ解析(EDA)の適用性を検討した。Eda4Sumは,データ累積ユーティリティの最大化を目標として,連続的に連結要約を生成しようとするデータ要約のガイド付き探索の問題である。
EdA4Sumはワンショット要約を一般化する。
2つのアプローチの1つで解決することを提案します
(i)各ステップで最も有用な要約を選択するtop1sum
2 深層強化学習で政策を訓練するRSSumは、各ステップにおいて多種多様な新しい統一セットの収集を行うエージェントに報奨を与える。
これらのアプローチをワンショット要約とトップパフォーマンスedaソリューションと比較する。
3つの大きなデータセットで広範な実験を行います。
私たちの結果は、非常に大きなデータを要約するアプローチの優位性と、ドメインエキスパートにガイダンスを提供する必要性を示しています。
関連論文リスト
- Towards Enhancing Coherence in Extractive Summarization: Dataset and Experiments with LLMs [70.15262704746378]
我々は,5つの公開データセットと自然言語ユーザフィードバックのためのコヒーレントな要約からなる,体系的に作成された人間アノテーションデータセットを提案する。
Falcon-40BとLlama-2-13Bによる予備的な実験では、コヒーレントなサマリーを生成するという点で大幅な性能向上(10%ルージュ-L)が見られた。
論文 参考訳(メタデータ) (2024-07-05T20:25:04Z) - Embrace Divergence for Richer Insights: A Multi-document Summarization Benchmark and a Case Study on Summarizing Diverse Information from News Articles [136.84278943588652]
同一イベントを含む複数のニュース記事において遭遇する多様な情報を要約する新しい課題を提案する。
この作業を容易にするために、多様な情報を特定するためのデータ収集スキーマの概要と、DiverseSummというデータセットをキュレートした。
データセットには245のニュース記事が含まれており、各ストーリーは10のニュース記事からなり、人間公認の参照と組み合わせられる。
論文 参考訳(メタデータ) (2023-09-17T20:28:17Z) - Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。
既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。
A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文 参考訳(メタデータ) (2023-03-13T17:01:42Z) - UniSumm and SummZoo: Unified Model and Diverse Benchmark for Few-Shot
Summarization [54.59104881168188]
textscUniSummは、複数の要約タスクで事前訓練された、統合された数ショットの要約モデルである。
textscSummZooは、スクリーンショットの要約をよりよく評価するための新しいベンチマークである。
論文 参考訳(メタデータ) (2022-11-17T18:54:47Z) - EntSUM: A Data Set for Entity-Centric Summarization [27.845014142019917]
制御可能な要約は、ユーザが指定した側面や好みを考慮に入れた要約を提供することを目的としている。
本稿では、制御可能な要約のための人間アノテーション付きデータセットsetSUMを紹介し、制御の側面として名前付きエンティティに焦点を当てる。
論文 参考訳(メタデータ) (2022-04-05T13:45:54Z) - Abstractive Query Focused Summarization with Query-Free Resources [60.468323530248945]
本稿では,汎用的な要約リソースのみを利用して抽象的なqfsシステムを構築する問題を考える。
本稿では,要約とクエリのための新しい統一表現からなるMasked ROUGE回帰フレームワークであるMargeを提案する。
最小限の監視から学習したにもかかわらず,遠隔管理環境において最先端の結果が得られた。
論文 参考訳(メタデータ) (2020-12-29T14:39:35Z) - SupMMD: A Sentence Importance Model for Extractive Summarization using
Maximum Mean Discrepancy [92.5683788430012]
SupMMDは、カーネルの2サンプルテストと最大の相違点に基づく、ジェネリックおよび更新の要約のための新しいテクニックである。
DUC-2004 および TAC-2009 データセット上での現在の技術状況を満たしたり超えたりすることで,SupMMD の総合的および更新的要約タスクにおける有効性を示す。
論文 参考訳(メタデータ) (2020-10-06T09:26:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。