論文の概要: Summary-Source Proposition-level Alignment: Task, Datasets and
Supervised Baseline
- arxiv url: http://arxiv.org/abs/2009.00590v2
- Date: Wed, 22 Sep 2021 20:41:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 01:00:11.506706
- Title: Summary-Source Proposition-level Alignment: Task, Datasets and
Supervised Baseline
- Title(参考訳): 概要-ソースのプロポジションレベルのアライメント:タスク、データセット、および監督されたベースライン
- Authors: Ori Ernst, Ori Shapira, Ramakanth Pasunuru, Michael Lepioshkin, Jacob
Goldberger, Mohit Bansal, Ido Dagan
- Abstract要約: 資料の参照要約における文のアライメントは,補助的な要約作業として有用であった。
本稿では,2つの重要な新機能を導入しながら,要約ソースアライメントを明示的なタスクとして確立することを提案する。
我々は提案レベルのアライメントのための新しいトレーニングデータセットを作成し、利用可能な要約評価データから自動的に抽出する。
教師なしアプローチよりも優れたアライメント品質を示す教師付き命題アライメントベースラインモデルを提案する。
- 参考スコア(独自算出の注目度): 94.0601799665342
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning sentences in a reference summary with their counterparts in source
documents was shown as a useful auxiliary summarization task, notably for
generating training data for salience detection. Despite its assessed utility,
the alignment step was mostly approached with heuristic unsupervised methods,
typically ROUGE-based, and was never independently optimized or evaluated. In
this paper, we propose establishing summary-source alignment as an explicit
task, while introducing two major novelties: (1) applying it at the more
accurate proposition span level, and (2) approaching it as a supervised
classification task. To that end, we created a novel training dataset for
proposition-level alignment, derived automatically from available summarization
evaluation data. In addition, we crowdsourced dev and test datasets, enabling
model development and proper evaluation. Utilizing these data, we present a
supervised proposition alignment baseline model, showing improved
alignment-quality over the unsupervised approach.
- Abstract(参考訳): 文献の参照要約における文のアライメントは,特にサリエンス検出のためのトレーニングデータを生成するための補助的な要約タスクとして有用であった。
実用性の評価にもかかわらず、アライメントステップは主にヒューリスティックな教師なしの手法でアプローチされ、通常はルージュベースで、独立して最適化や評価は行われなかった。
本稿では,(1)より正確な命題範囲で適用すること,(2)教師付き分類課題としてアプローチすること,の2つの主要な特徴を紹介しながら,要約ソースアライメントを明示的なタスクとして確立することを提案する。
そこで我々は,利用可能な要約評価データから自動的に導出される提案レベルアライメントのための新しい学習データセットを作成した。
さらに、開発とテストのデータセットをクラウドソースし、モデル開発と適切な評価を可能にしました。
これらのデータを用いて、教師なしアプローチよりも優れたアライメント品質を示す教師付き命題アライメントベースラインモデルを提案する。
関連論文リスト
- The Power of Summary-Source Alignments [62.76959473193149]
多文書要約(MDS)は難しい課題であり、しばしばサリエンスと冗長性検出のサブタスクに分解される。
参照要約とそのソース文書間の対応する文のアライメントを利用して、トレーニングデータを生成する。
本稿では,よりきめ細かな提案スパンレベルで適用することで,要約ソースアライメントフレームワークを拡張することを提案する。
論文 参考訳(メタデータ) (2024-06-02T19:35:19Z) - GPT Self-Supervision for a Better Data Annotator [22.598300095822026]
本稿では,GPT(Generative Pretrained Transformer)自己スーパービジョンアノテーション手法を提案する。
提案手法は1ショットのチューニングフェーズと生成フェーズから構成される。
復元されたデータと元のデータのアライメントスコアは、プロセスを洗練するための自己超越ナビゲータとして機能する。
論文 参考訳(メタデータ) (2023-06-07T11:33:14Z) - Controlled Text Reduction [15.102190738450092]
textitControlled Text Reduction をスタンドアロンタスクとして形式化する。
モデルでは、対象情報すべてと対象情報のみを含む一貫性のあるテキストを生成する必要がある。
論文 参考訳(メタデータ) (2022-10-24T17:59:03Z) - Question-Based Salient Span Selection for More Controllable Text
Summarization [67.68208237480646]
本稿では,質問応答(QA)信号を要約モデルに組み込む手法を提案する。
提案手法は,入力文書中の有声名詞句(NP)を自動生成することで同定する。
このQAベースの信号は、2段階の要約モデルに組み込まれ、まず分類モデルを用いて入力文書中の有能なNPをマークし、その後、条件付きで要約を生成する。
論文 参考訳(メタデータ) (2021-11-15T17:36:41Z) - A Single Example Can Improve Zero-Shot Data Generation [7.237231992155901]
意図分類のサブタスクは、実験と評価のために広範囲で柔軟なデータセットを必要とする。
本稿では,データセットの収集にテキスト生成手法を提案する。
タスク指向発話を生成するための2つのアプローチについて検討する。
論文 参考訳(メタデータ) (2021-08-16T09:43:26Z) - Centrality Meets Centroid: A Graph-based Approach for Unsupervised
Document Summarization [13.12794447731674]
抽出文書要約のためのグラフベースの非監視手法を提案する。
提案手法は,グラフ集中度とセントロイドを利用して,要約レベルで機能する。
論文 参考訳(メタデータ) (2021-03-29T04:35:33Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - BREEDS: Benchmarks for Subpopulation Shift [98.90314444545204]
本研究では,人口変動に対するモデルのロバスト性を評価する手法を開発した。
既存のデータセットの基盤となるクラス構造を利用して、トレーニングとテストの分散を構成するデータサブポピュレーションを制御する。
この手法をImageNetデータセットに適用し、様々な粒度のサブポピュレーションシフトベンチマークスイートを作成する。
論文 参考訳(メタデータ) (2020-08-11T17:04:47Z) - Proposal Learning for Semi-Supervised Object Detection [76.83284279733722]
地上の真理ラベルが利用できないため、ラベルのないデータで物体検出器を訓練するのは簡単ではない。
ラベル付きデータとラベルなしデータの両方から提案特徴と予測を学習するための提案学習手法を提案する。
論文 参考訳(メタデータ) (2020-01-15T00:06:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。