論文の概要: Active Learning for Abstractive Text Summarization
- arxiv url: http://arxiv.org/abs/2301.03252v1
- Date: Mon, 9 Jan 2023 10:33:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 16:42:20.312249
- Title: Active Learning for Abstractive Text Summarization
- Title(参考訳): 抽象テキスト要約のためのアクティブラーニング
- Authors: Akim Tsvigun, Ivan Lysenko, Danila Sedashov, Ivan Lazichny, Eldar
Damirov, Vladimir Karlov, Artemy Belousov, Leonid Sanochkin, Maxim Panov,
Alexander Panchenko, Mikhail Burtsev, Artem Shelmanov
- Abstract要約: 本稿では,抽象テキスト要約におけるアクティブラーニングのための最初の効果的なクエリ戦略を提案する。
ALアノテーションにおける私たちの戦略は、ROUGEと一貫性スコアの点からモデル性能を向上させるのに役立ちます。
- 参考スコア(独自算出の注目度): 50.79416783266641
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Construction of human-curated annotated datasets for abstractive text
summarization (ATS) is very time-consuming and expensive because creating each
instance requires a human annotator to read a long document and compose a
shorter summary that would preserve the key information relayed by the original
document. Active Learning (AL) is a technique developed to reduce the amount of
annotation required to achieve a certain level of machine learning model
performance. In information extraction and text classification, AL can reduce
the amount of labor up to multiple times. Despite its potential for aiding
expensive annotation, as far as we know, there were no effective AL query
strategies for ATS. This stems from the fact that many AL strategies rely on
uncertainty estimation, while as we show in our work, uncertain instances are
usually noisy, and selecting them can degrade the model performance compared to
passive annotation. We address this problem by proposing the first effective
query strategy for AL in ATS based on diversity principles. We show that given
a certain annotation budget, using our strategy in AL annotation helps to
improve the model performance in terms of ROUGE and consistency scores.
Additionally, we analyze the effect of self-learning and show that it can
further increase the performance of the model.
- Abstract(参考訳): 抽象的テキスト要約(ats: abstractive text summarization)のためのヒューマンキュレーションアノテートデータセットの構築は非常に時間がかかり、高価である。それぞれのインスタンスの作成には、人間のアノテータが長いドキュメントを読み、元の文書で中継される重要な情報を保存する短い要約を作成する必要があるからだ。
アクティブラーニング(active learning、al)は、特定のレベルの機械学習モデルのパフォーマンスを達成するのに必要なアノテーションを減らすために開発されたテクニックである。
情報抽出とテキスト分類では、ALは最大で複数回の労力を削減することができる。
高価なアノテーションを支援する可能性はあるものの、我々が知る限り、ATSの効果的なALクエリ戦略は存在しなかった。
これは、多くのal戦略が不確実性推定に依存しているという事実に起因していますが、我々の研究で示されているように、不確実性インスタンスは通常騒がしく、それらを選択することで、パッシブアノテーションに比べてモデルパフォーマンスが低下する可能性があるのです。
多様性の原則に基づいて,ALのALに対する最初の効果的なクエリ戦略を提案することで,この問題に対処する。
我々は、あるアノテーション予算が与えられた場合、ALアノテーションの戦略を用いることで、ROUGEと一貫性スコアの点からモデル性能を向上させることができることを示す。
さらに,自己学習の効果を分析し,モデルの性能をさらに向上させることができることを示す。
関連論文リスト
- Enhancing Text Classification through LLM-Driven Active Learning and Human Annotation [2.0411082897313984]
本研究では,人間のアノテータと大規模言語モデルを統合する新しい手法を提案する。
提案フレームワークは, モデルの不確実性レベルに応じて, 人間のアノテーションとLLMの出力を統合する。
実験結果から, モデル精度の維持・改善を図りながら, データアノテーションに関連するコストを大幅に削減した。
論文 参考訳(メタデータ) (2024-06-17T21:45:48Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - ALE: A Simulation-Based Active Learning Evaluation Framework for the
Parameter-Driven Comparison of Query Strategies for NLP [3.024761040393842]
Active Learning (AL)は、後続のサンプルやランダムなサンプルではなく、次にアノテータに有望なデータポイントを提案する。
この方法は、モデルパフォーマンスを維持しながらアノテーションの労力を節約することを目的としている。
NLPにおけるAL戦略の比較評価のための再現可能な能動学習評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:42:11Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - An Efficient Active Learning Pipeline for Legal Text Classification [2.462514989381979]
法律分野における事前学習言語モデルを用いて,能動的学習を効果的に活用するためのパイプラインを提案する。
我々は、知識蒸留を用いてモデルの埋め込みを意味論的意味のある空間に導く。
分類タスクに適応したContract-NLIとLEDGARベンチマークの実験により,本手法が標準AL戦略より優れていることが示された。
論文 参考訳(メタデータ) (2022-11-15T13:07:02Z) - Assisted Text Annotation Using Active Learning to Achieve High Quality
with Little Effort [9.379650501033465]
研究者は、手動の注釈だけで、大規模で高品質な注釈付きデータセットを作成できるツールを提案する。
我々は、アクティブラーニング(AL)アプローチと事前訓練された言語モデルを組み合わせて、アノテーションカテゴリを半自動で識別する。
予備的な結果から,ALを用いることで,複雑なフレームや微妙なフレームを正しく分類するアノテーションの数が大幅に削減されることがわかった。
論文 参考訳(メタデータ) (2021-12-15T13:14:58Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Active$^2$ Learning: Actively reducing redundancies in Active Learning
methods for Sequence Tagging and Machine Translation [14.030275887949147]
アクティブラーニング(AL)戦略は、マニュアルアノテーションの少数の例を反復的に選択することで、大量のラベル付きデータの必要性を減らす。
本稿では,al戦略が個別に例を選択することから,学習過程に寄与しない類似の例を選択できる可能性について論じる。
提案手法であるActive$mathbf2$ Learning (A$mathbf2$L)は,このような冗長な例を排除するために,ディープラーニングモデルに積極的に適応する。
論文 参考訳(メタデータ) (2021-03-11T06:27:31Z) - Reducing Confusion in Active Learning for Part-Of-Speech Tagging [100.08742107682264]
アクティブラーニング(AL)は、データ選択アルゴリズムを使用して、アノテーションコストを最小限に抑えるために有用なトレーニングサンプルを選択する。
本研究では、特定の出力タグのペア間の混乱を最大に低減するインスタンスの選択問題について検討する。
提案するAL戦略は,他のAL戦略よりも有意差で優れている。
論文 参考訳(メタデータ) (2020-11-02T06:24:58Z) - Few-Shot Learning for Opinion Summarization [117.70510762845338]
オピニオン要約は、複数の文書で表現された主観的な情報を反映したテキストの自動生成である。
本研究では,要約テキストの生成をブートストラップするのには,少数の要約でも十分であることを示す。
提案手法は, 従来の抽出法および抽象法を, 自動的, 人的評価において大きく上回っている。
論文 参考訳(メタデータ) (2020-04-30T15:37:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。