論文の概要: DUAL: Diversity and Uncertainty Active Learning for Text Summarization
- arxiv url: http://arxiv.org/abs/2503.00867v1
- Date: Sun, 02 Mar 2025 12:06:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:20:29.933738
- Title: DUAL: Diversity and Uncertainty Active Learning for Text Summarization
- Title(参考訳): DUAL:テキスト要約のための多様性と不確かさのアクティブラーニング
- Authors: Petros Stylianos Giouroukis, Alexios Gidiotis, Grigorios Tsoumakas,
- Abstract要約: 本稿では,不確実性と多様性を組み合わせた新しいアルゴリズムであるDiversity and Uncertainty Active Learning(DUAL)を提案する。
我々は、UALがテキスト要約における最高の実行戦略を一貫して一致または上回ることを示す。
- 参考スコア(独自算出の注目度): 5.877045865753598
- License:
- Abstract: With the rise of large language models, neural text summarization has advanced significantly in recent years. However, even state-of-the-art models continue to rely heavily on high-quality human-annotated data for training and evaluation. Active learning is frequently used as an effective way to collect such datasets, especially when annotation resources are scarce. Active learning methods typically prioritize either uncertainty or diversity but have shown limited effectiveness in summarization, often being outperformed by random sampling. We present Diversity and Uncertainty Active Learning (DUAL), a novel algorithm that combines uncertainty and diversity to iteratively select and annotate samples that are both representative of the data distribution and challenging for the current model. DUAL addresses the selection of noisy samples in uncertainty-based methods and the limited exploration scope of diversity-based methods. Through extensive experiments with different summarization models and benchmark datasets, we demonstrate that DUAL consistently matches or outperforms the best performing strategies. Using visualizations and quantitative metrics, we provide valuable insights into the effectiveness and robustness of different active learning strategies, in an attempt to understand why these strategies haven't performed consistently in text summarization. Finally, we show that DUAL strikes a good balance between diversity and robustness.
- Abstract(参考訳): 大規模言語モデルの台頭に伴い,近年,ニューラルネットワークの要約が著しく進歩している。
しかし、最先端のモデルでさえ、トレーニングと評価のために高品質な人手によるデータに大きく依存し続けている。
アクティブラーニングは、特にアノテーションリソースが不足している場合に、このようなデータセットを収集する効果的な方法として頻繁に使用される。
アクティブラーニング手法は、典型的には不確実性または多様性のどちらかを優先するが、要約の有効性は限定的であり、しばしばランダムサンプリングによって改善される。
本稿では、不確実性と多様性を組み合わせた新しいアルゴリズムであるDiversity and Uncertainty Active Learning(DUAL)を提案する。
DUALは、不確実性に基づく手法におけるノイズの多いサンプルの選択と、多様性に基づく手法の限られた探索範囲に対処する。
様々な要約モデルとベンチマークデータセットによる広範な実験を通じて、DUALが最高のパフォーマンス戦略を一貫して一致または上回ることを示す。
可視化と定量的メトリクスを用いて、これらの戦略がテキスト要約において一貫して実行されていない理由を理解するために、さまざまなアクティブラーニング戦略の有効性と堅牢性に関する貴重な洞察を提供する。
最後に,ダイバーシティとロバストネスのバランスが良好であることを示す。
関連論文リスト
- DEUCE: Dual-diversity Enhancement and Uncertainty-awareness for Cold-start Active Learning [54.35107462768146]
コールドスタートアクティブラーニング(CSAL)は、手動アノテーションのためのラベルなしデータセットから貴重なインスタンスを選択する。
既存のCSAL手法は、弱いクラスと強い代表例を見落とし、バイアス学習をもたらす。
本稿ではCSALのための新しい二変量拡張および不確実性認識フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-01T04:00:03Z) - Maximally Separated Active Learning [32.98415531556376]
固定等角超球面点をクラスプロトタイプとして利用する能動的学習法を提案する。
5つのベンチマークデータセットにまたがる既存のアクティブラーニング技術よりも高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-11-26T14:02:43Z) - Bridging Diversity and Uncertainty in Active learning with Self-Supervised Pre-Training [21.57943896942296]
本研究は,能動学習における多様性に基づく,不確実性に基づくサンプリング戦略の統合について論じる。
我々は,コールドスタート問題を軽減し,さまざまなデータレベルの強いパフォーマンスを維持しつつ,TCMという単純な手法を導入する。
論文 参考訳(メタデータ) (2024-03-06T14:18:24Z) - Active Learning Principles for In-Context Learning with Large Language
Models [65.09970281795769]
本稿では,アクティブ・ラーニング・アルゴリズムが,文脈内学習における効果的な実演選択手法としてどのように機能するかを検討する。
ALによる文脈内サンプル選択は,不確実性の低い高品質な事例を優先し,試験例と類似性を有することを示す。
論文 参考訳(メタデータ) (2023-05-23T17:16:04Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Investigating Multi-source Active Learning for Natural Language
Inference [34.18663328309923]
本研究では,自然言語推論のタスクにおいて,複数のデータソースからなる乱数プールに適用した場合,一般的な4つのアクティブ学習方式がランダム選択よりも優れていることを示す。
我々は,不確実性に基づく戦略が,集団的アウトリージの獲得によって不確実性が低下していることを明らかにする。
さらなる分析では、集団のアウトリーチはソース間で形式的に変化し、ハード・トゥ・ラーンデータが必ずしも分類的に有害であるとは限らないことを示す。
論文 参考訳(メタデータ) (2023-02-14T11:10:18Z) - Frugal Reinforcement-based Active Learning [12.18340575383456]
本稿では,ラベル効率向上のための新しい能動的学習手法を提案する。
提案手法は反復的であり,多様性,表現性,不確実性の基準を混合した制約対象関数の最小化を目的としている。
また、強化学習に基づく新たな重み付け機構を導入し、各トレーニングイテレーションでこれらの基準を適応的にバランスさせる。
論文 参考訳(メタデータ) (2022-12-09T14:17:45Z) - Exploiting Diversity of Unlabeled Data for Label-Efficient
Semi-Supervised Active Learning [57.436224561482966]
アクティブラーニング(英: Active Learning)は、ラベリングのための最も重要なサンプルを選択することで、高価なラベリングの問題に対処する研究分野である。
アクティブな学習環境における初期ラベル付けのための最も情報性の高いサンプル群を選択するために,多様性に基づく新しい初期データセット選択アルゴリズムを提案する。
また、一貫性に基づく埋め込みの多様性に基づくサンプリングを用いた、新しいアクティブな学習クエリ戦略を提案する。
論文 参考訳(メタデータ) (2022-07-25T16:11:55Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Ask-n-Learn: Active Learning via Reliable Gradient Representations for
Image Classification [29.43017692274488]
深い予測モデルは、ラベル付きトレーニングデータという形で人間の監督に依存する。
Ask-n-Learnは,各アルゴリズムで推定されたペスドラベルを用いて得られる勾配埋め込みに基づく能動的学習手法である。
論文 参考訳(メタデータ) (2020-09-30T05:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。