論文の概要: Large, Small or Both: A Novel Data Augmentation Framework Based on
Language Models for Debiasing Opinion Summarization
- arxiv url: http://arxiv.org/abs/2403.07693v1
- Date: Tue, 12 Mar 2024 14:37:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 21:14:22.316540
- Title: Large, Small or Both: A Novel Data Augmentation Framework Based on
Language Models for Debiasing Opinion Summarization
- Title(参考訳): Large, Small or Both: 意見要約の曖昧化のための言語モデルに基づく新しいデータ拡張フレームワーク
- Authors: Yanyue Zhang, Pengfei Li, Yilong Lai and Deyu Zhou
- Abstract要約: 現在の意見要約アプローチは、負のテキストの入力から負の要約を生成するのに消極的である。
本稿では,大小の言語モデルと大小の言語モデルに基づく新しいデータ拡張フレームワークを提案する。
我々のフレームワークは、大きなモデルだけでなく、より経済的にも、感情バイアスを効果的に軽減することができる。
- 参考スコア(独自算出の注目度): 26.372665344707613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As more than 70$\%$ of reviews in the existing opinion summary data set are
positive, current opinion summarization approaches are reluctant to generate
negative summaries given the input of negative texts. To address such sentiment
bias, a direct approach without the over-reliance on a specific framework is to
generate additional data based on large language models to balance the
emotional distribution of the dataset. However, data augmentation based on
large language models faces two disadvantages: 1) the potential issues or
toxicity in the augmented data; 2) the expensive costs. Therefore, in this
paper, we propose a novel data augmentation framework based on both large and
small language models for debiasing opinion summarization. In specific, a small
size of synthesized negative reviews is obtained by rewriting the positive text
via a large language model. Then, a disentangle reconstruction model is trained
based on the generated data. After training, a large amount of synthetic data
can be obtained by decoding the new representation obtained from the
combination of different sample representations and filtering based on
confusion degree and sentiment classification. Experiments have proved that our
framework can effectively alleviate emotional bias same as using only large
models, but more economically.
- Abstract(参考訳): 既存の意見要約データセットの70$\%以上のレビューは肯定的であるため、現在の意見要約アプローチは、否定的なテキストの入力によって負の要約を生成することに消極的である。
このような感情バイアスに対処するために、特定のフレームワークに過度に依存しない直接的なアプローチは、データセットの感情分布のバランスをとるために、大きな言語モデルに基づいた追加データを生成することである。
しかし、大きな言語モデルに基づくデータ拡張は2つの欠点に直面している。
1) 拡張データにおける潜在的な問題又は毒性
2)コストがかかる。
そこで,本稿では,意見要約の偏りを解消するために,大規模言語モデルと小規模言語モデルの両方に基づく新しいデータ拡張フレームワークを提案する。
具体的には、大きな言語モデルで肯定的なテキストを書き直すことで、小さなサイズで合成された否定レビューが得られる。
そして、生成されたデータに基づいて異角形復元モデルを訓練する。
トレーニング後、混乱度と感情分類に基づいて異なるサンプル表現とフィルタリングの組み合わせから得られた新しい表現を復号することにより、大量の合成データを得ることができる。
実験により、我々のフレームワークは、大きなモデルだけでなく、より経済的にも、感情バイアスを効果的に軽減できることが示された。
関連論文リスト
- Generating Enhanced Negatives for Training Language-Based Object Detectors [86.1914216335631]
我々は、現代の生成モデルに組み込まれた膨大な知識を活用して、元のデータにより関連性のある負を自動で構築することを提案する。
具体的には、大言語モデルを用いて、負のテキスト記述を生成するとともに、テキスト間拡散モデルを用いて、対応する負の画像を生成する。
実験により, 生成した負データとの関連性を確認し, 言語ベースの検出器での使用により, 2つの複雑なベンチマークの性能が向上した。
論文 参考訳(メタデータ) (2023-12-29T23:04:00Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - CLIFF: Contrastive Learning for Improving Faithfulness and Factuality in
Abstractive Summarization [6.017006996402699]
我々は、与えられた記事に忠実で事実に整合した抽象的な要約を生成することを研究する。
参照要約を正のトレーニングデータとして活用し、誤要約を負のトレーニングデータとして自動生成し、両者を区別し易い要約システムを訓練する、新しいコントラスト学習定式化を提案する。
論文 参考訳(メタデータ) (2021-09-19T20:05:21Z) - Improving Robustness by Augmenting Training Sentences with
Predicate-Argument Structures [62.562760228942054]
データセットバイアスに対するロバスト性を改善する既存のアプローチは、主にトレーニング目標の変更に焦点を当てている。
本稿では,学習データ中の入力文に対応する述語句構造を付加することを提案する。
特定のバイアスを対象とせずに、文の増大は、複数のバイアスに対してトランスフォーマーモデルの堅牢性を向上することを示す。
論文 参考訳(メタデータ) (2020-10-23T16:22:05Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Few-Shot Learning for Opinion Summarization [117.70510762845338]
オピニオン要約は、複数の文書で表現された主観的な情報を反映したテキストの自動生成である。
本研究では,要約テキストの生成をブートストラップするのには,少数の要約でも十分であることを示す。
提案手法は, 従来の抽出法および抽象法を, 自動的, 人的評価において大きく上回っている。
論文 参考訳(メタデータ) (2020-04-30T15:37:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。