論文の概要: Dialect Diversity in Text Summarization on Twitter
- arxiv url: http://arxiv.org/abs/2007.07860v2
- Date: Sun, 4 Apr 2021 22:49:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 06:22:23.490843
- Title: Dialect Diversity in Text Summarization on Twitter
- Title(参考訳): Twitterにおけるテキスト要約の多様性
- Authors: Vijay Keswani and L. Elisa Celis
- Abstract要約: 方言バイアスは、共通の要約アプローチによって生成された要約に見られます。
我々は、既存のテキスト要約アルゴリズムをブラックボックスとして取り込むフレームワークを採用し、方言の異なる文の小さなセットを用いて、比較的方言の異なる要約を返す。
人種や性別によって定義された異なる社会集団が使用する方言で書かれた投稿を含むTwitterデータセット上で、我々のアプローチの有効性を示す。
- 参考スコア(独自算出の注目度): 24.221770962980614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Discussions on Twitter involve participation from different communities with
different dialects and it is often necessary to summarize a large number of
posts into a representative sample to provide a synopsis. Yet, any such
representative sample should sufficiently portray the underlying dialect
diversity to present the voices of different participating communities
representing the dialects. Extractive summarization algorithms perform the task
of constructing subsets that succinctly capture the topic of any given set of
posts. However, we observe that there is dialect bias in the summaries
generated by common summarization approaches, i.e., they often return summaries
that under-represent certain dialects.
The vast majority of existing "fair" summarization approaches require
socially salient attribute labels (in this case, dialect) to ensure that the
generated summary is fair with respect to the socially salient attribute.
Nevertheless, in many applications, these labels do not exist. Furthermore, due
to the ever-evolving nature of dialects in social media, it is unreasonable to
label or accurately infer the dialect of every social media post. To correct
for the dialect bias, we employ a framework that takes an existing text
summarization algorithm as a blackbox and, using a small set of dialect-diverse
sentences, returns a summary that is relatively more dialect-diverse.
Crucially, this approach does not need the posts being summarized to have
dialect labels, ensuring that the diversification process is independent of
dialect classification/identification models. We show the efficacy of our
approach on Twitter datasets containing posts written in dialects used by
different social groups defined by race or gender; in all cases, our approach
leads to improved dialect diversity compared to standard text summarization
approaches.
- Abstract(参考訳): Twitter上での議論には、異なる方言を持つ異なるコミュニティからの参加が含まれており、多くの投稿を代表的なサンプルにまとめてシナプスを提供する必要があることが多い。
しかし、そのような代表的サンプルは、方言を代表する異なるコミュニティの声を示すために、方言の多様性を十分に描写すべきである。
抽出要約アルゴリズムは、任意のポストのトピックを簡潔にキャプチャするサブセットを構築するタスクを実行する。
しかし、共通要約アプローチによって生成された要約には方言バイアスがあること、すなわち、特定の方言を過小に表現する要約を返すことがしばしばある。
既存の「公正な」要約アプローチの大多数は、社会的に有意な属性ラベル(この場合、方言)を必要とし、生成された要約が社会的に有意な属性に対して公平であることを保証する。
しかし、多くのアプリケーションではこれらのラベルは存在しない。
さらに、ソーシャルメディアにおける方言が進化し続けているため、全てのソーシャルメディア投稿の方言をラベル付けしたり正確に推測することは理不尽である。
方言バイアスを正すために,既存のテキスト要約アルゴリズムをブラックボックスとして,方言多様性文の小さなセットを用いて,比較的方言多様性のある要約を返却する枠組みを用いる。
重要なことは、このアプローチは方言ラベルを持つために要約されるポストを必要とせず、多様化過程が方言分類・識別モデルに依存しないことを保証する。
本手法は,人種や性別によって異なる社会集団が使用する方言で書かれた投稿を含むtwitterデータセット上での有効性を示すものであり,いずれの場合においても,標準テキスト要約手法と比較して方言多様性の向上につながる。
関連論文リスト
- Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - Disentangling Dialect from Social Bias via Multitask Learning to Improve Fairness [16.746758715820324]
本稿では,構文的および語彙的バリエーションを組み込む補助課題として,方言をモデル化するマルチタスク学習手法を提案する。
アフリカ系アメリカ人の英語方言を用いた実験では、共通学習アプローチと方言モデリングを補完することで、その公正さが向上することを示す実証的証拠を提供する。
その結果、マルチタスク学習は最先端の性能を達成し、偏りのある言語の性質をより確実に検出するのに役立つことが示唆された。
論文 参考訳(メタデータ) (2024-06-14T12:39:39Z) - Understanding Position Bias Effects on Fairness in Social Multi-Document Summarization [1.9950682531209158]
3つの言語コミュニティからのつぶやきを要約する際の入力文書におけるグループ順序付けの効果について検討する。
以上の結果から,社会的多文書要約では位置バイアスが異なることが示唆された。
論文 参考訳(メタデータ) (2024-05-03T00:19:31Z) - Modeling Orthographic Variation in Occitan's Dialects [3.038642416291856]
大規模多言語モデルは、前処理時のスペル正規化の必要性を最小限に抑える。
以上の結果から,複数言語モデルでは,前処理時のスペル正規化の必要性が最小限に抑えられていることが示唆された。
論文 参考訳(メタデータ) (2024-04-30T07:33:51Z) - Task-Agnostic Low-Rank Adapters for Unseen English Dialects [52.88554155235167]
LLM(Large Language Models)は、標準アメリカ英語を好んで不均等に重み付けされたコーパスで訓練される。
HyperLoRAは、方言特化情報と方言横断情報を混同することにより、タスクに依存しない方法で未確認の方言への一般化を改善する。
論文 参考訳(メタデータ) (2023-11-02T01:17:29Z) - DADA: Dialect Adaptation via Dynamic Aggregation of Linguistic Rules [64.93179829965072]
DADAは、多言語対応のSAE訓練モデルに対するモジュラーアプローチである。
DADAは単一タスクと命令言語モデルの両方に有効であることを示す。
論文 参考訳(メタデータ) (2023-05-22T18:43:31Z) - End-to-End Automatic Speech Recognition model for the Sudanese Dialect [0.0]
本稿では,スーダン方言における音声認識モデルの設計の可能性を検討する。
本稿では,スーダン方言の概要と表現資源の収集作業,および質素なデータセット構築のための前処理について述べる。
設計されたモデルは、現在の認識タスクに関するいくつかの洞察を与え、平均的なラベルエラーレート73.67%に達した。
論文 参考訳(メタデータ) (2022-12-21T07:35:33Z) - Multi-VALUE: A Framework for Cross-Dialectal English NLP [49.55176102659081]
マルチディレクト (Multi-Dilect) は、50の英語方言にまたがる制御可能なルールベースの翻訳システムである。
ストレステストは、非標準方言の先行モデルに対する顕著な性能格差を示す。
私たちはチカノやインド英語のネイティブスピーカーと提携して、人気のあるCoQAタスクの新しいゴールドスタンダード版をリリースしています。
論文 参考訳(メタデータ) (2022-12-15T18:17:01Z) - A Highly Adaptive Acoustic Model for Accurate Multi-Dialect Speech
Recognition [80.87085897419982]
単一AMを用いた高精度多言語音声認識のための新しい音響モデリング手法を提案する。
提案するAMは、方言情報とその内部表現に基づいて動的に適応し、複数の方言を同時に扱うための高度適応型AMとなる。
大規模音声データセットにおける実験結果から,提案したAMは,方言固有のAMと比較して,単語誤り率(WER)が8.11%,方言固有のAMに比べて7.31%向上していることがわかった。
論文 参考訳(メタデータ) (2022-05-06T06:07:09Z) - Automatic Dialect Density Estimation for African American English [74.44807604000967]
アフリカ・アメリカン・イングリッシュ(AAE)方言の方言密度の自動予測について検討する。
方言密度は、非標準方言の特徴を含む発話における単語の割合として定義される。
このデータベースでは,AAE音声に対する予測された真理弁証密度と地上の真理弁証密度との間に有意な相関関係を示す。
論文 参考訳(メタデータ) (2022-04-03T01:34:48Z) - Learning to Recognize Dialect Features [21.277962038423123]
本稿では,方言の特徴検出の課題を紹介するとともに,2つのマルチタスク学習手法を提案する。
言語学者は通常、方言の特徴をどのように定義するかに基づいて、モデルを少数の最小のペアでトレーニングします。
論文 参考訳(メタデータ) (2020-10-23T23:25:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。