論文の概要: Unsupervised Bias Detection in College Student Newspapers
- arxiv url: http://arxiv.org/abs/2309.06557v1
- Date: Mon, 11 Sep 2023 06:51:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 16:19:03.329182
- Title: Unsupervised Bias Detection in College Student Newspapers
- Title(参考訳): 大学生新聞における教師なしバイアス検出
- Authors: Adam M. Lehavi, William McCormack, Noah Kornfeld and Solomon Glazer
- Abstract要約: 本稿では,複雑なアーカイブサイトをスクレイピングするフレームワークを導入し,23,154項目からなる14の学生論文のデータセットを生成する。
このアプローチの利点は、リコンストラクションバイアスよりも比較が低く、キーワードの感情を生成するよりもラベル付きデータが少ないことである。
結果は、政治的に課金された単語と制御された単語に基づいて計算され、どのように結論が導き出されるかを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents a pipeline with minimal human influence for scraping and
detecting bias on college newspaper archives. This paper introduces a framework
for scraping complex archive sites that automated tools fail to grab data from,
and subsequently generates a dataset of 14 student papers with 23,154 entries.
This data can also then be queried by keyword to calculate bias by comparing
the sentiment of a large language model summary to the original article. The
advantages of this approach are that it is less comparative than reconstruction
bias and requires less labelled data than generating keyword sentiment. Results
are calculated on politically charged words as well as control words to show
how conclusions can be drawn. The complete method facilitates the extraction of
nuanced insights with minimal assumptions and categorizations, paving the way
for a more objective understanding of bias within student newspaper sources.
- Abstract(参考訳): 本稿では,大学新聞アーカイブのスクレイピングとバイアス検出のために,人間の影響を最小限に抑えたパイプラインを提案する。
本稿では,自動ツールがデータ取得に失敗し,23,154項目からなる14の学生論文のデータセットを生成する,複雑なアーカイブサイトをスクレイピングするフレームワークを提案する。
このデータをキーワードでクエリしてバイアスを計算することも可能で、大きな言語モデルの要約の感情を元の記事と比較することができる。
このアプローチの利点は、リコンストラクションバイアスよりも比較が低く、キーワードの感情を生成するよりもラベル付きデータが少ないことである。
結果は、政治的にチャージされた単語と制御された単語で計算され、どのように結果が引き出されるかを示す。
完全な方法は、最小限の仮定と分類によるニュアンスされた洞察の抽出を容易にし、学生新聞の情報源の中でより客観的なバイアスの理解を促す。
関連論文リスト
- Data-Augmented and Retrieval-Augmented Context Enrichment in Chinese
Media Bias Detection [16.343223974292908]
我々は、新たに設計されたシステムによって注釈付けされた新型コロナウイルスに関する中国のニュースと共にデータセットを構築します。
データ拡張コンテキストエンリッチメント(DACE)では、トレーニングデータを拡大し、Retrieval-Augmentedコンテキストエンリッチメント(RACE)では、貴重な情報を選択するための情報検索方法を改善する。
以上の結果から, RACE法の方が効率が高く, 可能性も高いことがわかった。
論文 参考訳(メタデータ) (2023-11-02T16:29:49Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Revisiting text decomposition methods for NLI-based factuality scoring
of summaries [9.044665059626958]
細粒度分解が必ずしも事実性スコアの勝利戦略であるとは限らないことを示す。
また,従来提案されていたエンテーメントに基づくスコアリング手法の小さな変更により,性能が向上することを示した。
論文 参考訳(メタデータ) (2022-11-30T09:54:37Z) - An Approach to Ensure Fairness in News Articles [1.2349542674006961]
本稿では,ニュース記事の公平性を保証するPythonパッケージであるDbiasを紹介する。
Dbiasは、トレーニングされた機械学習パイプラインで、テキストを取って、テキストがバイアスを受けているかどうかを検出することができる。
実験では、このパイプラインがバイアスを軽減し、共通のニューラルネットワークアーキテクチャより優れていることを示す。
論文 参考訳(メタデータ) (2022-07-08T14:43:56Z) - Towards A Reliable Ground-Truth For Biased Language Detection [3.2202224129197745]
バイアスを検出する既存の方法は、主に機械学習モデルをトレーニングするための注釈付きデータに依存している。
データ収集の選択肢を評価し、2つの人気のあるクラウドソーシングプラットフォームから得られたラベルを比較した。
より詳細なアノテータトレーニングによってデータ品質が向上し、既存のバイアス検出システムの性能が向上する。
論文 参考訳(メタデータ) (2021-12-14T14:13:05Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Context in Informational Bias Detection [4.386026071380442]
英語ニュース記事における情報バイアスに関する4種類の文脈について検討する。
イベントコンテキストの統合は、非常に強力なベースライン上での分類性能を改善する。
最良性能の文脈包含モデルが長文のベースラインより優れていることが判明した。
論文 参考訳(メタデータ) (2020-12-03T15:50:20Z) - Improving Robustness by Augmenting Training Sentences with
Predicate-Argument Structures [62.562760228942054]
データセットバイアスに対するロバスト性を改善する既存のアプローチは、主にトレーニング目標の変更に焦点を当てている。
本稿では,学習データ中の入力文に対応する述語句構造を付加することを提案する。
特定のバイアスを対象とせずに、文の増大は、複数のバイアスに対してトランスフォーマーモデルの堅牢性を向上することを示す。
論文 参考訳(メタデータ) (2020-10-23T16:22:05Z) - Compressive Summarization with Plausibility and Salience Modeling [54.37665950633147]
本稿では,候補空間に対する厳密な構文的制約を緩和し,その代わりに圧縮決定を2つのデータ駆動基準,すなわち妥当性とサリエンスに委ねることを提案する。
提案手法は,ベンチマーク要約データセット上で強いドメイン内結果を得るとともに,人間による評価により,文法的および事実的削除に対して,可算性モデルが一般的に選択されることを示す。
論文 参考訳(メタデータ) (2020-10-15T17:07:10Z) - Towards Robustifying NLI Models Against Lexical Dataset Biases [94.79704960296108]
本稿では、語彙的データセットバイアスに対するモデル強化のための、データレベルとモデルレベルのデバイアス法の両方について検討する。
まず、データ拡張と拡張によってデータセットをデバイアスするが、この方法でモデルバイアスを完全に除去することはできないことを示す。
第2のアプローチでは、バーオブワードのサブモデルを使用して、バイアスを悪用する可能性のある機能をキャプチャし、元のモデルがこれらのバイアス付き機能を学ぶのを防ぐ。
論文 参考訳(メタデータ) (2020-05-10T17:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。