論文の概要: Data-Augmented and Retrieval-Augmented Context Enrichment in Chinese
Media Bias Detection
- arxiv url: http://arxiv.org/abs/2311.01372v2
- Date: Sat, 18 Nov 2023 09:45:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 16:56:06.785887
- Title: Data-Augmented and Retrieval-Augmented Context Enrichment in Chinese
Media Bias Detection
- Title(参考訳): 中国メディアバイアス検出におけるデータ拡張・検索コンテキスト強化
- Authors: Luyang Lin, Jing Li, Kam-Fai Wong
- Abstract要約: 我々は、新たに設計されたシステムによって注釈付けされた新型コロナウイルスに関する中国のニュースと共にデータセットを構築します。
データ拡張コンテキストエンリッチメント(DACE)では、トレーニングデータを拡大し、Retrieval-Augmentedコンテキストエンリッチメント(RACE)では、貴重な情報を選択するための情報検索方法を改善する。
以上の結果から, RACE法の方が効率が高く, 可能性も高いことがわかった。
- 参考スコア(独自算出の注目度): 16.343223974292908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increasing pursuit of objective reports, automatically understanding
media bias has drawn more attention in recent research. However, most of the
previous work examines media bias from Western ideology, such as the left and
right in the political spectrum, which is not applicable to Chinese outlets.
Based on the previous lexical bias and informational bias structure, we refine
it from the Chinese perspective and go one step further to craft data with 7
fine-grained labels. To be specific, we first construct a dataset with Chinese
news reports about COVID-19 which is annotated by our newly designed system,
and then conduct substantial experiments on it to detect media bias. However,
the scale of the annotated data is not enough for the latest deep-learning
technology, and the cost of human annotation in media bias, which needs a lot
of professional knowledge, is too expensive. Thus, we explore some context
enrichment methods to automatically improve these problems. In Data-Augmented
Context Enrichment (DACE), we enlarge the training data; while in
Retrieval-Augmented Context Enrichment (RACE), we improve information retrieval
methods to select valuable information and integrate it into our models to
better understand bias. Extensive experiments are conducted on both our dataset
and an English dataset BASIL. Our results show that both methods outperform our
baselines, while the RACE methods are more efficient and have more potential.
- Abstract(参考訳): 客観的な報告の追求が高まるにつれて、メディアバイアスを自動的に理解する研究が近年注目を集めている。
しかし、以前の研究のほとんどは、西洋のイデオロギーからのメディアバイアス、例えば政治的スペクトルの左右などを調べているが、これは中国のメディアには当てはまらない。
先行する語彙バイアスと情報バイアス構造に基づき,中国の視点から精錬し,さらに7つの細粒度ラベルを用いたデータ作成を一歩進めた。
具体的には、まず、新たに設計されたシステムによってアノテートされたcovid-19に関する中国ニュースレポートを含むデータセットを構築し、その後、メディアバイアスを検出するための実質的な実験を行います。
しかし、注釈付きデータの規模は最新のディープラーニング技術には十分ではなく、専門的な知識を必要とするメディアバイアスにおける人間のアノテーションのコストは高すぎる。
そこで我々は,これらの問題を自動的に改善するためのコンテキストエンリッチメント手法について検討する。
data-augmented context enrichment(dace)では、トレーニングデータを拡大し、 search-augmented context enrichment(race)では、情報検索方法を改善して貴重な情報を選択し、バイアスをよりよく理解するためにモデルに統合します。
我々のデータセットと英語データセットBASILの両方で大規模な実験を行った。
その結果,両手法ともにベースラインを上回っており,競合手法の方が効率的であり,可能性も高いことがわかった。
関連論文リスト
- Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - Target-Aware Contextual Political Bias Detection in News [22.396285428304083]
ニュースにおける文レベルの政治的偏見検出は、文脈を考慮した偏見の理解を必要とする課題である。
メディアバイアス検出におけるこれまでの研究は、この事実を利用するための拡張技術を提案した。
本稿では、バイアスに敏感なターゲット認識アプローチを用いて、より注意深くコンテキストを探索する手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T12:25:05Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - Neural Media Bias Detection Using Distant Supervision With BABE -- Bias
Annotations By Experts [24.51774048437496]
本稿ではメディアバイアス研究のための頑健で多様なデータセットであるBABEについて述べる。
トピックとアウトレットの間でバランスが取れた3,700の文で構成されており、単語と文のレベルにメディアバイアスラベルが含まれている。
また,本データに基づいて,ニュース記事中のバイアス文を自動的に検出する手法も導入した。
論文 参考訳(メタデータ) (2022-09-29T05:32:55Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - Towards A Reliable Ground-Truth For Biased Language Detection [3.2202224129197745]
バイアスを検出する既存の方法は、主に機械学習モデルをトレーニングするための注釈付きデータに依存している。
データ収集の選択肢を評価し、2つの人気のあるクラウドソーシングプラットフォームから得られたラベルを比較した。
より詳細なアノテータトレーニングによってデータ品質が向上し、既存のバイアス検出システムの性能が向上する。
論文 参考訳(メタデータ) (2021-12-14T14:13:05Z) - Studying Up Machine Learning Data: Why Talk About Bias When We Mean
Power? [0.0]
我々は、社会的問題を「バイアス」に減らすことは、文脈に基づくデータの性質を損なうと論じている。
MLデータセットを形作るデータワーカーの労働にかかわる企業力と市場衝動に注目します。
論文 参考訳(メタデータ) (2021-09-16T17:38:26Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - Context in Informational Bias Detection [4.386026071380442]
英語ニュース記事における情報バイアスに関する4種類の文脈について検討する。
イベントコンテキストの統合は、非常に強力なベースライン上での分類性能を改善する。
最良性能の文脈包含モデルが長文のベースラインより優れていることが判明した。
論文 参考訳(メタデータ) (2020-12-03T15:50:20Z) - REVISE: A Tool for Measuring and Mitigating Bias in Visual Datasets [64.76453161039973]
REVISE(Revealing VIsual biaSEs)は、視覚的データセットの調査を支援するツールである。
1)オブジェクトベース,(2)個人ベース,(3)地理ベースという3つの次元に沿った潜在的なバイアスを呈示する。
論文 参考訳(メタデータ) (2020-04-16T23:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。