論文の概要: Censorship of Online Encyclopedias: Implications for NLP Models
- arxiv url: http://arxiv.org/abs/2101.09294v1
- Date: Fri, 22 Jan 2021 19:09:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-20 20:54:48.470311
- Title: Censorship of Online Encyclopedias: Implications for NLP Models
- Title(参考訳): オンライン百科事典の検閲:NLPモデルへの示唆
- Authors: Eddie Yang, Margaret E. Roberts
- Abstract要約: 政府による抑圧、検閲、および自己検閲が、トレーニングデータおよびそれらから引き出すアプリケーションに与える影響を示す。
オンライン中国語百科事典であるBaidu Baikeでトレーニングされた単語埋め込みは、形容詞とさまざまな概念の間に非常に異なる関係があることを示します。
本論文では, 政府の抑圧, 検閲, 自己検閲が, トレーニングデータやそれらの応用にどのように影響するかを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While artificial intelligence provides the backbone for many tools people use
around the world, recent work has brought to attention that the algorithms
powering AI are not free of politics, stereotypes, and bias. While most work in
this area has focused on the ways in which AI can exacerbate existing
inequalities and discrimination, very little work has studied how governments
actively shape training data. We describe how censorship has affected the
development of Wikipedia corpuses, text data which are regularly used for
pre-trained inputs into NLP algorithms. We show that word embeddings trained on
Baidu Baike, an online Chinese encyclopedia, have very different associations
between adjectives and a range of concepts about democracy, freedom, collective
action, equality, and people and historical events in China than its regularly
blocked but uncensored counterpart - Chinese language Wikipedia. We examine the
implications of these discrepancies by studying their use in downstream AI
applications. Our paper shows how government repression, censorship, and
self-censorship may impact training data and the applications that draw from
them.
- Abstract(参考訳): 人工知能は、世界中の人々が使っている多くのツールのバックボーンを提供するが、最近の研究は、AIを動かすアルゴリズムには政治、ステレオタイプ、バイアスがないことに注意を向けている。
この分野のほとんどの研究は、AIが既存の不平等と差別を悪化させる方法に焦点を当ててきたが、政府がトレーニングデータを積極的に形成する方法を研究する研究はほとんどない。
検閲がウィキペディアコーパス(NLPアルゴリズムへの事前学習入力に定期的に使用されるテキストデータ)の開発にどのように影響したかを述べる。
百度百科事典(百度百科事典)でトレーニングされた単語埋め込みは、通常ブロックされているが検閲されていない中国語ウィキペディアとは大きく異なる形容詞と、民主主義、自由、集団行動、平等、そして中国の歴史的出来事に関する様々な概念の関連があることを示している。
本稿では、下流AIアプリケーションにおけるそれらの利用について研究することによって、これらの不一致の影響について検討する。
本稿は、政府による抑圧、検閲、および自己検閲が、トレーニングデータおよびそれらから引き出すアプリケーションにどのように影響するかを示す。
関連論文リスト
- Comparing diversity, negativity, and stereotypes in Chinese-language AI technologies: a case study on Baidu, Ernie and Qwen [1.3354439722832292]
我々は、中国の主要検索エンジンBaiduに埋め込まれた社会的偏見を調査し、中国ベースのツールを調査した。
上記のツールにエンコードされた30万以上のビューを,そのようなグループを記述した候補語に誘導することで収集する。
言語モデルは検索エンジンに比べて多種多様な組込みビューを示すが、BaiduとQwenはErnieよりもネガティブなコンテンツを生成することが多い。
論文 参考訳(メタデータ) (2024-08-28T10:51:18Z) - Algorithmically Curated Lies: How Search Engines Handle Misinformation
about US Biolabs in Ukraine [39.58317527488534]
2022年6月、Google、Bing、Yandexの検索出力の仮想エージェントベースのアルゴリズム監査を行う。
検索の言語に基づく誤情報暴露では,すべての検索エンジンがロシア語で偽ニュースを多く提示するなど,大きな相違がみられた。
これらの観察は、AICSが操作に脆弱である可能性、特に展開するプロパガンダキャンペーンの場合を強調している。
論文 参考訳(メタデータ) (2024-01-24T22:15:38Z) - National Origin Discrimination in Deep-learning-powered Automated Resume
Screening [3.251347385432286]
多くの企業や組織は、採用プロセスを支援するために、ある種のAI対応のオートマットツールを使い始めています。
AIシステムの根底にあるバイアスによって、候補者に対する不公平な扱いが懸念されている。
本研究では,近年の技術革新である深層学習手法について検討し,自動再開検診への応用に焦点をあてた。
論文 参考訳(メタデータ) (2023-07-13T01:35:29Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - Harnessing the Power of Text-image Contrastive Models for Automatic
Detection of Online Misinformation [50.46219766161111]
誤情報識別の領域における構成的学習を探求する自己学習モデルを構築した。
本モデルでは、トレーニングデータが不十分な場合、非マッチング画像-テキストペア検出の優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-19T02:53:59Z) - Faking Fake News for Real Fake News Detection: Propaganda-loaded
Training Data Generation [105.20743048379387]
提案手法は,人間によるプロパガンダのスタイルや戦略から情報を得た学習例を生成するための新しいフレームワークである。
具体的には、生成した記事の有効性を確保するために、自然言語推論によって導かれる自己臨界シーケンストレーニングを行う。
実験の結果、PropaNewsでトレーニングされた偽ニュース検知器は、2つの公開データセットで3.62~7.69%のF1スコアで人書きの偽情報を検出するのに優れていることがわかった。
論文 参考訳(メタデータ) (2022-03-10T14:24:19Z) - Dataset of Propaganda Techniques of the State-Sponsored Information
Operation of the People's Republic of China [0.0]
本研究の目的は,Twitterが提供する状態支援情報操作データセットに基づいて,マンダリンに多ラベルプロパガンダ技術データセットを提供することにより,情報ギャップを埋めることである。
データセットの提示に加えて、細調整されたBERTを用いて複数ラベルのテキスト分類を適用する。
論文 参考訳(メタデータ) (2021-06-14T16:11:13Z) - Cross-Domain Learning for Classifying Propaganda in Online Contents [67.10699378370752]
本稿では,ラベル付き文書や,ニュースやつぶやきからの文をベースとしたクロスドメイン学習の手法を提案する。
本実験は,本手法の有効性を実証し,移動過程におけるソースやターゲットの様々な構成における困難さと限界を同定する。
論文 参考訳(メタデータ) (2020-11-13T10:19:13Z) - FairCVtest Demo: Understanding Bias in Multimodal Learning with a
Testbed in Fair Automatic Recruitment [79.23531577235887]
このデモは、非構造化データから機密情報を抽出する採用ツールの背後にある人工知能(AI)の能力を示しています。
また、このデモには差別認識学習のための新しいアルゴリズムが含まれており、マルチモーダルAIフレームワークの機密情報を排除している。
論文 参考訳(メタデータ) (2020-09-12T17:45:09Z) - Bias in Multimodal AI: Testbed for Fair Automatic Recruitment [73.85525896663371]
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
我々は、性別や人種の偏りを意識的に評価したマルチモーダルな合成プロファイルを用いて、自動求人アルゴリズムを訓練する。
我々の方法論と結果は、一般により公平なAIベースのツール、特により公平な自動採用システムを生成する方法を示している。
論文 参考訳(メタデータ) (2020-04-15T15:58:05Z) - Explaining the Relationship between Internet and Democracy in Partly
Free Countries Using Machine Learning Models [0.0]
この研究は、一部自由国におけるインターネットの民主化への影響に新たな光を当てている。
インターネットの浸透とオンライン検閲はどちらも民主主義のスコアに悪影響を及ぼしている。
オンライン検閲は最も重要な変数であり、その後は統治指標と民主主義の得点に関する教育が続く。
論文 参考訳(メタデータ) (2020-04-11T02:26:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。