論文の概要: How Contentious Terms About People and Cultures are Used in Linked Open
Data
- arxiv url: http://arxiv.org/abs/2311.10757v1
- Date: Mon, 13 Nov 2023 18:25:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 00:49:17.990469
- Title: How Contentious Terms About People and Cultures are Used in Linked Open
Data
- Title(参考訳): 人と文化に関する議論的用語がlinked open dataでどのように使われるか
- Authors: Andrei Nesterov (1), Laura Hollink (1), Jacco van Ossenbruggen (2)
((1) Centrum Wiskunde & Informatica, (2) VU University Amsterdam)
- Abstract要約: 時代遅れで文化的にステレオタイピングの用語がリテラルで使われる場合、インターフェースのユーザに対して攻撃的として現れ、その上で訓練されたアルゴリズムにステレオタイプを伝達する可能性がある。
リンクオープンデータ(LOD)における人や文化に関する論争的な用語の頻度と頻度について検討する。
Wikidata, The Getty Art & Architecture Thesaurus, Princeton WordNet, Open Dutch WordNetの4つの広く使用されているデータセットで,これらの用語の発生について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Web resources in linked open data (LOD) are comprehensible to humans through
literal textual values attached to them, such as labels, notes, or comments.
Word choices in literals may not always be neutral. When outdated and
culturally stereotyping terminology is used in literals, they may appear as
offensive to users in interfaces and propagate stereotypes to algorithms
trained on them. We study how frequently and in which literals contentious
terms about people and cultures occur in LOD and whether there are attempts to
mark the usage of such terms. For our analysis, we reuse English and Dutch
terms from a knowledge graph that provides opinions of experts from the
cultural heritage domain about terms' contentiousness. We inspect occurrences
of these terms in four widely used datasets: Wikidata, The Getty Art &
Architecture Thesaurus, Princeton WordNet, and Open Dutch WordNet. Some terms
are ambiguous and contentious only in particular senses. Applying word sense
disambiguation, we generate a set of literals relevant to our analysis. We
found that outdated, derogatory, stereotyping terms frequently appear in
descriptive and labelling literals, such as preferred labels that are usually
displayed in interfaces and used for indexing. In some cases, LOD contributors
mark contentious terms with words and phrases in literals (implicit markers) or
properties linked to resources (explicit markers). However, such marking is
rare and non-consistent in all datasets. Our quantitative and qualitative
insights could be helpful in developing more systematic approaches to address
the propagation of stereotypes via LOD.
- Abstract(参考訳): リンクされたオープンデータ(LOD)内のWebリソースは、ラベル、ノート、コメントなどのリテラルテキストの値によって人間にとって理解しやすい。
リテラルにおける単語の選択は常に中立であるとは限らない。
時代遅れで文化的にステレオタイプされた用語がリテラルで使われる場合、インターフェイスのユーザに対して攻撃的に見える可能性があり、ステレオタイプを訓練されたアルゴリズムに伝達する。
我々は,LODにおける人や文化に関する論争的な用語の頻度と,その使用法を示す試みがあるかどうかを検討する。
分析では,英語とオランダ語の用語を知識グラフから再利用し,用語の論争性について文化遺産分野の専門家の意見を提供する。
Wikidata, The Getty Art & Architecture Thesaurus, Princeton WordNet, Open Dutch WordNetの4つの広く使用されているデータセットで,これらの用語の発生について検討する。
いくつかの用語は、特定の意味でのみ曖昧で論争的である。
単語感覚の曖昧さを応用して、分析に関連するリテラルの集合を生成する。
古き良き定型的、ステレオタイプ的用語は記述的およびラベル付けリテラルに頻繁に出現し、例えば、通常インターフェースで表示され、インデックス化に使用される好ましいラベルが現れることが判明した。
場合によっては、lodのコントリビュータはリテラル(簡単なマーカー)やリソースに関連付けられたプロパティ(説明マーカー)で、単語やフレーズで議論の的となる用語をマークする。
しかし、このようなマーキングはすべてのデータセットにおいて稀で一貫性がない。
我々の量的および質的な洞察は、LODを介してステレオタイプの伝播に対処するより体系的なアプローチを開発するのに役立つかもしれない。
関連論文リスト
- Situated Ground Truths: Enhancing Bias-Aware AI by Situating Data Labels with SituAnnotate [0.1843404256219181]
SituAnnotateは構造化およびコンテキスト対応データアノテーションに対する新しいオントロジーベースのアプローチである。
コンテキストや文化的な状況において、AIシステムのトレーニングに使用される真理データを固定することを目的としている。
ラベルベースのデータセットを作成し、クエリし、比較する方法として、SituAnnotateは、ダウンストリームAIシステムに、コンテキストと文化バイアスを明確に考慮したトレーニングを実施する権限を与える。
論文 参考訳(メタデータ) (2024-06-10T09:33:13Z) - Interpretable Word Sense Representations via Definition Generation: The
Case of Semantic Change Analysis [3.515619810213763]
本稿では,文脈化された単語の用法を解釈可能な単語と単語感覚表現として自動生成する自然言語定義を提案する。
得られた感覚ラベルが、意味変化分析に既存のアプローチをより解釈可能なものにする方法を実証する。
論文 参考訳(メタデータ) (2023-05-19T20:36:21Z) - ezCoref: Towards Unifying Annotation Guidelines for Coreference
Resolution [28.878540389202367]
クラウドソーシングに優しいコア参照アノテーション方法論であるezCorefを,アノテーションツールと対話型チュートリアルで構築する。
ezCorefを使用して、既存の7つの英語コアデータセット(フィクション、ニュース、その他複数のドメイン)から240のパスを再注釈し、これらのデータセットで同じように扱われるケースのみをアノテータに教えます。
驚くべきことに、十分な品質のアノテーションはすでに達成可能であり(群衆と専門家のアノテーションの間では>90%の合意)、広範囲のトレーニングがなくても使えます。
論文 参考訳(メタデータ) (2022-10-13T17:09:59Z) - Latent Topology Induction for Understanding Contextualized
Representations [84.7918739062235]
本研究では,文脈的埋め込みの表現空間について検討し,大規模言語モデルの隠れトポロジについて考察する。
文脈化表現の言語特性を要約した潜在状態のネットワークが存在することを示す。
論文 参考訳(メタデータ) (2022-06-03T11:22:48Z) - The Curious Layperson: Fine-Grained Image Recognition without Expert
Labels [90.88501867321573]
我々は、専門家のアノテーションを使わずに、きめ細かい画像認識という新しい問題を考える。
非専門的な画像記述を用いてオブジェクトの視覚的外観を記述するモデルを学ぶ。
次に、画像記述と文書とを文レベルでマッチングする、きめ細かいテキスト類似性モデルを訓練する。
論文 参考訳(メタデータ) (2021-11-05T17:58:37Z) - UCPhrase: Unsupervised Context-aware Quality Phrase Tagging [63.86606855524567]
UCPhraseは、教師なしの文脈対応のフレーズタグである。
我々は,一貫した単語列から,高品質なフレーズを銀のラベルとして表現する。
我々の設計は、最先端の事前訓練、教師なし、遠隔管理の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-28T19:44:24Z) - Do Context-Aware Translation Models Pay the Right Attention? [61.25804242929533]
コンテキスト対応機械翻訳モデルは文脈情報を活用するように設計されているが、しばしば失敗する。
本稿では,人間の翻訳者が曖昧な単語を解くために使用する文脈について述べる。
SCAT(Supporting Context for Ambiguous Translations)は、14K翻訳のコンテキストワードをサポートする新しい英仏データセットです。
SCATを用いて,支援語の位置的特徴と語彙的特徴をあいまいにするために使用される文脈を詳細に分析する。
論文 参考訳(メタデータ) (2021-05-14T17:32:24Z) - Measuring and Increasing Context Usage in Context-Aware Machine
Translation [64.5726087590283]
機械翻訳モデルによるコンテキストの使用を定量的にするために、新しいメトリクス、条件付き相互情報を導入します。
次に,コンテキスト認識モデルによってコンテキストの使用量を増やすために,コンテキスト認識ワードドロップアウトという,新しい簡易なトレーニング手法を導入する。
論文 参考訳(メタデータ) (2021-05-07T19:55:35Z) - Domain-Specific Lexical Grounding in Noisy Visual-Textual Documents [17.672677325827454]
画像は単語の文脈的意味に関する洞察を与えることができるが、現在の画像テキストの基盤化アプローチでは詳細なアノテーションが必要である。
本稿では,オブジェクト検出や画像タグ付けのベースラインを越えた精度の向上とリコールを実現する,単純なクラスタリングに基づくクラスタリング手法を提案する。
提案手法は, 単語の局所的文脈意味に対して特に有効である。例えば, 不動産データセットのカウンタートップと, ウィキペディアデータセットの岩の多いランドスケープとを関連付ける。
論文 参考訳(メタデータ) (2020-10-30T16:39:49Z) - Speakers Fill Lexical Semantic Gaps with Context [65.08205006886591]
我々は単語の語彙的あいまいさを意味のエントロピーとして運用する。
単語のあいまいさの推定値と,WordNetにおける単語の同義語数との間には,有意な相関関係が認められた。
これは、あいまいさの存在下では、話者が文脈をより情報的にすることで補うことを示唆している。
論文 参考訳(メタデータ) (2020-10-05T17:19:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。