論文の概要: Don't Erase, Inform! Detecting and Contextualizing Harmful Language in Cultural Heritage Collections
- arxiv url: http://arxiv.org/abs/2505.24538v1
- Date: Fri, 30 May 2025 12:44:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.953168
- Title: Don't Erase, Inform! Detecting and Contextualizing Harmful Language in Cultural Heritage Collections
- Title(参考訳): 文化遺産コレクションにおける有害言語の検出と文脈化
- Authors: Orfeas Menis Mastromichalakis, Jason Liartis, Kristina Rose, Antoine Isaac, Giorgos Stamou,
- Abstract要約: 我々は,文化遺産(CH)メタデータにおける攻撃的用語を検出するAIツールを開発した。
我々は、コミュニティ、研究者、およびCH専門家と共同で作られた多言語語彙を活用している。
このツールは790万以上のレコードを処理し、メタデータで検出された競合する用語をコンテキスト化している。
- 参考スコア(独自算出の注目度): 1.9939549451457024
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Cultural Heritage (CH) data hold invaluable knowledge, reflecting the history, traditions, and identities of societies, and shaping our understanding of the past and present. However, many CH collections contain outdated or offensive descriptions that reflect historical biases. CH Institutions (CHIs) face significant challenges in curating these data due to the vast scale and complexity of the task. To address this, we develop an AI-powered tool that detects offensive terms in CH metadata and provides contextual insights into their historical background and contemporary perception. We leverage a multilingual vocabulary co-created with marginalized communities, researchers, and CH professionals, along with traditional NLP techniques and Large Language Models (LLMs). Available as a standalone web app and integrated with major CH platforms, the tool has processed over 7.9 million records, contextualizing the contentious terms detected in their metadata. Rather than erasing these terms, our approach seeks to inform, making biases visible and providing actionable insights for creating more inclusive and accessible CH collections.
- Abstract(参考訳): 文化遺産(CH)データは、社会の歴史、伝統、アイデンティティを反映し、過去と現在についての私たちの理解を形作る貴重な知識を持っている。
しかし、多くのCHコレクションには、歴史的な偏見を反映した時代遅れまたは攻撃的な記述が含まれている。
CHインスティチューション(CHI)は、タスクの膨大な規模と複雑さのために、これらのデータをキュレートする上で大きな課題に直面します。
そこで我々は,CHメタデータにおける攻撃的用語を検出し,その歴史的背景と現代的認識に関する文脈的洞察を提供するAIを活用したツールを開発した。
我々は、従来のNLP技術やLLM(Large Language Models)とともに、コミュニティ、研究者、CH専門家と共同で作られた多言語語彙を活用している。
スタンドアロンのWebアプリとして利用可能で、主要なCHプラットフォームと統合されている。このツールは790万以上のレコードを処理し、メタデータで検出された競合する用語をコンテキスト化している。
これらの用語を消去するのではなく、私たちのアプローチは情報を提供し、バイアスを可視化し、より包括的でアクセスしやすいCHコレクションを作成するための実用的な洞察を提供する。
関連論文リスト
- Time Travel: A Comprehensive Benchmark to Evaluate LMMs on Historical and Cultural Artifacts [65.90535970515266]
TimeTravelは、10つの主要な歴史的地域にわたる266の異なる文化にまたがる10,250のエキスパート認定サンプルのベンチマークである。
TimeTravelは、原稿、アートワーク、碑文、考古学的発見のAIによる分析のために設計されている。
我々は、TimeTravelで現代のAIモデルを評価し、その強みを強調し、改善すべき領域を特定する。
論文 参考訳(メタデータ) (2025-02-20T18:59:51Z) - Building Better: Avoiding Pitfalls in Developing Language Resources when Data is Scarce [27.918975040084387]
厳密なデータ収集とラベル付けは、より人間中心で社会的に意識された技術を開発するために不可欠である。
我々は,中・低リソース言語に対するNLPアーティファクトに直接かかわる個人からのフィードバックを収集する。
論文 参考訳(メタデータ) (2024-10-16T15:51:18Z) - Cross-Lingual Multi-Hop Knowledge Editing [53.028586843468915]
言語横断的な設定で様々なSoTA知識編集技術の性能を計測・解析するための多言語多言語知識編集パラダイムを提案する。
具体的には、知識編集能力を測定するために並列言語間ベンチマーク CROLIN-MQUAKE を作成します。
次に,言語間マルチホップ知識編集システムであるCLEVER-CKEを提案する。
論文 参考訳(メタデータ) (2024-07-14T17:18:16Z) - Puzzle Pieces Picker: Deciphering Ancient Chinese Characters with Radical Reconstruction [73.26364649572237]
Oracle Bone Inscriptionsは、世界で最も古い書式である。
多くのOracle Bone Inscriptions (OBI) は未解読のままであり、今日の古生物学におけるグローバルな課題の1つとなっている。
本稿では, 急進的再構成によってこれらの謎的文字を解読する新しい手法, Puzzle Pieces Picker (P$3$) を提案する。
論文 参考訳(メタデータ) (2024-06-05T07:34:39Z) - CIVICS: Building a Dataset for Examining Culturally-Informed Values in Large Language Models [59.22460740026037]
大規模言語モデル(LLM)の社会的・文化的変動を評価するためのデータセット「CIVICS:文化インフォームド・バリュース・インクルーシブ・コーパス・フォー・ソシエティ・インパクト」
我々は、LGBTQIの権利、社会福祉、移民、障害権利、代理など、特定の社会的に敏感なトピックに対処する、手作りの多言語プロンプトのデータセットを作成します。
論文 参考訳(メタデータ) (2024-05-22T20:19:10Z) - Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z) - Restoring and Mining the Records of the Joseon Dynasty via Neural
Language Modeling and Machine Translation [20.497110880878544]
本論文では,自己保持機構に基づく履歴文書の復元と翻訳のためのマルチタスク学習手法を提案する。
提案手法は,マルチタスク学習を使わずに,翻訳作業の精度をベースラインよりも大幅に向上させる。
論文 参考訳(メタデータ) (2021-04-13T06:40:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。