論文の概要: Language-Agnostic Modeling of Source Reliability on Wikipedia
- arxiv url: http://arxiv.org/abs/2410.18803v1
- Date: Thu, 24 Oct 2024 14:52:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 12:48:57.292307
- Title: Language-Agnostic Modeling of Source Reliability on Wikipedia
- Title(参考訳): Wikipediaにおける言語に依存しないソース信頼性のモデリング
- Authors: Jacopo D'Ignazi, Andreas Kaltenbrunner, Yelena Mejova, Michele Tizzani, Kyriaki Kalimeri, Mariano Beiró, Pablo Aragón,
- Abstract要約: 本稿では,ウィキペディアの複数の言語版にまたがる情報源の信頼性を評価するために,言語に依存しないモデルを提案する。
このモデルはソースの信頼性を効果的に予測し、英語のF1マクロスコアは約0.80に達する。
さまざまなリソースレベルの言語で一貫性のあるモデルパフォーマンスを維持するという課題を強調します。
- 参考スコア(独自算出の注目度): 2.6474867060112346
- License:
- Abstract: Over the last few years, content verification through reliable sources has become a fundamental need to combat disinformation. Here, we present a language-agnostic model designed to assess the reliability of sources across multiple language editions of Wikipedia. Utilizing editorial activity data, the model evaluates source reliability within different articles of varying controversiality such as Climate Change, COVID-19, History, Media, and Biology topics. Crafting features that express domain usage across articles, the model effectively predicts source reliability, achieving an F1 Macro score of approximately 0.80 for English and other high-resource languages. For mid-resource languages, we achieve 0.65 while the performance of low-resource languages varies; in all cases, the time the domain remains present in the articles (which we dub as permanence) is one of the most predictive features. We highlight the challenge of maintaining consistent model performance across languages of varying resource levels and demonstrate that adapting models from higher-resource languages can improve performance. This work contributes not only to Wikipedia's efforts in ensuring content verifiability but in ensuring reliability across diverse user-generated content in various language communities.
- Abstract(参考訳): ここ数年、信頼できる情報源によるコンテンツ検証は、偽情報と戦うための基本的な必要性となっている。
本稿では,ウィキペディアの複数の言語版にまたがる情報源の信頼性を評価するために,言語に依存しないモデルを提案する。
このモデルは、編集活動データを利用して、気候変動、COVID-19、歴史、メディア、生物学といった様々な議論の的となっているさまざまな記事のソース信頼性を評価する。
記事間でドメインの使用を表現できる機能を備えており、F1マクロスコアが英語や他の高ソース言語で約0.80に達することにより、ソースの信頼性を効果的に予測する。
あらゆるケースにおいて、ドメインが(永続性(permanence)と推測する)記事に残っている時間は、最も予測可能な特徴の1つです。
リソースレベルの異なる言語間で一貫したモデル性能を維持するという課題を強調し、高リソース言語からのモデル適応がパフォーマンスを向上させることを実証する。
この研究は、ウィキペディアのコンテンツ検証可能性の確保だけでなく、様々な言語コミュニティにおける多様なユーザー生成コンテンツの信頼性確保にも貢献している。
関連論文リスト
- Language-Agnostic Modeling of Wikipedia Articles for Content Quality Assessment across Languages [0.19698344608599344]
ウィキペディアの記事の品質をモデル化するための新しい計算フレームワークを提案する。
本フレームワークは,論文から抽出した言語に依存しない構造的特徴に基づく。
既存のウィキペディアの言語バージョンにあるすべての記事の特徴値と品質スコアでデータセットを構築しました。
論文 参考訳(メタデータ) (2024-04-15T13:07:31Z) - Cross-lingual Transfer Learning for Javanese Dependency Parsing [0.20537467311538835]
本研究は,ジャワ語における係り受け解析の強化における伝達学習の有効性を評価することに焦点を当てた。
Javaneseを含む100以上の言語からの依存性ツリーバンクからなるUniversal Dependenciesデータセットを利用する。
論文 参考訳(メタデータ) (2024-01-22T16:13:45Z) - GlotLID: Language Identification for Low-Resource Languages [51.38634652914054]
GlotLID-M は広い範囲、信頼性、効率性のデシラタを満たす LID モデルである。
1665の言語を識別し、以前の作業に比べてカバー範囲が大幅に増加した。
論文 参考訳(メタデータ) (2023-10-24T23:45:57Z) - A Comparative Study of Reference Reliability in Multiple Language
Editions of Wikipedia [12.919146538916353]
本研究は,複数言語版における参照の信頼性を評価するために,500万以上のウィキペディア記事について検討する。
ある言語(すなわち英語)では信頼できないとされる文献は、他の言語では記事に現れ続けている。
ページの英語版に見られる権威のない情報源は、そのページの他の言語バージョンで持続する傾向がある。
論文 参考訳(メタデータ) (2023-09-01T01:19:59Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - Considerations for Multilingual Wikipedia Research [1.5736899098702972]
ウィキペディアの非英語版は、データセットやモデルにさらに多くの言語版が組み込まれている。
本論文は,ウィキペディアの異なる言語版間でどのような違いが生じるのか,研究者が理解するための背景を提供することを目的とする。
論文 参考訳(メタデータ) (2022-04-05T20:34:15Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Learning to Learn Morphological Inflection for Resource-Poor Languages [105.11499402984482]
本稿では,メタラーニング問題として資源不足言語に対する形態的インフレクション(補題を表象形にマッピングする)の課題を提案する。
それぞれの言語を個別のタスクとして扱うことで、高速ソース言語からのデータを使ってモデルパラメータの集合を学習する。
3つのファミリーから29のターゲット言語を対象とする2つのモデルアーキテクチャの実験により、提案手法がすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2020-04-28T05:13:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。