論文の概要: Language-Agnostic Modeling of Source Reliability on Wikipedia
- arxiv url: http://arxiv.org/abs/2410.18803v3
- Date: Tue, 04 Nov 2025 11:00:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:25.849284
- Title: Language-Agnostic Modeling of Source Reliability on Wikipedia
- Title(参考訳): Wikipediaにおける言語に依存しないソース信頼性のモデリング
- Authors: Jacopo D'Ignazi, Andreas Kaltenbrunner, Yelena Mejova, Michele Tizzani, Kyriaki Kalimeri, Mariano Beiró, Pablo Aragón,
- Abstract要約: 本稿では、ウィキペディアの複数の言語版にまたがる参考資料として、Webドメインの信頼性を評価するために設計された言語に依存しないモデルを提案する。
気候変動, COVID-19, 歴史, メディア, 生物学など, さまざまな論争を巻き起こす記事の中で, ドメインの信頼性を評価する。
このモデルはドメインの信頼性を効果的に予測し、F1マクロスコアは英語や他の高リソース言語で約0.80に達する。
- 参考スコア(独自算出の注目度): 1.5604914862414694
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Over the last few years, verifying the credibility of information sources has become a fundamental need to combat disinformation. Here, we present a language-agnostic model designed to assess the reliability of web domains as sources in references across multiple language editions of Wikipedia. Utilizing editing activity data, the model evaluates domain reliability within different articles of varying controversiality, such as Climate Change, COVID-19, History, Media, and Biology topics. Crafting features that express domain usage across articles, the model effectively predicts domain reliability, achieving an F1 Macro score of approximately 0.80 for English and other high-resource languages. For mid-resource languages, we achieve 0.65, while the performance of low-resource languages varies. In all cases, the time the domain remains present in the articles (which we dub as permanence) is one of the most predictive features. We highlight the challenge of maintaining consistent model performance across languages of varying resource levels and demonstrate that adapting models from higher-resource languages can improve performance. We believe these findings can assist Wikipedia editors in their ongoing efforts to verify citations and may offer useful insights for other user-generated content communities.
- Abstract(参考訳): 過去数年間、情報ソースの信頼性を検証することは、偽情報と戦うための基本的な必要性となっている。
本稿では、ウィキペディアの複数言語版にまたがる参考資料として、Webドメインの信頼性を評価するために設計された言語に依存しないモデルを提案する。
編集活動データを利用することで、気候変化、COVID-19、歴史、メディア、生物学といったさまざまな議論の的となっているさまざまな記事の中で、ドメインの信頼性を評価する。
記事間でドメインの使用を表わす機能によって、このモデルはドメインの信頼性を効果的に予測し、F1マクロスコアは英語や他の高リソース言語で約0.80に達する。
ミッドリソース言語では0.65を達成するが、低リソース言語のパフォーマンスは様々である。
いずれにせよ、ドメインが(永続性(permanence)と呼ばれる)記事に残っている時間は、最も予測可能な特徴の1つである。
資源レベルの異なる言語間で一貫したモデル性能を維持するという課題を強調し、高リソース言語からのモデル適応がパフォーマンスを向上させることを実証する。
これらの発見は、ウィキペディアの編集者が引用を検証し、他のユーザー生成コンテンツコミュニティに有用な洞察を提供するのに役立つと信じている。
関連論文リスト
- Whisper-LM: Improving ASR Models with Language Models for Low-Resource Languages [0.43498389175652036]
本研究は、従来の言語モデルと新しい言語モデルと微調整されたWhisperモデルを統合し、あまり一般的でない言語での性能を高める。
我々は、特に低リソースシナリオにおいて、単語エラー率を大幅に改善したことを示す。
統合はすべてのモデルサイズに確実に貢献するが、改善の程度は様々であり、最適化された言語モデルパラメータの重要性を強調している。
論文 参考訳(メタデータ) (2025-03-30T18:03:52Z) - Language-Agnostic Modeling of Wikipedia Articles for Content Quality Assessment across Languages [0.19698344608599344]
ウィキペディアの記事の品質をモデル化するための新しい計算フレームワークを提案する。
本フレームワークは,論文から抽出した言語に依存しない構造的特徴に基づく。
既存のウィキペディアの言語バージョンにあるすべての記事の特徴値と品質スコアでデータセットを構築しました。
論文 参考訳(メタデータ) (2024-04-15T13:07:31Z) - Cross-lingual Transfer Learning for Javanese Dependency Parsing [0.20537467311538835]
本研究は,ジャワ語における係り受け解析の強化における伝達学習の有効性を評価することに焦点を当てた。
Javaneseを含む100以上の言語からの依存性ツリーバンクからなるUniversal Dependenciesデータセットを利用する。
論文 参考訳(メタデータ) (2024-01-22T16:13:45Z) - GlotLID: Language Identification for Low-Resource Languages [51.38634652914054]
GlotLID-M は広い範囲、信頼性、効率性のデシラタを満たす LID モデルである。
1665の言語を識別し、以前の作業に比べてカバー範囲が大幅に増加した。
論文 参考訳(メタデータ) (2023-10-24T23:45:57Z) - A Comparative Study of Reference Reliability in Multiple Language
Editions of Wikipedia [12.919146538916353]
本研究は,複数言語版における参照の信頼性を評価するために,500万以上のウィキペディア記事について検討する。
ある言語(すなわち英語)では信頼できないとされる文献は、他の言語では記事に現れ続けている。
ページの英語版に見られる権威のない情報源は、そのページの他の言語バージョンで持続する傾向がある。
論文 参考訳(メタデータ) (2023-09-01T01:19:59Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - Considerations for Multilingual Wikipedia Research [1.5736899098702972]
ウィキペディアの非英語版は、データセットやモデルにさらに多くの言語版が組み込まれている。
本論文は,ウィキペディアの異なる言語版間でどのような違いが生じるのか,研究者が理解するための背景を提供することを目的とする。
論文 参考訳(メタデータ) (2022-04-05T20:34:15Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Learning to Learn Morphological Inflection for Resource-Poor Languages [105.11499402984482]
本稿では,メタラーニング問題として資源不足言語に対する形態的インフレクション(補題を表象形にマッピングする)の課題を提案する。
それぞれの言語を個別のタスクとして扱うことで、高速ソース言語からのデータを使ってモデルパラメータの集合を学習する。
3つのファミリーから29のターゲット言語を対象とする2つのモデルアーキテクチャの実験により、提案手法がすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2020-04-28T05:13:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。