論文の概要: Author Unknown: Evaluating Performance of Author Extraction Libraries on Global Online News Articles
- arxiv url: http://arxiv.org/abs/2410.19771v1
- Date: Sun, 13 Oct 2024 20:19:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-03 08:19:33.173759
- Title: Author Unknown: Evaluating Performance of Author Extraction Libraries on Global Online News Articles
- Title(参考訳): 著者不明:グローバルオンラインニュース記事における著者抽出ライブラリのパフォーマンス評価
- Authors: Sriharsha Hatwar, Virginia Partridge, Rahul Bhargava, Fernando Bermejo,
- Abstract要約: オンラインニュース記事の著者の言語間データセットを手作業で作成する。
既存の5つのソフトウェアパッケージと1つのカスタマイズされたモデルの性能を評価するために使用します。
Go-readabilityとTrafilaturaは著者抽出の最も一貫性のあるソリューションであるが、すべてのパッケージが言語間で非常に可変な結果を生成する。
- 参考スコア(独自算出の注目度): 41.97931444618385
- License:
- Abstract: Analysis of large corpora of online news content requires robust validation of underlying metadata extraction methodologies. Identifying the author of a given web-based news article is one example that enables various types of research questions. While numerous solutions for off-the-shelf author extraction exist, there is little work comparing performance (especially in multilingual settings). In this paper we present a manually coded cross-lingual dataset of authors of online news articles and use it to evaluate the performance of five existing software packages and one customized model. Our evaluation shows evidence for Go-readability and Trafilatura as the most consistent solutions for author extraction, but we find all packages produce highly variable results across languages. These findings are relevant for researchers wishing to utilize author data in their analysis pipelines, primarily indicating that further validation for specific languages and geographies is required to rely on results.
- Abstract(参考訳): オンラインニュースコンテンツの大規模なコーパスの分析には,メタデータ抽出手法の堅牢な検証が必要である。
あるWebベースのニュース記事の著者を特定することは、様々な種類の研究質問を可能にする一例である。
オフザシェルフな著者抽出のためのソリューションは数多く存在するが、性能を比較する作業はほとんどない(特に多言語設定では)。
本稿では,オンラインニュース記事の著者の言語間データセットを手作業で作成し,既存の5つのソフトウェアパッケージと1つのカスタマイズモデルの性能を評価する。
本稿では,Go-readability と Trafilatura が著者抽出の最も一貫性のあるソリューションであることを示す。
これらの知見は、著者データを分析パイプラインで利用したい研究者にとって、主に、特定の言語や地理のさらなる検証が結果に依存する必要があることを示唆している。
関連論文リスト
- Improving embedding with contrastive fine-tuning on small datasets with expert-augmented scores [12.86467344792873]
提案手法では,専門的なスコアから派生したソフトラベルをファインチューン埋め込みモデルに適用する。
オンラインショッピングサイトと8つのエキスパートモデルからQ&Aデータセットを用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2024-08-19T01:59:25Z) - Leveraging Large Language Models for Mobile App Review Feature Extraction [4.879919005707447]
本研究では,エンコーダのみの大規模言語モデルがモバイルアプリレビューから特徴抽出を促進できるという仮説を考察する。
クラウドソーシングされたアノテーションを産業的文脈から活用することにより、特徴抽出を教師付きトークン分類タスクとして再定義する。
実験により,抽出した特徴の精度とリコールが向上し,性能効率が向上することが確認された。
論文 参考訳(メタデータ) (2024-08-02T07:31:57Z) - POLygraph: Polish Fake News Dataset [0.37698262166557467]
本稿では,ポーランドにおける偽ニュース検出のためのユニークなリソースであるPOLygraphデータセットを提案する。
データセットは、11,360対のニュース記事(URLで特定)と対応するラベルを持つ「フェイク・オア・ノット」データセットと、5,082のニュース記事(URLで特定)とコメントするツイートを含む「フェイク・テア・セイ」データセットの2つの部分で構成されている。
このプロジェクトはまた、高度な機械学習技術を使ってデータを分析し、コンテンツの信頼性を判断するソフトウェアツールも開発した。
論文 参考訳(メタデータ) (2024-07-01T15:45:21Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - Leveraging Contextual Information for Effective Entity Salience Detection [21.30389576465761]
クロスエンコーダアーキテクチャを用いた中規模言語モデルの微調整により,機能工学的アプローチよりも優れた性能が得られることを示す。
また、命令調整言語モデルのゼロショットプロンプトは、タスクの特異性と複雑さを示す劣った結果をもたらすことを示す。
論文 参考訳(メタデータ) (2023-09-14T19:04:40Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - ORB: An Open Reading Benchmark for Comprehensive Evaluation of Machine
Reading Comprehension [53.037401638264235]
我々は,7種類の読解データセットの性能を報告する評価サーバORBを提案する。
評価サーバは、モデルのトレーニング方法に制限を課さないため、トレーニングパラダイムや表現学習の探索に適したテストベッドである。
論文 参考訳(メタデータ) (2019-12-29T07:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。