論文の概要: Sorting the Babble in Babel: Assessing the Performance of Language Detection Algorithms on the OpenAlex Database
- arxiv url: http://arxiv.org/abs/2502.03627v1
- Date: Wed, 05 Feb 2025 21:29:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:33:09.288633
- Title: Sorting the Babble in Babel: Assessing the Performance of Language Detection Algorithms on the OpenAlex Database
- Title(参考訳): Babelにおけるバブルのソーティング:OpenAlexデータベースにおける言語検出アルゴリズムの性能評価
- Authors: Maxime Holmberg Sainte-Marie, Diego Kozlowski, Lucía Céspedes, Vincent Larivière,
- Abstract要約: 本稿では,自動言語検出アルゴリズムに基づく各種言語分類手法の設計,使用,評価に焦点をあてる。
データベースの各主要言語に対するこれらの異なるプロシージャのパフォーマンスを、精度、リコール、処理時間の観点から評価する。
これらの結果は, 言語横断的, ビブリオメトリックスに基づく研究・分析のためのOpenAlexデータベースの非並列的可能性の確認と育成に有効であることが期待されている。
- 参考スコア(独自算出の注目度): 1.0124625066746598
- License:
- Abstract: Following a recent study on the quality of OpenAlex linguistic metadata (C\'espedes et al., 2025), the present paper aims to optimize the latter through the design, use, and evaluation of various linguistic classification procedures based on the latest and most efficient automatic language detection algorithms. Starting from a multilingual set of manually-annotated samples of articles indexed in the database, different classification procedures are then designed, based on the application of a set of language detection algorithms on a series of corpora generated from different combinations of textual metadata of indexed articles. At sample level first, the performance of these different procedures for each of the main languages in the database is evaluated in terms of precision, recall, and processing time. Then, overall procedure performance is estimated at the database level by means of a probabilistic simulation of harmonically aggregated and weighted scores. Results show that procedure performance strongly depends on the importance given to each of the measures implemented: for contexts where precision is preferred, using the LangID algorithm on article titles, abstracts as well as journal names gives the best results; however, for all cases where recall is considered at least slightly more important than precision or as soon as processing times are given any kind of consideration, use of the FastSpell algorithm on article titles only outperforms all other alternatives. Given the lack of truly multilingual, large-scale bibliographic databases, it is hoped that these results help confirm and foster the unparalleled potential of the OpenAlex database for cross-linguistic, bibliometric-based research and analysis.
- Abstract(参考訳): 本論文は,OpenAlex言語メタデータ(C\'espedes et al , 2025)の品質に関する最近の研究に続いて,最新かつ効率的な自動言語検出アルゴリズムに基づく各種言語分類手法の設計,使用,評価を通じて,後者を最適化することを目的とする。
データベースにインデックス付けされた記事の多言語的なサンプルから始め、インデックス付けされた記事のテキストメタデータの異なる組み合わせから生成された一連のコーパスに言語検出アルゴリズムの集合を適用することにより、異なる分類手順を設計する。
まず、サンプルレベルでは、データベースの各主要言語に対するこれらの異なるプロシージャのパフォーマンスを、精度、リコール、処理時間の観点から評価する。
そして、調和的に集約されたスコアと重み付けされたスコアの確率的シミュレーションにより、データベースレベルでの全体的な手順性能を推定する。
論文のタイトルにLangIDアルゴリズムを用いることで、論文のタイトルや要約、ジャーナル名にベストな結果が得られるが、リコールが正確さよりも少なくとも重要な場合、あるいは処理時間が考慮された場合、記事のタイトルにFastSpellアルゴリズムを用いることは、他の選択肢よりも優れている。
真に多言語で大規模な書誌データベースが存在しないことから、これらの結果はOpenAlexデータベースの相互言語的・書誌的研究・分析における非並列的な可能性の確認と育成に役立てられることが期待されている。
関連論文リスト
- From Decoding to Meta-Generation: Inference-time Algorithms for Large Language Models [63.188607839223046]
この調査は、推論中に計算をスケールするメリットに焦点を当てている。
我々はトークンレベルの生成アルゴリズム、メタジェネレーションアルゴリズム、効率的な生成という3つの領域を統一的な数学的定式化の下で探索する。
論文 参考訳(メタデータ) (2024-06-24T17:45:59Z) - Validating and Exploring Large Geographic Corpora [0.76146285961466]
ニュージーランド英語のような特定の言語国を表すサブコーパスの品質向上に3つの手法が用いられている。
評価の結果, サブコーパスの妥当性は清掃段階ごとに改善されているが, この改善は言語や人口に不均一に分散していることがわかった。
論文 参考訳(メタデータ) (2024-03-13T02:46:17Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - NSOAMT -- New Search Only Approach to Machine Translation [0.0]
機械翻訳に対する新しい検索のみのアプローチ」が採用され、他の技術の遅さと不正確さに対処した。
この考え方は、特定の意味的意味を組み合わす単語のインクリメンタルな集合をインデクシングすることによって、ネイティブ言語レコードと翻訳言語との対応プロセスを作成することができるソリューションを開発することを目的としている。
論文 参考訳(メタデータ) (2023-09-19T11:12:21Z) - Zero-Shot Listwise Document Reranking with a Large Language Model [58.64141622176841]
本稿では,タスク固有の学習データを用いることなく,言語モデル(LRL)を用いたリスワイズ・リランカを提案する。
3つのTRECウェブサーチデータセットの実験により、LRLは第1段検索結果の再ランク付け時にゼロショットポイントワイズ法より優れるだけでなく、最終段再ランカとしても機能することが示された。
論文 参考訳(メタデータ) (2023-05-03T14:45:34Z) - A Comparison of Document Similarity Algorithms [0.0]
文書類似性アルゴリズムを3種類の文書類似性アルゴリズムに分類することで、最も効果的な文書類似性アルゴリズムに対処する。
各カテゴリでもっとも効果的なアルゴリズムは、一連のベンチマークデータセットと評価を用いて、我々の研究で比較されます。
論文 参考訳(メタデータ) (2023-04-03T19:50:55Z) - Scaling Expert Language Models with Unsupervised Domain Discovery [107.08940500543447]
本稿では,任意のテキストコーパス上で,大規模でスパースな言語モデルを非同期に訓練する,シンプルだが効果的な手法を提案する。
提案手法では,コーパスを関連文書の集合に集約し,各クラスタ上で個別の専門家言語モデルを訓練し,それらをスパースアンサンブルに組み合わせて推論を行う。
論文 参考訳(メタデータ) (2023-03-24T17:38:58Z) - Evaluating Various Tokenizers for Arabic Text Classification [4.110108749051656]
アラビア語に対する3つの新しいトークン化アルゴリズムを導入し、教師なし評価を用いて他の3つのベースラインと比較する。
実験の結果,このようなトークン化アルゴリズムの性能は,データセットのサイズ,タスクの種類,データセットに存在する形態素量に依存することがわかった。
論文 参考訳(メタデータ) (2021-06-14T16:05:58Z) - A Systematic Characterization of Sampling Algorithms for Open-ended
Language Generation [71.31905141672529]
本稿では,自己回帰型言語モデルに広く採用されている祖先サンプリングアルゴリズムについて検討する。
エントロピー低減, 秩序保存, 斜面保全の3つの重要な特性を同定した。
これらの特性を満たすサンプリングアルゴリズムのセットが,既存のサンプリングアルゴリズムと同等に動作することがわかった。
論文 参考訳(メタデータ) (2020-09-15T17:28:42Z) - New Oracle-Efficient Algorithms for Private Synthetic Data Release [52.33506193761153]
微分プライベートな合成データを構築するための3つの新しいアルゴリズムを提案する。
アルゴリズムは最悪の場合でも差分プライバシーを満たす。
現状の手法である高次元行列機構 citeMcKennaMHM18 と比較すると,我々のアルゴリズムは大規模作業負荷の精度が向上する。
論文 参考訳(メタデータ) (2020-07-10T15:46:05Z) - An efficient automated data analytics approach to large scale
computational comparative linguistics [0.0]
この研究プロジェクトは、人間の言語関係を分析するという課題を克服することを目的としている。
特定のキーワードと概念の音声表現に基づく自動比較手法を開発した。
これは後にUnixシェルスクリプト、開発Rパッケージ、SWI Prologを組み合わせて実装されたワークフローの開発につながった。
論文 参考訳(メタデータ) (2020-01-31T15:25:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。