論文の概要: Sorting the Babble in Babel: Assessing the Performance of Language Detection Algorithms on the OpenAlex Database
- arxiv url: http://arxiv.org/abs/2502.03627v2
- Date: Tue, 18 Feb 2025 12:19:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:03:19.297708
- Title: Sorting the Babble in Babel: Assessing the Performance of Language Detection Algorithms on the OpenAlex Database
- Title(参考訳): Babelにおけるバブルのソーティング:OpenAlexデータベースにおける言語検出アルゴリズムの性能評価
- Authors: Maxime Holmberg Sainte-Marie, Diego Kozlowski, Lucía Céspedes, Vincent Larivière,
- Abstract要約: 本研究の目的は,OpenAlexデータベースから手作業による注釈付き記事から抽出した,さまざまな言語分類手順,Python言語検出アルゴリズムとメタデータベースのコーパスを組み合わせることにある。
アルゴリズム,コーパス,言語,および各アルゴリズムおよびコーパスタイプに記録された処理速度の精度とリコール性能の解析を行い,データベースレベルでの全体的なプロシージャ性能をシミュレートした。
その結果, プロシージャのパフォーマンスは, 実施した各対策の重要度に大きく依存していることが示唆された。
これらの結果は,OpenAlexデータベースの言語横断的,文献的可能性の検証と育成に有効であることが期待されている。
- 参考スコア(独自算出の注目度): 1.0124625066746598
- License:
- Abstract: This project aims to compare various language classification procedures, procedures combining various Python language detection algorithms and metadata-based corpora extracted from manually-annotated articles sampled from the OpenAlex database. Following an analysis of precision and recall performance for each algorithm, corpus, and language as well as of processing speeds recorded for each algorithm and corpus type, overall procedure performance at the database level was simulated using probabilistic confusion matrices for each algorithm, corpus, and language as well as a probabilistic model of relative article language frequencies for the whole OpenAlex database. Results show that procedure performance strongly depends on the importance given to each of the measures implemented: for contexts where precision is preferred, using the LangID algorithm on the greedy corpus gives the best results; however, for all cases where recall is considered at least slightly more important than precision or as soon as processing times are given any kind of consideration, the procedure combining the FastSpell algorithm and the Titles corpus outperforms all other alternatives. Given the lack of truly multilingual, large-scale bibliographic databases, it is hoped that these results help confirm and foster the unparalleled potential of the OpenAlex database for cross-linguistic, bibliometric-based research and analysis.
- Abstract(参考訳): 本研究の目的は,OpenAlexデータベースから手作業による注釈付き記事から抽出した,さまざまな言語分類手順,Python言語検出アルゴリズムとメタデータベースのコーパスを組み合わせることにある。
各アルゴリズム,コーパス,言語,および各アルゴリズムとコーパスタイプに記録された処理速度の精度とリコール性能の解析に続いて,各アルゴリズム,コーパス,言語に対する確率的混乱行列と,OpenAlexデータベース全体の相対的記事言語頻度の確率的モデルを用いて,データベースレベルでの全体的なプロシージャ性能をシミュレーションした。
その結果, 精度の高いコーパス上でLangIDアルゴリズムを使用すると, 最良な結果が得られるが, コールが精度よりもわずかに重要な場合や, 処理時間を考慮すれば, ファストスペルアルゴリズムとタイトルスコーパスの組み合わせによる処理が, その他の選択肢よりも優れることがわかった。
真に多言語で大規模な書誌データベースが存在しないことから、これらの結果はOpenAlexデータベースの相互言語的・書誌的研究・分析における非並列的な可能性の確認と育成に役立てられることが期待されている。
関連論文リスト
- From Decoding to Meta-Generation: Inference-time Algorithms for Large Language Models [63.188607839223046]
この調査は、推論中に計算をスケールするメリットに焦点を当てている。
我々はトークンレベルの生成アルゴリズム、メタジェネレーションアルゴリズム、効率的な生成という3つの領域を統一的な数学的定式化の下で探索する。
論文 参考訳(メタデータ) (2024-06-24T17:45:59Z) - Validating and Exploring Large Geographic Corpora [0.76146285961466]
ニュージーランド英語のような特定の言語国を表すサブコーパスの品質向上に3つの手法が用いられている。
評価の結果, サブコーパスの妥当性は清掃段階ごとに改善されているが, この改善は言語や人口に不均一に分散していることがわかった。
論文 参考訳(メタデータ) (2024-03-13T02:46:17Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - NSOAMT -- New Search Only Approach to Machine Translation [0.0]
機械翻訳に対する新しい検索のみのアプローチ」が採用され、他の技術の遅さと不正確さに対処した。
この考え方は、特定の意味的意味を組み合わす単語のインクリメンタルな集合をインデクシングすることによって、ネイティブ言語レコードと翻訳言語との対応プロセスを作成することができるソリューションを開発することを目的としている。
論文 参考訳(メタデータ) (2023-09-19T11:12:21Z) - Zero-Shot Listwise Document Reranking with a Large Language Model [58.64141622176841]
本稿では,タスク固有の学習データを用いることなく,言語モデル(LRL)を用いたリスワイズ・リランカを提案する。
3つのTRECウェブサーチデータセットの実験により、LRLは第1段検索結果の再ランク付け時にゼロショットポイントワイズ法より優れるだけでなく、最終段再ランカとしても機能することが示された。
論文 参考訳(メタデータ) (2023-05-03T14:45:34Z) - A Comparison of Document Similarity Algorithms [0.0]
文書類似性アルゴリズムを3種類の文書類似性アルゴリズムに分類することで、最も効果的な文書類似性アルゴリズムに対処する。
各カテゴリでもっとも効果的なアルゴリズムは、一連のベンチマークデータセットと評価を用いて、我々の研究で比較されます。
論文 参考訳(メタデータ) (2023-04-03T19:50:55Z) - Scaling Expert Language Models with Unsupervised Domain Discovery [107.08940500543447]
本稿では,任意のテキストコーパス上で,大規模でスパースな言語モデルを非同期に訓練する,シンプルだが効果的な手法を提案する。
提案手法では,コーパスを関連文書の集合に集約し,各クラスタ上で個別の専門家言語モデルを訓練し,それらをスパースアンサンブルに組み合わせて推論を行う。
論文 参考訳(メタデータ) (2023-03-24T17:38:58Z) - Evaluating Various Tokenizers for Arabic Text Classification [4.110108749051656]
アラビア語に対する3つの新しいトークン化アルゴリズムを導入し、教師なし評価を用いて他の3つのベースラインと比較する。
実験の結果,このようなトークン化アルゴリズムの性能は,データセットのサイズ,タスクの種類,データセットに存在する形態素量に依存することがわかった。
論文 参考訳(メタデータ) (2021-06-14T16:05:58Z) - A Systematic Characterization of Sampling Algorithms for Open-ended
Language Generation [71.31905141672529]
本稿では,自己回帰型言語モデルに広く採用されている祖先サンプリングアルゴリズムについて検討する。
エントロピー低減, 秩序保存, 斜面保全の3つの重要な特性を同定した。
これらの特性を満たすサンプリングアルゴリズムのセットが,既存のサンプリングアルゴリズムと同等に動作することがわかった。
論文 参考訳(メタデータ) (2020-09-15T17:28:42Z) - New Oracle-Efficient Algorithms for Private Synthetic Data Release [52.33506193761153]
微分プライベートな合成データを構築するための3つの新しいアルゴリズムを提案する。
アルゴリズムは最悪の場合でも差分プライバシーを満たす。
現状の手法である高次元行列機構 citeMcKennaMHM18 と比較すると,我々のアルゴリズムは大規模作業負荷の精度が向上する。
論文 参考訳(メタデータ) (2020-07-10T15:46:05Z) - An efficient automated data analytics approach to large scale
computational comparative linguistics [0.0]
この研究プロジェクトは、人間の言語関係を分析するという課題を克服することを目的としている。
特定のキーワードと概念の音声表現に基づく自動比較手法を開発した。
これは後にUnixシェルスクリプト、開発Rパッケージ、SWI Prologを組み合わせて実装されたワークフローの開発につながった。
論文 参考訳(メタデータ) (2020-01-31T15:25:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。