論文の概要: Sorting the Babble in Babel: Assessing the Performance of Language Detection Algorithms on the OpenAlex Database
- arxiv url: http://arxiv.org/abs/2502.03627v1
- Date: Wed, 05 Feb 2025 21:29:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 15:30:40.545658
- Title: Sorting the Babble in Babel: Assessing the Performance of Language Detection Algorithms on the OpenAlex Database
- Title(参考訳): Babelにおけるバブルのソーティング:OpenAlexデータベースにおける言語検出アルゴリズムの性能評価
- Authors: Maxime Holmberg Sainte-Marie, Diego Kozlowski, Lucía Céspedes, Vincent Larivière,
- Abstract要約: 本稿では,自動言語検出アルゴリズムに基づく各種言語分類手法の設計,使用,評価に焦点をあてる。
データベースの各主要言語に対するこれらの異なるプロシージャのパフォーマンスを、精度、リコール、処理時間の観点から評価する。
これらの結果は, 言語横断的, ビブリオメトリックスに基づく研究・分析のためのOpenAlexデータベースの非並列的可能性の確認と育成に有効であることが期待されている。
- 参考スコア(独自算出の注目度): 1.0124625066746598
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Following a recent study on the quality of OpenAlex linguistic metadata (C\'espedes et al., 2025), the present paper aims to optimize the latter through the design, use, and evaluation of various linguistic classification procedures based on the latest and most efficient automatic language detection algorithms. Starting from a multilingual set of manually-annotated samples of articles indexed in the database, different classification procedures are then designed, based on the application of a set of language detection algorithms on a series of corpora generated from different combinations of textual metadata of indexed articles. At sample level first, the performance of these different procedures for each of the main languages in the database is evaluated in terms of precision, recall, and processing time. Then, overall procedure performance is estimated at the database level by means of a probabilistic simulation of harmonically aggregated and weighted scores. Results show that procedure performance strongly depends on the importance given to each of the measures implemented: for contexts where precision is preferred, using the LangID algorithm on article titles, abstracts as well as journal names gives the best results; however, for all cases where recall is considered at least slightly more important than precision or as soon as processing times are given any kind of consideration, use of the FastSpell algorithm on article titles only outperforms all other alternatives. Given the lack of truly multilingual, large-scale bibliographic databases, it is hoped that these results help confirm and foster the unparalleled potential of the OpenAlex database for cross-linguistic, bibliometric-based research and analysis.
- Abstract(参考訳): 本論文は,OpenAlex言語メタデータ(C\'espedes et al , 2025)の品質に関する最近の研究に続いて,最新かつ効率的な自動言語検出アルゴリズムに基づく各種言語分類手法の設計,使用,評価を通じて,後者を最適化することを目的とする。
データベースにインデックス付けされた記事の多言語的なサンプルから始め、インデックス付けされた記事のテキストメタデータの異なる組み合わせから生成された一連のコーパスに言語検出アルゴリズムの集合を適用することにより、異なる分類手順を設計する。
まず、サンプルレベルでは、データベースの各主要言語に対するこれらの異なるプロシージャのパフォーマンスを、精度、リコール、処理時間の観点から評価する。
そして、調和的に集約されたスコアと重み付けされたスコアの確率的シミュレーションにより、データベースレベルでの全体的な手順性能を推定する。
論文のタイトルにLangIDアルゴリズムを用いることで、論文のタイトルや要約、ジャーナル名にベストな結果が得られるが、リコールが正確さよりも少なくとも重要な場合、あるいは処理時間が考慮された場合、記事のタイトルにFastSpellアルゴリズムを用いることは、他の選択肢よりも優れている。
真に多言語で大規模な書誌データベースが存在しないことから、これらの結果はOpenAlexデータベースの相互言語的・書誌的研究・分析における非並列的な可能性の確認と育成に役立てられることが期待されている。
関連論文リスト
- SoftMatcha: A Soft and Fast Pattern Matcher for Billion-Scale Corpus Searches [5.80278230280824]
本稿では,単語埋め込みと曲面レベルのマッチングを緩和することにより,意味的かつ効率的なパターンマッチングを実現する新しいアルゴリズムを提案する。
提案手法は,数十億のコーパスを1秒以内で探索できることを実証した。
論文 参考訳(メタデータ) (2025-03-05T17:53:11Z) - Leveraging Foundation Language Models (FLMs) for Automated Cohort Extraction from Large EHR Databases [50.552056536968166]
本稿では,2つの大規模かつ広くアクセス可能なEHRデータベース上で列マッチングを自動化するアルゴリズムを提案し,評価する。
提案手法は,学習済みの小型汎用言語モデルを用いて,13ドル列のうち12ドルを正確にマッチングし,高いトップ3の精度を92%の精度で達成する。
論文 参考訳(メタデータ) (2024-12-16T06:19:35Z) - From Decoding to Meta-Generation: Inference-time Algorithms for Large Language Models [63.188607839223046]
この調査は、推論中に計算をスケールするメリットに焦点を当てている。
我々はトークンレベルの生成アルゴリズム、メタジェネレーションアルゴリズム、効率的な生成という3つの領域を統一的な数学的定式化の下で探索する。
論文 参考訳(メタデータ) (2024-06-24T17:45:59Z) - Validating and Exploring Large Geographic Corpora [0.76146285961466]
ニュージーランド英語のような特定の言語国を表すサブコーパスの品質向上に3つの手法が用いられている。
評価の結果, サブコーパスの妥当性は清掃段階ごとに改善されているが, この改善は言語や人口に不均一に分散していることがわかった。
論文 参考訳(メタデータ) (2024-03-13T02:46:17Z) - A Measure for Transparent Comparison of Linguistic Diversity in Multilingual NLP Data Sets [1.1647644386277962]
多言語NLPで達成された進歩を追跡するため、タイポロジー的に多様性のあるベンチマークがますます作成されている。
本稿では,参照言語サンプルに対してデータセットの言語多様性を評価することを提案する。
論文 参考訳(メタデータ) (2024-03-06T18:14:22Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - NSOAMT -- New Search Only Approach to Machine Translation [0.0]
機械翻訳に対する新しい検索のみのアプローチ」が採用され、他の技術の遅さと不正確さに対処した。
この考え方は、特定の意味的意味を組み合わす単語のインクリメンタルな集合をインデクシングすることによって、ネイティブ言語レコードと翻訳言語との対応プロセスを作成することができるソリューションを開発することを目的としている。
論文 参考訳(メタデータ) (2023-09-19T11:12:21Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Zero-Shot Listwise Document Reranking with a Large Language Model [58.64141622176841]
本稿では,タスク固有の学習データを用いることなく,言語モデル(LRL)を用いたリスワイズ・リランカを提案する。
3つのTRECウェブサーチデータセットの実験により、LRLは第1段検索結果の再ランク付け時にゼロショットポイントワイズ法より優れるだけでなく、最終段再ランカとしても機能することが示された。
論文 参考訳(メタデータ) (2023-05-03T14:45:34Z) - A Comparison of Document Similarity Algorithms [0.0]
文書類似性アルゴリズムを3種類の文書類似性アルゴリズムに分類することで、最も効果的な文書類似性アルゴリズムに対処する。
各カテゴリでもっとも効果的なアルゴリズムは、一連のベンチマークデータセットと評価を用いて、我々の研究で比較されます。
論文 参考訳(メタデータ) (2023-04-03T19:50:55Z) - Scaling Expert Language Models with Unsupervised Domain Discovery [107.08940500543447]
本稿では,任意のテキストコーパス上で,大規模でスパースな言語モデルを非同期に訓練する,シンプルだが効果的な手法を提案する。
提案手法では,コーパスを関連文書の集合に集約し,各クラスタ上で個別の専門家言語モデルを訓練し,それらをスパースアンサンブルに組み合わせて推論を行う。
論文 参考訳(メタデータ) (2023-03-24T17:38:58Z) - Evaluating Various Tokenizers for Arabic Text Classification [4.110108749051656]
アラビア語に対する3つの新しいトークン化アルゴリズムを導入し、教師なし評価を用いて他の3つのベースラインと比較する。
実験の結果,このようなトークン化アルゴリズムの性能は,データセットのサイズ,タスクの種類,データセットに存在する形態素量に依存することがわかった。
論文 参考訳(メタデータ) (2021-06-14T16:05:58Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z) - Deep Graph Matching and Searching for Semantic Code Retrieval [76.51445515611469]
本稿では,グラフニューラルネットワークに基づくエンドツーエンドのディープグラフマッチングと探索モデルを提案する。
まず、自然言語クエリテキストとプログラミング言語のコードスニペットをグラフ構造化データで表現する。
特に、DGMSは、個々のクエリテキストやコードスニペットのより構造的な情報をキャプチャするだけでなく、それらの微妙な類似性も学習する。
論文 参考訳(メタデータ) (2020-10-24T14:16:50Z) - A Systematic Characterization of Sampling Algorithms for Open-ended
Language Generation [71.31905141672529]
本稿では,自己回帰型言語モデルに広く採用されている祖先サンプリングアルゴリズムについて検討する。
エントロピー低減, 秩序保存, 斜面保全の3つの重要な特性を同定した。
これらの特性を満たすサンプリングアルゴリズムのセットが,既存のサンプリングアルゴリズムと同等に動作することがわかった。
論文 参考訳(メタデータ) (2020-09-15T17:28:42Z) - New Oracle-Efficient Algorithms for Private Synthetic Data Release [52.33506193761153]
微分プライベートな合成データを構築するための3つの新しいアルゴリズムを提案する。
アルゴリズムは最悪の場合でも差分プライバシーを満たす。
現状の手法である高次元行列機構 citeMcKennaMHM18 と比較すると,我々のアルゴリズムは大規模作業負荷の精度が向上する。
論文 参考訳(メタデータ) (2020-07-10T15:46:05Z) - KLEJ: Comprehensive Benchmark for Polish Language Understanding [4.702729080310267]
ポーランド語理解のための総合的なマルチタスクベンチマークを導入する。
また、ポーランド語に特化して訓練されたトランスフォーマーベースのモデルであるHerBERTもリリースしました。
論文 参考訳(メタデータ) (2020-05-01T21:55:40Z) - An efficient automated data analytics approach to large scale
computational comparative linguistics [0.0]
この研究プロジェクトは、人間の言語関係を分析するという課題を克服することを目的としている。
特定のキーワードと概念の音声表現に基づく自動比較手法を開発した。
これは後にUnixシェルスクリプト、開発Rパッケージ、SWI Prologを組み合わせて実装されたワークフローの開発につながった。
論文 参考訳(メタデータ) (2020-01-31T15:25:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。