論文の概要: Mind the Language Gap in Digital Humanities: LLM-Aided Translation of SKOS Thesauri
- arxiv url: http://arxiv.org/abs/2507.19537v2
- Date: Tue, 29 Jul 2025 07:22:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 12:52:36.834901
- Title: Mind the Language Gap in Digital Humanities: LLM-Aided Translation of SKOS Thesauri
- Title(参考訳): デジタル人文科学における言語ギャップの意識:SKOS ThesauriのLLM支援翻訳
- Authors: Felix Kraus, Nicolas Blumenröhr, Danah Tonne, Achim Streit,
- Abstract要約: 我々は,SKOSセサウリの自動翻訳のためのオープンソースでモジュール化された,利用可能なパイプラインであるWOKIEを紹介する。
この研究は、言語多様性が知識リソースのアクセス、再利用、セマンティック相互運用性を制限することができるDH(Digital Humanities)において重要なニーズに対処する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce WOKIE, an open-source, modular, and ready-to-use pipeline for the automated translation of SKOS thesauri. This work addresses a critical need in the Digital Humanities (DH), where language diversity can limit access, reuse, and semantic interoperability of knowledge resources. WOKIE combines external translation services with targeted refinement using Large Language Models (LLMs), balancing translation quality, scalability, and cost. Designed to run on everyday hardware and be easily extended, the application requires no prior expertise in machine translation or LLMs. We evaluate WOKIE across several DH thesauri in 15 languages with different parameters, translation services and LLMs, systematically analysing translation quality, performance, and ontology matching improvements. Our results show that WOKIE is suitable to enhance the accessibility, reuse, and cross-lingual interoperability of thesauri by hurdle-free automated translation and improved ontology matching performance, supporting more inclusive and multilingual research infrastructures.
- Abstract(参考訳): 我々は,SKOSセサウリの自動翻訳のためのオープンソースでモジュール化された,利用可能なパイプラインであるWOKIEを紹介する。
この研究は、言語多様性が知識リソースのアクセス、再利用、セマンティック相互運用性を制限することができるDH(Digital Humanities)において重要なニーズに対処する。
WOKIEは、外部翻訳サービスとLarge Language Models (LLMs)を使用して、翻訳品質、スケーラビリティ、コストのバランスをとるための改良を組み合わせている。
日常的なハードウェア上で動作し、簡単に拡張できるように設計されており、機械翻訳やLLMの専門知識は必要とされない。
我々は,翻訳品質,性能,オントロジー整合性の改善を体系的に分析し,異なるパラメータ,翻訳サービス,LLMを持つ15言語で複数のDHセサウリをまたいだWOKIEを評価する。
その結果、WOKIEは、ハードルのない自動翻訳とオントロジーマッチング性能の改善により、セサウリのアクセシビリティ、再利用、言語間相互互換性を高めるのに適しており、より包括的で多言語的な研究基盤をサポートすることが示唆された。
関連論文リスト
- Collaboration is all you need: LLM Assisted Safe Code Translation [4.3764649156831235]
UniTranslatorは、複数のコンパクトLLM間の協調的な取り組みとしてコード翻訳を再想像するフレームワークである。
特殊なエージェントのインタラクションを編成することによって、UniTranslatorは、より大きなモノリシックモデルに匹敵する精度と効率のレベルを達成する。
論文 参考訳(メタデータ) (2025-03-14T09:42:07Z) - Towards Global AI Inclusivity: A Large-Scale Multilingual Terminology Dataset (GIST) [19.91873751674613]
GISTは2000年から2023年にかけての上位AIカンファレンス論文から抽出された5K語を含む、大規模な多言語AI用語データセットである。
この用語はアラビア語、中国語、フランス語、日本語、ロシア語に翻訳され、LLMを抽出するためのハイブリッドフレームワークと翻訳のための人間の専門知識を組み合わせたものである。
データセットの品質は既存のリソースに対してベンチマークされ、クラウドソースによる評価によって、より優れた翻訳精度を示す。
論文 参考訳(メタデータ) (2024-12-24T11:50:18Z) - UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - Machine Translation with Large Language Models: Prompt Engineering for
Persian, English, and Russian Directions [0.0]
生成型大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、例外的な習熟性を示している。
我々は,ペルシャ語,英語,ロシア語の言語間組み合わせに着目した2つの普及促進手法とその組み合わせについて調査を行った。
論文 参考訳(メタデータ) (2024-01-16T15:16:34Z) - DIALIGHT: Lightweight Multilingual Development and Evaluation of
Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。
ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。
評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文 参考訳(メタデータ) (2024-01-04T11:27:48Z) - A Systematic Study of Performance Disparities in Multilingual
Task-Oriented Dialogue Systems [68.76102493999134]
マルチリンガルなタスク指向対話システム間に存在するタスクパフォーマンスの相違を,実証的に分析し,分析する。
我々は現在のToDシステムにおける適応と本質的バイアスの存在を証明した。
本稿では,新しい言語に対するToDデータ収集とシステム開発へのアプローチについて,実践的なヒントを提供する。
論文 参考訳(メタデータ) (2023-10-19T16:41:44Z) - Improving Multilingual Neural Machine Translation System for Indic
Languages [0.0]
低リソース言語翻訳に関わる問題に対処する多言語ニューラルマシン翻訳(MNMT)システムを提案する。
提案モデルの実現には最先端のトランスフォーマーアーキテクチャを用いる。
大量のデータに対する試行は、従来のモデルよりもその優位性を明らかにしている。
論文 参考訳(メタデータ) (2022-09-27T09:51:56Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。