論文の概要: Which Are the Low-Resource Languages of the Semantic Web?
- arxiv url: http://arxiv.org/abs/2605.05929v1
- Date: Thu, 07 May 2026 09:33:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.669745
- Title: Which Are the Low-Resource Languages of the Semantic Web?
- Title(参考訳): セマンティックウェブの低リソース言語はどれか?
- Authors: Ndeye-Emilie Mbengue, Pierre Monnin, Miguel Couceiro, Fabien Gandon,
- Abstract要約: リンクされたオープンデータ知識グラフ間の言語分布を解析する手法を提案する。
本稿では,DBpedia,BabelNet,Wikidataをベースとした事前多段階分類を提案する。
この分類は、低言語、高言語、中言語の形式的な定義をもたらすために活用される。
- 参考スコア(独自算出の注目度): 5.136925040429009
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emerging digital technologies are exacerbating the existing divide in Open Access Data (OAD) between high-and low-resource languages, excluding many communities from the global digital transformation. Multilingual Linked Open Data Knowledge Graphs (LOD KGs) could contribute to mitigating this divide through cross-lingual transfer; however, no clear quantitative definition of low-resource languages has yet been established in the context of LOD KGs. In this poster, we present a methodology to analyze the distribution of languages across LOD KGs and propose a preliminary multi-level categorization based on DBpedia, BabelNet, and Wikidata. This categorization is leveraged to bring a formal definition of low-, high-, and medium-resource languages that could be later leveraged to select cross-lingual transfer candidates.
- Abstract(参考訳): 新興デジタル技術は、グローバルなデジタルトランスフォーメーションから多くのコミュニティを除いて、ハイソース言語とローリソース言語の間のOpen Access Data(OAD)の既存の分断を悪化させています。
マルチリンガルリンクオープンデータ知識グラフ(LOD KGs)は、この分割を言語間移動による緩和に寄与する可能性があるが、LOD KGsの文脈において、低リソース言語に関する明確な定量的定義が確立されていない。
本稿では,LOD KGを対象とする言語分布分析手法を提案するとともに,DBpedia,BabelNet,Wikidataに基づく事前多段階分類を提案する。
この分類は、低言語、高言語、中オープンソースの言語を形式的に定義するために利用され、後に言語間の変換候補を選択するために利用することができる。
関連論文リスト
- In Data or Invisible: Toward a Better Digital Representation of Low-Resource Languages with Knowledge Graphs [0.0]
この提案は、Linked Open Data Knowledge Graphs (LOD KGs) の言語カバレッジに焦点を当てている。
我々は,言語版毎のウィキペディア記事数を含む,LOD KGの言語分布を特徴付ける重要な変数を同定する。
この分析に基づいて,多言語KG完了作業における言語間移動候補選択の影響について検討する。
論文 参考訳(メタデータ) (2026-05-07T09:36:54Z) - Trans-Tokenization and Cross-lingual Vocabulary Transfers: Language Adaptation of LLMs for Low-Resource NLP [13.662528492286528]
本稿では,この課題に対処し,より効率的な言語適応を実現するために,新たな言語間語彙移動戦略であるトランストークン化を提案する。
提案手法は,ソースコードからの意味論的に類似したトークン埋め込みの重み付け平均を用いて,ターゲット言語のトークン埋め込みを初期化することにより,高リソースのモノリンガルLLMを未知のターゲット言語に適応することに焦点を当てる。
複数のスワップ可能な言語モデリングヘッドと埋め込みテーブルを備えたモデルであるHydra LLMを導入し、トランストークン化戦略の能力をさらに拡張した。
論文 参考訳(メタデータ) (2024-08-08T08:37:28Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Translation and Fusion Improves Zero-shot Cross-lingual Information Extraction [18.926993352330797]
本稿では,低リソース言語データの英語翻訳をモデルに微調整したフレームワークであるTransFusionを提案する。
GoLLIE-TFは、IEタスクのための言語間命令チューニング LLM であり、ハイソース言語と低リソース言語のパフォーマンスギャップを埋めるように設計されている。
論文 参考訳(メタデータ) (2023-05-23T01:23:22Z) - Transfer to a Low-Resource Language via Close Relatives: The Case Study
on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。
我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文 参考訳(メタデータ) (2023-04-18T08:42:38Z) - MetaXL: Meta Representation Transformation for Low-resource
Cross-lingual Learning [91.5426763812547]
言語間移動学習は低リソース言語のための機能的NLPシステムを構築するための最も効果的な方法の1つである。
MetaXLは、メタラーニングベースのフレームワークで、表現を補助言語からターゲット言語にジャッジに変換することを学ぶ。
論文 参考訳(メタデータ) (2021-04-16T06:15:52Z) - LSCP: Enhanced Large Scale Colloquial Persian Language Understanding [2.7249643773851724]
ラージスケール・コロクィアル・ペルシア語データセット」は、低リソース言語におけるコロクィアル言語を記述することを目的としている。
提案したコーパスは,2700万のツイートに解析木,音声タグ,感情の極性,5つの言語による翻訳を付加した1億2000万文からなる。
論文 参考訳(メタデータ) (2020-03-13T22:24:14Z) - Cross-lingual, Character-Level Neural Morphological Tagging [57.0020906265213]
文字レベルのリカレントなニューラルタグをトレーニングし、高リソース言語と低リソース言語を併用して形態的タグ付けを予測する。
複数の関連言語間の共同文字表現の学習は、高リソース言語から低リソース言語への知識伝達を成功させ、モノリンガルモデルの精度を最大30%向上させる。
論文 参考訳(メタデータ) (2017-08-30T08:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。