論文の概要: In Data or Invisible: Toward a Better Digital Representation of Low-Resource Languages with Knowledge Graphs
- arxiv url: http://arxiv.org/abs/2605.05931v1
- Date: Thu, 07 May 2026 09:36:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.670646
- Title: In Data or Invisible: Toward a Better Digital Representation of Low-Resource Languages with Knowledge Graphs
- Title(参考訳): データか見えないか:知識グラフを用いた低リソース言語のより良いデジタル表現を目指して
- Authors: Ndeye-Emilie Mbengue,
- Abstract要約: この提案は、Linked Open Data Knowledge Graphs (LOD KGs) の言語カバレッジに焦点を当てている。
我々は,言語版毎のウィキペディア記事数を含む,LOD KGの言語分布を特徴付ける重要な変数を同定する。
この分析に基づいて,多言語KG完了作業における言語間移動候補選択の影響について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emerging digital technologies are exacerbating the existing divide in Open Access Data (OAD) between high-and low-resource languages, excluding many communities from participating in the global digital transformation. In this PhD proposal, we aim to address this gap, focusing on the language coverage of Linked Open Data knowledge graphs (LOD KGs). First, we identify key variables that characterize language distribution in LOD, including the number of Wikipedia articles per language edition and the number of language-tagged entities in LOD KGs. These variables are analyzed across three major multilingual LOD KGs, DBpedia, BabelNet, and Wikidata, providing insights into the representation and distribution of languages within LOD. Building on this analysis, we intend to study the impact of cross-lingual transfer candidate selection on the task of multilingual KG completion. In particular, we plan to investigate strategies based on linguistic proximity and the availability of curated annotated alignments between languages. Language proximity also motivates us to explore the benefits of analogical reasoning that relies on (dis)similarities and has not yet been investigated to identify correspondences across languages to improve KG completion performance and enhance language coverage in LOD.
- Abstract(参考訳): 新興デジタル技術は、多くのコミュニティがグローバルデジタルトランスフォーメーションに参加することを除いて、ハイソース言語とローリソース言語の間のOpen Access Data(OAD)の既存の分断を悪化させています。
本稿では,Linked Open Data knowledge graphs (LOD KGs) の言語カバレッジに着目し,このギャップに対処することを目的とする。
まず,言語版毎のウィキペディア記事数,LOD KGにおける言語タグ付きエンティティ数など,LODの言語分布を特徴付ける重要な変数を同定する。
これらの変数は、3つの主要な多言語LOD KG、DBpedia、BabelNet、Wikidataで分析され、LOD内の言語の表現と配布に関する洞察を提供する。
この分析に基づいて,多言語KG完了作業における言語間移動候補選択の影響について検討する。
特に,言語間の注釈付きアライメントの言語間近接と有効性に基づく戦略について検討する。
言語近接性はまた、類似性に依存した類似推論の利点を探究する動機となり、KG完了性能を改善し、LODにおける言語カバレッジを高めるために、言語間の通信を識別する研究はまだ行われていない。
関連論文リスト
- Which Are the Low-Resource Languages of the Semantic Web? [5.136925040429009]
リンクされたオープンデータ知識グラフ間の言語分布を解析する手法を提案する。
本稿では,DBpedia,BabelNet,Wikidataをベースとした事前多段階分類を提案する。
この分類は、低言語、高言語、中言語の形式的な定義をもたらすために活用される。
論文 参考訳(メタデータ) (2026-05-07T09:33:19Z) - Tracing Multilingual Representations in LLMs with Cross-Layer Transcoders [51.380449540006985]
大規模言語モデル(LLM)は多くの言語を処理できるが、どのようにして内部的にこの多様性を表現しているのかは不明だ。
言語固有のデコーディングと多言語表現を共有できるのでしょうか?
層間トランスコーダ(CLT)と属性グラフを用いて内部メカニズムを解析する。
論文 参考訳(メタデータ) (2025-11-13T22:51:06Z) - BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages [93.92804151830744]
BRIGHTERは、28の言語で複数ラベル付き、感情アノテートされたデータセットの集合である。
データ収集とアノテーションプロセスに関する課題を強調します。
BRIGHTERデータセットは、テキストベースの感情認識のギャップに対処するための重要なステップであることを示す。
論文 参考訳(メタデータ) (2025-02-17T15:39:50Z) - Adapting Multilingual LLMs to Low-Resource Languages with Knowledge Graphs via Adapters [3.7273829129985305]
本稿では,言語から多言語大モデル(LLM)へのグラフ知識の統合について検討する。
我々は、感情分析(SA)および名前付きエンティティ認識(NER)における低リソース言語(LRL)の性能向上のために、言語固有のアダプタを使用している。
構造化グラフ知識が,SA および NER における LRL の多言語 LLM の性能に与える影響を評価する。
論文 参考訳(メタデータ) (2024-07-01T15:56:24Z) - Constructing and Expanding Low-Resource and Underrepresented Parallel Datasets for Indonesian Local Languages [0.0]
インドネシアの5つの言語を特徴とする多言語並列コーパスであるBhinneka Korpusを紹介する。
我々のゴールは、これらの資源へのアクセスと利用を強化し、国内へのリーチを広げることです。
論文 参考訳(メタデータ) (2024-04-01T09:24:06Z) - Soft Prompt Decoding for Multilingual Dense Retrieval [30.766917713997355]
本稿では,MLIRタスクへの言語間情報検索のための最先端手法の適用により,準最適性能が得られることを示す。
これは多言語コレクションの不均一性と不均衡性に起因する。
KD-SPDはMLIRの新しいソフトプロンプトデコーディング手法で、異なる言語における文書の表現を同じ埋め込み空間に暗黙的に「翻訳」する。
論文 参考訳(メタデータ) (2023-05-15T21:17:17Z) - Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文 参考訳(メタデータ) (2022-01-31T18:11:21Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。