論文の概要: A Hybrid Protocol for Large-Scale Semantic Dataset Generation in Low-Resource Languages: The Turkish Semantic Relations Corpus
- arxiv url: http://arxiv.org/abs/2601.13253v1
- Date: Mon, 19 Jan 2026 17:38:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.99317
- Title: A Hybrid Protocol for Large-Scale Semantic Dataset Generation in Low-Resource Languages: The Turkish Semantic Relations Corpus
- Title(参考訳): 低リソース言語における大規模セマンティックデータセット生成のためのハイブリッドプロトコル:トルコセマンティック関係コーパス
- Authors: Ebubekir Tosun, Mehmet Emin Buldur, Özay Ezerceli, Mahmoud ElHussieni,
- Abstract要約: 低リソース言語における大規模意味関係データセットを生成するためのハイブリッド手法を提案する。
提案手法では, セマンティッククラスタを識別するためのFastText埋め込みとAgglomerative Clusteringを統合し, セマンティッククラスタの自動分類のためのGemini 2.5-Flash, キュレートされた辞書ソースとの統合を行う。
得られたデータセットは、843,000のトルコのセマンティックペアで構成され、最小のコストで既存のリソースの10倍のスケールアップを表現している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a hybrid methodology for generating large-scale semantic relationship datasets in low-resource languages, demonstrated through a comprehensive Turkish semantic relations corpus. Our approach integrates three phases: (1) FastText embeddings with Agglomerative Clustering to identify semantic clusters, (2) Gemini 2.5-Flash for automated semantic relationship classification, and (3) integration with curated dictionary sources. The resulting dataset comprises 843,000 unique Turkish semantic pairs across three relationship types (synonyms, antonyms, co-hyponyms) representing a 10x scale increase over existing resources at minimal cost ($65). We validate the dataset through two downstream tasks: an embedding model achieving 90% top-1 retrieval accuracy and a classification model attaining 90% F1-macro. Our scalable protocol addresses critical data scarcity in Turkish NLP and demonstrates applicability to other low-resource languages. We publicly release the dataset and models.
- Abstract(参考訳): 本稿では,低リソース言語における大規模意味関係データセットを生成するためのハイブリッド手法を提案する。
提案手法は,(1)セマンティッククラスタを識別するためのAgglomerative Clusteringを用いたFastText埋め込み,(2)セマンティッククラスタの自動分類のためのGemini 2.5-Flash,(3)キュレートされた辞書ソースとの統合の3段階を統合する。
得られたデータセットは、3つの関係タイプ(synonyms, antonyms, co-hyponyms)にまたがる843,000のトルコのセマンティックペアからなる。
2つの下流タスクを通してデータセットを検証し、90%のトップ1検索精度を達成できる埋め込みモデルと90%F1マクロを達成できる分類モデルを得た。
我々のスケーラブルなプロトコルは、トルコのNLPにおける重要なデータ不足に対処し、他の低リソース言語にも適用可能であることを示す。
データセットとモデルを公開しています。
関連論文リスト
- TurkEmbed: Turkish Embedding Model on NLI & STS Tasks [0.0]
TurkEmbedは、既存のモデルを上回るように設計された新しいトルコ語埋め込みモデルである。
多様なデータセットと高度なトレーニング技術の組み合わせを利用しており、その中にはMathryoshka表現学習も含まれる。
現在の最先端モデルであるEmrecanを、All-NLI-TRとSTS-b-TRベンチマークで上回り、1-4%の改善を実現している。
論文 参考訳(メタデータ) (2025-11-11T15:54:52Z) - CrosGrpsABS: Cross-Attention over Syntactic and Semantic Graphs for Aspect-Based Sentiment Analysis in a Low-Resource Language [2.3157475769949616]
Aspect-Based Sentiment Analysis (ABSA) は自然言語処理の基本的なタスクであり、テキストで表現された意見に対するきめ細かい洞察を提供する。
本研究は,構文グラフとセマンティックグラフ間の双方向の相互アテンションを活用し,アスペクトレベルの感情分類を強化する新しいハイブリッドフレームワークであるCrosGrpsABSを提案する。
低リソースのBengali ABSAデータセットと高リソースのSemEval 2014 Task 4データセットでCrosGrpsABSを評価した。
論文 参考訳(メタデータ) (2025-05-25T07:42:32Z) - Enhancing LLM Language Adaption through Cross-lingual In-Context Pre-training [57.62126373849383]
CrossIC-PT(クロスランガル・イン・コンテクスト・プレトレーニング)は、クロスランガル・トランスファーを強化するシンプルでスケーラブルなアプローチである。
セマンティック関連のバイリンガルウィキペディア文書を1つのコンテキストウィンドウにインターリーブすることで、CrossIC-PTサンプルを構築する。
実験の結果、CrossIC-PTは6つの対象言語にわたる3つのモデルの多言語性能を改善することが示された。
論文 参考訳(メタデータ) (2025-04-29T07:24:25Z) - TriSum: Learning Summarization Ability from Large Language Models with Structured Rationale [66.01943465390548]
本稿では,大規模言語モデルのテキスト要約能力を,コンパクトで局所的なモデルに抽出するフレームワークであるTriSumを紹介する。
本手法は,様々なベンチマーク上での局所モデル性能を向上させる。
また、要約の合理性に関する洞察を提供することで、解釈可能性も向上する。
論文 参考訳(メタデータ) (2024-03-15T14:36:38Z) - Semi-automatic Data Enhancement for Document-Level Relation Extraction
with Distant Supervision from Large Language Models [26.523153535336725]
ドキュメントレベルの関係抽出(DocRE)は、長いコンテキストから関係を抽出することを目的としている。
本稿では,大規模言語モデル (LLM) と自然言語推論 (NLI) モジュールを統合する手法を提案する。
DocGNREと呼ばれる拡張データセットを導入することで,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-11-13T13:10:44Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - Addressing Resource and Privacy Constraints in Semantic Parsing Through
Data Augmentation [33.21612085142085]
低リソースなタスク指向のセマンティック解析のための新しいセットアップを提案する。
私たちの目標は、ユーザインタラクションを通じて収集された発話を用いて、低リソースのセマンティック拡張を改善することです。
論文 参考訳(メタデータ) (2022-05-18T01:14:47Z) - MobIE: A German Dataset for Named Entity Recognition, Entity Linking and
Relation Extraction in the Mobility Domain [76.21775236904185]
データセットは3,232のソーシャルメディアテキストと91Kトークンによるトラフィックレポートで構成され、20.5Kアノテーション付きエンティティを含んでいる。
データセットのサブセットには,7つのモビリティ関連,n-ary関係型がアノテートされている。
私たちの知る限りでは、NER、EL、REのアノテーションを組み合わせた最初のドイツ語データセットです。
論文 参考訳(メタデータ) (2021-08-16T08:21:50Z) - Integrating Semantics and Neighborhood Information with Graph-Driven
Generative Models for Document Retrieval [51.823187647843945]
本稿では,周辺情報をグラフ誘導ガウス分布でエンコードし,その2種類の情報をグラフ駆動生成モデルと統合することを提案する。
この近似の下では、トレーニング対象がシングルトンまたはペアワイズ文書のみを含む用語に分解可能であることを証明し、モデルが非関連文書と同じくらい効率的にトレーニングできることを示す。
論文 参考訳(メタデータ) (2021-05-27T11:29:03Z) - Learning to Learn Morphological Inflection for Resource-Poor Languages [105.11499402984482]
本稿では,メタラーニング問題として資源不足言語に対する形態的インフレクション(補題を表象形にマッピングする)の課題を提案する。
それぞれの言語を個別のタスクとして扱うことで、高速ソース言語からのデータを使ってモデルパラメータの集合を学習する。
3つのファミリーから29のターゲット言語を対象とする2つのモデルアーキテクチャの実験により、提案手法がすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2020-04-28T05:13:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。