論文の概要: L-ReLF: A Framework for Lexical Dataset Creation
- arxiv url: http://arxiv.org/abs/2603.29346v1
- Date: Tue, 31 Mar 2026 07:19:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.246648
- Title: L-ReLF: A Framework for Lexical Dataset Creation
- Title(参考訳): L-ReLF: 語彙データセット作成のためのフレームワーク
- Authors: Anass Sedrati, Mounir Afifi, Reda Benkhadra,
- Abstract要約: 標準化された用語の欠如は、ウィキペディアのようなプラットフォームにおける知識の共有にとって重要な障壁となっている。
L-ReLF方法論は汎用性のために設計されており、他の言語コミュニティに下流のNLPアプリケーションのための語彙データを構築するための明確な経路を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces the L-ReLF (Low-Resource Lexical Framework), a novel, reproducible methodology for creating high-quality, structured lexical datasets for underserved languages. The lack of standardized terminology, exemplified by Moroccan Darija, poses a critical barrier to knowledge equity in platforms like Wikipedia, often forcing editors to rely on inconsistent, ad-hoc methods to create new words in their language. Our research details the technical pipeline developed to overcome these challenges. We systematically address the difficulties of working with low-resource data, including source identification, utilizing Optical Character Recognition (OCR) despite its bias towards Modern Standard Arabic, and rigorous post-processing to correct errors and standardize the data model. The resulting structured dataset is fully compatible with Wikidata Lexemes, serving as a vital technical resource. The L-ReLF methodology is designed for generalizability, offering other language communities a clear path to build foundational lexical data for downstream NLP applications, such as Machine Translation and morphological analysis.
- Abstract(参考訳): 本稿では,L-ReLF(Low-Resource Lexical Framework)について紹介する。
モロッコのダリヤによって実証された標準化された用語の欠如は、ウィキペディアのようなプラットフォームにおける知識の共有にとって重要な障壁となり、しばしば編集者は言語で新しい単語を作るために一貫性のないアドホックな方法に頼ることを余儀なくされる。
我々の研究は、これらの課題を克服するために開発された技術パイプラインについて詳述している。
我々は、ソース識別や、現代標準アラビア語に対する偏見にもかかわらず光学文字認識(OCR)の利用、誤りの訂正とデータモデルの標準化のための厳密な後処理など、低リソースデータを扱うことの難しさを体系的に解決する。
結果として得られた構造化データセットはWikidata Lexemesと完全に互換性があり、重要な技術リソースとして機能する。
L-ReLF法は汎用性のために設計されており、他の言語コミュニティに機械翻訳や形態解析などの下流NLPアプリケーションのための基本的な語彙データを構築するための明確な経路を提供する。
関連論文リスト
- LLM Probe: Evaluating LLMs for Low-Resource Languages [6.177998679139308]
本稿では,低リソース言語における大規模言語モデル (LLM) の言語能力を評価するための語彙ベースアセスメントフレームワークを提案する。
このフレームワークは、語彙アライメント、音声認識、モルフォシンタクティック・プロービング、翻訳精度の4つの領域にわたるモデルを分析する。
論文 参考訳(メタデータ) (2026-03-31T10:03:38Z) - SweRank: Software Issue Localization with Code Ranking [109.3289316191729]
SweRankは、ソフトウェア問題ローカライゼーションのための効率的な検索と参照のためのフレームワークである。
パブリックなGitHubリポジトリからキュレートされた大規模なデータセットであるSweLocを構築します。
SweRankは最先端の性能を達成し、従来のランキングモデルとコストの高いエージェントベースシステムの両方より優れていることを示す。
論文 参考訳(メタデータ) (2025-05-07T19:44:09Z) - Leveraging LLM For Synchronizing Information Across Multilingual Tables [45.821452282988794]
本稿では,多言語情報同期のための大規模言語モデル (LLM) について検討する。
本稿では,古くなったウィキペディアのテーブルを更新する実世界のプロセスをシミュレートした,情報更新データセットを提案する。
この結果から,単一プロンプトアプローチが最適でない結果をもたらすことがしばしばあり,タスク分解戦略を導入することが示唆された。
論文 参考訳(メタデータ) (2025-04-03T13:15:18Z) - Understanding In-Context Machine Translation for Low-Resource Languages: A Case Study on Manchu [53.437954702561065]
In-context machine translation (MT) with large language model (LLMs) は低リソースMTにおいて有望な手法である。
本研究は,辞書,文法書,検索した並列例などの資源の種類が翻訳性能に与える影響を系統的に検討する。
結果から,良質な辞書や優れた並列例は有用であり,文法はほとんど役に立たないことが明らかとなった。
論文 参考訳(メタデータ) (2025-02-17T14:53:49Z) - ViSoLex: An Open-Source Repository for Vietnamese Social Media Lexical Normalization [1.053698976085779]
ViSoLexはベトナムのソーシャルメディアテキストの語彙正規化の課題に対処するために設計されたオープンソースのシステムである。
ソースコードを公開することで、ViSoLexはベトナムのより堅牢な自然言語処理ツールの開発に貢献することを目指している。
論文 参考訳(メタデータ) (2025-01-13T02:47:13Z) - Discourse Features Enhance Detection of Document-Level Machine-Generated Content [53.41994768824785]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
既存のMGC検出器は、しばしば表面レベルの情報のみに焦点を当て、暗黙的かつ構造的な特徴を見渡す。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Contextual Spelling Correction with Language Model for Low-resource Setting [0.0]
文脈理解を伴うSCモデルを提供するために、小規模な単語ベースの変換器LMを訓練する。
コーパスからエラー発生確率(エラーモデル)を抽出する。
LMとエラーモデルを組み合わせることで、よく知られたノイズチャネルフレームワークを通じてSCモデルを開発することができる。
論文 参考訳(メタデータ) (2024-04-28T05:29:35Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Exhaustive Entity Recognition for Coptic: Challenges and Solutions [8.980876474818153]
本稿では,エジプトのヘレニズム時代の言語であるコプトの実体認識について述べる。
タスクに対するNLPアプローチを評価し、低リソースで形態学的に複雑な言語に適用することの難しさを概観する。
我々は,ウィキペディアにリンクするネスト付きエンティリティ認識と半自動エンティティを,頑健な依存関係解析,機能ベースのCRFモデル,手作りの知識ベースリソースに頼って,名前付きおよび名前なしのネスト付きエンティリティ認識と半自動エンティティのソリューションを提案する。
論文 参考訳(メタデータ) (2020-11-03T23:49:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。