論文の概要: AWED-FiNER: Agents, Web applications, and Expert Detectors for Fine-grained Named Entity Recognition across 36 Languages for 6.6 Billion Speakers
- arxiv url: http://arxiv.org/abs/2601.10161v1
- Date: Thu, 15 Jan 2026 08:00:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.047164
- Title: AWED-FiNER: Agents, Web applications, and Expert Detectors for Fine-grained Named Entity Recognition across 36 Languages for 6.6 Billion Speakers
- Title(参考訳): AWED-FiNER:36言語にまたがる細粒度エンティティ認識のためのエージェント、Webアプリケーション、エキスパート検出器
- Authors: Prachuryya Kaushik, Ashish Anand,
- Abstract要約: AWED-FiNERは、660億人以上の人々が話す36のグローバル言語に対して、きめ細かい名前付きエンティティ認識(FgNER)のギャップを埋めるために設計されたオープンソースのエコシステムである。
エージェントツールは、多言語テキストを専門のエキスパートモデルにルーティングし、FgNERアノテーションを数秒で取得することを可能にする。
言語固有の極小のオープンソースエキスパートモデルの収集は、エッジデバイスを含むリソース非競合シーンリオのオフライン展開を容易にする。
- 参考スコア(独自算出の注目度): 2.2494083541321466
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce AWED-FiNER, an open-source ecosystem designed to bridge the gap in Fine-grained Named Entity Recognition (FgNER) for 36 global languages spoken by more than 6.6 billion people. While Large Language Models (LLMs) dominate general Natural Language Processing (NLP) tasks, they often struggle with low-resource languages and fine-grained NLP tasks. AWED-FiNER provides a collection of agentic toolkits, web applications, and several state-of-the-art expert models that provides FgNER solutions across 36 languages. The agentic tools enable to route multilingual text to specialized expert models and fetch FgNER annotations within seconds. The web-based platforms provide ready-to-use FgNER annotation service for non-technical users. Moreover, the collection of language specific extremely small sized open-source state-of-the-art expert models facilitate offline deployment in resource contraint scenerios including edge devices. AWED-FiNER covers languages spoken by over 6.6 billion people, including a specific focus on vulnerable languages such as Bodo, Manipuri, Bishnupriya, and Mizo. The resources can be accessed here: Agentic Tool (https://github.com/PrachuryyaKaushik/AWED-FiNER), Web Application (https://hf.co/spaces/prachuryyaIITG/AWED-FiNER), and 49 Expert Detector Models (https://hf.co/collections/prachuryyaIITG/awed-finer).
- Abstract(参考訳): AWED-FiNERは、660億人以上の人々が話す36のグローバル言語に対して、粒度の細かい名前付きエンティティ認識(FgNER)のギャップを埋めるために設計されたオープンソースのエコシステムである。
大規模言語モデル(LLM)が一般的な自然言語処理(NLP)タスクを支配しているのに対し、低リソース言語や細粒度のNLPタスクに苦しむことが多い。
AWED-FiNERはエージェントツールキット、Webアプリケーション、36言語にわたるFgNERソリューションを提供する最先端の専門家モデルのコレクションを提供する。
エージェントツールは、多言語テキストを専門のエキスパートモデルにルーティングし、FgNERアノテーションを数秒で取得することを可能にする。
Webベースのプラットフォームは、非技術ユーザ向けのFgNERアノテーションサービスを提供している。
さらに、言語固有の極小のオープンソースエキスパートモデルの収集により、エッジデバイスを含むリソース非競合シーンリオへのオフラインデプロイが容易になる。
AWED-FiNERは、ボド語、マニプリ語、ビシュヌプリヤ語、ミゾ語など、67億人以上の人々が話している言語をカバーしている。
Agentic Tool (https://github.com/Prachuryya Kaushik/AWED-FiNER)、Web Application (https://hf.co/spaces/prachuryyaIITG/AWED-FiNER)、49 Expert Detector Models (https://hf.co/collections/prachuryyaIITG/awed-finer)である。
関連論文リスト
- Omnilingual ASR: Open-Source Multilingual Speech Recognition for 1600+ Languages [76.14451035425229]
大規模自動音声認識システムであるOmnilingual ASRを紹介する。
自己教師付き事前学習を7Bパラメータに拡張し、堅牢な音声表現を学習する。
ASRが提供しなかった500以上の言語を含む1,600以上の言語にカバー範囲を広げている。
論文 参考訳(メタデータ) (2025-11-12T19:48:09Z) - Building an Efficient Multilingual Non-Profit IR System for the Islamic Domain Leveraging Multiprocessing Design in Rust [0.0]
本研究は、イスラムドメインのための多言語非営利IRシステムの開発に焦点を当てている。
ドメイン適応の継続事前学習やモデルサイズ削減のための言語削減といった手法を用いて,軽量な多言語検索モデルを構築した。
論文 参考訳(メタデータ) (2024-11-09T11:37:18Z) - A New Massive Multilingual Dataset for High-Performance Language Technologies [14.375854322321997]
HPLT言語リソースは、モノリンガルとバイリンガルのコーパスを含む、新しい大規模多言語データセットである。
我々のモノリンガルコレクションは、低から中程度の言語に焦点を合わせ、75言語をカバーし、合計5.6兆のワードトークンがドキュメントレベルで重複している。
私たちの英語中心のパラレルコーパスは、単言語対から派生したもので、18の言語対と、約140億の英語トークンを持つ96万の整列文対をカバーしています。
論文 参考訳(メタデータ) (2024-03-20T22:14:39Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - OpenAgents: An Open Platform for Language Agents in the Wild [71.16800991568677]
OpenAgentsは、日々の生活の中で言語エージェントを使い、ホストするためのオープンなプラットフォームです。
我々は課題と機会を解明し、現実世界の言語エージェントの将来の研究と開発の基礎を築きたいと考えています。
論文 参考訳(メタデータ) (2023-10-16T17:54:53Z) - MULTI3NLU++: A Multilingual, Multi-Intent, Multi-Domain Dataset for
Natural Language Understanding in Task-Oriented Dialogue [115.32009638844059]
英語のみのNLU++データセットを拡張して、手動による翻訳を高、中、低リソース言語に含めます。
Multi3NLU++はそのマルチインテント特性のため、複雑で自然なユーザ目標を表現している。
我々はMulti3NLU++を用いて、インテント検出やスロットラベリングといった自然言語理解タスクに対して、最先端の多言語モデルをベンチマークする。
論文 参考訳(メタデータ) (2022-12-20T17:34:25Z) - Towards Building ASR Systems for the Next Billion Users [15.867823754118422]
インド亜大陸からの低資源言語のためのASRシステム構築に貢献する。
まず、40言語を対象に、17,000時間の生音声データをキュレートする。
この生の音声データを用いて、40のインドの言語に対して、いくつかのwav2vecスタイルモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-11-06T19:34:33Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。