Fugu-MT 論文翻訳(概要): European Language Grid: An Overview

論文の概要: European Language Grid: An Overview

arxiv url: http://arxiv.org/abs/2003.13551v1
Date: Mon, 30 Mar 2020 15:25:34 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-18 07:37:02.850704
Title: European Language Grid: An Overview
Title（参考訳）: European Language Grid: 概要
Authors: Georg Rehm and Maria Berger and Ela Elsholz and Stefanie Hegele and Florian Kintzel and Katrin Marheinecke and Stelios Piperidis and Miltos Deligiannis and Dimitris Galanis and Katerina Gkirtzou and Penny Labropoulou and Kalina Bontcheva and David Jones and Ian Roberts and Jan Hajic and Jana Hamrlov\'a and Luk\'a\v{s} Ka\v{c}ena and Khalid Choukri and Victoria Arranz and Andrejs Vasi\c{l}jevs and Orians Anvari and Andis Lagzdi\c{n}\v{s} and J\=ulija Me\c{l}\c{n}ika and Gerhard Backfried and Erin\c{c} Dikici and Miroslav Janosik and Katja Prinz and Christoph Prinz and Severin Stampler and Dorothea Thomas-Aniola and Jos\'e Manuel G\'omez P\'erez and Andres Garcia Silva and Christian Berr\'io and Ulrich Germann and Steve Renals and Ondrej Klejch
Abstract要約: 欧州言語グリッド(ELG)プロジェクトは、欧州における言語技術(LT)の主要プラットフォームとしてELGを確立している。 ELGはスケーラブルなクラウドプラットフォームであり、簡単に統合可能な方法で、ヨーロッパのすべての言語に対して、数百の商用および非商用LTへのアクセスを提供する。 ELGはMultilingual Digital Single Marketを欧州のLTコミュニティに拡大し、新たな雇用と機会を生み出す。
参考スコア（独自算出の注目度）: 13.990735617594368
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With 24 official EU and many additional languages, multilingualism in Europe and an inclusive Digital Single Market can only be enabled through Language Technologies (LTs). European LT business is dominated by hundreds of SMEs and a few large players. Many are world-class, with technologies that outperform the global players. However, European LT business is also fragmented, by nation states, languages, verticals and sectors, significantly holding back its impact. The European Language Grid (ELG) project addresses this fragmentation by establishing the ELG as the primary platform for LT in Europe. The ELG is a scalable cloud platform, providing, in an easy-to-integrate way, access to hundreds of commercial and non-commercial LTs for all European languages, including running tools and services as well as data sets and resources. Once fully operational, it will enable the commercial and non-commercial European LT community to deposit and upload their technologies and data sets into the ELG, to deploy them through the grid, and to connect with other resources. The ELG will boost the Multilingual Digital Single Market towards a thriving European LT community, creating new jobs and opportunities. Furthermore, the ELG project organises two open calls for up to 20 pilot projects. It also sets up 32 National Competence Centres (NCCs) and the European LT Council (LTC) for outreach and coordination purposes.
Abstract（参考訳）: EUの公式な24の言語と多くの追加言語により、ヨーロッパの多言語主義と包括的デジタル単一市場はLanguage Technologies (LTs)を通じてのみ利用可能である。欧州のLT事業は数百の中小企業と少数の大企業が支配している。多くは世界クラスの技術であり、世界的プレイヤーを上回っている。しかし、欧州のLTビジネスは、国家、言語、垂直、セクターによって断片化されており、その影響を著しく抑えている。欧州言語グリッド(ELG)プロジェクトは、欧州におけるLTの主要なプラットフォームとしてELGを確立することで、この断片化に対処している。 ELGはスケーラブルなクラウドプラットフォームであり、簡単に統合可能な方法で、ツールやサービスの実行、データセットやリソースを含む、ヨーロッパのすべての言語に対して、数百の商用および非商用LTへのアクセスを提供する。完全な運用が完了すると、商用および非商用の欧州LTコミュニティは、彼らの技術とデータセットをERGに保管してアップロードし、グリッドを通じてそれらをデプロイし、他のリソースと接続できるようになる。 ELGはMultilingual Digital Single Marketを欧州のLTコミュニティに拡大し、新たな雇用と機会を生み出す。さらに、ELGプロジェクトは最大20のパイロットプロジェクトに対する2つのオープンコールを組織している。また、32の国立コンペテンスセンター(NCC)と欧州LT協議会(LTC)を、アウトリーチと調整のために設置している。

関連論文リスト

BYOL: Bring Your Own Language Into LLMs [12.151176703151428]
大規模言語モデル(LLM)は、多言語機能を示すが、グローバル言語リソースの深刻な不均衡によって制約される。この格差は、体系的なアンパフォーマンス、文化的不整合、低リソース言語と極低リソース言語の話者へのアクセシビリティの制限につながる。 bring Your Own Language (BYOL)は、各言語のデジタルフットプリントに合わせて、スケーラブルで言語対応のLLM開発のための統合フレームワークである。
論文参考訳（メタデータ） (2026-01-15T19:15:13Z)
LionGuard 2: Building Lightweight, Data-Efficient & Localised Multilingual Content Moderators [3.7678366606419345]
LionGuard 2は、シンガポールのコンテキストに合わせた軽量で多言語対応のモデレーション分類器である。英語、中国語、マレー語、一部のタミル語をサポートしている。シンガポール政府内で運用されている。
論文参考訳（メタデータ） (2025-07-21T07:50:48Z)
EuroLLM-9B: Technical Report [79.96096140260924]
EuroLLM-9Bは、EUの公式言語24言語と追加言語11言語をカバーするために、スクラッチからトレーニングされた大規模な言語モデルである。われわれはEuroLLM-9Bの開発の概要を概観し,トークン化設計,アーキテクチャ仕様,データフィルタリング,トレーニング手順などについて概説する。
論文参考訳（メタデータ） (2025-06-04T15:43:31Z)
How Programming Concepts and Neurons Are Shared in Code Language Models [55.22005737371843]
2つのLlamaモデルを用いて,21個のPLペアに対して数ショットの翻訳処理を行う。概念空間は英語に近づき(PLキーワードを含む)、中間層後半の英語トークンに高い確率を割り当てる。我々は11個のPLと英語のニューロンの活性化を分析し、言語特異的ニューロンが主に下層に集中しているのに対し、各PL専用のニューロンは上層に現れる傾向にあることを示した。
論文参考訳（メタデータ） (2025-06-01T16:24:13Z)
Are Multilingual Language Models an Off-ramp for Under-resourced Languages? Will we arrive at Digital Language Equality in Europe in 2030? [2.1471774065088036]
大規模言語モデル(LLM)は前例のない能力を示し、ほぼ全ての自然言語処理(NLP)タスクの最先端を定義する。 LLMは、十分な量の事前学習データがある言語に対してのみトレーニングすることができる。本稿では,技術支援と要約関連作業の観点から,現状を考察する。
論文参考訳（メタデータ） (2025-02-18T14:20:27Z)
Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文参考訳（メタデータ） (2024-10-06T08:51:30Z)
Teuken-7B-Base & Teuken-7B-Instruct: Towards European LLMs [29.595342315049106]
我々は、欧州連合の24の公用語すべてをサポートすることで、ヨーロッパの言語多様性を受け入れるように設計された2つの多言語LLMを提示する。モデルの開発原則、すなわちデータ構成、トークン化最適化、トレーニング方法論について詳述する。
論文参考訳（メタデータ） (2024-09-30T16:05:38Z)
EuroLLM: Multilingual Language Models for Europe [76.89545643715368]
オープンウェイトな多言語LLMの開発を目的としたEuroLLMプロジェクトを紹介した。これまでの進捗状況を概説し、データ収集とフィルタリングプロセスについて詳述する。マルチリンガル・ジェネラル・ベンチマークと機械翻訳の性能について報告する。
論文参考訳（メタデータ） (2024-09-24T16:51:36Z)
A New Massive Multilingual Dataset for High-Performance Language Technologies [14.375854322321997]
HPLT言語リソースは、モノリンガルとバイリンガルのコーパスを含む、新しい大規模多言語データセットである。我々のモノリンガルコレクションは、低から中程度の言語に焦点を合わせ、75言語をカバーし、合計5.6兆のワードトークンがドキュメントレベルで重複している。私たちの英語中心のパラレルコーパスは、単言語対から派生したもので、18の言語対と、約140億の英語トークンを持つ96万の整列文対をカバーしています。
論文参考訳（メタデータ） (2024-03-20T22:14:39Z)
UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。本研究では,オープンソースの多言語教師付き微調整データセットを構築する。結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文参考訳（メタデータ） (2024-02-07T05:05:53Z)
Okapi: Instruction-tuned Large Language Models in Multiple Languages with Reinforcement Learning from Human Feedback [61.83548032416181]
複数の言語を対象としたRLHFに基づく命令調整型LLMシステムであるOkapiを提案する。オカピは26の多言語言語でインストラクションと応答ランクデータを導入し、将来の多言語LLM研究の促進と開発に役立てている。
論文参考訳（メタデータ） (2023-07-29T18:01:46Z)
MULTI3NLU++: A Multilingual, Multi-Intent, Multi-Domain Dataset for Natural Language Understanding in Task-Oriented Dialogue [115.32009638844059]
英語のみのNLU++データセットを拡張して、手動による翻訳を高、中、低リソース言語に含めます。 Multi3NLU++はそのマルチインテント特性のため、複雑で自然なユーザ目標を表現している。我々はMulti3NLU++を用いて、インテント検出やスロットラベリングといった自然言語理解タスクに対して、最先端の多言語モデルをベンチマークする。
論文参考訳（メタデータ） (2022-12-20T17:34:25Z)
CDA: a Cost Efficient Content-based Multilingual Web Document Aligner [97.98885151955467]
多言語のWebドキュメントをコンテンツに基づいて整列させる、Content-based Document Alignmentアプローチを紹介します。我々はtf-idfを用いたベクトル表現構築に語彙翻訳モデルを利用する。実験によると、cdaは堅牢でコスト効率が高く、(i)大規模でノイズの多いwebデータの処理や(ii)新しくて低リソースな言語へのスケーリングにおいて著しく優れている。
論文参考訳（メタデータ） (2021-02-20T03:37:23Z)
The European Language Technology Landscape in 2020: Language-Centric and Human-Centric AI for Cross-Cultural Communication in Multilingual Europe [17.329457671869744]
言語技術(LT)は、これらの障壁を壊すための強力な手段です。本稿では,欧州のLTランドスケープを概観し,資金提供プログラム,活動,行動,課題について述べる。
論文参考訳（メタデータ） (2020-03-30T21:42:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。