論文の概要: Towards Global AI Inclusivity: A Large-Scale Multilingual Terminology Dataset
- arxiv url: http://arxiv.org/abs/2412.18367v2
- Date: Wed, 25 Dec 2024 06:20:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 10:58:36.042413
- Title: Towards Global AI Inclusivity: A Large-Scale Multilingual Terminology Dataset
- Title(参考訳): グローバルAIのインクルーシティに向けて - 大規模多言語ターミノロジーデータセット
- Authors: Jiarui Liu, Iman Ouzzani, Wenkai Li, Lechen Zhang, Tianyue Ou, Houda Bouamor, Zhijing Jin, Mona Diab,
- Abstract要約: GISTは2000年から2023年にかけての上位AIカンファレンス論文から抽出された5K語を含む、大規模な多言語AI用語データセットである。
この用語はアラビア語、中国語、フランス語、日本語、ロシア語に翻訳され、LLMを抽出するためのハイブリッドフレームワークと翻訳のための人間の専門知識を組み合わせたものである。
この研究は、AI用語リソースにおける重要なギャップに対処し、AI研究におけるグローバルな傾きとコラボレーションを促進することを目的としている。
- 参考スコア(独自算出の注目度): 19.91873751674613
- License:
- Abstract: The field of machine translation has achieved significant advancements, yet domain-specific terminology translation, particularly in AI, remains challenging. We introduced GIST, a large-scale multilingual AI terminology dataset containing 5K terms extracted from top AI conference papers spanning 2000 to 2023. The terms were translated into Arabic, Chinese, French, Japanese, and Russian using a hybrid framework that combines LLMs for extraction with human expertise for translation. The dataset's quality was benchmarked against existing resources, demonstrating superior translation accuracy through crowdsourced evaluation. GIST was integrated into translation workflows using post-translation refinement methods that required no retraining, where LLM prompting consistently improved BLEU and COMET scores. A web demonstration on the ACL Anthology platform highlights its practical application, showcasing improved accessibility for non-English speakers. This work aims to address critical gaps in AI terminology resources and fosters global inclusivity and collaboration in AI research.
- Abstract(参考訳): 機械翻訳の分野は大きな進歩を遂げているが、特にAIにおいて、ドメイン固有の用語翻訳は依然として困難である。
我々は2000年から2023年にかけて、トップAIカンファレンス論文から抽出された5K語を含む大規模多言語AI用語データセットであるGISTを紹介した。
この用語はアラビア語、中国語、フランス語、日本語、ロシア語に翻訳され、LLMを抽出するためのハイブリッドフレームワークと翻訳のための人間の専門知識を組み合わせたものである。
データセットの品質は既存のリソースに対してベンチマークされ、クラウドソース評価による翻訳精度が向上した。
GISTは翻訳後の改良手法を使用して翻訳ワークフローに統合され、LLMはBLEUとCOMETのスコアを継続的に改善した。
ACL Anthologyプラットフォーム上のWebデモでは、非英語話者のアクセシビリティ向上を示すとともに、実用的応用を強調している。
この研究は、AI用語リソースにおける重要なギャップに対処し、AI研究におけるグローバルな傾きとコラボレーションを促進することを目的としている。
関連論文リスト
- A Multilingual Sentiment Lexicon for Low-Resource Language Translation using Large Languages Models and Explainable AI [0.0]
南アフリカとDRCは、ズールー語、セペディ語、アフリカーンス語、フランス語、英語、ツィルバ語などの言語と共に複雑な言語景観を呈している。
この研究はフランス語とツィルバ語用に設計された多言語辞書を開発し、英語、アフリカーンス語、セペディ語、ズールー語への翻訳を含むように拡張された。
総合的なテストコーパスは、感情を予測するためにトレーニングされた機械学習モデルを使用して、翻訳と感情分析タスクをサポートするために作成される。
論文 参考訳(メタデータ) (2024-11-06T23:41:18Z) - SUTRA: Scalable Multilingual Language Model Architecture [5.771289785515227]
我々は50以上の言語でテキストの理解、推論、生成が可能な多言語大言語モデルアーキテクチャSUTRAを紹介する。
広範な評価により、SUTRA は GPT-3.5 や Llama2 といった既存のモデルを 20-30% 上回って、主要なMultitask Language Understanding (MMLU) ベンチマークを上回ります。
以上の結果から,SUTRAは多言語モデル機能において重要なギャップを埋めるだけでなく,AIアプリケーションにおける運用効率とスケーラビリティの新たなベンチマークを確立することが示唆された。
論文 参考訳(メタデータ) (2024-05-07T20:11:44Z) - Domain Terminology Integration into Machine Translation: Leveraging
Large Language Models [3.178046741931973]
本稿では,WMT 2023 におけるドイツ語-英語(DE-EN),英語-チェコ語(EN-CS),中国語-英語(ZH-EN)言語対に対する提案手法について述べる。
この課題は、技術用語を正確に翻訳するシステムを開発するために参加者に挑戦することで機械翻訳(MT)を進めることを目的としている。
論文 参考訳(メタデータ) (2023-10-22T23:25:28Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - KIT's Multilingual Speech Translation System for IWSLT 2023 [58.5152569458259]
IWSLT 2023の多言語トラックに対する音声翻訳システムについて述べる。
このタスクは、様々な量のリソースを持つ10の言語に翻訳する必要がある。
我々のケースド音声システムは、科学的な話の翻訳において、エンドツーエンドの音声よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-06-08T16:13:20Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Towards the Next 1000 Languages in Multilingual Machine Translation:
Exploring the Synergy Between Supervised and Self-Supervised Learning [48.15259834021655]
数百の言語をカバーする多言語機械翻訳モデルを構築するための実践的なアプローチを提案する。
私たちは、異なる言語ペアのデータ可用性に応じて、教師付きと自己監督型の目的の混合を使用します。
この2つのトレーニングパラダイム間の相乗効果により、ゼロリソース設定で高品質な翻訳を生成できることを実証する。
論文 参考訳(メタデータ) (2022-01-09T23:36:44Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。