論文の概要: LLM-BT-Terms: Back-Translation as a Framework for Terminology Standardization and Dynamic Semantic Embedding
- arxiv url: http://arxiv.org/abs/2506.08174v2
- Date: Wed, 11 Jun 2025 17:04:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 02:07:43.341544
- Title: LLM-BT-Terms: Back-Translation as a Framework for Terminology Standardization and Dynamic Semantic Embedding
- Title(参考訳): LLM-BT- terms: Back-translation as a Framework for Terminology Standardization and Dynamic Semantic Embedding
- Authors: Li Weigang, Pedro Carvalho Brom,
- Abstract要約: LLM-BTは、大規模言語モデル(LLM)を利用したバックトランスレーションフレームワークである。
言語間セマンティックアライメントによる用語検証と標準化を自動化するように設計されている。
BLEUスコアと項レベルの精度は、強い言語間の堅牢性を示し、BLEUスコアは0.45を超え、ポルトガル語の項精度は100%に達する。
- 参考スコア(独自算出の注目度): 2.685668802278156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid expansion of English technical terminology presents a significant challenge to traditional expert-based standardization, particularly in rapidly developing areas such as artificial intelligence and quantum computing. Manual approaches face difficulties in maintaining consistent multilingual terminology. To address this, we introduce LLM-BT, a back-translation framework powered by large language models (LLMs) designed to automate terminology verification and standardization through cross-lingual semantic alignment. Our key contributions include: (1) term-level consistency validation: by performing English -> intermediate language -> English back-translation, LLM-BT achieves high term consistency across different models (such as GPT-4, DeepSeek, and Grok). Case studies demonstrate over 90 percent of terms are preserved either exactly or semantically; (2) multi-path verification workflow: we develop a novel pipeline described as Retrieve -> Generate -> Verify -> Optimize, which supports both serial paths (e.g., English -> Simplified Chinese -> Traditional Chinese -> English) and parallel paths (e.g., English -> Chinese / Portuguese -> English). BLEU scores and term-level accuracy indicate strong cross-lingual robustness, with BLEU scores exceeding 0.45 and Portuguese term accuracy reaching 100 percent; (3) back-translation as semantic embedding: we reinterpret back-translation as a form of dynamic semantic embedding that uncovers latent trajectories of meaning. In contrast to static embeddings, LLM-BT offers transparent, path-based embeddings shaped by the evolution of the models. This reframing positions back-translation as an active mechanism for multilingual terminology standardization, fostering collaboration between machines and humans - machines preserve semantic integrity, while humans provide cultural interpretation.
- Abstract(参考訳): 英語の技術用語の急速な拡張は、特に人工知能や量子コンピューティングのような急速に発展している分野において、伝統的な専門家ベースの標準化に重大な課題をもたらす。
手動のアプローチは、一貫性のある多言語用語を維持する上で困難に直面している。
そこで本稿では,言語間セマンティックアライメントによる用語検証と標準化の自動化を目的とした,大規模言語モデル(LLM)をベースとしたバックトランスレーションフレームワークであるLLM-BTを紹介する。
1) 項レベルの整合性検証: 英語 -> 中間言語 -> 英語の逆翻訳により、LLM-BTは異なるモデル(GPT-4、DeepSeek、Grokなど)で高次整合性を達成する。
ケーススタディでは、90%以上の用語が正確にあるいは意味的に保存されていることを実証している; (2) マルチパス検証ワークフロー: Retrieve -> Generate -> Verify -> Optimizeは、シリアルパス(例えば、英語 -> Simplified Chinese -> Simplified Chinese -> Traditional Chinese -> English)とパラレルパス(例えば、英語 -> Chinese / Portuguese -> English)の両方をサポートする新しいパイプラインを開発する。
BLEUスコアと項レベルの精度は、強い言語間の堅牢性を示し、BLEUスコアは0.45を超え、ポルトガル語の項精度は100%に達する。
静的な埋め込みとは対照的に、LLM-BTはモデルの進化によって形成された透明なパスベースの埋め込みを提供する。
このリフレーミングは、翻訳を多言語用語の標準化の活発なメカニズムとして位置づけ、機械と人間の協力を育み、機械は意味的整合性を保ち、人間は文化的な解釈を提供する。
関連論文リスト
- MT$^{3}$: Scaling MLLM-based Text Image Machine Translation via Multi-Task Reinforcement Learning [22.27715186895943]
エンドツーエンド TIMT に Multi-Task RL をMLLM に適用する最初のフレームワークである MT$3$ を紹介する。
TIMTの複雑さにルールベースのRL戦略を適応させる、新しいマルチミックス報酬機構を用いて訓練されている。
我々のモデルは最新のドメイン内MIT-10Mベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2025-05-26T09:02:35Z) - $\texttt{SEM-CTRL}$: Semantically Controlled Decoding [53.86639808659575]
$texttSEM-CTRL$は、LLMデコーダに直接、リッチなコンテキスト依存制約とタスクおよびインスタンス固有のセマンティクスを強制する統一的なアプローチである。
texttSEM-CTRL$は、小さな訓練済みのLLMがより大きな変種や最先端の推論モデルよりも効率的に性能を向上することを可能にする。
論文 参考訳(メタデータ) (2025-03-03T18:33:46Z) - Towards Global AI Inclusivity: A Large-Scale Multilingual Terminology Dataset (GIST) [19.91873751674613]
GISTは2000年から2023年にかけての上位AIカンファレンス論文から抽出された5K語を含む、大規模な多言語AI用語データセットである。
この用語はアラビア語、中国語、フランス語、日本語、ロシア語に翻訳され、LLMを抽出するためのハイブリッドフレームワークと翻訳のための人間の専門知識を組み合わせたものである。
データセットの品質は既存のリソースに対してベンチマークされ、クラウドソースによる評価によって、より優れた翻訳精度を示す。
論文 参考訳(メタデータ) (2024-12-24T11:50:18Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Revamping Multilingual Agreement Bidirectionally via Switched
Back-translation for Multilingual Neural Machine Translation [107.83158521848372]
マルチリンガル・コンセンサス(MA)は、マルチリンガル・ニューラル・マシン翻訳(MNMT)の重要性を示した
textbfBidirectional textbfMultilingual textbfAgreement via textbfSwitched textbfBack-textbftranslation (textbfBMA-SBT)
これは、訓練済みのMNMTモデルを微調整するための、新規で普遍的な多言語合意フレームワークである。
論文 参考訳(メタデータ) (2022-09-28T09:14:58Z) - Incorporating BERT into Parallel Sequence Decoding with Adapters [82.65608966202396]
本稿では,2種類のBERTモデルをエンコーダとデコーダとして取り出し,シンプルで軽量なアダプタモジュールを導入し,それらを微調整する。
我々は、ソース側およびターゲット側BERTモデルに含まれる情報を協調的に活用できるフレキシブルで効率的なモデルを得る。
我々のフレームワークは、BERTの双方向および条件独立性を考慮した、Mask-Predictという並列シーケンス復号アルゴリズムに基づいている。
論文 参考訳(メタデータ) (2020-10-13T03:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。