論文の概要: LLM-BT: Back-Translation as a Framework for Terminology Standardization and Dynamic Semantic Embedding
- arxiv url: http://arxiv.org/abs/2506.08174v1
- Date: Mon, 09 Jun 2025 19:39:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:40.564835
- Title: LLM-BT: Back-Translation as a Framework for Terminology Standardization and Dynamic Semantic Embedding
- Title(参考訳): LLM-BT: 用語標準化と動的意味埋め込みのためのフレームワークとしてのバックトランスレーション
- Authors: Li Weigang, Pedro Carvalho Brom,
- Abstract要約: 我々は,大言語モデル(LLM)を利用した翻訳フレームワークである textbfLLM-BT を提案し,用語の検証と標準化を自動化する。
textbf(1) Term-Level Consistency Validation: Using English $rightarrow$ intermediate language $rightarrow$ English achieves back-translation。
textbf (3) セマンティック埋め込みとしてのバックトランスレーション:BTは動的セマンティック埋め込みとして概念化され、潜在意味を明らかにする。
- 参考スコア(独自算出の注目度): 2.685668802278156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid growth of English technical terms challenges traditional expert-driven standardization, especially in fast-evolving fields like AI and quantum computing. Manual methods struggle to ensure multilingual consistency. We propose \textbf{LLM-BT}, a back-translation framework powered by large language models (LLMs) to automate terminology verification and standardization via cross-lingual semantic alignment. Our contributions are: \textbf{(1) Term-Level Consistency Validation:} Using English $\rightarrow$ intermediate language $\rightarrow$ English back-translation, LLM-BT achieves high term consistency across models (e.g., GPT-4, DeepSeek, Grok), with case studies showing over 90\% exact or semantic matches. \textbf{(2) Multi-Path Verification Workflow:} A novel ``Retrieve--Generate--Verify--Optimize'' pipeline integrates serial (e.g., EN $\rightarrow$ ZHcn $\rightarrow$ ZHtw $\rightarrow$ EN) and parallel (e.g., EN $\rightarrow$ Chinese/Portuguese $\rightarrow$ EN) BT routes. BLEU and term accuracy indicate strong cross-lingual robustness (BLEU $>$ 0.45; Portuguese accuracy 100\%). \textbf{(3) Back-Translation as Semantic Embedding:} BT is conceptualized as dynamic semantic embedding, revealing latent meaning trajectories. Unlike static embeddings, LLM-BT provides transparent path-based embeddings shaped by model evolution. LLM-BT transforms back-translation into an active engine for multilingual terminology standardization, enabling human--AI collaboration: machines ensure semantic fidelity, humans guide cultural interpretation. This infrastructure supports terminology governance across scientific and technological fields worldwide.
- Abstract(参考訳): 英語の技術用語の急速な成長は、特にAIや量子コンピューティングのような急速に発展する分野において、従来の専門家主導の標準化に挑戦する。
マニュアルメソッドは多言語一貫性を確保するのに苦労する。
本稿では,言語間セマンティックアライメントによる用語検証と標準化を自動化するために,大規模言語モデル(LLM)を利用した翻訳フレームワークである‘textbf{LLM-BT} を提案する。
textbf{(1) Term-Level Consistency Validation:} English $\rightarrow$ intermediate language $\rightarrow$ English back-translation, LLM-BT is a high term consistency across model(例: GPT-4, DeepSeek, Grok)。
EN $\rightarrow$ ZHcn $\rightarrow$ ZHtw $\rightarrow$ EN) と並列 (e g , EN $\rightarrow$ Chinese/Portuguese $\rightarrow$ EN) BTルートを統合する。
BLEUと項精度は、強い言語間ロバスト性を示す(BLEU $> 0.45; Portuguese accuracy 100\%)。
textbf{(3) Back-Translation as Semantic Embedding:} BT は動的セマンティックな埋め込みとして概念化され、潜在的な意味のトラジェクトリが明らかになる。
静的埋め込みとは異なり、LLM-BTはモデル進化によって形成された透明なパスベースの埋め込みを提供する。
LLM-BTは、多言語用語標準化のための活発なエンジンに逆翻訳を変換し、人間とAIのコラボレーションを可能にする。
このインフラは、世界中の科学・技術分野における用語ガバナンスを支援している。
関連論文リスト
- MT$^{3}$: Scaling MLLM-based Text Image Machine Translation via Multi-Task Reinforcement Learning [22.27715186895943]
エンドツーエンド TIMT に Multi-Task RL をMLLM に適用する最初のフレームワークである MT$3$ を紹介する。
TIMTの複雑さにルールベースのRL戦略を適応させる、新しいマルチミックス報酬機構を用いて訓練されている。
我々のモデルは最新のドメイン内MIT-10Mベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2025-05-26T09:02:35Z) - $\texttt{SEM-CTRL}$: Semantically Controlled Decoding [53.86639808659575]
$texttSEM-CTRL$は、LLMデコーダに直接、リッチなコンテキスト依存制約とタスクおよびインスタンス固有のセマンティクスを強制する統一的なアプローチである。
texttSEM-CTRL$は、小さな訓練済みのLLMがより大きな変種や最先端の推論モデルよりも効率的に性能を向上することを可能にする。
論文 参考訳(メタデータ) (2025-03-03T18:33:46Z) - Towards Global AI Inclusivity: A Large-Scale Multilingual Terminology Dataset (GIST) [19.91873751674613]
GISTは2000年から2023年にかけての上位AIカンファレンス論文から抽出された5K語を含む、大規模な多言語AI用語データセットである。
この用語はアラビア語、中国語、フランス語、日本語、ロシア語に翻訳され、LLMを抽出するためのハイブリッドフレームワークと翻訳のための人間の専門知識を組み合わせたものである。
データセットの品質は既存のリソースに対してベンチマークされ、クラウドソースによる評価によって、より優れた翻訳精度を示す。
論文 参考訳(メタデータ) (2024-12-24T11:50:18Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Revamping Multilingual Agreement Bidirectionally via Switched
Back-translation for Multilingual Neural Machine Translation [107.83158521848372]
マルチリンガル・コンセンサス(MA)は、マルチリンガル・ニューラル・マシン翻訳(MNMT)の重要性を示した
textbfBidirectional textbfMultilingual textbfAgreement via textbfSwitched textbfBack-textbftranslation (textbfBMA-SBT)
これは、訓練済みのMNMTモデルを微調整するための、新規で普遍的な多言語合意フレームワークである。
論文 参考訳(メタデータ) (2022-09-28T09:14:58Z) - Incorporating BERT into Parallel Sequence Decoding with Adapters [82.65608966202396]
本稿では,2種類のBERTモデルをエンコーダとデコーダとして取り出し,シンプルで軽量なアダプタモジュールを導入し,それらを微調整する。
我々は、ソース側およびターゲット側BERTモデルに含まれる情報を協調的に活用できるフレキシブルで効率的なモデルを得る。
我々のフレームワークは、BERTの双方向および条件独立性を考慮した、Mask-Predictという並列シーケンス復号アルゴリズムに基づいている。
論文 参考訳(メタデータ) (2020-10-13T03:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。