論文の概要: Quality-Aware Translation Tagging in Multilingual RAG system
- arxiv url: http://arxiv.org/abs/2510.23070v1
- Date: Mon, 27 Oct 2025 07:11:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.483469
- Title: Quality-Aware Translation Tagging in Multilingual RAG system
- Title(参考訳): 多言語RAGシステムにおける品質認識翻訳タグ
- Authors: Hoyeon Moon, Byeolhee Kim, Nikhil Verma,
- Abstract要約: 我々はmRAG(QTT-RAG)における品質認識翻訳タグを提案する。
QTT-RAGは3次元のセマンティック同値、文法的精度、自然さと頻度で翻訳品質を明示的に評価する。
このアプローチにより、ネイティブ言語文書に制限のある低リソース設定で、クロスランガル文書を効果的に使用することができる。
- 参考スコア(独自算出の注目度): 0.3876459156082311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual Retrieval-Augmented Generation (mRAG) often retrieves English documents and translates them into the query language for low-resource settings. However, poor translation quality degrades response generation performance. Existing approaches either assume sufficient translation quality or utilize the rewriting method, which introduces factual distortion and hallucinations. To mitigate these problems, we propose Quality-Aware Translation Tagging in mRAG (QTT-RAG), which explicitly evaluates translation quality along three dimensions-semantic equivalence, grammatical accuracy, and naturalness&fluency-and attach these scores as metadata without altering the original content. We evaluate QTT-RAG against CrossRAG and DKM-RAG as baselines in two open-domain QA benchmarks (XORQA, MKQA) using six instruction-tuned LLMs ranging from 2.4B to 14B parameters, covering two low-resource languages (Korean and Finnish) and one high-resource language (Chinese). QTT-RAG outperforms the baselines by preserving factual integrity while enabling generator models to make informed decisions based on translation reliability. This approach allows for effective usage of cross-lingual documents in low-resource settings with limited native language documents, offering a practical and robust solution across multilingual domains.
- Abstract(参考訳): MRAG(Multilingual Retrieval-Augmented Generation)は、しばしば英語の文書を検索し、低リソース設定のためにクエリ言語に変換する。
しかし、翻訳品質の低下は応答生成性能を低下させる。
既存のアプローチでは、十分な翻訳品質を前提とするか、あるいは実際の歪みや幻覚をもたらす書き換え手法を用いている。
これらの問題を緩和するために,mRAG(QTT-RAG)における品質認識翻訳タグを提案する。これは,3次元の意味的等価性,文法的精度,自然性・頻度の3つに沿った翻訳品質を明確に評価し,元の内容を変更することなくこれらのスコアをメタデータとしてアタッチする。
我々は,CrossRAG と DKM-RAG に対するQTT-RAG を2つのオープンドメイン QA ベンチマーク (XORQA, MKQA) のベースラインとして,2.4B から 14B のパラメータを含む6つの命令調整 LLM を用いて評価し,低リソース言語 (韓国語とフィンランド語) と高リソース言語 (中国語) をカバーする。
QTT-RAGは、事実整合性を維持しつつ、翻訳信頼性に基づいた情報決定を可能にすることで、ベースラインよりも優れる。
このアプローチにより、ネイティブなドキュメントが制限された低リソース環境で、クロスランガルなドキュメントを効果的に使用することができ、マルチランガルなドメインにまたがる実用的で堅牢なソリューションを提供する。
関連論文リスト
- Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering [68.3400058037817]
本稿では,TREQA(Translation Evaluation via Question-Answering)について紹介する。
我々は,TREQAが最先端のニューラルネットワークとLLMベースのメトリクスより優れていることを示し,代用段落レベルの翻訳をランク付けする。
論文 参考訳(メタデータ) (2025-04-10T09:24:54Z) - Multilingual Retrieval-Augmented Generation for Knowledge-Intensive Task [89.45111250272559]
Retrieval-augmented Generation (RAG) は現代のNLPの基盤となっている。
本稿では,複数言語にまたがるRAGの有効性について,複数言語にまたがるオープンドメイン問合せに対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-04-04T17:35:43Z) - Q-NL Verifier: Leveraging Synthetic Data for Robust Knowledge Graph Question Answering [0.4499833362998489]
高品質な合成クエリとNL翻訳を生成する方法であるQ-NL Verifierを提案する。
我々のアプローチは、構造化クエリの意味論的に正確な自然言語パラフレーズを生成するために、大きな言語モデルに依存している。
LC-QuAD 2.0ベンチマークを用いて行った実験から、Q-NL Verifierは、他のモデルからのパラフレーズや、人間による翻訳によく対応していることがわかった。
論文 参考訳(メタデータ) (2025-03-03T10:28:24Z) - Investigating Language Preference of Multilingual RAG Systems [4.438698005789677]
MRAGシステムは、クエリとドキュメント間の言語的バリエーションによって、関連する情報を取得するのに苦労する。
DKM-RAG(Dual Knowledge Multilingual RAG)は,翻訳された多言語パスを相補的なモデル知識で融合するフレームワークである。
実験結果から,DKM-RAGは言語嗜好を緩和し,多様な言語環境における性能向上を図っている。
論文 参考訳(メタデータ) (2025-02-16T15:54:05Z) - LLM-based Translation Inference with Iterative Bilingual Understanding [52.46978502902928]
大規模言語モデル(LLM)の言語間機能に基づいた,新しい反復的バイリンガル理解翻訳法を提案する。
LLMの言語横断的能力により、ソース言語とターゲット言語を別々にコンテキスト理解することが可能になる。
提案したIBUTは、いくつかの強力な比較法より優れている。
論文 参考訳(メタデータ) (2024-10-16T13:21:46Z) - A Data Selection Approach for Enhancing Low Resource Machine Translation Using Cross-Lingual Sentence Representations [0.4499833362998489]
本研究は,既存のデータセットが特に騒々しい英語-マラティー語対の事例に焦点を当てた。
データ品質問題の影響を軽減するために,言語間文表現に基づくデータフィルタリング手法を提案する。
その結果,IndicSBERTによるベースラインポストフィルタよりも翻訳品質が大幅に向上した。
論文 参考訳(メタデータ) (2024-09-04T13:49:45Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。