論文の概要: Exposing the Cracks: Vulnerabilities of Retrieval-Augmented LLM-based Machine Translation
- arxiv url: http://arxiv.org/abs/2510.00829v1
- Date: Wed, 01 Oct 2025 12:43:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.55788
- Title: Exposing the Cracks: Vulnerabilities of Retrieval-Augmented LLM-based Machine Translation
- Title(参考訳): ひび割れの抽出:LLMを用いた検索機械翻訳の脆弱性
- Authors: Yanming Sun, Runzhe Zhan, Chi Seng Cheang, Han Wu, Xuebo Liu, Yuyao Niu, Fengying Ye, Kaixin Lan, Lidia S. Chao, Derek F. Wong,
- Abstract要約: 本稿では,REAL-MTのロバスト性を評価するために,雑音合成フレームワークと新しい指標を提案する。
その結果,検索した文脈に強く依存する低リソース言語ペアは,雑音下では劣化しやすくなった。
LRMには推論能力が強化されているが、誤り訂正の改善は見られず、さらにノイズの影響を受けやすい。
- 参考スコア(独自算出の注目度): 40.37732389445079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: \textbf{RE}trieval-\textbf{A}ugmented \textbf{L}LM-based \textbf{M}achine \textbf{T}ranslation (REAL-MT) shows promise for knowledge-intensive tasks like idiomatic translation, but its reliability under noisy retrieval contexts remains poorly understood despite this being a common challenge in real-world deployment. To address this gap, we propose a noise synthesis framework and new metrics to evaluate the robustness of REAL-MT systematically. Using this framework, we instantiate REAL-MT with Qwen-series models, including standard LLMs and large reasoning models (LRMs) with enhanced reasoning, and evaluate their performance on idiomatic translation across high-, medium-, and low-resource language pairs under synthesized noise. Our results show that low-resource language pairs, which rely more heavily on retrieved context, degrade more severely under noise than high-resource ones and often produce nonsensical translations. Although LRMs possess enhanced reasoning capabilities, they show no improvement in error correction and are even more susceptible to noise, tending to rationalize incorrect contexts. We find that this stems from an attention shift away from the source idiom to noisy content, while confidence increases despite declining accuracy, indicating poor calibration. To mitigate these issues, we investigate training-free and fine-tuning strategies, which improve robustness at the cost of performance in clean contexts, revealing a fundamental trade-off. Our findings highlight the limitations of current approaches, underscoring the need for self-verifying integration mechanisms.
- Abstract(参考訳): textbf{RE}trieval-\textbf{A}ugmented \textbf{L}LM-based \textbf{M}achine \textbf{T}ranslation (REAL-MT) は、慣用的な翻訳のような知識集約的なタスクを約束するが、しかしながら、そのノイズの多いコンテキスト下での信頼性は、現実のデプロイメントにおいて共通の課題であるにもかかわらず、よく理解されていない。
このギャップに対処するために,REAL-MTの頑健さを体系的に評価するためのノイズ合成フレームワークと新しい指標を提案する。
このフレームワークを用いて、標準LLMや大推論モデル(LRM)を含むQwenシリーズモデルを用いてREAL-MTをインスタンス化し、高、中、低リソースの言語対を合成雑音下での慣用翻訳の性能を評価する。
その結果,検索した文脈に強く依存する低リソース言語ペアは,高リソース言語よりも雑音下で劣化し,非意味翻訳がしばしば発生することがわかった。
LRMには推論能力が強化されているが、誤り訂正の改善は見られず、さらにノイズの影響を受けやすく、誤った文脈を合理化する傾向がある。
精度の低下にもかかわらず信頼性は向上し,キャリブレーションの低下が示唆された。
これらの問題を緩和するため、クリーンな文脈におけるパフォーマンスのコストにおいて堅牢性を向上し、基本的なトレードオフを明らかにするトレーニングフリーおよび微調整戦略について検討する。
本研究は, 自己検証型統合機構の必要性を浮き彫りにして, 現状のアプローチの限界を浮き彫りにした。
関連論文リスト
- Rethinking LLM Parametric Knowledge as Post-retrieval Confidence for Dynamic Retrieval and Reranking [23.1400319714807]
大規模言語モデル(LLM)は、知識の範囲を超えて疑問に直面したとき、しばしば不正確な応答(幻覚)を生成する。
Retrieval-Augmented Generation (RAG)は、外部知識を活用することでこの問題に対処するが、重要な課題は、検索されたコンテキストが特定のクエリに応答する能力を効果的に強化するかどうかである。
この課題は知識境界認識の重要性を浮き彫りにしており、これは現在の手法が個別のラベルや限られた信号障害に適切に対処する方法である。
論文 参考訳(メタデータ) (2025-09-08T09:37:20Z) - Context Engineering for Trustworthiness: Rescorla Wagner Steering Under Mixed and Inappropriate Contexts [55.70338710797578]
関連コンテンツと不適切なコンテンツを含む実世界のコンテキストとクエリをペアリングするPoisoned Context Testbedを紹介した。
動物における連想学習に触発されて、神経科学からRescorla-Wagner(RW)モデルを適用し、競合する文脈信号がLLM出力にどのように影響するかを定量化する。
RW-ステアリング(RW-Steering)は、2段階の微調整に基づくアプローチであり、モデルが不適切な信号を内部的に識別し無視することを可能にする。
論文 参考訳(メタデータ) (2025-09-02T00:40:34Z) - Exploring LLM Reasoning Through Controlled Prompt Variations [0.9217021281095907]
我々は,4種類の急激な摂動に直面する場合,最先端モデルが論理的整合性と正当性を維持するかを評価する。
13個のオープンソースおよびクローズドソース LLM を用いて実験を行った結果,モデルコンテキストウィンドウ内に無関係なコンテキストを導入することで,性能が著しく低下することが判明した。
ある摂動は、明示的なプロンプトなしでも、必然的にチェーンオブ思考のような推論行動を引き起こす。
論文 参考訳(メタデータ) (2025-04-02T20:18:50Z) - Refining Translations with LLMs: A Constraint-Aware Iterative Prompting Approach [7.5069214839655345]
大言語モデル(LLM)は機械翻訳(MT)において顕著な熟練性を示している
本稿では,意味的正確性に不可欠なキーワードを優先することで,翻訳忠実度を高める多段階のプロンプトチェーンを提案する。
FLORES-200およびWMTデータセットのベースモデルとしてLlamaとQwenを使用した実験は、ベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-11-13T05:40:24Z) - SMILE: Speech Meta In-Context Learning for Low-Resource Language Automatic Speech Recognition [55.2480439325792]
音声メタインコンテキスト学習(SMILE)は、メタラーニングと音声インコンテキスト学習(SICL)を組み合わせた革新的なフレームワークである
SMILEは、トレーニング不要な多言語ASRタスクにおいて、ベースライン手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2024-09-16T16:04:16Z) - Disentangled Noisy Correspondence Learning [56.06801962154915]
クロスモーダル検索は、モダリティ間の潜在対応を理解する上で重要である。
DisNCLはノイズ対応学習における特徴分散のための新しい情報理論フレームワークである。
論文 参考訳(メタデータ) (2024-08-10T09:49:55Z) - Large Language Models are Efficient Learners of Noise-Robust Speech
Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。
本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。
最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文 参考訳(メタデータ) (2024-01-19T01:29:27Z) - Joint Dropout: Improving Generalizability in Low-Resource Neural Machine
Translation through Phrase Pair Variables [17.300004156754966]
本稿では,低リソースのニューラルマシン翻訳において,句を変数に置き換えることによる課題に対処する,ジョイントドロップアウト(Joint Dropout)という手法を提案する。
BLEU と Direct Assessment のスコアに示すように,最小限のリソースを持つ言語対の翻訳品質は大幅に向上した。
論文 参考訳(メタデータ) (2023-07-24T14:33:49Z) - Enhancing Contrastive Learning with Noise-Guided Attack: Towards
Continual Relation Extraction in the Wild [57.468184469589744]
我々はtextbfContrative textbfLearning(NaCL) における textbfNoise-guided textbf attack という名前の耐雑音性コントラストフレームワークを開発する。
直接雑音除去や到達不能雑音回避と比較して,攻撃により与えられた雑音ラベルに一致するように特徴空間を変更する。
論文 参考訳(メタデータ) (2023-05-11T18:48:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。