Fugu-MT 論文翻訳(概要): Benchmarking Bengali Dialectal Bias: A Multi-Stage Framework Integrating RAG-Based Translation and Human-Augmented RLAIF

論文の概要: Benchmarking Bengali Dialectal Bias: A Multi-Stage Framework Integrating RAG-Based Translation and Human-Augmented RLAIF

arxiv url: http://arxiv.org/abs/2603.21359v1
Date: Sun, 22 Mar 2026 18:44:57 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-24 19:11:39.3783
Title: Benchmarking Bengali Dialectal Bias: A Multi-Stage Framework Integrating RAG-Based Translation and Human-Augmented RLAIF
Title（参考訳）: ベンチマークによるベンガル方言バイアス: RAG-based translation と Human-Augmented RLAIF を統合した多段階フレームワーク
Authors: K. M. Jubair Sami, Dipto Sumit, Ariyan Hossain, Farig Sadeque,
Abstract要約: 大規模言語モデル(LLM)は、低リソース言語の方言に対する性能バイアスを頻繁に示している。ベンガル方言9方言を対象に,LLM質問応答における方言バイアスを評価するための2段階の枠組みを提案する。
参考スコア（独自算出の注目度）: 0.3227658251731014
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) frequently exhibit performance biases against regional dialects of low-resource languages. However, frameworks to quantify these disparities remain scarce. We propose a two-phase framework to evaluate dialectal bias in LLM question-answering across nine Bengali dialects. First, we translate and gold-label standard Bengali questions into dialectal variants adopting a retrieval-augmented generation (RAG) pipeline to prepare 4,000 question sets. Since traditional translation quality evaluation metrics fail on unstandardized dialects, we evaluate fidelity using an LLM-as-a-judge, which human correlation confirms outperforms legacy metrics. Second, we benchmark 19 LLMs across these gold-labeled sets, running 68,395 RLAIF evaluations validated through multi-judge agreement and human fallback. Our findings reveal severe performance drops linked to linguistic divergence. For instance, responses to the highly divergent Chittagong dialect score 5.44/10, compared to 7.68/10 for Tangail. Furthermore, increased model scale does not consistently mitigate this bias. We contribute a validated translation quality evaluation method, a rigorous benchmark dataset, and a Critical Bias Sensitivity (CBS) metric for safety-critical applications.
Abstract（参考訳）: 大規模言語モデル(LLM)は、低リソース言語の方言に対する性能バイアスを頻繁に示している。しかし、これらの格差を定量化する枠組みは依然として乏しい。ベンガル方言9方言を対象に,LLM質問応答における方言バイアスを評価するための2段階の枠組みを提案する。まず, 検索拡張生成(RAG)パイプラインを用いた方言変種にゴールドラベルのベンガル質問を翻訳し, 4,000の質問セットを作成する。 LLM-as-a-judge を用いて,従来の翻訳品質評価指標は標準化されていない方言ではフェールするため,人間の相関が従来の指標よりも優れていることを示す。第2に、これらのゴールドラベル集合に対して19のLCMをベンチマークし、マルチジャッジ合意とヒューマンフォールバックによって検証された68,395 RLAIF評価を実行した。以上の結果から,言語的相違が重篤な成績低下をみとめた。例えば、非常に多様なチッタゴン方言に対する反応は5.44/10であり、Tangailは7.68/10である。さらに、モデルスケールの増大は、このバイアスを継続的に緩和するわけではない。本研究は,安全性評価のための翻訳品質評価手法,厳密なベンチマークデータセット,およびクリティカルバイアス感度(CBS)測定値について提案する。

関連論文リスト

Cross-Lingual Stability of LLM Judges Under Controlled Generation: Evidence from Finno-Ugric Languages [0.22009842278462158]
大規模言語モデル(LLM)の言語間評価は、典型的には、真のモデルの性能差と測定不安定性の2つの要因を混同する。対象言語が異なる場合に生成条件を一定に保って評価信頼性を評価する。本研究は, 形態学的に豊かな言語における談話レベルの評価には, ゼロショット・ジャッジ・トランスファーが信頼できないことを示唆している。
論文参考訳（メタデータ） (2026-02-02T16:27:32Z)
A Comparative Analysis of Retrieval-Augmented Generation Techniques for Bengali Standard-to-Dialect Machine Translation Using LLMs [0.3227658251731014]
標準言語からその地域方言への翻訳は、少ないデータと言語変化のため、重要なNLP課題である。本稿では,標準的なベンガル翻訳のための2つの新しいRAGパイプラインを提案し,比較する。
論文参考訳（メタデータ） (2025-12-16T08:18:18Z)
Steering LLMs toward Korean Local Speech: Iterative Refinement Framework for Faithful Dialect Translation [17.99472063920348]
DIA-REFINEはゴール指向の包括的方言翻訳のためのフレームワークである。本研究では,言語変化を定量化するための方言忠実度スコア (DFS) と,方言翻訳の成功度を測定するためのターゲット方言比 (TDR) を導入する。我々の研究は、ゴール指向の包括的方言翻訳のための堅牢なフレームワークを確立する。
論文参考訳（メタデータ） (2025-11-10T03:52:24Z)
PakBBQ: A Culturally Adapted Bias Benchmark for QA [3.4455728937232597]
PakBBQは、文化的かつ地域的に適応した、質問回答データセットのオリジナルのバイアスベンチマークの拡張である。 PakBBQは、英語とウルドゥー語の両方の8つのカテゴリーにまたがる214以上のテンプレートと17180のQAペアで構成されており、年齢、障害、外観、性別、社会経済的地位、宗教、地域関係、言語形式を含む8つのバイアス次元をカバーしている。
論文参考訳（メタデータ） (2025-08-13T20:42:44Z)
LLM-Based Evaluation of Low-Resource Machine Translation: A Reference-less Dialect Guided Approach with a Refined Sylheti-English Benchmark [1.3927943269211591]
本稿では,Large Language Models(LLMs)に基づく機械翻訳評価を強化する包括的フレームワークを提案する。我々は、Sylheti- English文ペア、対応する機械翻訳、およびネイティブ話者が注釈付けしたダイレクトアセスメント(DA)スコアを組み込むことで、ONUBADデータセットを拡張した。評価の結果,提案したパイプラインは既存の手法より常に優れており,スピアマン相関において+0.1083の高利得が得られることがわかった。
論文参考訳（メタデータ） (2025-05-18T07:24:13Z)
Assessing Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [68.33068005789116]
本稿では、標準英語とAAVEで1.2K以上の並列クエリペアを含むベンチマークであるReDialを紹介する。我々は、GPT、Claude、Llama、Mistral、Phiモデルファミリーなど、広く使われているモデルを評価した。我々の研究は、方言クエリにおけるLLMバイアスを分析するための体系的で客観的な枠組みを確立する。
論文参考訳（メタデータ） (2024-10-14T18:44:23Z)
CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。 CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文参考訳（メタデータ） (2024-02-20T16:02:12Z)
"Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。 NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。本研究は,Halucination rate,Halucination rate,Halucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sr。
論文参考訳（メタデータ） (2023-12-18T17:18:04Z)
Benchmarking Large Language Models in Retrieval-Augmented Generation [53.504471079548]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。 RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文参考訳（メタデータ） (2023-09-04T08:28:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。