Fugu-MT 論文翻訳(概要): Simorgh at SemEval-2026 task 7: Region-Aware Hybrid Retrieval for Low-Resource Cultural Reasoning in Multilingual Question Answering

論文の概要: Simorgh at SemEval-2026 task 7: Region-Aware Hybrid Retrieval for Low-Resource Cultural Reasoning in Multilingual Question Answering

arxiv url: http://arxiv.org/abs/2605.27636v1
Date: Tue, 26 May 2026 19:55:37 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-28 17:38:55.492279
Title: Simorgh at SemEval-2026 task 7: Region-Aware Hybrid Retrieval for Low-Resource Cultural Reasoning in Multilingual Question Answering
Title（参考訳）: Simorgh at SemEval-2026 task 7: Region-Aware Hybrid Retrieval for Low-Resource Cultural Reasoning in Multilingual Question Answering
Authors: Hadi Bayrami Asl Tekanlou, Mahdi Bakhtiyarzadeh, Jafar Razmara,
Abstract要約: 我々は, BLEnDベンチマークを用いて, 30言語からなる多言語コーパスからなる, 文化的根拠付き多言語質問応答について検討した。本稿では,BM25語彙マッチングと密接な意味的類似性と局所重み付けを組み合わせ,応答の関連性を改善するための地域対応ハイブリッド検索手法を提案する。
参考スコア（独自算出の注目度）: 0.6882042556551609
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Although Large Language Models (LLMs) demonstrate excellent capabilities and performance for general reasoning tasks within the general public domain, they may face challenges with culturally grounded knowledge within languages with limited digital and textual data. In this paper, we investigate culturally grounded multiple-choice question answering with the BLEnD benchmark, which consists of a multilingual corpus of 30 languages and covers various socio-cultural domains, such as cuisine, sports, family, etc. We propose a region-aware hybrid retrieval approach that combines BM25 lexical matching and dense semantic similarity with regional weighting heuristics to improve the relevance of the answer. The retrieved documents are used to construct a structured prompt for the Qwen3-14B quantized model with logit-based deterministic answer selection. The experimental results show improvements to cross-lingual stability with the hybrid retrieval approach over pure parametric inference for culturally grounded question answering. However, there are still notable performance gaps between languages with more and less training data. This shows that the limitations of the retrieval augmentation approach are not entirely overcome by the training data imbalance problem.
Abstract（参考訳）: 大言語モデル(LLM)は、一般のパブリックドメイン内での一般的な推論タスクに優れた能力と性能を示すが、デジタルデータとテキストデータに制限のある言語内での文化的基盤を持つ知識の課題に直面する可能性がある。本稿では,30言語からなる多言語コーパスからなるBLEnDベンチマークを用いて,文化に根ざした多言語質問に対する回答について検討する。本稿では,BM25語彙マッチングと密接な意味的類似性と局所重み付けヒューリスティックを組み合わせ,応答の妥当性を向上する地域対応ハイブリッド検索手法を提案する。得られた文書を用いて、ロジットに基づく決定論的回答選択を伴うQwen3-14B量子化モデルの構造化プロンプトを構築する。実験結果から,文化的根拠のある質問応答に対する純粋パラメトリック推論に対するハイブリッド検索手法による言語間安定性の向上が示された。しかしながら、トレーニングデータが少ない言語には、依然として注目すべきパフォーマンスギャップがある。このことは, 学習データ不均衡の問題によって, 検索強化アプローチの限界が完全に克服されるわけではないことを示している。

関連論文リスト

I Am Aligned, But With Whom? MENA Values Benchmark for Evaluating Cultural Alignment and Multilingual Bias in LLMs [5.060243371992739]
大規模言語モデル(LLM)の文化的アライメントと多言語バイアスを評価するための新しいベンチマークであるMENAValuesを紹介する。大規模で権威ある人的調査から、我々は16カ国の人口レベルの応答分布を持つMENAの社会文化的景観を捉えた構造化データセットをキュレートした。分析の結果,同じ質問が言語に基づいて大きく異なる反応をもたらす「クロス・Lingual Value Shifts」,その理由の説明を促す「Reasoning-induced Degradation」,モデルがセンシティブな質問を拒否する「Logit Leakage」,内部確率が強く隠蔽される「Logit Leakage」の3つの重要な現象が明らかになった。
論文参考訳（メタデータ） (2025-10-15T05:10:57Z)
A method for improving multilingual quality and diversity of instruction fine-tuning datasets [29.07537849245622]
マルチリンガルデータ品質・多様性(M-DaQ)を導入し,IFT(Multilingual Instruction Fine-Tuning)の改善を図る。 M-DaQは、高品質で意味的に多様な多言語IFTサンプルを選択することで、LLMの多言語性を改善する新しい方法である。 18言語にわたる実証的な結果から、M-DaQで微調整されたモデルでは、バニラベースラインの60%の勝利率よりも大きなパフォーマンス向上が達成されている。
論文参考訳（メタデータ） (2025-09-19T03:07:59Z)
Multilingual Retrieval Augmented Generation for Culturally-Sensitive Tasks: A Benchmark for Cross-lingual Robustness [30.00463676754559]
検索したウィキペディア文書と組み合わせた領土紛争のデータセットであるBordIRLinesを49言語で紹介する。我々は多言語検索のための複数のモードを定式化することにより、このRAG設定の言語間ロバスト性を評価する。実験の結果,多様な言語からの視点を取り入れることで,ロバスト性の向上が期待できることがわかった。
論文参考訳（メタデータ） (2024-10-02T01:59:07Z)
CaLMQA: Exploring culturally specific long-form question answering across 23 languages [58.18984409715615]
CaLMQAは、文化的に異なる23言語にわたる51.7Kの質問のデータセットである。我々は,LLM生成長文回答の事実性,関連性,表面品質を評価する。
論文参考訳（メタデータ） (2024-06-25T17:45:26Z)
CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。 CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。 CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文参考訳（メタデータ） (2024-06-10T01:59:00Z)
The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文参考訳（メタデータ） (2024-05-02T14:49:50Z)
ZusammenQA: Data Augmentation with Specialized Models for Cross-lingual Open-retrieval Question Answering System [16.89747171947662]
本稿では,言語横断的オープン-検索質問応答(COQA)におけるMIA共有タスクを提案する。この挑戦的なシナリオでは、入力された質問に対して、システムは多言語プールから証拠文書を収集し、その質問の言語で回答を生成する必要がある。データ拡張(Data Augmentation)、パッセージ検索(Passage Retrieval)、Answer Generation(Answer Generation)の3つの主要コンポーネントに対して、異なるモデル変種を組み合わせたいくつかのアプローチを考案した。
論文参考訳（メタデータ） (2022-05-30T10:31:08Z)
AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文参考訳（メタデータ） (2021-04-17T20:23:45Z)
XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文参考訳（メタデータ） (2020-05-01T12:22:33Z)
LAReQA: Language-agnostic answer retrieval from a multilingual pool [29.553907688813347]
LAReQAによる言語間アライメントの「強い」テスト。機械翻訳による学習データの増強は効果的であることがわかった。この発見は、言語に依存しない検索は、言語間評価の実質的な新しいタイプである、という我々の主張を裏付けるものである。
論文参考訳（メタデータ） (2020-04-11T20:51:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。