Fugu-MT 論文翻訳(概要): DFKI-MLT at SemEval-2026 TASK 7: Steering Multilingual Models Towards Cultural Knowledge

論文の概要: DFKI-MLT at SemEval-2026 TASK 7: Steering Multilingual Models Towards Cultural Knowledge

arxiv url: http://arxiv.org/abs/2605.23069v1
Date: Thu, 21 May 2026 21:58:20 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-25 17:29:20.118634
Title: DFKI-MLT at SemEval-2026 TASK 7: Steering Multilingual Models Towards Cultural Knowledge
Title（参考訳）: DFKI-MLT at Semeval-2026 TASK 7: Steering Multilingual Models towards the Cultural Knowledge
Authors: Yusser Al Ghussin, Daniil Gurgurov, Yasser Hamidullah, Josef van Genabith, Cristina España-Bonet, Simon Ostermann,
Abstract要約: 本稿では,SemEval-2026タスク7におけるDFKI-MLTシステムについて紹介する。並列FLORESデータから抽出した言語ベクトルを用いて,多言語LLMに対してアクティベーションステアリングを適用した。本手法は,残ストリームに言語固有のステアリングベクトルを追加することで,推論時適応を行う。
参考スコア（独自算出の注目度）: 15.307697879299312
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) are increasingly used across diverse linguistic and cultural contexts, yet their cultural knowledge remains uneven across regions and languages. We present the DFKI-MLT system for SemEval-2026 Task 7 on cultural awareness, where we apply activation steering to multilingual LLMs using language vectors extracted from parallel FLORES data. Our method performs inference-time adaptation by adding language-specific steering vectors to the residual stream at a selected transformer layer, without any parameter updates. We participated in both the short-answer (SAQ) and multiple-choice (MCQ) tracks; however, only our MCQ submission received an official score. In the official MCQ track, we achieved 86.96% accuracy, ranking 7th out of 17 teams. To better understand system behavior, we conduct post-hoc analyses on the shared-task MCQ and SAQ settings. These analyses show that activation steering yields modest and heterogeneous improvements on cultural reasoning: gains are strongly layer-sensitive, vary substantially across language-region pairs, with some configurations even degrading performance, and interact with prompt formulation, comparing generic and culturally conditioned prompts. Our findings suggest that prompt design and activation steering should be jointly optimized for culturally aware multilingual inference.
Abstract（参考訳）: 大規模言語モデル(LLM)は、様々な言語や文化の文脈で広く使われているが、その文化的知識は地域や言語で不均一である。本稿では,SemEval-2026タスク7のDFKI-MLTシステムについて,並列FLORESデータから抽出した言語ベクトルを用いて,多言語LLMに対してアクティベーションステアリングを適用した。提案手法は, パラメータを更新することなく, 選択した変圧器層における残差ストリームに言語固有のステアリングベクトルを付加することにより, 推論時適応を行う。短い回答 (SAQ) と複数選択 (MCQ) の両方のトラックに参加したが, 公式スコアはMCQのみであった。公式のMCQトラックでは86.96%の精度で17チーム中7位にランクインした。システムの振る舞いをよりよく理解するために、共有タスクMCQとSAQ設定に関するポストホック分析を行う。これらの分析は,アクティベーションステアリングが文化的推論の質素で異質な改善をもたらすことを示した。ゲインは強い層感性を持ち,言語と領域のペア間で大きく異なり,一部の構成は性能を低下させることさえあり,また,素早い定式化と相互作用し,総称的および文化的条件付きプロンプトと比較する。この結果から, 迅速な設計とアクティベーションのステアリングは, 文化的に認識された多言語推論のために共同で最適化されるべきであることが示唆された。

関連論文リスト

CLM-Bench: Benchmarking and Analyzing Cross-lingual Misalignment of LLMs in Knowledge Editing [5.137059606366328]
CLM-Benchは中国固有の手法を用いて構築されたカルチャー対応のベンチマークである。代表的LLMについて広範な実験を行い、言語間の相違を顕著に明らかにした。本研究は,言語間移動における現在の手法の有効性に挑戦し,文化的にネイティブなベンチマークの重要性を浮き彫りにした。
論文参考訳（メタデータ） (2026-01-24T09:55:34Z)
MMA-ASIA: A Multilingual and Multimodal Alignment Framework for Culturally-Grounded Evaluation [91.22008265721952]
MMA-ASIAは、アジア8か国と10か国を対象とする人為的、多言語的、マルチモーダルなベンチマークに重点を置いている。これは、テキスト、画像(視覚的質問応答)、音声の3つのモードにまたがる入力レベルで整列された最初のデータセットである。 i) 国間の文化的認識格差、(ii) 言語間の整合性、(iii) 言語間の整合性、(iv) 文化知識の一般化、(v) 基礎的妥当性を評価する5次元評価プロトコルを提案する。
論文参考訳（メタデータ） (2025-10-07T14:12:12Z)
A method for improving multilingual quality and diversity of instruction fine-tuning datasets [29.07537849245622]
マルチリンガルデータ品質・多様性(M-DaQ)を導入し,IFT(Multilingual Instruction Fine-Tuning)の改善を図る。 M-DaQは、高品質で意味的に多様な多言語IFTサンプルを選択することで、LLMの多言語性を改善する新しい方法である。 18言語にわたる実証的な結果から、M-DaQで微調整されたモデルでは、バニラベースラインの60%の勝利率よりも大きなパフォーマンス向上が達成されている。
論文参考訳（メタデータ） (2025-09-19T03:07:59Z)
XLQA: A Benchmark for Locale-Aware Multilingual Open-Domain Question Answering [48.913480244527925]
大規模言語モデル (LLM) はオープンドメイン質問応答 (ODQA) において大きな進歩を見せている。ほとんどの評価は英語に焦点をあて、言語間で局所不変の回答を仮定する。 XLQAは局所感性多言語ODQA用に明示的に設計された新しいベンチマークである。
論文参考訳（メタデータ） (2025-08-22T07:00:13Z)
MAKIEval: A Multilingual Automatic WiKidata-based Framework for Cultural Awareness Evaluation for LLMs [37.98920430188422]
MAKIEvalは、大規模言語モデルにおける文化的認識を評価するための自動多言語フレームワークである。モデル出力における文化的実体を自動的に識別し、構造化された知識にリンクする。オープンソースのシステムとプロプライエタリシステムの両方を対象とする,世界のさまざまな場所で開発された7つのLLMを評価した。
論文参考訳（メタデータ） (2025-05-27T19:29:40Z)
MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [86.7047714187813]
MMLU-ProXは29の言語をカバーするベンチマークであり、英語のベンチマーク上に構築されている。それぞれの言語バージョンは11,829の同一の質問で構成されており、直接言語間比較を可能にする。効率的な評価ニーズを満たすため,言語毎の質問数は658件である。
論文参考訳（メタデータ） (2025-03-13T15:59:20Z)
EMCee: Improving Multilingual Capability of LLMs via Bridging Knowledge and Reasoning with Extracted Synthetic Multilingual Context [6.612630497074871]
大規模言語モデル(LLM)は、広範囲のタスクで目覚ましい進歩を遂げました。英語中心のトレーニングデータに大きく依存すると、非英語言語ではパフォーマンスが大幅に低下する。本稿では,クエリ関連知識を明示的に抽出し,活用することにより,LLMの多言語機能を向上させるフレームワークであるEMCeeを提案する。
論文参考訳（メタデータ） (2025-03-07T06:05:34Z)
Balanced Multi-Factor In-Context Learning for Multilingual Large Language Models [53.38288894305388]
MLLM(Multilingual Large Language Model)は,言語間知識伝達をパラメータ更新なしで活用することにより,文脈内学習(ICL)を活用して高い性能を実現する。 1) 意味的類似性,(2) 言語的アライメント,(3) 言語固有のパフォーマンスの3つの要因が多言語ICLに影響を与える。我々は,これらの因子を定量化し,最適にバランスをとる手法として,バランスの取れた多要素ICL(textbfBMF-ICL)を提案する。
論文参考訳（メタデータ） (2025-02-17T06:56:33Z)
Exploring Cross-lingual Latent Transplantation: Mutual Opportunities and Open Challenges [48.96952594416528]
現在の大規模言語モデル(LLM)は多言語能力と文化的適応性に不均衡を示すことが多い。 XTransplantフレームワークは、言語間で潜在的なアクティベーションを移植することで、英語と非英語のリソースの相補的な長所を利用することができる。
論文参考訳（メタデータ） (2024-12-17T09:05:30Z)
Benchmarking Machine Translation with Cultural Awareness [50.183458829028226]
文化関連コンテンツの翻訳は、効果的な異文化間コミュニケーションに不可欠である。多くの文化特化項目(CSI)は言語間の翻訳を欠いていることが多い。この難しさは機械翻訳システムの文化的意識の分析を妨げる。
論文参考訳（メタデータ） (2023-05-23T17:56:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。