論文の概要: Polyglots or Multitudes? Multilingual LLM Answers to Value-laden Multiple-Choice Questions
- arxiv url: http://arxiv.org/abs/2602.05932v1
- Date: Thu, 05 Feb 2026 17:44:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.094069
- Title: Polyglots or Multitudes? Multilingual LLM Answers to Value-laden Multiple-Choice Questions
- Title(参考訳): 多言語か多言語か : 多言語LLMによる多言語質問への回答
- Authors: Léo Labat, Etienne Ollion, François Yvon,
- Abstract要約: MCQ(Multiple-Choice Questions)は、知識、推論能力、さらには大きな言語モデル(LLM)で符号化された値を評価するためにしばしば用いられる。
- 参考スコア(独自算出の注目度): 16.64653069179642
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multiple-Choice Questions (MCQs) are often used to assess knowledge, reasoning abilities, and even values encoded in large language models (LLMs). While the effect of multilingualism has been studied on LLM factual recall, this paper seeks to investigate the less explored question of language-induced variation in value-laden MCQ responses. Are multilingual LLMs consistent in their responses across languages, i.e. behave like theoretical polyglots, or do they answer value-laden MCQs depending on the language of the question, like a multitude of monolingual models expressing different values through a single model? We release a new corpus, the Multilingual European Value Survey (MEVS), which, unlike prior work relying on machine translation or ad hoc prompts, solely comprises human-translated survey questions aligned in 8 European languages. We administer a subset of those questions to over thirty multilingual LLMs of various sizes, manufacturers and alignment-fine-tuning status under comprehensive, controlled prompt variations including answer order, symbol type, and tail character. Our results show that while larger, instruction-tuned models display higher overall consistency, the robustness of their responses varies greatly across questions, with certain MCQs eliciting total agreement within and across models while others leave LLM answers split. Language-specific behavior seems to arise in all consistent, instruction-fine-tuned models, but only on certain questions, warranting a further study of the selective effect of preference fine-tuning.
- Abstract(参考訳): MCQ(Multiple-Choice Questions)は、知識、推論能力、さらには大きな言語モデル(LLM)で符号化された値を評価するためにしばしば用いられる。
マルチリンガリズムがLLMの事実的リコールに与える影響について検討されているが,本研究では,多言語によるMCQ応答の変動について,未検討の課題について考察する。
多言語 LLM は言語間の応答に一貫性があるのか、つまり、理論的な多言語のように振る舞うのか、それとも、単一のモデルを通して異なる値を表現する複数の単言語モデルのように、質問の言語によって、価値に富んだMCQに答えるのか?
我々は、機械翻訳やアドホックなプロンプトに依存する以前の作業とは異なり、8つのヨーロッパ言語で整列された人間翻訳された調査質問のみを含む新しいコーパス、MEVS(Multilingual European Value Survey)をリリースした。
我々は,これらの質問のサブセットを,回答順序,記号型,尾文字など,包括的かつ制御されたプロンプト変化の下で,様々な大きさの多言語LLM,製造者,アライメントファインニング状態の30以上に管理する。
以上の結果から,より大きな命令調整モデルでは全体の一貫性が向上するが,応答の頑健性は質問によって大きく異なっており,MCQがモデル内およびモデル間の総一致を導き出す一方で,LCMの回答を分割するものもある。
言語固有の振る舞いは、すべての一貫した命令を微調整したモデルに現れるように見えるが、特定の質問のみに限られ、好みの微調整による選択的な効果についてさらなる研究が保証される。
関連論文リスト
- CALM: Unleashing the Cross-Lingual Self-Aligning Ability of Language Model Question Answering [42.92810049636768]
大規模言語モデル(LLM)は、言語固有の文化的知識と一般知識の両方を取得するために、多言語コーパスで事前訓練されている。
言語モデル(CALM)の言語間知識の整合性について検討する。
我々は、異なる言語間でモデルの知識を整合させるために、直接選好最適化(DPO)を用いる。
論文 参考訳(メタデータ) (2025-01-30T16:15:38Z) - Multilingual Needle in a Haystack: Investigating Long-Context Behavior of Multilingual Large Language Models [22.859955360764275]
本稿では,MultiLingual Needle-in-a-Haystack(MLNeedle)テストを導入する。
我々はMLNeedleの4つの最先端の大規模言語モデルを評価する。
論文 参考訳(メタデータ) (2024-08-19T17:02:06Z) - CaLMQA: Exploring culturally specific long-form question answering across 23 languages [58.18984409715615]
CaLMQAは、文化的に異なる23言語にわたる51.7Kの質問のデータセットである。
我々は,LLM生成長文回答の事実性,関連性,表面品質を評価する。
論文 参考訳(メタデータ) (2024-06-25T17:45:26Z) - MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。
MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。
MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文 参考訳(メタデータ) (2024-04-07T15:23:28Z) - Evaluating the Elementary Multilingual Capabilities of Large Language Models with MultiQ [16.637598165238934]
大規模言語モデル(LLM)は、世界中の英語話者の大多数を含むすべての人にサービスを提供する必要がある。
近年の研究では、意図した用途に制限があるにもかかわらず、多くの言語でLSMを促すことが示されている。
我々は、27.4kのテスト質問に答える基本的なオープンエンド質問のための新しい銀標準ベンチマークであるMultiQを紹介する。
論文 参考訳(メタデータ) (2024-03-06T16:01:44Z) - How do Large Language Models Handle Multilingualism? [81.15060972112563]
本研究では,大規模言語モデル(LLM)が多言語モデルをどのように扱うかを検討する。
LLMはまずクエリを理解し、タスク解決のために多言語入力を英語に変換する。
中間層では、英語を思考に用い、自己意識とフィードフォワード構造を持つ多言語知識を取り入れている。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - Delving Deeper into Cross-lingual Visual Question Answering [115.16614806717341]
標準学習装置に簡単な修正を加えることで、モノリンガル英語のパフォーマンスへの移行ギャップを大幅に減らすことができることを示す。
多言語マルチモーダル変換器の多言語間VQAを多言語間VQAで解析する。
論文 参考訳(メタデータ) (2022-02-15T18:22:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。