論文の概要: Facts Do Care About Your Language: Assessing Answer Quality of Multilingual LLMs
- arxiv url: http://arxiv.org/abs/2506.03051v1
- Date: Tue, 03 Jun 2025 16:31:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.830958
- Title: Facts Do Care About Your Language: Assessing Answer Quality of Multilingual LLMs
- Title(参考訳): 言語に気を配るFacts:多言語LLMの回答品質の評価
- Authors: Yuval Kansal, Shmuel Berman, Lydia Liu,
- Abstract要約: 中高生に適した事実質問に答える上で,Llama3.1モデルの正当性を評価する。
我々は、LLMが余分な情報を提供するだけでなく、稀な言語に対する既存のバイアスを悪化させることを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Factuality is a necessary precursor to useful educational tools. As adoption of Large Language Models (LLMs) in education continues of grow, ensuring correctness in all settings is paramount. Despite their strong English capabilities, LLM performance in other languages is largely untested. In this work, we evaluate the correctness of the Llama3.1 family of models in answering factual questions appropriate for middle and high school students. We demonstrate that LLMs not only provide extraneous and less truthful information, but also exacerbate existing biases against rare languages.
- Abstract(参考訳): ファクチュアリティは有用な教育ツールの先駆者である。
教育におけるLarge Language Models (LLMs) の採用は増え続けており、すべての設定における正確性を保証することが最重要である。
英語の能力は強いが、他の言語でのLLMのパフォーマンスはほとんどテストされていない。
本研究では,中高生に適した事実質問に答える上で,Llama3.1モデルの正当性を評価する。
我々は、LLMが余分な情報を提供するだけでなく、稀な言語に対する既存のバイアスを悪化させることを示した。
関連論文リスト
- Multilingual Performance Biases of Large Language Models in Education [39.14806026620442]
大規模言語モデル(LLM)は、教育環境においてますます採用されている。
この研究は、非英語の教育環境での使用が保証されているかどうかを確かめるものである。
論文 参考訳(メタデータ) (2025-04-24T16:32:31Z) - Disparities in LLM Reasoning Accuracy and Explanations: A Case Study on African American English [66.97110551643722]
本研究では,Large Language Models (LLMs) 推論タスクにおける方言の相違について検討する。
LLMは、AAE入力に対するより正確な応答とより単純な推論チェーンと説明を生成する。
これらの知見は、LLMの処理方法と異なる言語品種の理由の体系的差異を浮き彫りにした。
論文 参考訳(メタデータ) (2025-03-06T05:15:34Z) - Truth Knows No Language: Evaluating Truthfulness Beyond English [11.20320645651082]
本稿では,バスク語,カタルーニャ語,ガリシア語,スペイン語の真正性を評価するために,TrathfulQAベンチマークをプロ翻訳して導入する。
本研究は, 人的評価, 複数選択尺度, LLM-as-a-Judge スコアを用いて, 基礎モデルと指導訓練モデルを比較し, 最先端のオープンLCMを12個評価した。
論文 参考訳(メタデータ) (2025-02-13T15:04:53Z) - Improving Bilingual Capabilities of Language Models to Support Diverse Linguistic Practices in Education [3.799331337558008]
大規模言語モデル(LLM)は、教育コンテンツの生成、インストラクターのフィードバックの提供、アセスメントにおける教師の作業量の削減を約束する。
本研究では,多言語大言語モデル(MLLM)がモノリンガル(英語のみ,スペイン語のみ)とバイリンガル(スパングリッシュ)にまたがって有効であることを示す。
論文 参考訳(メタデータ) (2024-11-06T23:16:25Z) - LLM Targeted Underperformance Disproportionately Impacts Vulnerable Users [17.739596091065856]
本研究では,ユーザ特性に応じて,情報精度,真理性,拒絶といった観点から,大規模言語モデルの応答品質がどう変化するかを検討する。
本研究は, 英語能力の低い者, 教育水準の低い者, アメリカ合衆国国外出身者に対して, 最先端のLLMにおける望ましくない行動が不均等に起こることを示唆する。
論文 参考訳(メタデータ) (2024-06-25T17:24:07Z) - Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners [67.85635044939836]
大きな言語モデル(LLM)は印象的な言語機能を示している。
本研究では,LLMの自然多言語アライメント改善について検討する。
質問翻訳データ(すなわち注釈付き回答なし)に基づいて学習したLLMは、英語と幅広い言語との整合を促進できることがわかった。
論文 参考訳(メタデータ) (2024-05-22T16:46:19Z) - Is Translation All You Need? A Study on Solving Multilingual Tasks with Large Language Models [79.46179534911019]
大規模言語モデル (LLM) は多言語機能を示しているが、ほとんどは不均衡なトレーニングコーパスのため英語中心である。
実世界のユーザクエリと非英語中心のLLMに評価を拡張し、多言語性能のより広範な評価を提供する。
論文 参考訳(メタデータ) (2024-03-15T12:47:39Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。