Fugu-MT 論文翻訳(概要): Truth Knows No Language: Evaluating Truthfulness Beyond English

論文の概要: Truth Knows No Language: Evaluating Truthfulness Beyond English

arxiv url: http://arxiv.org/abs/2502.09387v2
Date: Tue, 18 Feb 2025 09:35:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-19 13:32:01.299708
Title: Truth Knows No Language: Evaluating Truthfulness Beyond English
Title（参考訳）: 真実は言葉を知らない:英語以外の真実を評価する
Authors: Blanca Calvo Figueras, Eneko Sagarzazu, Julen Etxaniz, Jeremy Barnes, Pablo Gamallo, Iria De Dios Flores, Rodrigo Agerri,
Abstract要約: 本稿では,バスク語,カタルーニャ語,ガリシア語,スペイン語の真正性を評価するために,TrathfulQAベンチマークをプロ翻訳して導入する。本研究は, 人的評価, 複数選択尺度, LLM-as-a-Judge スコアを用いて, 基礎モデルと指導訓練モデルを比較し, 最先端のオープンLCMを12個評価した。
参考スコア（独自算出の注目度）: 11.20320645651082
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce a professionally translated extension of the TruthfulQA benchmark designed to evaluate truthfulness in Basque, Catalan, Galician, and Spanish. Truthfulness evaluations of large language models (LLMs) have primarily been conducted in English. However, the ability of LLMs to maintain truthfulness across languages remains under-explored. Our study evaluates 12 state-of-the-art open LLMs, comparing base and instruction-tuned models using human evaluation, multiple-choice metrics, and LLM-as-a-Judge scoring. Our findings reveal that, while LLMs perform best in English and worst in Basque (the lowest-resourced language), overall truthfulness discrepancies across languages are smaller than anticipated. Furthermore, we show that LLM-as-a-Judge correlates more closely with human judgments than multiple-choice metrics, and that informativeness plays a critical role in truthfulness assessment. Our results also indicate that machine translation provides a viable approach for extending truthfulness benchmarks to additional languages, offering a scalable alternative to professional translation. Finally, we observe that universal knowledge questions are better handled across languages than context- and time-dependent ones, highlighting the need for truthfulness evaluations that account for cultural and temporal variability. Dataset and code are publicly available under open licenses.
Abstract（参考訳）: 本稿では,バスク語,カタルーニャ語,ガリシア語,スペイン語の真正性を評価するために,TrathfulQAベンチマークをプロ翻訳して導入する。大規模言語モデル(LLM)の真性評価は主に英語で行われている。しかし、LLMが言語全体にわたって真正性を維持する能力は、まだ解明されていない。本研究は, 人的評価, 複数選択尺度, LLM-as-a-Judge スコアを用いて, 基礎モデルと指導訓練モデルを比較し, 最先端のオープンLCMを12個評価した。以上の結果から,LLMは英語では優れ,バスク語では最悪であるが,言語間での真偽の相違は予想より小さいことがわかった。さらに, LLM-as-a-Judgeは, 複数の選択尺度よりも人間の判断と密接に関連しており, 真理性評価において情報性が重要な役割を担っていることを示す。以上の結果から,機械翻訳は真理性ベンチマークを他の言語に拡張するための実行可能なアプローチであり,プロの翻訳に代わるスケーラブルな代替手段を提供することが示された。最後に,ユビキタス知識の質問は文脈や時間に依存した質問よりも言語間でうまく扱われており,文化的・時間的変動を考慮に入れた真理性評価の必要性を強調している。データセットとコードは、オープンライセンスで公開されている。

関連論文リスト

PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts [79.84059473102778]
PolyMathは18の言語と4つの難易度をカバーする多言語数学的推論ベンチマークである。我々のベンチマークは、包括性、言語多様性、高品質な翻訳の難しさを保証する。
論文参考訳（メタデータ） (2025-04-25T15:39:04Z)
Exploring the Multilingual NLG Evaluation Abilities of LLM-Based Evaluators [38.681443695708786]
本研究は,近年の10個のLLMの多言語評価性能を包括的に分析する。参照応答をプロンプトから除外すると、様々な言語のパフォーマンスが向上することがわかった。 LLMに基づく評価器の多くは、低リソース言語よりも、高リソース言語における人間の判断と高い相関関係を示す。
論文参考訳（メタデータ） (2025-03-06T12:04:29Z)
LLM-as-a-Judge & Reward Model: What They Can and Cannot Do [2.2469442203227863]
自動評価器の総合的な分析を行い,その挙動に関するいくつかの重要な知見を報告する。英語の評価能力は言語固有の評価能力に大きく影響し,英語で訓練された評価者が他の言語に容易にスキルを伝達できることがわかった。我々は、現在最先端の評価者が、英語と韓国語の両方において、複雑な推論問題の評価や生成の限界について、挑戦的なプロンプトに苦しむことに気付きました。
論文参考訳（メタデータ） (2024-09-17T14:40:02Z)
Faux Polyglot: A Study on Information Disparity in Multilingual Large Language Models [7.615938028813914]
言語間RAGに基づく情報検索における言語嗜好について検討した。その結果,LLMは問合せ言語と同じ言語で情報に対する体系的バイアスを示すことがわかった。
論文参考訳（メタデータ） (2024-07-07T21:26:36Z)
Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか? 本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文参考訳（メタデータ） (2024-06-23T15:15:17Z)
Selected Languages are All You Need for Cross-lingual Truthfulness Transfer [38.3269908062146]
Fact-aware Multilingual Selective Synergy (FaMSS) と呼ばれる言語間真性伝達の実践的手法を提案する。 FaMSSは、言語バイアスと転送コントリビューションによって全てのテスト対象言語の最適なサブセットを選択し、その後、言語間真性伝達のための翻訳命令チューニングを使用することができる。
論文参考訳（メタデータ） (2024-06-20T15:59:07Z)
Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners [67.85635044939836]
大きな言語モデル(LLM)は印象的な言語機能を示している。本研究では,LLMの自然多言語アライメント改善について検討する。質問翻訳データ(すなわち注釈付き回答なし)に基づいて学習したLLMは、英語と幅広い言語との整合を促進できることがわかった。
論文参考訳（メタデータ） (2024-05-22T16:46:19Z)
Language Ranker: A Metric for Quantifying LLM Performance Across High and Low-Resource Languages [48.40607157158246]
大規模言語モデル(LLM)は、英語、ドイツ語、フランス語のような高リソース言語で、低リソース言語の能力は依然として不十分である。内部表現を用いたLLM性能に基づいて,言語をベンチマークし,ランク付けするための固有測度であるLanguage Rankerを提案する。分析の結果,高リソース言語は英語との類似度が高く,性能が優れ,低リソース言語は類似度が低いことがわかった。
論文参考訳（メタデータ） (2024-04-17T16:53:16Z)
LLMs Are Few-Shot In-Context Low-Resource Language Learners [59.74451570590808]
In-context Learning (ICL) は、大規模言語モデル(LLM)に、表現不足の言語で多様なタスクを実行する権限を与える。 ICLとその言語間変動(X-ICL)を25の低リソース言語と7の比較的高リソース言語で検討した。本研究は,LLMの低リソース理解品質向上における文脈内情報の重要性を論じる。
論文参考訳（メタデータ） (2024-03-25T07:55:29Z)
Is Translation All You Need? A Study on Solving Multilingual Tasks with Large Language Models [79.46179534911019]
大規模言語モデル (LLM) は多言語機能を示しているが、ほとんどは不均衡なトレーニングコーパスのため英語中心である。実世界のユーザクエリと非英語中心のLLMに評価を拡張し、多言語性能のより広範な評価を提供する。
論文参考訳（メタデータ） (2024-03-15T12:47:39Z)
Zero-Shot Cross-Lingual Reranking with Large Language Models for Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文参考訳（メタデータ） (2023-12-26T18:38:54Z)
Cross-Lingual Consistency of Factual Knowledge in Multilingual Language Models [2.6626950367610402]
本研究では,多言語PLMにおける事実知識の言語間整合性(CLC)について検討する。本稿では,言語間の知識一貫性を精度から独立して評価するために,ランク付けに基づく一貫性尺度(RankC)を提案する。
論文参考訳（メタデータ） (2023-10-16T13:19:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。