論文の概要: ConsistencyAI: A Benchmark to Assess LLMs' Factual Consistency When Responding to Different Demographic Groups
- arxiv url: http://arxiv.org/abs/2510.13852v1
- Date: Sat, 11 Oct 2025 23:32:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.475965
- Title: ConsistencyAI: A Benchmark to Assess LLMs' Factual Consistency When Responding to Different Demographic Groups
- Title(参考訳): ConsistencyAI: 異なるデモグラフィックグループに応答する際のLCMのFactual Consistencyを評価するベンチマーク
- Authors: Peter Banyas, Shristi Sharma, Alistair Simmons, Atharva Vispute,
- Abstract要約: 本稿では,大規模言語モデル(LLM)の現実的整合性を測定するための独立したベンチマークであるConsistencyAIを紹介する。
実験では、19のLSMを質問し、15のトピック毎に5つの事実を要求した。
回答を文埋め込み, 対人コサイン類似度を計算し, 対人コサイン類似度の重み付け平均を計算し, 事実整合性スコアを算出した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Is an LLM telling you different facts than it's telling me? This paper introduces ConsistencyAI, an independent benchmark for measuring the factual consistency of large language models (LLMs) for different personas. ConsistencyAI tests whether, when users of different demographics ask identical questions, the model responds with factually inconsistent answers. Designed without involvement from LLM providers, this benchmark offers impartial evaluation and accountability. In our experiment, we queried 19 LLMs with prompts that requested 5 facts for each of 15 topics. We repeated this query 100 times for each LLM, each time adding prompt context from a different persona selected from a subset of personas modeling the general population. We processed the responses into sentence embeddings, computed cross-persona cosine similarity, and computed the weighted average of cross-persona cosine similarity to calculate factual consistency scores. In 100-persona experiments, scores ranged from 0.9065 to 0.7896, and the mean was 0.8656, which we adopt as a benchmark threshold. xAI's Grok-3 is most consistent, while several lightweight models rank lowest. Consistency varies by topic: the job market is least consistent, G7 world leaders most consistent, and issues like vaccines or the Israeli-Palestinian conflict diverge by provider. These results show that both the provider and the topic shape the factual consistency. We release our code and interactive demo to support reproducible evaluation and encourage persona-invariant prompting strategies.
- Abstract(参考訳): LLMは私に言うのと違う事実をあなたに伝えていますか?
本稿では,大規模言語モデル(LLM)の現実的整合性を測定するための独立したベンチマークであるConsistencyAIを紹介する。
一貫性AIは、異なる階層のユーザーが同じ質問をしたとき、そのモデルが事実的に矛盾した回答で応答するかどうかをテストする。
LLMプロバイダの関与なしに設計されたこのベンチマークは、公平な評価と説明責任を提供する。
実験では、19のLSMを質問し、15のトピック毎に5つの事実を要求した。
一般集団をモデル化したペルソナのサブセットから選択した異なるペルソナから,各パーソナに対して,このクエリを100回繰り返した。
回答を文埋め込み, 対人コサイン類似度を計算し, 対人コサイン類似度の重み付け平均を計算し, 事実整合性スコアを算出した。
100対人実験ではスコアは0.9065から0.7896で、平均は0.8656で、ベンチマーク閾値として採用しました。
xAIのGrok-3は最も一貫性があり、いくつかの軽量モデルが最も低い。
雇用市場は最も一貫性が低く、G7世界のリーダーは最も一貫性があり、ワクチンやイスラエルとパレスチナの紛争は提供者によって分散している。
これらの結果は,プロバイダとトピックの両方が事実整合性を形成することを示している。
再現可能な評価をサポートし、ペルソナ不変のプロンプト戦略を促進するために、コードとインタラクティブなデモをリリースします。
関連論文リスト
- Are Economists Always More Introverted? Analyzing Consistency in Persona-Assigned LLMs [24.10799108625848]
我々は、ペルソナに割り当てられたLarge Language Models(LLM)における一貫性を分析するための新しい標準フレームワークを導入する。
本フレームワークは,複数のタスク次元にまたがる4つのカテゴリ(幸福,職業,人格,政治的スタンス)のペルソナを評価する。
この結果から, 与えられたペルソナ, ステレオタイプ, モデル設計選択など, 一貫性は複数の要因に影響されていることが明らかとなった。
論文 参考訳(メタデータ) (2025-06-03T09:12:23Z) - SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - Can Large Language Models Always Solve Easy Problems if They Can Solve Harder Ones? [65.43882564649721]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも矛盾する問題に悩まされている。
我々はConsisEvalベンチマークを開発し、各エントリは厳密な難易度で2つの質問から構成される。
相対的整合性スコアによる整合性向上の可能性を分析する。
論文 参考訳(メタデータ) (2024-06-18T17:25:47Z) - Standardizing the Measurement of Text Diversity: A Tool and a Comparative Analysis of Scores [28.431348662950743]
テキストの繰り返しを計測し抽出するためのPythonパッケージをリリースする。
ユーザがテキストの繰り返しをインタラクティブに探索するための、多様性に基づくプラットフォームを構築します。
論文 参考訳(メタデータ) (2024-03-01T14:23:12Z) - Enhancing Large Language Models in Coding Through Multi-Perspective Self-Consistency [127.97467912117652]
大規模言語モデル(LLM)は、コード生成において顕著な能力を示した。
しかし、単一の試みで正しいソリューションを生成することは依然として課題である。
本稿では,MPSC(Multi-Perspective Self-Consistency)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T14:23:26Z) - PRD: Peer Rank and Discussion Improve Large Language Model based Evaluations [10.709365940160685]
現代の大規模言語モデル(LLM)は、自動評価と比較が難しい。
本稿では,全ての解答対に対するLLMのペアワイズ選好を考慮に入れたピアランク(PR)アルゴリズムを提案する。
我々のアプローチは高い精度を実現し、人間の判断とよく一致していることがわかりました。
論文 参考訳(メタデータ) (2023-07-06T04:05:44Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z) - Evaluating the Factual Consistency of Large Language Models Through News
Summarization [97.04685401448499]
本稿では,要約タスクに着目したFIB(Factual Inconsistency Benchmark)と呼ばれる新しいベンチマークを提案する。
現実的に一貫した要約では、手作業で事実的に一貫したものとして検証する、人書きの参照要約を使用します。
現実的に矛盾しない要約に対して、我々は、事実的に矛盾しているとして手動で注釈付けした一連の要約モデルから要約を生成する。
論文 参考訳(メタデータ) (2022-11-15T18:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。