論文の概要: Demo: Statistically Significant Results On Biases and Errors of LLMs Do Not Guarantee Generalizable Results
- arxiv url: http://arxiv.org/abs/2511.02246v1
- Date: Tue, 04 Nov 2025 04:20:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.807425
- Title: Demo: Statistically Significant Results On Biases and Errors of LLMs Do Not Guarantee Generalizable Results
- Title(参考訳): デモ: LLMのバイアスとエラーに関する統計的に重要な結果
- Authors: Jonathan Liu, Haoling Qiu, Jonathan Lasko, Damianos Karakos, Mahsa Yarmohammadi, Mark Dredze,
- Abstract要約: 本研究では,複数のLCM-as-a-judgeセットアップとプロンプトを用いて,これらのクエリに対する応答を評価する。
基礎研究として,LLM間の合意と回答および評価LLMの変化の影響について,2つの事例研究を行った。
- 参考スコア(独自算出の注目度): 10.858989372235657
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research has shown that hallucinations, omissions, and biases are prevalent in everyday use-cases of LLMs. However, chatbots used in medical contexts must provide consistent advice in situations where non-medical factors are involved, such as when demographic information is present. In order to understand the conditions under which medical chatbots fail to perform as expected, we develop an infrastructure that 1) automatically generates queries to probe LLMs and 2) evaluates answers to these queries using multiple LLM-as-a-judge setups and prompts. For 1), our prompt creation pipeline samples the space of patient demographics, histories, disorders, and writing styles to create realistic questions that we subsequently use to prompt LLMs. In 2), our evaluation pipeline provides hallucination and omission detection using LLM-as-a-judge as well as agentic workflows, in addition to LLM-as-a-judge treatment category detectors. As a baseline study, we perform two case studies on inter-LLM agreement and the impact of varying the answering and evaluation LLMs. We find that LLM annotators exhibit low agreement scores (average Cohen's Kappa $\kappa=0.118$), and only specific (answering, evaluation) LLM pairs yield statistically significant differences across writing styles, genders, and races. We recommend that studies using LLM evaluation use multiple LLMs as evaluators in order to avoid arriving at statistically significant but non-generalizable results, particularly in the absence of ground-truth data. We also suggest publishing inter-LLM agreement metrics for transparency. Our code and dataset are available here: https://github.com/BBN-E/medic-neurips-2025-demo.
- Abstract(参考訳): 近年の研究では、LLMの日常的な使用例では幻覚、排便、偏見が一般的であることが示されている。
しかし、医学的文脈で使用されるチャットボットは、人口統計情報が存在する場合など、非医療的要因が関与する状況において一貫したアドバイスを提供する必要がある。
医療チャットボットが期待通りに機能しない状況を理解するため、我々はインフラを開発する。
1) LLM を探索するクエリを自動的に生成し、
2)複数のLSM-as-a-judgeセットアップとプロンプトを用いて,これらのクエリに対する回答を評価する。
例えば, 患者人口, 歴史, 障害, 書体スタイルの空間を抽出し, 現実的な質問を生成する。
2) 評価パイプラインでは, LLM-as-a-judge の他に, LLM-as-a-judge による幻覚および排液検出, エージェントワークフロー, および LLM-as-a-judge 処理カテゴリ検出器が提供される。
基礎研究として,LLM間の合意と回答および評価LLMの変化の影響について,2つの事例研究を行った。
平均コーエンのKappa $\kappa=0.118$) と LLM のアノテータは, 書式, 性別, 人種間で, 統計的に有意な差が認められた。
LLM評価を用いた研究は、統計学的に有意だが一般化不可能な結果に到達しないように、複数のLCMを評価器として使用することを推奨する。
また、透明性のためにLLM間の合意メトリクスを公開することも提案します。
私たちのコードとデータセットは、https://github.com/BBN-E/medic-neurips-2025-demo.comで公開されています。
関連論文リスト
- How Much Content Do LLMs Generate That Induces Cognitive Bias in Users? [13.872175096831343]
大規模言語モデル(LLM)は、レビュー要約から診断支援まで、アプリケーションにますます統合されている。
我々は,LLMがユーザの偏りのあるコンテンツをいつ,どのように公開するかを調査し,その重大度を定量化する。
以上の結果から, LLMは症例の21.86%で文脈の感情を変化させるコンテンツにユーザをさらけ出し, 57.33%の症例において, 覚醒後のデータ質問に幻覚を与え, 5.94%の症例でプライマリーバイアスを呈していた。
論文 参考訳(メタデータ) (2025-07-03T21:56:44Z) - Improving Automatic Evaluation of Large Language Models (LLMs) in Biomedical Relation Extraction via LLMs-as-the-Judge [7.064104563689608]
大規模言語モデル (LLM) は, 生物医学的関係抽出において顕著な性能を示した。
本稿では, LLMs-as-the-Judgeをバイオメディカルな関係抽出のための代替評価法として利用することを検討した。
論文 参考訳(メタデータ) (2025-06-01T02:01:52Z) - Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。
本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文 参考訳(メタデータ) (2025-02-03T17:13:03Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z) - Assessing Hidden Risks of LLMs: An Empirical Study on Robustness,
Consistency, and Credibility [37.682136465784254]
我々は、ChatGPT、LLaMA、OPTを含む、主流の大規模言語モデル(LLM)に100万以上のクエリを実行します。
入力が極端に汚染された場合でも、ChatGPTは正しい答えを得ることができる。
そこで本研究では,LCMによる評価において,そのようなデータの有効性を大まかに決定する新たな指標を提案する。
論文 参考訳(メタデータ) (2023-05-15T15:44:51Z) - Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。