論文の概要: The System Hallucination Scale (SHS): A Minimal yet Effective Human-Centered Instrument for Evaluating Hallucination-Related Behavior in Large Language Models
- arxiv url: http://arxiv.org/abs/2603.09989v1
- Date: Fri, 13 Feb 2026 10:13:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-15 16:38:22.531952
- Title: The System Hallucination Scale (SHS): A Minimal yet Effective Human-Centered Instrument for Evaluating Hallucination-Related Behavior in Large Language Models
- Title(参考訳): システム幻覚尺度(SHS: System Hallucination Scale) : 大規模言語モデルにおける幻覚関連行動評価のための最小かつ効果的な人中心楽器
- Authors: Heimo Müller, Dominik Steiger, Markus Plass, Andreas Holzinger,
- Abstract要約: System Hallucination Scale (SHS)は、大規模言語モデル(LLM)における幻覚関連行動を評価するための軽量計測器である。
SHSは自動幻覚検出装置やベンチマーク・メトリクスではなく、現実的な相互作用条件下でのユーザの視点から幻覚現象がどのように現れるかをキャプチャする。
210人の参加者による実世界評価は、統計解析によって支持される高い明瞭さ、一貫性のある応答挙動、構成妥当性を示す。
- 参考スコア(独自算出の注目度): 2.391911423176085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the System Hallucination Scale (SHS), a lightweight and human-centered measurement instrument for assessing hallucination-related behavior in large language models (LLMs). Inspired by established psychometric tools such as the System Usability Scale (SUS) and the System Causability Scale (SCS), SHS enables rapid, interpretable, and domain-agnostic evaluation of factual unreliability, incoherence, misleading presentation, and responsiveness to user guidance in model-generated text. SHS is explicitly not an automatic hallucination detector or benchmark metric; instead, it captures how hallucination phenomena manifest from a user perspective under realistic interaction conditions. A real-world evaluation with 210 participants demonstrates high clarity, coherent response behavior, and construct validity, supported by statistical analysis including internal consistency (Cronbach's alpha = 0.87$) and significant inter-dimension correlations (p < 0.001$). Comparative analysis with SUS and SCS reveals complementary measurement properties, supporting SHS as a practical tool for comparative analysis, iterative system development, and deployment monitoring.
- Abstract(参考訳): 大規模言語モデル(LLM)における幻覚関連行動を評価する軽量で人間中心の計測装置であるシステム幻覚尺度(SHS)を紹介する。
System Usability Scale (SUS) や System Causability Scale (SCS) のような確立された心理測定ツールにインスパイアされたSHSは、モデル生成テキストにおける現実的不確実性、不確実性、誤解を招くプレゼンテーション、およびユーザガイダンスに対する応答性の迅速かつ解釈可能で、ドメインに依存しない評価を可能にする。
SHSは、自動幻覚検出器やベンチマーク測定器ではなく、現実的な相互作用条件下でのユーザ視点から幻覚現象がどのように現れるかをキャプチャする。
210人の被験者による実世界評価は、内部整合性 (Cronbach's alpha = 0.87$) や有意な次元間相関 (p < 0.001$) を含む統計的解析によって支持される高い明瞭さ、コヒーレントな応答挙動、構成妥当性を示す。
SUSとSCSの比較分析は相補的な測定特性を示し、SHSを比較分析、反復システム開発、デプロイメント監視の実践的なツールとしてサポートしている。
関連論文リスト
- Hallucination Benchmark for Speech Foundation Models [33.92968426403491]
自動音声認識(ASR)システムにおける幻覚とは、基礎となる音響入力(すなわち、音声信号)とは全く無関係な神経性ASRモデルによって生成される流動的でコヒーレントな転写を指す。
この明らかな一貫性は、その後の処理段階を誤解させ、特に医療や法のような重要な領域において重大なリスクをもたらす可能性がある。
本稿では,ASRにおける幻覚現象を,語彙,音声,形態,意味の4つの相補軸に沿って体系的に分類し,定量化する最初のベンチマークフレームワークであるSHALLOWを紹介する。
論文 参考訳(メタデータ) (2025-10-18T16:26:16Z) - Contrast Sensitivity in Multimodal Large Language Models: A Psychophysics-Inspired Evaluation [37.9406446788251]
マルチモーダル大言語モデル(MLLM)におけるコントラスト感度関数(CSF)を推定するための行動的手法を提案する。
モデルは、特定の空間周波数でフィルタリングされた雑音に基づく刺激を観察しながら、構造化されたプロンプトでクエリされる。
以上の結果から,人間のCSFと形状やスケールが似ているモデルもあるが,どちらのモデルも捉えていないことが判明した。
論文 参考訳(メタデータ) (2025-08-14T06:07:44Z) - SHALE: A Scalable Benchmark for Fine-grained Hallucination Evaluation in LVLMs [52.03164192840023]
LVLM(Large Vision-Language Models)は、いまだ幻覚に悩まされている。
本稿では,スケーラブルで制御可能で多様な評価データを生成する自動データ構築パイプラインを提案する。
我々は,忠実度と事実性幻覚の両方を評価するためのベンチマークであるSHALEを構築した。
論文 参考訳(メタデータ) (2025-08-13T07:58:01Z) - ICR Probe: Tracking Hidden State Dynamics for Reliable Hallucination Detection in LLMs [50.18087419133284]
隠れた状態を活用する幻覚検出法は、主に静的および孤立した表現に焦点を当てている。
隠れ状態の更新に対するモジュールの寄与を定量化する新しいメトリック ICR Score を導入する。
本稿では,隠れ状態の層間進化を捉えた幻覚検出手法 ICR Probe を提案する。
論文 参考訳(メタデータ) (2025-07-22T11:44:26Z) - SAFE: A Sparse Autoencoder-Based Framework for Robust Query Enrichment and Hallucination Mitigation in LLMs [12.12344696058016]
スパースオートエンコーダ(SAE)を利用した幻覚の検出・緩和手法SAFEを提案する。
実証的な結果は、SAFEがクエリ生成の精度を一貫して改善し、すべてのデータセットで幻覚を緩和し、最大29.45%の精度向上を実現していることを示している。
論文 参考訳(メタデータ) (2025-03-04T22:19:52Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Analyzing Participants' Engagement during Online Meetings Using Unsupervised Remote Photoplethysmography with Behavioral Features [50.82725748981231]
エンゲージメント測定は、医療、教育、サービスに応用される。
生理的特徴と行動的特徴の使用は可能であるが、従来の生理的測定の非現実性は接触センサーの必要性により生じる。
コンタクトセンサの代替として, 教師なし光胸腺造影(胸腔鏡)の有用性を実証する。
論文 参考訳(メタデータ) (2024-04-05T20:39:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。