論文の概要: Can We Trust AI-Inferred User States. A Psychometric Framework for Validating the Reliability of Users States Classification by LLMs in Operational Environments
- arxiv url: http://arxiv.org/abs/2605.15734v1
- Date: Fri, 15 May 2026 08:43:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.223282
- Title: Can We Trust AI-Inferred User States. A Psychometric Framework for Validating the Reliability of Users States Classification by LLMs in Operational Environments
- Title(参考訳): 運用環境におけるLCMによるユーザ状態分類の信頼性検証のための心理学的枠組み
- Authors: Izabella Krzeminska, Michal Butkiewicz, Ewa Komkowska,
- Abstract要約: 本稿では,ユーザ状態評価に使用されるメトリクスが,個々のスコアレベルで安定して解釈可能であるという仮定を実証的に検証する。
分析には個々のスコアの信頼性と集約された信頼性の両方が含まれており、リアルタイム適応に有用なメトリクスを識別することができる。
この研究の主な貢献は、メートル法の適用性の測定可能な評価を可能にするレプリカブル評価フレームワークの提案である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The use of large language models to assess user states in conversational and adaptive systems is based on the assumption that the metrics used for such assessment are stable and interpretable at the level of individual scores. This paper empirically tests this assumption, focusing on the psychometric reliability of artificial intelligence (AI) measures of user states. This study employed replication evaluation procedures to assess the repeatability of a broad set of metrics across three different bimodal large language models (GPT-4o audio, Gemini 2.0 Flash, Gemini 2.5 Flash). Analyses include both individual score reliability and aggregated reliability, allowing us to distinguish metrics potentially useful for real-time adaptation from those that retain their value only in aggregated analyses. The results demonstrate that metric reliability cannot be considered a default property in interpretive domains. The lack of stability at the level of individual scores precludes the interpretation of such scores as indicators of user state in real-time adaptive systems, even if these metrics demonstrate stability after aggregation. At the same time, the study indicates that individually unstable metrics can retain analytical utility in post-hoc studies, identifying rules governing interactions and their relationships with user experience parameters such as satisfaction, trust, and engagement. The main contribution of this work, besides quantifying the severity of the problem (only 31 of 213 metrics met the criteria), is the proposal of a replicable evaluation framework, enabling measurable evaluations of metric applicability. This approach supports more responsible AI design of adaptive systems, in which the interpretation of results requires explicit validation of reliability and monitoring for violations over time.
- Abstract(参考訳): 対話型および適応型システムにおけるユーザ状態を評価するための大規模言語モデルの使用は、個々のスコアのレベルで、そのような評価に使用されるメトリクスが安定して解釈可能であるという仮定に基づいている。
本稿では,ユーザ状態の人工知能(AI)尺度の心理的信頼性に着目し,この仮定を実証的に検証する。
本研究は,3種類のバイモーダル大言語モデル(GPT-4oオーディオ,Gemini 2.0 Flash,Gemini 2.5 Flash)の再現性を評価するための再現性評価手法を用いた。
分析には、個々のスコアの信頼性と集約された信頼性の両方が含まれており、集約された分析にのみ価値を保持するメトリクスとリアルタイム適応に有用なメトリクスを区別することができる。
その結果,計量信頼性は解釈領域の既定特性とはみなせないことがわかった。
個々のスコアのレベルでの安定性の欠如は、そのようなスコアをリアルタイム適応システムにおけるユーザ状態の指標として解釈することを妨げる。
同時に、この研究は、個人が不安定なメトリクスがポストホック研究における分析的有用性を保ち、相互作用を規定するルールと、満足度、信頼度、エンゲージメントといったユーザエクスペリエンスパラメータとの関係を識別することを示した。
この研究の主な貢献は、問題の深刻度(基準を満たした213のメトリクスのうち31だけ)を定量化することに加えて、メートル法適用性の測定可能な評価を可能にするレプリカブル評価フレームワークの提案である。
このアプローチは、結果の解釈には、信頼性の明示的な検証と、時間の経過とともに違反の監視が必要となる、適応システムのより責任のあるAI設計をサポートする。
関連論文リスト
- On the Reliability of User-Centric Evaluation of Conversational Recommender Systems [0.9112926574395824]
本研究では,静的な対話書き起こしにおけるユーザ中心のCRS評価の信頼性について,大規模な実証的研究を行った。
我々は18次元CRS-Queフレームワークを用いて,200のReDial対話において124人のクラウドワーカーから1,053のアノテーションを収集した。
以上の結果から, 精度, 有用性, 満足度といった実用的, 成果志向の次元は, 凝集下での信頼性が適度であることが示唆された。
多くの次元が単一のグローバルな品質信号に崩壊し、サードパーティの判断に強いハロ効果が現れる。
論文 参考訳(メタデータ) (2026-02-19T11:10:11Z) - Skewed Score: A statistical framework to assess autograders [2.9645858732618238]
LLM-as-a-judge"あるいはオートグラファーは、人間の評価に代わるスケーラブルな代替手段を提供する。
彼らは様々な信頼性を示し、体系的なバイアスを示すかもしれない。
そこで本稿では,研究者が自動分解器を同時に評価できる統計フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-04T18:45:10Z) - Reranking-based Generation for Unbiased Perspective Summarization [10.71668103641552]
我々は,人間のアノテーションを用いて,計量信頼性をベンチマークするテストセットを開発した。
従来の指標は言語モデルに基づく指標に比べて性能が低いことが示され、強力な評価指標であることが証明された。
本研究の目的は,視点要約手法の信頼性評価と開発に寄与することである。
論文 参考訳(メタデータ) (2025-06-19T00:01:43Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Beyond Robustness: Resilience Verification of Tree-Based Classifiers [7.574509994822738]
我々はレジリエンスと呼ばれる新しい尺度を導入し、その検証に焦点をあてる。
従来のロバスト性検証手法とデータ非依存の安定性解析を組み合わせることで、レジリエンスの検証方法について論じる。
以上の結果から, レジリエンス検証は実用上有用であり, 標準木モデルと堅牢木モデルの両方に対して, より信頼性の高いセキュリティ評価を行うことが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-05T23:07:22Z) - REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation
Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。
予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。
本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文 参考訳(メタデータ) (2021-05-30T10:04:13Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。