論文の概要: Toward Human-Centered Readability Evaluation
- arxiv url: http://arxiv.org/abs/2510.10801v1
- Date: Sun, 12 Oct 2025 20:38:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.112259
- Title: Toward Human-Centered Readability Evaluation
- Title(参考訳): 人間中心の可読性評価に向けて
- Authors: Bahar İlgen, Georges Hattab,
- Abstract要約: HCRS(Human-Centered Readability Score)は、Human-Computer Interaction (HCI)とHealth Communications研究に基づく5次元評価フレームワークである。
HCRSは、可読性と可読性の文脈的側面を捉えるために、構造化された人間のフィードバックと自動測度を統合している。
本研究は, 多様なユーザニーズ, 期待, 生きた経験とより密に整合したNLPシステムを実現することにより, 表面的指標を超えて, 健康テキストの簡易化を評価することを目的としている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text simplification is essential for making public health information accessible to diverse populations, including those with limited health literacy. However, commonly used evaluation metrics in Natural Language Processing (NLP), such as BLEU, FKGL, and SARI, mainly capture surface-level features and fail to account for human-centered qualities like clarity, trustworthiness, tone, cultural relevance, and actionability. This limitation is particularly critical in high-stakes health contexts, where communication must be not only simple but also usable, respectful, and trustworthy. To address this gap, we propose the Human-Centered Readability Score (HCRS), a five-dimensional evaluation framework grounded in Human-Computer Interaction (HCI) and health communication research. HCRS integrates automatic measures with structured human feedback to capture the relational and contextual aspects of readability. We outline the framework, discuss its integration into participatory evaluation workflows, and present a protocol for empirical validation. This work aims to advance the evaluation of health text simplification beyond surface metrics, enabling NLP systems that align more closely with diverse users' needs, expectations, and lived experiences.
- Abstract(参考訳): テキストの単純化は、健康リテラシーに制限のある人々を含む、多様な住民に公衆衛生情報をアクセスできるようにするために不可欠である。
しかし、BLEU、FKGL、SARIなどの自然言語処理(NLP)でよく使われる評価指標は、主に表面的な特徴を捉え、明快さ、信頼性、トーン、文化的妥当性、行動可能性といった人間中心の品質を考慮できない。
この制限は、コミュニケーションは単純であるだけでなく、有用で、尊敬され、信頼できるものでなければならない、高リスクな健康状況において特に重要である。
このギャップに対処するため,Human-Centered Readability Score (HCRS) を提案し,Human-Computer Interaction (HCI) とHealth Communication Researchを基盤とした5次元評価フレームワークを提案する。
HCRSは、可読性の関連性と文脈的側面を捉えるために、構造化された人間のフィードバックと自動測度を統合している。
本フレームワークの概要を述べるとともに,参加型評価ワークフローへの統合について考察し,実証検証のためのプロトコルを提案する。
本研究は, 多様なユーザニーズ, 期待, 生きた経験とより密に整合したNLPシステムを実現することにより, 表面的指標を超えて, 健康テキストの簡易化を評価することを目的としている。
関連論文リスト
- A Scalable Framework for Evaluating Health Language Models [16.253655494186905]
大規模言語モデル(LLM)は、複雑なデータセットを分析する強力なツールとして登場した。
オープンエンドテキスト応答の現在の評価実践は、人間の専門家に大きく依存している。
この研究はAdaptive Precise Boolean rubrics(リンク)を紹介している。
論文 参考訳(メタデータ) (2025-03-30T06:47:57Z) - Rel-A.I.: An Interaction-Centered Approach To Measuring Human-LM Reliance [73.19687314438133]
インタラクションの文脈的特徴が依存に与える影響について検討する。
文脈特性が人間の信頼行動に大きく影響していることが判明した。
これらの結果から,キャリブレーションと言語品質だけでは人間とLMの相互作用のリスクを評価するには不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-07-10T18:00:05Z) - ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models [53.00812898384698]
生成型大規模言語モデル(LLM)の人間による評価は多分野にわたる作業であるべきだと論じる。
認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。
本稿では,ConSiDERS-The-Human評価フレームワークを提案する。一貫性,スコーリング基準,差別化,ユーザエクスペリエンス,責任,スケーラビリティの6つの柱からなる。
論文 参考訳(メタデータ) (2024-05-28T22:45:28Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [56.31117605097345]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - Foundation Metrics for Evaluating Effectiveness of Healthcare
Conversations Powered by Generative AI [38.497288024393065]
ジェネレーティブ・人工知能(Generative Artificial Intelligence)は、従来の医療をよりパーソナライズされ、効率的で、積極的なプロセスに変えることで、医療提供に革命をもたらす。
本稿では,医療における対話型対話モデルの評価に特に適用可能な最先端評価指標について検討する。
論文 参考訳(メタデータ) (2023-09-21T19:36:48Z) - Learning and Evaluating Human Preferences for Conversational Head
Generation [101.89332968344102]
そこで我々は,異なる次元の定量的評価に基づいて,人間の嗜好を適合させる学習ベース評価尺度であるPreference Score(PS)を提案する。
PSは人間のアノテーションを必要とせずに定量的評価を行うことができる。
論文 参考訳(メタデータ) (2023-07-20T07:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。