論文の概要: Toward Human-Centered Readability Evaluation
- arxiv url: http://arxiv.org/abs/2510.10801v1
- Date: Sun, 12 Oct 2025 20:38:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.112259
- Title: Toward Human-Centered Readability Evaluation
- Title(参考訳): 人間中心の可読性評価に向けて
- Authors: Bahar İlgen, Georges Hattab,
- Abstract要約: HCRS(Human-Centered Readability Score)は、Human-Computer Interaction (HCI)とHealth Communications研究に基づく5次元評価フレームワークである。
HCRSは、可読性と可読性の文脈的側面を捉えるために、構造化された人間のフィードバックと自動測度を統合している。
本研究は, 多様なユーザニーズ, 期待, 生きた経験とより密に整合したNLPシステムを実現することにより, 表面的指標を超えて, 健康テキストの簡易化を評価することを目的としている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text simplification is essential for making public health information accessible to diverse populations, including those with limited health literacy. However, commonly used evaluation metrics in Natural Language Processing (NLP), such as BLEU, FKGL, and SARI, mainly capture surface-level features and fail to account for human-centered qualities like clarity, trustworthiness, tone, cultural relevance, and actionability. This limitation is particularly critical in high-stakes health contexts, where communication must be not only simple but also usable, respectful, and trustworthy. To address this gap, we propose the Human-Centered Readability Score (HCRS), a five-dimensional evaluation framework grounded in Human-Computer Interaction (HCI) and health communication research. HCRS integrates automatic measures with structured human feedback to capture the relational and contextual aspects of readability. We outline the framework, discuss its integration into participatory evaluation workflows, and present a protocol for empirical validation. This work aims to advance the evaluation of health text simplification beyond surface metrics, enabling NLP systems that align more closely with diverse users' needs, expectations, and lived experiences.
- Abstract(参考訳): テキストの単純化は、健康リテラシーに制限のある人々を含む、多様な住民に公衆衛生情報をアクセスできるようにするために不可欠である。
しかし、BLEU、FKGL、SARIなどの自然言語処理(NLP)でよく使われる評価指標は、主に表面的な特徴を捉え、明快さ、信頼性、トーン、文化的妥当性、行動可能性といった人間中心の品質を考慮できない。
この制限は、コミュニケーションは単純であるだけでなく、有用で、尊敬され、信頼できるものでなければならない、高リスクな健康状況において特に重要である。
このギャップに対処するため,Human-Centered Readability Score (HCRS) を提案し,Human-Computer Interaction (HCI) とHealth Communication Researchを基盤とした5次元評価フレームワークを提案する。
HCRSは、可読性の関連性と文脈的側面を捉えるために、構造化された人間のフィードバックと自動測度を統合している。
本フレームワークの概要を述べるとともに,参加型評価ワークフローへの統合について考察し,実証検証のためのプロトコルを提案する。
本研究は, 多様なユーザニーズ, 期待, 生きた経験とより密に整合したNLPシステムを実現することにより, 表面的指標を超えて, 健康テキストの簡易化を評価することを目的としている。
関連論文リスト
- Responsible Evaluation of AI for Mental Health [72.85175110624736]
メンタルヘルスケアにおけるAIツールの評価に対する現在のアプローチは、断片化されており、臨床実践、社会的コンテキスト、ファーストハンドのユーザエクスペリエンスと不整合である。
本稿では,臨床の健全性,社会的文脈,公平性を統合した学際的枠組みを導入することにより,責任ある評価を再考する。
論文 参考訳(メタデータ) (2026-01-20T12:55:10Z) - Faithful Summarization of Consumer Health Queries: A Cross-Lingual Framework with LLMs [0.0]
本研究では,TextRankに基づく文抽出と医学的名前付きエンティティ認識を組み合わせたフレームワークを提案する。
我々はMeQSum(英語版)とBanglaCHQ-Summ(Bangla)データセット上でLLaMA-2-7Bモデルを微調整した。
人間の評価は、生成したサマリーの80%以上が重要な医療情報を保存していることを示している。
論文 参考訳(メタデータ) (2025-11-13T19:42:11Z) - A Scalable Framework for Evaluating Health Language Models [16.253655494186905]
大規模言語モデル(LLM)は、複雑なデータセットを分析する強力なツールとして登場した。
オープンエンドテキスト応答の現在の評価実践は、人間の専門家に大きく依存している。
この研究はAdaptive Precise Boolean rubrics(リンク)を紹介している。
論文 参考訳(メタデータ) (2025-03-30T06:47:57Z) - A Mixed-Methods Evaluation of LLM-Based Chatbots for Menopause [7.156867036177255]
医療環境におけるLLM(Large Language Models)の統合は注目されている。
更年期関連問合せのためのLLMベースのチャットボットの性能について検討する。
本研究は,健康トピックに対する従来の評価指標の約束と限界を明らかにするものである。
論文 参考訳(メタデータ) (2025-02-05T19:56:52Z) - Building Trust in Mental Health Chatbots: Safety Metrics and LLM-Based Evaluation Tools [13.386012271835039]
100のベンチマーク質問と理想的な回答を備えた評価フレームワークを作成しました。
このフレームワークはメンタルヘルスの専門家によって検証され、GPT-3.5ベースのチャットボットでテストされた。
論文 参考訳(メタデータ) (2024-08-03T19:57:49Z) - Rel-A.I.: An Interaction-Centered Approach To Measuring Human-LM Reliance [73.19687314438133]
インタラクションの文脈的特徴が依存に与える影響について検討する。
文脈特性が人間の信頼行動に大きく影響していることが判明した。
これらの結果から,キャリブレーションと言語品質だけでは人間とLMの相互作用のリスクを評価するには不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-07-10T18:00:05Z) - ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models [53.00812898384698]
生成型大規模言語モデル(LLM)の人間による評価は多分野にわたる作業であるべきだと論じる。
認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。
本稿では,ConSiDERS-The-Human評価フレームワークを提案する。一貫性,スコーリング基準,差別化,ユーザエクスペリエンス,責任,スケーラビリティの6つの柱からなる。
論文 参考訳(メタデータ) (2024-05-28T22:45:28Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [56.31117605097345]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - AntEval: Evaluation of Social Interaction Competencies in LLM-Driven
Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。
しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。
本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文 参考訳(メタデータ) (2024-01-12T11:18:00Z) - Foundation Metrics for Evaluating Effectiveness of Healthcare
Conversations Powered by Generative AI [38.497288024393065]
ジェネレーティブ・人工知能(Generative Artificial Intelligence)は、従来の医療をよりパーソナライズされ、効率的で、積極的なプロセスに変えることで、医療提供に革命をもたらす。
本稿では,医療における対話型対話モデルの評価に特に適用可能な最先端評価指標について検討する。
論文 参考訳(メタデータ) (2023-09-21T19:36:48Z) - Learning and Evaluating Human Preferences for Conversational Head
Generation [101.89332968344102]
そこで我々は,異なる次元の定量的評価に基づいて,人間の嗜好を適合させる学習ベース評価尺度であるPreference Score(PS)を提案する。
PSは人間のアノテーションを必要とせずに定量的評価を行うことができる。
論文 参考訳(メタデータ) (2023-07-20T07:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。