論文の概要: Beyond the Crowd: LLM-Augmented Community Notes for Governing Health Misinformation
- arxiv url: http://arxiv.org/abs/2510.11423v1
- Date: Mon, 13 Oct 2025 13:57:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.391876
- Title: Beyond the Crowd: LLM-Augmented Community Notes for Governing Health Misinformation
- Title(参考訳): 群衆を超えて:健康上の誤解を克服するためのLLM拡張コミュニティノート
- Authors: Jiaying Wu, Zihang Fu, Haonan Wang, Fanxiao Li, Min-Yen Kan,
- Abstract要約: 我々は、より高速で信頼性の高い健康情報ガバナンスのために、コミュニティノートを強化するためにCrowdNotes+を提案する。
私たちはHealthNotesを通じてフレームワークをインスタンス化します。
- 参考スコア(独自算出の注目度): 40.75300370006112
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Community Notes, the crowd-sourced misinformation governance system on X (formerly Twitter), enables users to flag misleading posts, attach contextual notes, and vote on their helpfulness. However, our analysis of 30.8K health-related notes reveals significant latency, with a median delay of 17.6 hours before the first note receives a helpfulness status. To improve responsiveness during real-world misinformation surges, we propose CrowdNotes+, a unified framework that leverages large language models (LLMs) to augment Community Notes for faster and more reliable health misinformation governance. CrowdNotes+ integrates two complementary modes: (1) evidence-grounded note augmentation and (2) utility-guided note automation, along with a hierarchical three-step evaluation that progressively assesses relevance, correctness, and helpfulness. We instantiate the framework through HealthNotes, a benchmark of 1.2K helpfulness-annotated health notes paired with a fine-tuned helpfulness judge. Experiments on fifteen LLMs reveal an overlooked loophole in current helpfulness evaluation, where stylistic fluency is mistaken for factual accuracy, and demonstrate that our hierarchical evaluation and LLM-augmented generation jointly enhance factual precision and evidence utility. These results point toward a hybrid human-AI governance model that improves both the rigor and timeliness of crowd-sourced fact-checking.
- Abstract(参考訳): コミュニティノート(Community Notes)は、クラウドソーシングによるX(元Twitter)上の誤情報管理システムで、誤解を招く投稿のフラグを立てたり、文脈的なメモを添付したり、役に立つことを投票したりすることができる。
しかしながら、30.8Kの健康関連ノートの分析では、大きな遅延が見られ、最初のノートが役に立たない状態になる17.6時間の遅延がある。
現実の誤報サージ時の応答性を改善するために,我々は,大規模言語モデル(LLM)を活用して,より高速で信頼性の高い健康誤報ガバナンスを実現する統一フレームワークであるCrowdNotes+を提案する。
CrowdNotes+は,(1)エビデンス・グラウンドド・ノートの強化,(2)ユーティリティ・ガイドド・ノートの自動化,および関連性,正確性,有用性を段階的に評価する階層的な3段階評価という2つの補完モードを統合した。
このフレームワークをHealthNotesを通じてインスタンス化する。1.2Kヘルパネスアノテートされたヘルスノートのベンチマークで、微調整されたヘルパネスジャッジと組み合わせる。
15個のLCM実験では,現在の有用性評価において,スタイリスティックな流速を事実精度と誤認する過小評価が過小評価されていることが明らかとなり,我々の階層的評価とLLM拡張世代が事実精度と証拠の有用性を両立させることが実証された。
これらの結果は、クラウドソースのファクトチェックの厳格性とタイムラインの両方を改善するハイブリッドな人間とAIのガバナンスモデルに向けられている。
関連論文リスト
- TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - Evaluating Large Language Models for Evidence-Based Clinical Question Answering [4.101088122511548]
大規模言語モデル (LLMs) は, 医学的, 臨床的応用において著しく進歩している。
Cochraneの体系的レビューと臨床ガイドラインから得られたベンチマークをキュレートする。
我々はソースと臨床領域間で一貫したパフォーマンスパターンを観察する。
論文 参考訳(メタデータ) (2025-09-13T15:03:34Z) - MedRepBench: A Comprehensive Benchmark for Medical Report Interpretation [2.3251933592942247]
私たちはMedRepBenchを紹介します。MedRepBenchは、1,900の特定されていない現実の中国の医療レポートから構築された総合的なベンチマークです。
このベンチマークは主に、構造化された医療報告理解のためのエンドツーエンドのVLMを評価するために設計されている。
また、OCR+LLMパイプラインは、高いパフォーマンスにもかかわらず、レイアウトのブラインドネスとレイテンシの問題に悩まされていることも観察した。
論文 参考訳(メタデータ) (2025-08-21T07:52:45Z) - MedKGent: A Large Language Model Agent Framework for Constructing Temporally Evolving Medical Knowledge Graph [57.54231831309079]
我々は、時間的に進化する医療知識グラフを構築するためのフレームワークであるMedKGentを紹介する。
生医学的知識の出現を, 微粒な日々の時系列でシミュレートする。
結果として得られるKGは156,275個のエンティティと2,971,384個のリレーショナルトリプルを含む。
論文 参考訳(メタデータ) (2025-08-17T15:14:03Z) - Efficient Annotator Reliability Assessment and Sample Weighting for Knowledge-Based Misinformation Detection on Social Media [0.33859507757954027]
本研究は,誤情報検出に対する知識に基づくアプローチを取り入れ,自然言語推論の手法と類似した問題をモデル化する。
EffiARAアノテーションフレームワークは、アノテーション間の合意とアノテーション間の合意を利用して、各アノテーションの信頼性を理解することを目的としている。
本研究は,アノテータ信頼度を用いたサンプル重み付けが,アノテータ間およびアノテータ内合意とソフトラベルトレーニングの両方を活用することにより,最良であることを示す。
論文 参考訳(メタデータ) (2024-10-18T14:54:40Z) - Empowering Large Language Models to Set up a Knowledge Retrieval Indexer via Self-Learning [17.83428132220955]
Pseudo-Graph Retrieval-Augmented Generation (PG-RAG) という事前検索フレームワークを提案する。
PG-RAGは、LLMを学生として、豊富な原材料を提供することで概念化している。
PG-RAGは、検索フェーズの間、ノートをめくると人間の行動を模倣する。
論文 参考訳(メタデータ) (2024-05-27T08:26:45Z) - Impact of Large Language Model Assistance on Patients Reading Clinical Notes: A Mixed-Methods Study [46.5728291706842]
臨床記録をより読みやすくするために,大言語モデル(LLM)を用いた患者対応ツールを開発した。
乳がんの既往歴のある患者から寄贈された臨床記録と臨床医からの合成ノートを用いて,本ツールの試験を行った。
論文 参考訳(メタデータ) (2024-01-17T23:14:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。