Fugu-MT 論文翻訳(概要): Better with Experience: Self-Evolving LLM Agents for Evidence-Grounded Health Community Notes

論文の概要: Better with Experience: Self-Evolving LLM Agents for Evidence-Grounded Health Community Notes

arxiv url: http://arxiv.org/abs/2606.02215v1
Date: Mon, 01 Jun 2026 13:16:22 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-02 21:34:32.089947
Title: Better with Experience: Self-Evolving LLM Agents for Evidence-Grounded Health Community Notes
Title（参考訳）: 体験を良くする: 健康コミュニティノートのための自己進化型LSMエージェント
Authors: Zihang Fu, Fanxiao Li, Jianyang Gu, Haonan Wang, Preslav Nakov, Bryan Hooi, Min-Yen Kan, Jiaying Wu,
Abstract要約: LLM(Large Language Model)拡張コミュニティノートは、ソーシャルプラットフォーム上での健康上の誤った情報の、タイムリーで根拠に基づく修正のためのスケーラブルなパスを提供する。エボノート(EvoNote)は、医療コミュニティノート生成において、過去の誤報訂正エピソードの記憶の進化を通じて自己進化を可能にするエージェントフレームワークである。
参考スコア（独自算出の注目度）: 108.40112710699425
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Model (LLM)-augmented Community Notes offer a scalable path for timely, evidence-grounded correction of health misinformation on social platforms. However, they still reset at every post, leaving useful correction experience from prior cases unused. We introduce EvoNote, an agentic framework that enables health Community Notes generation to self-evolve through an evolving experience memory of prior misinformation correction episodes. Its core is fine-grained credit assignment: EvoNote grounds trajectory-level feedback in health-specific note qualities and distills it into action-level memory for claim analysis, evidence acquisition, and note writing. We evaluate EvoNote on MM-HealthCN, a 1.2K-instance multimodal benchmark of user-flagged health posts with human-written Community Notes and crowd-derived helpfulness labels. Under a human-validated hierarchical utility judge, EvoNote-generated notes are preferred over corresponding human-written notes in 89.6% of cases; on a separate set of Needs More Ratings posts without a crowd helpfulness verdict, EvoNote produces helpful notes for 82.0% of cases. It also reduces the median time needed to produce a candidate correction from over 13 hours in the human-note pipeline to under 2 minutes. Analyses link these gains to stronger evidence use and reusable correction strategies, positioning self-evolving note generation as a promising paradigm for health misinformation governance.
Abstract（参考訳）: LLM(Large Language Model)拡張コミュニティノートは、ソーシャルプラットフォーム上での健康上の誤情報のタイムリーな根拠に基づく修正のためのスケーラブルなパスを提供する。しかし、すべてのポストでリセットされ、以前のケースから有用な修正エクスペリエンスが未使用のまま残されている。エボノート(EvoNote)は、医療コミュニティノート生成において、過去の誤報訂正エピソードの記憶の進化を通じて自己進化を可能にするエージェントフレームワークである。 EvoNoteは、健康に特有なノートの品質に軌道レベルのフィードバックを置き、クレーム分析、エビデンス取得、ノートライティングのためのアクションレベルのメモリにそれを蒸留する。 EvoNote on MM-HealthCN, a 1.2K-instance multimodal benchmark of user-flagged health post with human-written Community Notes and crowd-induced usefulness labels。 EvoNoteの生成したノートは89.6%のケースで対応する人手書きのノートよりも好まれる。また、人手パイプラインの13時間以上から2分以内まで、候補修正に必要な中央値の時間を短縮する。分析はこれらの利益を、より強力な証拠の使用と再利用可能な修正戦略に結び付け、自己進化的なノート生成を健康情報管理のための有望なパラダイムとして位置づけている。

関連論文リスト

FRESCO: Benchmarking and Optimizing Re-rankers for Evolving Semantic Conflict in Retrieval-Augmented Generation [73.22935457705057]
時間的動的文脈における再ランカ評価のためのベンチマークであるFRESCOを紹介する。レクエンシ検索クエリと過去のウィキペディアのリビジョンを組み合わせることで、FRESCOは、セマンティックな関連性を維持しながら、リランカが事実として最新の証拠を優先順位付けできるかどうかをテストする。我々の評価では、既存の再ランカ間で一貫した障害モードが明らかになっている。
論文参考訳（メタデータ） (2026-04-14T17:04:25Z)
Community Notes are Vulnerable to Rater Bias and Manipulation [75.34858521118305]
本研究では,現実的なレーダやノートの振る舞いをモデル化したシミュレーションデータを用いて,コミュニティノートアルゴリズムの評価を行う。このアルゴリズムは、真に有用な音符のかなりの部分を抑制することができ、レーダバイアスに非常に敏感である。
論文参考訳（メタデータ） (2025-11-04T14:39:34Z)
Beyond the Crowd: LLM-Augmented Community Notes for Governing Health Misinformation [40.75300370006112]
我々は、より高速で信頼性の高い健康情報ガバナンスのために、コミュニティノートを強化するためにCrowdNotes+を提案する。私たちはHealthNotesを通じてフレームワークをインスタンス化します。
論文参考訳（メタデータ） (2025-10-13T13:57:23Z)
Human-AI Collaboration Increases Efficiency in Regulatory Writing [0.0]
大規模言語モデル(LLM)プラットフォーム(AutoIND)は、規制出願の文書品質を維持しながら、最初のドラフト構成時間を短縮することができる。 AutoINDは最初の起草時間を$sim$97%削減した(IND-1では$sim$100hから3.7h、18,870ページ/61レポート、IND-2では2.6h、IND-2では11,425ページ/58レポート)。重大な規制上の誤りは検出されなかったが, 強調, 簡潔さ, 明瞭さの欠如が指摘された。
論文参考訳（メタデータ） (2025-09-10T18:02:23Z)
Machine Learning Approaches for Mental Illness Detection on Social Media: A Systematic Review of Biases and Methodological Challenges [0.037693031068634524]
本稿では,ソーシャルメディアデータを用いた精神疾患検出のための機械学習モデルについて検討する。機械学習ライフサイクル全体で発生するバイアスと方法論上の課題を強調します。これらの課題を克服することで、将来の研究はソーシャルメディア上での抑うつ検出のためのより堅牢で一般化可能なMLモデルを開発することができる。
論文参考訳（メタデータ） (2024-10-21T17:05:50Z)
FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation [176.56131810249602]
大規模言語モデル(LM)が生成する長文の事実性を評価することは簡単ではない。 FACTSCOREは、世代を一連の原子事実に分解し、信頼できる知識ソースによって支持される原子事実の割合を計算する新しい評価手法である。
論文参考訳（メタデータ） (2023-05-23T17:06:00Z)
Automated Identification of Eviction Status from Electronic Health Record Notes [5.637181708437528]
本研究では,電子カルテから退避状態を自動的に検出する自然言語処理システムを開発した。我々は,他の最先端モデルよりも優れていることを示す新しいモデルKIRESHを開発した。我々は、米国退役軍人の住宅安全対策を支援するため、防犯監視システムとしてKIRESH-PromptをVHAに配備する計画である。
論文参考訳（メタデータ） (2022-12-06T05:25:32Z)
Learning Instance-level Spatial-Temporal Patterns for Person Re-identification [80.43222559182072]
本稿では,Re-IDの精度を向上させるために,新しいインスタンスレベルおよび時空間ディスタングル型Re-ID法を提案する。提案フレームワークでは,移動方向などのパーソナライズされた情報を探索空間をさらに狭めるため,明示的に検討している。提案手法は市場1501で90.8%,DukeMTMC-reIDで89.1%,ベースライン82.2%,72.7%から改善した。
論文参考訳（メタデータ） (2021-07-31T07:44:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。