Better with Experience: Self-Evolving LLM Agents for Evidence-Grounded Health Community Notes
Abstractの概要
本論文は、ソーシャルプラットフォーム上で根拠に基づく健康関連のコミュニティノートを生成するための自己進化型エージェントフレームワーク「EvoNote」を提案しています。中心となるアイデアは、主張の分析、証拠の収集、ノートの執筆という各フェーズに特化したメモリへと軌跡レベルのフィードバックを変換することで、過去の偽情報訂正エピソードから得た経験を再利用することです。また、著者らは、ユーザーに報告された健康関連の投稿と、人間が執筆したノートおよび有用性ラベルをペアにした1,200件のマルチモーダルなベンチマーク「MM-HealthCN」を構築しました。その評価では、階層的な有用性判定と、人間が執筆したノートや自動化されたベースラインとの一対比較が強調されています。
新規性
本研究の際立った貢献は、各投稿を独立して扱うのではなく、過去の訂正軌跡から得られたフィードバックを抽出し、フェーズごとに実行可能な戦略へと変換するメモリベースの自己進化型設計にあります。さらに、マルチモーダルなベンチマークと、コミュニティノート生成に特化して調整された健康分野固有の有用性評価プロトコルの提供も新規性として挙げられます。
成果
MM-HealthCNにおいて、人間によって検証された有用性判定の下では、89.6%のケースで人間が執筆した対応するコミュニティノートよりもEvoNoteが生成したノートの方が好まれ、ウェブ検索やコミュニティノート生成、メモリ拡張などの複数のベースライン手法を上回りました。評価が未確定の「評価がさらに必要」とされている投稿に対して、本システムは82.0%のケースで有用なノートを生成し、人間のプロセスでは13時間以上かかっていた修正候補の作成時間(中央値)を2分未満に短縮したと報告しています。
論文の注目点
- EvoNoteは、Social Utility Judge(社会的有用性判定器)とMemory Evolver(メモリ進化機構)を用いて、完了したノート生成の軌跡を後続ケースで再利用可能なメモリへと変換する。
- 著者らは、テキスト、画像、動画による健康関連の偽情報投稿とリンクされたコミュニティノートのデータで構成される、1,200件のマルチモーダルなベンチマーク「MM-HealthCN」を導入している。
- 分析によると、システム性能の向上は、より高品質で多様な情報源などの強力な証拠の活用と、進化するメモリを組み合わせた明示的な主張の分析によるものだとされている。