論文の概要: AI Fact-Checking in the Wild: A Field Evaluation of LLM-Written Community Notes on X
- arxiv url: http://arxiv.org/abs/2604.02592v1
- Date: Fri, 03 Apr 2026 00:01:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.250957
- Title: AI Fact-Checking in the Wild: A Field Evaluation of LLM-Written Community Notes on X
- Title(参考訳): AI Fact-Checking in the Wild: A Field Evaluation of LLM-Written Community Notes on X
- Authors: Haiwen Li, Michiel A. Bakker,
- Abstract要約: 大規模言語モデルは、ソーシャルメディア上でコンテキストファクトチェックを行う上で有望な能力を示す。
本稿では,ライブソーシャルメディアプラットフォーム上に展開されたLCMによるファクトチェックのフィールド評価について紹介する。
以上の結果から, LLMは高品質で, 広く有用なファクトチェックに有効であることが示唆された。
- 参考スコア(独自算出の注目度): 1.2423236865734466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models show promising capabilities for contextual fact-checking on social media: they can verify contested claims through deep research, synthesize evidence from multiple sources, and draft explanations at scale. However, prior work evaluates LLM fact-checking only in controlled settings using benchmarks or crowdworker judgments, leaving open how these systems perform in authentic platform environments. We present the first field evaluation of LLM-based fact-checking deployed on a live social media platform, testing performance directly through X Community Notes' AI writer feature over a three-month period. Our LLM writer, a multi-step pipeline that handles multimodal content (text, images, and videos), conducts web and platform-native search, and writes contextual notes, was deployed to write 1,614 notes on 1,597 tweets and compared against 1,332 human-written notes on the same tweets using 108,169 ratings from 42,521 raters. Direct comparison of note-level platform outcomes is complicated by differences in submission timing and rating exposure between LLM and human notes; we therefore pursue two complementary strategies: a rating-level analysis modeling individual rater evaluations, and a note-level analysis that equalizes rater exposure across note types. Rating-level analysis shows that LLM notes receive more positive ratings than human notes across raters with different political viewpoints, suggesting the potential for LLM-written notes to achieve the cross-partisan consensus. Note-level analysis confirms this advantage: among raters who evaluated all notes on the same post, LLM notes achieve significantly higher helpfulness scores. Our findings demonstrate that LLMs can contribute high-quality, broadly helpful fact-checking at scale, while highlighting that real-world evaluation requires careful attention to platform dynamics absent from controlled settings.
- Abstract(参考訳): 大規模な言語モデルは、ソーシャルメディア上での文脈的事実チェックの有望な能力を示しており、深層調査による主張の検証、複数の情報源からの証拠の合成、大規模説明などを行うことができる。
しかしながら、以前の研究では、LLMのファクトチェックはベンチマークやクラウドワーカーによる判断を使用して制御された設定でのみ評価されており、これらのシステムがプラットフォーム環境においてどのように機能するかは未解決のままである。
X Community NotesのAIライタ機能を通じて,ライブソーシャルメディアプラットフォームに展開されたLCMベースのファクトチェックの最初のフィールド評価を行った。
LLMライターは、マルチモーダルコンテンツ(テキスト、画像、ビデオ)を扱うマルチステップパイプラインで、Webとプラットフォームネイティブの検索を実行し、コンテキストノートを書いて、1,597ツイートの1,614のメモを書き、42,521ラッカーの108,169のレーティングを使って、同じツイートの1,332の人書きメモと比較した。
LLMと人為的ノートの提示タイミングとレーティング露出の違いにより、ノートレベルのプラットフォーム結果の直接比較は複雑であり、評価レベル分析は個々のレーダ評価をモデル化し、ノートタイプ間でレーダ露出を等しくするノートレベル分析という2つの相補的な戦略を追求する。
レーティングレベルの分析では、LLMノートは、異なる政治的視点を持つラッカーに対して、人間のノートよりも肯定的な評価を受けており、LLMノートが党間のコンセンサスを達成する可能性を示唆している。
ノートレベル分析は、この利点を裏付ける: 同じ投稿ですべてのノートを評価したラッカーの中で、LCMノートは、非常に高い有用性スコアを達成する。
以上の結果から,LLMは高品質で広く有用なファクトチェックの大規模化に寄与するが,実際の評価には制御された環境から欠落するプラットフォームダイナミクスに注意が必要であることが示唆された。
関連論文リスト
- LLM-REVal: Can We Trust LLM Reviewers Yet? [70.58742663985652]
大規模言語モデル(LLM)は研究者に、学術的なワークフローに広く組み込むよう刺激を与えている。
本研究は、LLMのピアレビューと研究プロセスへの深い統合が学術的公正性にどのように影響するかに焦点を当てる。
論文 参考訳(メタデータ) (2025-10-14T10:30:20Z) - When Your Reviewer is an LLM: Biases, Divergence, and Prompt Injection Risks in Peer Review [34.067892820832405]
本稿では,学術レビュアーとして大規模言語モデル(LLM)を体系的に評価する。
ICLR 2023とNeurIPS 2022の1,441論文のキュレートされたデータセットを用いて、評価、強度、弱点を越えて、GPT-5-miniをヒトレビュアーに対して評価した。
以上の結果から, LLMは, より弱い論文に対する評価を一貫して向上させつつ, より強いコントリビューションに対する人間の判断と密に一致させることが示唆された。
論文 参考訳(メタデータ) (2025-09-12T00:57:50Z) - The simulation of judgment in LLMs [32.57692724251287]
大規模言語モデル(LLM)は、情報フィルタリングから説明と信頼性の判断を通じて知識ギャップの評価と対処に至るまで、評価プロセスに組み込まれている。
これにより、このような評価がどのように構築されるのか、どのような仮定に依存しているのか、その戦略が人間のものとどのように異なるのかを調べる必要が生じる。
我々は、専門家の評価に対して、6つのLCM(NewsGuardとMedia Bias/Fact Check)と、制御された実験を通して収集された人間の判断に対してベンチマークを行った。
論文 参考訳(メタデータ) (2025-02-06T18:52:10Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Large Language Models are Inconsistent and Biased Evaluators [2.136983452580014]
我々は,Large Language Models (LLMs) が親しみの偏りを示し,評価の歪んだ分布を示すため,評価値の偏りを示すことを示した。
また, LLM は不整合性評価器であり, テキスト品質の人間の理解に欠かせない相違を誘発する「サンプル間合意」が低く, 感度が高いことがわかった。
論文 参考訳(メタデータ) (2024-05-02T20:42:28Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。