論文の概要: Althea: Human-AI Collaboration for Fact-Checking and Critical Reasoning
- arxiv url: http://arxiv.org/abs/2602.11161v1
- Date: Mon, 29 Dec 2025 18:23:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 12:01:13.514252
- Title: Althea: Human-AI Collaboration for Fact-Checking and Critical Reasoning
- Title(参考訳): Althea: Fact-CheckingとCritical Reasoningのための人間とAIのコラボレーション
- Authors: Svetlana Churina, Kokil Jaidka, Anab Maulana Barik, Harshit Aneja, Cai Yang, Wynne Hsu, Mong Li Lee,
- Abstract要約: 本稿では,オンラインクレームのユーザ主導評価を支援するために,質問生成,証拠検索,構造化推論を統合した検索強化システムであるAltheaを紹介する。
AVeriTeCベンチマークでは、Altheaは0.44のマクロF1を達成し、標準的な検証パイプラインを上回り、サポートされたクレームと反証されたクレームの識別を改善している。
- 参考スコア(独自算出の注目度): 26.796186521236194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The web's information ecosystem demands fact-checking systems that are both scalable and epistemically trustworthy. Automated approaches offer efficiency but often lack transparency, while human verification remains slow and inconsistent. We introduce Althea, a retrieval-augmented system that integrates question generation, evidence retrieval, and structured reasoning to support user-driven evaluation of online claims. On the AVeriTeC benchmark, Althea achieves a Macro-F1 of 0.44, outperforming standard verification pipelines and improving discrimination between supported and refuted claims. We further evaluate Althea through a controlled user study and a longitudinal survey experiment (N = 642), comparing three interaction modes that vary in the degree of scaffolding: an Exploratory mode with guided reasoning, a Summary mode providing synthesized verdicts, and a Self-search mode that offers procedural guidance without algorithmic intervention. Results show that guided interaction produces the strongest immediate gains in accuracy and confidence, while self-directed search yields the most persistent improvements over time. This pattern suggests that performance gains are not driven solely by effort or exposure, but by how cognitive work is structured and internalized.
- Abstract(参考訳): ウェブの情報エコシステムは、スケーラブルで認識的に信頼できるファクトチェックシステムを必要としています。
自動化されたアプローチは効率性を提供するが、透明性を欠くことが多い。
本稿では,オンラインクレームのユーザ主導評価を支援するために,質問生成,証拠検索,構造化推論を統合した検索強化システムであるAltheaを紹介する。
AVeriTeCベンチマークでは、Altheaは0.44のマクロF1を達成し、標準的な検証パイプラインを上回り、サポートされたクレームと反証されたクレームの識別を改善している。
制御されたユーザスタディと縦断的な調査実験(N = 642)を通じてAltheaをさらに評価し,足場ごとに異なる3つのインタラクションモードを比較する。
その結果、誘導的相互作用は精度と信頼性において最も高い即時的な向上をもたらし、一方、自己指向的探索は時間とともに最も永続的な改善をもたらすことが示された。
このパターンは、パフォーマンスの向上は、単に努力や露出によってではなく、認知作業の構造と内部化によってもたらされることを示している。
関連論文リスト
- Strong Reasoning Isn't Enough: Evaluating Evidence Elicitation in Interactive Diagnosis [29.630872344186873]
インタラクティブな医療相談は、エージェントが不確実性の下で行方不明な臨床証拠を積極的に引き出す必要がある。
既存の評価の大部分は静的あるいは結果中心であり、エビデンス収集プロセスを無視している。
シミュレーションされた患者と、原子的証拠に基づく再現されたレポーターを用いて、コンサルテーションプロセスを明示的にモデル化するインタラクティブな評価フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-27T16:36:35Z) - From Transcripts to AI Agents: Knowledge Extraction, RAG Integration, and Robust Evaluation of Conversational AI Assistants [0.0]
顧客向け産業向けの信頼できる会話AIアシスタントの構築は、ノイズの多い会話データ、断片化された知識、正確なヒューマンハンドオフの必要性により、依然として困難である。
本稿では,履歴書から直接対話型AIアシスタントを構築し,評価するためのエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-26T07:44:47Z) - Factuality and Transparency Are All RAG Needs! Self-Explaining Contrastive Evidence Re-ranking [0.2864713389096699]
この拡張された抽象概念は、自己説明的コントラストエビデンス・リランキング(CER)を導入している。
CERは、コントラスト学習による微調整埋め込みによる事実証拠の検索を再構築し、検索された各パスに対してトークンレベルの帰属論理を生成する。
本手法を臨床試験報告で評価した結果,CERは検索精度を向上し,RAGシステムにおける幻覚の可能性を軽減し,特に安全上重要な領域において信頼性を高めるための透明でエビデンスに基づく検索を提供することが明らかとなった。
論文 参考訳(メタデータ) (2025-12-04T17:24:35Z) - SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文 参考訳(メタデータ) (2025-11-29T09:18:39Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - Active Test-time Vision-Language Navigation [60.69722522420299]
ATENAは、不確実なナビゲーション結果に対するエピソードフィードバックを通じて、実用的な人間とロボットのインタラクションを可能にする、テスト時のアクティブな学習フレームワークである。
特にATENAは、成功エピソードにおける確実性を高め、失敗エピソードにおいてそれを減らすことを学び、不確実性の校正を改善している。
さらに,自信ある予測に基づいて,エージェントがナビゲーション結果を評価することができる自己学習戦略を提案する。
論文 参考訳(メタデータ) (2025-06-07T02:24:44Z) - Visual Agents as Fast and Slow Thinkers [88.1404921693082]
本稿では、Fast and Slow Thinking機構を視覚エージェントに組み込んだFaSTを紹介する。
FaSTは、システム1/2モード間の動的選択にスイッチアダプタを使用する。
モデルの信頼性を調整し、新しいコンテキストデータを統合することで、不確実で目に見えないオブジェクトに取り組む。
論文 参考訳(メタデータ) (2024-08-16T17:44:02Z) - SAIS: Supervising and Augmenting Intermediate Steps for Document-Level
Relation Extraction [51.27558374091491]
本稿では,関係抽出のための中間ステップ(SAIS)を監督し,拡張することにより,関連コンテキストやエンティティタイプをキャプチャするモデルを明示的に教えることを提案する。
そこで本提案手法は,より効果的な管理を行うため,より優れた品質の関係を抽出するだけでなく,それに対応する証拠をより正確に抽出する。
論文 参考訳(メタデータ) (2021-09-24T17:37:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。