論文の概要: SourceBench: Can AI Answers Reference Quality Web Sources?
- arxiv url: http://arxiv.org/abs/2602.16942v1
- Date: Wed, 18 Feb 2026 23:15:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.506906
- Title: SourceBench: Can AI Answers Reference Quality Web Sources?
- Title(参考訳): SourceBench: AIは基準品質のWebソースに答えられるか?
- Authors: Hexi Jin, Stephen Liu, Yuheng Li, Simran Malik, Yiying Zhang,
- Abstract要約: SourceBenchは、100の現実世界のクエリで引用されたWebソースの品質を測定するためのベンチマークである。
我々は8つの大言語モデル(LLM)、Google検索、および3つのAI検索ツールを、SourceBenchを用いて3996以上の引用ソースで評価した。
- 参考スコア(独自算出の注目度): 14.668125843739423
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) increasingly answer queries by citing web sources, but existing evaluations emphasize answer correctness rather than evidence quality. We introduce SourceBench, a benchmark for measuring the quality of cited web sources across 100 real-world queries spanning informational, factual, argumentative, social, and shopping intents. SourceBench uses an eight-metric framework covering content quality (content relevance, factual accuracy, objectivity) and page-level signals (e.g., freshness, authority/accountability, clarity), and includes a human-labeled dataset with a calibrated LLM-based evaluator that matches expert judgments closely. We evaluate eight LLMs, Google Search, and three AI search tools over 3996 cited sources using SourceBench and conduct further experiments to understand the evaluation results. Overall, our work reveals four key new insights that can guide future research in the direction of GenAI and web search.
- Abstract(参考訳): 大規模言語モデル(LLM)は、Webソースを引用することで、クエリに回答する傾向にあるが、既存の評価では、証拠の品質よりも回答の正しさを強調している。
SourceBenchは、情報、事実、議論的、社会的、ショッピングの意図にまたがる100の現実世界のクエリに対して、引用されたWebソースの品質を測定するためのベンチマークである。
SourceBenchは、コンテンツ品質(コンテンツ関連性、事実精度、客観性)とページレベルの信号(例えば、新鮮さ、権威/責任、明快さ)をカバーする8メトリックのフレームワークを使用しており、専門家の判断に密接に一致する校正されたLLMベースの評価器を備えた人間ラベル付きデータセットを含んでいる。
我々は8つのLSM、Google Search、3つのAI検索ツールをSourceBenchを用いて3996以上の引用ソースで評価し、評価結果を理解するためにさらなる実験を行った。
全体として、我々の研究は、GenAIとWeb検索の方向性に関する将来の研究をガイドする4つの重要な洞察を明らかにしている。
関連論文リスト
- Enhancing the Medical Context-Awareness Ability of LLMs via Multifaceted Self-Refinement Learning [49.559151128219725]
大規模言語モデル(LLM)は医療分野で大きな可能性を示しており、いくつかのベンチマークで高いパフォーマンスを実現している。
しかし、実際の医療シナリオではパフォーマンスが低下し続けており、コンテキスト認識の強化が要求されることが多い。
データ駆動型アプローチであるMultifaceted Self-Refinement (MuSeR)を提案する。
論文 参考訳(メタデータ) (2025-11-13T08:13:23Z) - OKBench: Democratizing LLM Evaluation with Fully Automated, On-Demand, Open Knowledge Benchmarking [47.579237867766686]
OKBenchは、ベンチマークのソーシング、作成、検証、配布を自動化するエージェントフレームワークである。
これらの結果から,新たな情報に直面する場合のモデル行動が明らかになり,小型モデルと大規模モデルのパフォーマンスギャップがいかに狭まるかが明らかになった。
論文 参考訳(メタデータ) (2025-10-31T16:44:34Z) - Assessing Web Search Credibility and Response Groundedness in Chat Assistants [4.0127354590894955]
本稿では,アシスタントのWeb検索行動を評価するための新しい手法を提案する。
GPT-4o, GPT-5, Perplexity, Qwen Chatの5項目を100件のクレームで評価した。
論文 参考訳(メタデータ) (2025-10-15T16:55:47Z) - ReportBench: Evaluating Deep Research Agents via Academic Survey Tasks [14.371010711040304]
ReportBenchは、大規模言語モデル(LLM)によって生成された研究レポートの内容品質を評価するために設計されたベンチマークである。
本評価は,(1)引用文献の質と妥当性,(2)報告内容の忠実さと妥当性の2つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2025-08-14T03:33:43Z) - A Knowledge Plug-and-Play Test Bed for Open-domain Dialogue Generation [51.31429493814664]
マルチソース対話知識の選択と応答生成を評価するために,ウィキペディアのマルチソースウィザードというベンチマークを示す。
本稿では,すでに訓練済みの対話モデルを用いて,未確認の情報源からの新たなサポート知識を利用するための新たな課題である対話知識プラグイン・アンド・プレイを提案する。
論文 参考訳(メタデータ) (2024-03-06T06:54:02Z) - WebCiteS: Attributed Query-Focused Summarization on Chinese Web Search Results with Citations [34.99831757956635]
我々は,属性付きクエリ中心要約 (AQFS) のタスクを定式化するとともに,7kの人称注釈の要約を引用した中国語データセットであるWebCiteSを提示する。
これらの課題に対処するために、詳細なメトリクスを開発し、自動評価器が文を細かな検証のためにサブステートに分解できるようにする。
論文 参考訳(メタデータ) (2024-03-04T07:06:41Z) - AlignBench: Benchmarking Chinese Alignment of Large Language Models [99.24597941555277]
中国語大言語モデルのアライメントを評価するための総合ベンチマークであるAlignBenchを紹介する。
我々は,8つの主要なカテゴリ,683の実シナリオ根付きクエリ,およびそれに対応する人間の検証基準を含む,ループ内データキュレーションパイプラインを設計する。
自動評価には,Chain-of-Thoughtを用いた多次元LCM-as-Judgecitezheng2023アジュジング手法を用いて説明と最終評価を生成する。
論文 参考訳(メタデータ) (2023-11-30T17:41:30Z) - Know Where to Go: Make LLM a Relevant, Responsible, and Trustworthy
Searcher [10.053004550486214]
大規模言語モデル(LLM)は、Web検索において関連性を改善し、直接的な回答を提供する可能性を示している。
課題は、生成された結果の信頼性と、コントリビューションソースの信頼性にある。
本稿では,LLMの知識を活用してクエリとオンラインソースの直接リンクを促進する新しい生成検索フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T03:49:36Z) - Towards Verifiable Generation: A Benchmark for Knowledge-aware Language Model Attribution [48.86322922826514]
本稿では,知識認識型言語モデル属性(KaLMA)の新たな課題について述べる。
まず、属性のソースを構造化されていないテキストから知識グラフ(KG)に拡張し、そのリッチな構造は属性のパフォーマンスと作業シナリオの両方に役立ちます。
第2に,不完全な知識リポジトリを考慮した「意識的非能力」の設定を提案する。
第3に,テキスト品質,引用品質,引用アライメントを含む総合的な自動評価指標を提案する。
論文 参考訳(メタデータ) (2023-10-09T11:45:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。