論文の概要: Search Arena: Analyzing Search-Augmented LLMs
- arxiv url: http://arxiv.org/abs/2506.05334v1
- Date: Thu, 05 Jun 2025 17:59:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.898585
- Title: Search Arena: Analyzing Search-Augmented LLMs
- Title(参考訳): 検索アリーナ:検索強化LLMの分析
- Authors: Mihran Miroyan, Tsung-Han Wu, Logan King, Tianle Li, Jiayi Pan, Xinyan Hu, Wei-Lin Chiang, Anastasios N. Angelopoulos, Trevor Darrell, Narges Norouzi, Joseph E. Gonzalez,
- Abstract要約: クラウドソーシングで大規模で,24,000以上のペア化されたマルチターンユーザインタラクションの人為的なデータセットであるSearch Arenaを紹介した。
データセットはさまざまな意図や言語にまたがっており、人間の好みの投票数約12,000の完全なシステムトレースが含まれている。
分析の結果,引用されたコンテンツが属性付クレームを直接サポートしていない場合でも,ユーザの嗜好は引用数に影響されていることが明らかとなった。
- 参考スコア(独自算出の注目度): 61.28673331156436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Search-augmented language models combine web search with Large Language Models (LLMs) to improve response groundedness and freshness. However, analyzing these systems remains challenging: existing datasets are limited in scale and narrow in scope, often constrained to static, single-turn, fact-checking questions. In this work, we introduce Search Arena, a crowd-sourced, large-scale, human-preference dataset of over 24,000 paired multi-turn user interactions with search-augmented LLMs. The dataset spans diverse intents and languages, and contains full system traces with around 12,000 human preference votes. Our analysis reveals that user preferences are influenced by the number of citations, even when the cited content does not directly support the attributed claims, uncovering a gap between perceived and actual credibility. Furthermore, user preferences vary across cited sources, revealing that community-driven platforms are generally preferred and static encyclopedic sources are not always appropriate and reliable. To assess performance across different settings, we conduct cross-arena analyses by testing search-augmented LLMs in a general-purpose chat environment and conventional LLMs in search-intensive settings. We find that web search does not degrade and may even improve performance in non-search settings; however, the quality in search settings is significantly affected if solely relying on the model's parametric knowledge. We open-sourced the dataset to support future research in this direction. Our dataset and code are available at: https://github.com/lmarena/search-arena.
- Abstract(参考訳): 検索強化言語モデルは、Web検索とLarge Language Models (LLM)を組み合わせることで、応答の基盤性と鮮度を改善する。
既存のデータセットはスケールが限られており、スコープが狭く、多くの場合、静的でシングルターンのファクトチェックの質問に制約される。
本研究では,24,000組以上のマルチターンユーザインタラクションとLLMを併用した,クラウドソースによる大規模人為的推論データセットであるSearch Arenaを紹介する。
データセットはさまざまな意図や言語にまたがっており、人間の好みの投票数約12,000の完全なシステムトレースが含まれている。
分析の結果,引用されたコンテンツが属性付クレームを直接サポートしていない場合であっても,ユーザの嗜好は引用数に影響され,認識と実際の信頼性のギャップが明らかになった。
さらに、利用者の好みは引用ソースによって異なり、コミュニティ主導のプラットフォームが一般的に好まれ、静的百科事典は必ずしも適切で信頼性が高いとは限らない。
本研究では,検索集約環境における汎用チャット環境におけるLLMと,検索集約環境における従来のLLMとを比較検討し,クロスアリーナ分析を行う。
ウェブ検索は劣化せず、検索以外の設定でも性能が向上する可能性があるが、モデルのパラメトリック知識のみに依存する場合、検索設定の質は著しく低下する。
この方向への将来の研究を支援するために、データセットをオープンソースにしました。
私たちのデータセットとコードは、https://github.com/lmarena/search-arena.comで公開されています。
関連論文リスト
- Leveraging LLMs to Enable Natural Language Search on Go-to-market Platforms [0.23301643766310368]
販売者向けのZoominfo製品向けのソリューションの実装と評価を行い、自然言語による大規模言語モデルの実現を促す。
中間検索フィールドは、構文エラーの除去など、クエリ毎に多くの利点を提供する。
提案手法の有効性を実証するために, クローズド, オープンソース, 微調整 LLM モデルを用いた総合実験を行った。
論文 参考訳(メタデータ) (2024-11-07T03:58:38Z) - Distance between Relevant Information Pieces Causes Bias in Long-Context LLMs [50.40165119718928]
LongPiBenchは、複数の関連する情報を含む位置バイアスを評価するために設計されたベンチマークである。
これらの実験によると、現在のほとんどのモデルは「中間の失われた」問題に対して堅牢であるが、関連する情報片の間隔に関する重大なバイアスが存在する。
論文 参考訳(メタデータ) (2024-10-18T17:41:19Z) - CLARINET: Augmenting Language Models to Ask Clarification Questions for Retrieval [52.134133938779776]
CLARINETは,回答が正しい候補の確実性を最大化する質問を選択することで,情報的明確化を問うシステムである。
提案手法は,大規模言語モデル(LLM)を検索分布の条件付きで拡張し,各ターンで真の候補のランクを最大化する問題を生成する。
論文 参考訳(メタデータ) (2024-04-28T18:21:31Z) - Factuality of Large Language Models: A Survey [29.557596701431827]
我々は、主要な課題とその原因を特定することを目的として、既存の研究を批判的に分析する。
オープンエンドテキスト生成における事実自動評価の障害を解析する。
論文 参考訳(メタデータ) (2024-02-04T09:36:31Z) - Sample Efficient Preference Alignment in LLMs via Active Exploration [63.84454768573154]
良い政策を最も効率的に特定するために、人間のフィードバックを得るコンテキストをしばしば選択できるという事実を活用します。
本稿では,データを効率的に選択する能動的探索アルゴリズムを提案する。
提案手法は,複数の言語モデルと4つの実世界のデータセットに対する人間の嗜好の限られたサンプルを用いて,ベースラインよりも優れる。
論文 参考訳(メタデータ) (2023-12-01T00:54:02Z) - ROBBIE: Robust Bias Evaluation of Large Generative Language Models [27.864027322486375]
異なるプロンプトベースのデータセットを使用して、複数のテキストドメインと人口統計軸にわたる社会的バイアスを測定することができる。
我々は,12の人口動態軸と5のジェネレーションLLMの家系の6つの異なるプロンプトベースのバイアスと毒性の指標を比較した。
3つのバイアス/毒性の緩和技術が、我々の一連の測定においていかにうまく機能するかを包括的に研究する。
論文 参考訳(メタデータ) (2023-11-29T23:03:04Z) - Knowledge-Augmented Large Language Models for Personalized Contextual
Query Suggestion [16.563311988191636]
我々は,Web上での検索と閲覧活動に基づいて,各ユーザを対象としたエンティティ中心の知識ストアを構築した。
この知識ストアは、公的な知識グラフ上の興味と知識のユーザ固有の集約予測のみを生成するため、軽量である。
論文 参考訳(メタデータ) (2023-11-10T01:18:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。