論文の概要: Look It Up: Analysing Internal Web Search Capabilities of Modern LLMs
- arxiv url: http://arxiv.org/abs/2511.18931v1
- Date: Mon, 24 Nov 2025 09:37:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.139672
- Title: Look It Up: Analysing Internal Web Search Capabilities of Modern LLMs
- Title(参考訳): 最新のLLMの内部Web検索機能の解析
- Authors: Sahil Kale,
- Abstract要約: 我々は、内部の状態やパラメータにアクセスできない商用モデルにおけるWebアクセスの必要性と有効性を評価するベンチマークを導入する。
データセットには、783の静的な分割が含まれており、時間的に固定された質問は、プレカットの知識から答えられる。
Web アクセスは GPT-5-mini と Claude Haiku 4.5 の静的精度を大幅に向上するが、信頼性の校正は悪化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Modern large language models integrate web search to provide real-time answers, yet it remains unclear whether they are efficiently calibrated to use search when it is actually needed. We introduce a benchmark evaluating both the necessity and effectiveness of web access across commercial models with no access to internal states or parameters. The dataset includes a static split of 783 temporally anchored questions answerable from pre-cutoff knowledge, aimed at testing whether models invoke search based on low internal confidence, and a dynamic split of 288 post-cutoff queries designed to test whether models recognise when search is required and retrieve updated information. Web access substantially improves static accuracy for GPT-5-mini and Claude Haiku 4.5, though confidence calibration worsens. On dynamic queries, both models frequently invoke search yet remain below 70 percent accuracy due to weak query formulation. Costs per accuracy-improving call remain low, but returns diminish once initial retrieval fails. Selective invocation helps, but models become overconfident and inconsistent after search. Overall, built-in web search meaningfully improves factual accuracy and can be invoked selectively, yet models remain overconfident, skip retrieval when it is essential, and falter once initial search queries underperform. Taken together, internal web search works better as a good low-latency verification layer than a reliable analytical tool, with clear room for improvement.
- Abstract(参考訳): 現代の大規模言語モデルは、リアルタイムな回答を提供するためにWeb検索を統合しているが、実際に必要なときに検索を効率的に調整するかどうかは不明だ。
我々は、内部の状態やパラメータにアクセスできない商用モデルにおけるWebアクセスの必要性と有効性を評価するベンチマークを導入する。
このデータセットは、プレカット知識から答えられる773の時間的アンロックされた質問を静的に分割し、低い内部信頼度に基づいてモデルが検索を起動するかどうかをテストすることと、検索が必要なときにモデルが認識し、更新された情報を検索するかどうかをテストするように設計された288のポストカット後のクエリを動的に分割する。
Web アクセスは GPT-5-mini と Claude Haiku 4.5 の静的精度を大幅に向上するが、信頼性の校正は悪化する。
動的クエリでは、どちらのモデルも検索を頻繁に呼び出すが、クエリの定式化が弱いため精度は70%以下である。
精度改善コール当たりのコストは低いが、初期検索が失敗するとリターンは減少する。
選択的な呼び出しは役に立つが、モデルは検索後に過信され、一貫性がない。
全体として、ビルトインのWeb検索は、事実の精度を向上し、選択的に呼び出すことができるが、モデルは過信であり、必要であれば検索をスキップし、一度初期検索クエリが性能を損なう。
まとめると、内部のWeb検索は信頼性の高い分析ツールよりも優れた低レイテンシ検証レイヤーとして機能し、改善の余地は明らかです。
関連論文リスト
- Leveraging Generative Models for Real-Time Query-Driven Text Summarization in Large-Scale Web Search [54.987957691350665]
クエリ駆動テキスト要約(QDTS)は、与えられたクエリに基づいてテキスト文書から簡潔で情報的な要約を生成することを目的としている。
従来の抽出的要約モデルは、主にランク付け候補の要約セグメントに基づいており、産業応用において支配的なアプローチとなっている。
産業Web検索におけるリアルタイムQDTSに対処するための生成モデルの適用を開拓するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-28T08:51:51Z) - RAVine: Reality-Aligned Evaluation for Agentic Search [7.4420114967110385]
RAVineは、検索を伴うエージェントLLMのための現実対応eValuationフレームワークである。
RAVineは、マルチポイントクエリと、ユーザの意図を反映した長文の回答をターゲットにしている。
RAVineを使って一連のモデルをベンチマークし、いくつかの洞察を得た。
論文 参考訳(メタデータ) (2025-07-22T16:08:12Z) - Maximally-Informative Retrieval for State Space Model Generation [59.954191072042526]
テスト時に特定のクエリに対するモデル不確実性を最小化するために、Retrieval In-Context Optimization (RICO)を導入する。
文書検索に外部に依存した従来の検索強化生成(RAG)とは異なり,本手法はモデルから直接のフィードバックを利用する。
モデル勾配を用いた標準のトップ$kの検索は、最適化手順を近似し、残余損失への接続を提供することを示す。
論文 参考訳(メタデータ) (2025-06-13T18:08:54Z) - DeepDiver: Adaptive Search Intensity Scaling via Open-Web Reinforcement Learning [73.68685269970844]
WebPuzzleはトレーニングと275サンプルテストベンチマークで、ライブインターネット上での情報検索を評価する。
我々は、検索強度スケーリング(SIS)を育成する強化学習フレームワークであるDeepDiverを開発した。
我々は,DeepDiverのカリキュラムをコールドスタートSFTからよく設計されたRLプロシージャに詳述し,その探索方針がクローズドドクエリからロングフォームライティングなどのオープンエンドジェネレーションへと一般化したことを示す。
論文 参考訳(メタデータ) (2025-05-30T08:15:39Z) - SEM: Reinforcement Learning for Search-Efficient Large Language Models [26.075903427834838]
大きな言語モデル(LLM)は、推論だけでなく、外部ツールの呼び出しでもその能力を実証している。
既存の強化学習アプローチは、しばしば冗長な探索行動を引き起こす。
本研究では,学習後強化学習フレームワークであるSEMを提案する。
論文 参考訳(メタデータ) (2025-05-12T09:45:40Z) - Query-oriented Data Augmentation for Session Search [71.84678750612754]
本稿では,検索ログの強化とモデリングの強化を目的としたクエリ指向データ拡張を提案する。
検索コンテキストの最も重要な部分を変更することで補足的なトレーニングペアを生成する。
我々は、現在のクエリを変更するためのいくつかの戦略を開発し、その結果、様々な難易度で新しいトレーニングデータを得る。
論文 参考訳(メタデータ) (2024-07-04T08:08:33Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - DSI++: Updating Transformer Memory with New Documents [95.70264288158766]
DSI++は、DSIが新たなドキュメントをインクリメンタルにインデクシングするための継続的な学習課題である。
新たな文書の連続的な索引付けは,それまでの索引付け文書をかなり忘れてしまうことを示す。
文書の擬似クエリをサンプルとして生成メモリを導入し、連続的なインデックス付け中に補足することで、検索タスクの忘れを防止する。
論文 参考訳(メタデータ) (2022-12-19T18:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。