論文の概要: Open Deep Search: Democratizing Search with Open-source Reasoning Agents
- arxiv url: http://arxiv.org/abs/2503.20201v1
- Date: Wed, 26 Mar 2025 03:51:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:22:19.536173
- Title: Open Deep Search: Democratizing Search with Open-source Reasoning Agents
- Title(参考訳): Open Deep Search: オープンソース推論エージェントによる検索の民主化
- Authors: Salaheddin Alzubi, Creston Brooks, Purva Chiniya, Edoardo Contente, Chiara von Gerlach, Lucas Irwin, Yihan Jiang, Arda Kaz, Windsor Nguyen, Sewoong Oh, Himanshu Tyagi, Pramod Viswanath,
- Abstract要約: プロプライエタリな検索AIソリューションとオープンソースソリューションとのギャップを埋めるために、Open Deep Search(ODS)を導入します。
ODSは、ユーザが選択したベースLLMで動作する2つのコンポーネントで構成されている。
Open Search Toolは、プロプライエタリなツールよりも優れた、新しいWeb検索ツールだ。
- 参考スコア(独自算出の注目度): 32.27294576863617
- License:
- Abstract: We introduce Open Deep Search (ODS) to close the increasing gap between the proprietary search AI solutions, such as Perplexity's Sonar Reasoning Pro and OpenAI's GPT-4o Search Preview, and their open-source counterparts. The main innovation introduced in ODS is to augment the reasoning capabilities of the latest open-source LLMs with reasoning agents that can judiciously use web search tools to answer queries. Concretely, ODS consists of two components that work with a base LLM chosen by the user: Open Search Tool and Open Reasoning Agent. Open Reasoning Agent interprets the given task and completes it by orchestrating a sequence of actions that includes calling tools, one of which is the Open Search Tool. Open Search Tool is a novel web search tool that outperforms proprietary counterparts. Together with powerful open-source reasoning LLMs, such as DeepSeek-R1, ODS nearly matches and sometimes surpasses the existing state-of-the-art baselines on two benchmarks: SimpleQA and FRAMES. For example, on the FRAMES evaluation benchmark, ODS improves the best existing baseline of the recently released GPT-4o Search Preview by 9.7% in accuracy. ODS is a general framework for seamlessly augmenting any LLMs -- for example, DeepSeek-R1 that achieves 82.4% on SimpleQA and 30.1% on FRAMES -- with search and reasoning capabilities to achieve state-of-the-art performance: 88.3% on SimpleQA and 75.3% on FRAMES.
- Abstract(参考訳): 私たちは、PerplexityのSonar Reasoning ProやOpenAIのGPT-4o Search Previewなど、プロプライエタリな検索AIソリューション間のギャップを埋めるために、Open Deep Search(ODS)を導入します。
ODSで導入された主なイノベーションは、最新のオープンソースLLMの推論能力を強化することである。
具体的には ODS は,ユーザが選択したベース LLM で動作する2つのコンポーネント – Open Search Tool と Open Reasoning Agent で構成される。
Open Reasoning Agentは、与えられたタスクを解釈し、呼び出しツールを含む一連のアクションを編成することでそれを完了する。
Open Search Toolは、プロプライエタリなツールよりも優れた、新しいWeb検索ツールだ。
DeepSeek-R1のような強力なオープンソース推論 LLM とともに、ODS はほぼ一致し、2つのベンチマーク(SimpleQA と FRAMES)で既存の最先端のベースラインを超えることがある。
例えば、FRAMES評価ベンチマークでは、ODSは先日リリースされたGPT-4o Search Previewのベースラインを9.7%改善した。
ODSは任意のLLMをシームレスに拡張するための一般的なフレームワークである。例えば、DeepSeek-R1はSimpleQAで82.4%、FRAMESで30.1%、検索と推論能力はSimpleQAで88.3%、FRAMESで75.3%である。
関連論文リスト
- Search-o1: Agentic Search-Enhanced Large Reasoning Models [24.239220558484373]
OpenAI-o1のような大きな推論モデル(LRM)は、大規模な強化学習を通じて、大きなステップワイズ推論能力を実証している。
エージェント検索拡張生成(RAG)機構とReason-in-Documentsモジュールを併用し,LRMを強化するフレームワークである textbfSearch-o1 を紹介する。
論文 参考訳(メタデータ) (2025-01-09T16:48:17Z) - RARE: Retrieval-Augmented Reasoning Enhancement for Large Language Models [13.478123641238277]
RARE(Retrieval-Augmented Reasoning Enhancement)は相互推論フレームワーク(rStar)の汎用的拡張である
これは、コモンセンスや医学的推論といった複雑な知識集約的なタスクに対して、大規模言語モデル(LLM)の推論精度と事実整合性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-12-03T20:52:35Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Tree Search for Language Model Agents [69.43007235771383]
対話型Web環境での探索と多段階計画を行うために,LMエージェントの推論時探索アルゴリズムを提案する。
我々のアプローチは、実環境空間内で機能する最優先木探索の一形態である。
現実的なWebタスクにおいて有効性を示すLMエージェントのための最初の木探索アルゴリズムである。
論文 参考訳(メタデータ) (2024-07-01T17:07:55Z) - AgentQuest: A Modular Benchmark Framework to Measure Progress and Improve LLM Agents [19.439775106707344]
AgentQuestは、ベンチマークとメトリクスがモジュール化され、十分にドキュメント化され使いやすいAPIを通じて容易に利用できるフレームワークである。
課題を解決しながら LLM エージェントの進捗を確実に追跡できる2つの新しい評価指標を提供する。
一般的な障害点を特定し,エージェントアーキテクチャを洗練し,大幅な性能向上を実現する2つのユースケースにおけるメトリクスの有用性を実証する。
論文 参考訳(メタデータ) (2024-04-09T16:01:24Z) - AQA-Bench: An Interactive Benchmark for Evaluating LLMs' Sequential
Reasoning Ability [29.1826948551409]
AQA-Benchは、大規模言語モデルの逐次推論能力を評価するための新しいベンチマークである。
AQA-Benchは,2進探索,深さ優先探索,幅優先探索という3つのアルゴリズムで構築されている。
我々の調査では興味深い発見がいくつか示されている。
論文 参考訳(メタデータ) (2024-02-14T18:59:33Z) - Autonomous Tree-search Ability of Large Language Models [58.68735916408101]
大規模言語モデルは、高度なプロンプト技術で顕著な推論能力に優れています。
近年の研究では、LLMがより困難な推論タスクを解くために受動的木探索を行えるように、検索ロジックを定義するために外部プログラムを活用することが提案されている。
我々は,LLMの自律木探索能力という新しい概念を提案し,正しい解を求める探索軌跡を含む応答を自動生成する。
論文 参考訳(メタデータ) (2023-10-14T14:14:38Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z) - OpenAGI: When LLM Meets Domain Experts [51.86179657467822]
ヒューマン・インテリジェンス(HI)は、複雑なタスクを解くための基本的なスキルの組み合わせに長けている。
この機能は人工知能(AI)にとって不可欠であり、包括的なAIエージェントに組み込まれるべきである。
マルチステップで現実的なタスクを解決するために設計されたオープンソースのプラットフォームであるOpenAGIを紹介します。
論文 参考訳(メタデータ) (2023-04-10T03:55:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。