論文の概要: Level-Navi Agent: A Framework and benchmark for Chinese Web Search Agents
- arxiv url: http://arxiv.org/abs/2502.15690v1
- Date: Fri, 20 Dec 2024 08:03:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-02 06:50:02.161401
- Title: Level-Navi Agent: A Framework and benchmark for Chinese Web Search Agents
- Title(参考訳): Level-Navi Agent: 中国のWeb検索エージェントのためのフレームワークとベンチマーク
- Authors: Chuanrui Hu, Shichong Xie, Baoxin Wang, Bin Chen, Xiaofeng Cong, Jun Zhang,
- Abstract要約: 人間の言語を理解するために採用された大規模言語モデル(LLM)は、人工知能(AI)ウェブサーチエージェントの開発を促進する。
本稿では、レベル認識ナビゲーションによる汎用的かつトレーニング不要なWeb検索エージェントであるLevel-Navi Agentについて、十分な注釈付きデータセット(Web24)と適切な評価基準を伴って提案する。
- 参考スコア(独自算出の注目度): 9.003325286793288
- License:
- Abstract: Large language models (LLMs), adopted to understand human language, drive the development of artificial intelligence (AI) web search agents. Compared to traditional search engines, LLM-powered AI search agents are capable of understanding and responding to complex queries with greater depth, enabling more accurate operations and better context recognition. However, little attention and effort has been paid to the Chinese web search, which results in that the capabilities of open-source models have not been uniformly and fairly evaluated. The difficulty lies in lacking three aspects: an unified agent framework, an accurately labeled dataset, and a suitable evaluation metric. To address these issues, we propose a general-purpose and training-free web search agent by level-aware navigation, Level-Navi Agent, accompanied by a well-annotated dataset (Web24) and a suitable evaluation metric. Level-Navi Agent can think through complex user questions and conduct searches across various levels on the internet to gather information for questions. Meanwhile, we provide a comprehensive evaluation of state-of-the-art LLMs under fair settings. To further facilitate future research, source code is available at Github.
- Abstract(参考訳): 人間の言語を理解するために採用された大規模言語モデル(LLM)は、人工知能(AI)ウェブサーチエージェントの開発を促進する。
従来の検索エンジンと比較して、LLMベースのAI検索エージェントは、より深い深度で複雑なクエリを理解し、応答することができるため、より正確な操作とより優れたコンテキスト認識が可能になる。
しかし、中国のウェブ検索にはほとんど注意と努力が払われておらず、その結果、オープンソースモデルの能力は均一に評価されていない。
難点は、統合されたエージェントフレームワーク、正確にラベル付けされたデータセット、適切な評価基準の3つの側面を欠いていることである。
これらの問題に対処するために、レベル認識ナビゲーションによる汎用的でトレーニング不要なWeb検索エージェントであるLevel-Navi Agentについて、よく注釈付きデータセット(Web24)と適切な評価基準を伴って提案する。
Level-Navi Agentは複雑なユーザ質問を考えて、インターネット上のさまざまなレベルの検索を行い、質問の情報を集める。
一方、公正な条件下での最先端LCMの総合評価を行う。
将来の研究を促進するため、ソースコードはGithubで入手できる。
関連論文リスト
- SAME: Learning Generic Language-Guided Visual Navigation with State-Adaptive Mixture of Experts [54.11162991206203]
本稿では,多様なナビゲーションタスクを統一的で汎用的なフレームワークに統合する。
本稿では,エージェントによる意思決定の推論を効果的に行うことのできる,新しい状態適応型エキスパート混合モデルを提案する。
論文 参考訳(メタデータ) (2024-12-07T06:12:53Z) - ML Research Benchmark [0.0]
MLRB(ML Research Benchmark)は,最近の機械学習カンファレンスのトラックから派生した7つの競合レベルタスクからなる。
本稿では,Claude-3 や GPT-4o などのフロンティアモデルを用いたエージェント足場を用いて,新しいベンチマークを提案し,評価する。
結果は、Claude-3.5 Sonnetエージェントがベンチマーク全体で最高のパフォーマンスを示し、機械学習モデルの設計と開発に優れていたことを示唆している。
論文 参考訳(メタデータ) (2024-10-29T21:38:42Z) - AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。
AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文 参考訳(メタデータ) (2024-10-17T17:50:38Z) - MindSearch: Mimicking Human Minds Elicits Deep AI Searcher [20.729251584466983]
我々は、Web情報検索と統合における人間の心を模倣するMindSearchを紹介した。
このフレームワークは、シンプルだが効果的なLLMベースのマルチエージェントフレームワークによってインスタンス化できる。
MindSearchは、深さと幅の点でレスポンス品質が大幅に改善されている。
論文 参考訳(メタデータ) (2024-07-29T17:12:40Z) - Tree Search for Language Model Agents [69.43007235771383]
対話型Web環境での探索と多段階計画を行うために,LMエージェントの推論時探索アルゴリズムを提案する。
我々のアプローチは、実環境空間内で機能する最優先木探索の一形態である。
現実的なWebタスクにおいて有効性を示すLMエージェントのための最初の木探索アルゴリズムである。
論文 参考訳(メタデータ) (2024-07-01T17:07:55Z) - STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases [93.96463520716759]
テキストと知識ベースを用いた大規模半構造検索ベンチマークSTARKを開発した。
本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野について検討した。
多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
論文 参考訳(メタデータ) (2024-04-19T22:54:54Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z) - KwaiAgents: Generalized Information-seeking Agent System with Large
Language Models [33.59597020276034]
人間は批判的思考、計画、リフレクション、世界と対話し解釈するための利用可能なツールの活用に優れています。
大規模言語モデル(LLM)の最近の進歩は、マシンが前述の人間のような能力を持っていることも示唆している。
LLMに基づく汎用情報検索システムであるKwaiAgentsを紹介する。
論文 参考訳(メタデータ) (2023-12-08T08:11:11Z) - Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models [31.509994889286183]
我々はLanguage Agent Tree Search (LATS)を紹介した。Language Agent Tree Search (LATS)は、推論、行動、計画において言語モデル(LM)の能力を相乗化する最初の一般的なフレームワークである。
当社のアプローチの重要な特徴は、より意図的で適応的な問題解決メカニズムを提供する外部フィードバック環境の導入である。
LATSは、GPT-4でHumanEval上でプログラミングするための最先端パス@1精度(92.7%)を達成し、GPTによるWebShop上のWebナビゲーションの勾配ベースの微調整に匹敵する勾配なし性能(平均スコア75.9)を示す。
論文 参考訳(メタデータ) (2023-10-06T17:55:11Z) - The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされる
まず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。
単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文 参考訳(メタデータ) (2023-09-14T17:12:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。