論文の概要: O$^2$-Searcher: A Searching-based Agent Model for Open-Domain Open-Ended Question Answering
- arxiv url: http://arxiv.org/abs/2505.16582v1
- Date: Thu, 22 May 2025 12:17:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.275034
- Title: O$^2$-Searcher: A Searching-based Agent Model for Open-Domain Open-Ended Question Answering
- Title(参考訳): O$^2$-Searcher:オープンドメインのオープンエンド質問回答のための検索ベースエージェントモデル
- Authors: Jianbiao Mei, Tao Hu, Daocheng Fu, Licheng Wen, Xuemeng Yang, Rong Wu, Pinlong Cai, Xing Gao, Yu Yang, Chengjun Xie, Botian Shi, Yong Liu, Yu Qiao,
- Abstract要約: O$2$-Searcherは、強化学習を利用してオープンドメインのオープンエンドとクローズドエンドの両方の質問に対処する、新しい検索エージェントである。
厳密に設計された報酬関数を備えた統一的なトレーニング機構を使用して、エージェントは問題タイプを特定し、異なる回答生成戦略を適用することができる。
O$2$-Searcherは3Bモデルのみを使用しており、O$2$-QA上でのLLMエージェントをはるかに上回っている。
- 参考スコア(独自算出の注目度): 29.597790226513936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs), despite their advancements, are fundamentally limited by their static parametric knowledge, hindering performance on tasks requiring open-domain up-to-date information. While enabling LLMs to interact with external knowledge environments is a promising solution, current efforts primarily address closed-end problems. Open-ended questions, which characterized by lacking a standard answer or providing non-unique and diverse answers, remain underexplored. To bridge this gap, we present O$^2$-Searcher, a novel search agent leveraging reinforcement learning to effectively tackle both open-ended and closed-ended questions in the open domain. O$^2$-Searcher leverages an efficient, locally simulated search environment for dynamic knowledge acquisition, effectively decoupling the external world knowledge from model's sophisticated reasoning processes. It employs a unified training mechanism with meticulously designed reward functions, enabling the agent to identify problem types and adapt different answer generation strategies. Furthermore, to evaluate performance on complex open-ended tasks, we construct O$^2$-QA, a high-quality benchmark featuring 300 manually curated, multi-domain open-ended questions with associated web page caches. Extensive experiments show that O$^2$-Searcher, using only a 3B model, significantly surpasses leading LLM agents on O$^2$-QA. It also achieves SOTA results on various closed-ended QA benchmarks against similarly-sized models, while performing on par with much larger ones.
- Abstract(参考訳): 大規模言語モデル(LLM)は、その進歩にもかかわらず、静的パラメトリックな知識によって基本的に制限されており、オープンドメインの最新の情報を必要とするタスクのパフォーマンスを妨げる。
LLMが外部の知識環境と対話できることは有望な解決策であるが、現在の取り組みは主にクローズドエンドの問題に対処している。
標準回答の欠如や、非普遍的で多様な回答の提供を特徴とするオープンエンドの質問は、まだ未解決のままである。
このギャップを埋めるため、オープンドメインにおけるオープンエンドとクローズドエンドの両方の問題に効果的に取り組むために強化学習を利用した新しい検索エージェントO$^2$-Searcherを提案する。
O$^2$-Searcherは、動的知識獲得のために効率的で局所的にシミュレートされた検索環境を活用し、外部世界の知識をモデルの洗練された推論プロセスから効果的に分離する。
厳密に設計された報酬関数を備えた統一的なトレーニング機構を使用して、エージェントは問題タイプを特定し、異なる回答生成戦略を適用することができる。
さらに,複雑なオープンエンドタスクの性能を評価するために,300個の手作業による複数ドメインのオープンエンド質問と関連するWebページキャッシュを組み合わせた高品質なベンチマークであるO$^2$-QAを構築した。
3Bモデルのみを用いたO$^2$-Searcherは,O$^2$-QA上のLLMエージェントを著しく上回った。
また、同様のサイズのモデルに対する様々なクローズドエンドQAベンチマークのSOTA結果も達成している。
関連論文リスト
- MMSearch-R1: Incentivizing LMMs to Search [49.889749277236376]
MMSearch-R1は,実世界のインターネット環境において,オンデマンドでマルチターン検索が可能な,初のエンドツーエンド強化学習フレームワークである。
本フレームワークは画像検索とテキスト検索の両方を統合し,検索ペナルティによる結果に基づく報酬によって,モデルがいつ,どのように呼び出すかの判断を可能にする。
論文 参考訳(メタデータ) (2025-06-25T17:59:42Z) - Scaling External Knowledge Input Beyond Context Windows of LLMs via Multi-Agent Collaboration [38.63721941742435]
大規模言語モデル(LLM)は、複雑なタスクを解決するために大量の検索された知識を組み込むことができる。
既存のコンテキストウィンドウ拡張メソッドは、必然的に情報損失を引き起こす。
ボトルネックを克服するためのマルチエージェントフレームワークである$textbfExtAgents$を開発します。
論文 参考訳(メタデータ) (2025-05-27T17:45:04Z) - $C^3$-Bench: The Things Real Disturbing LLM based Agent in Multi-Tasking [12.218102495632937]
エージェントの堅牢性を評価するためのオープンソースベンチマークをC3$-Benchで提示する。
具体的には,複雑なツール関係をナビゲートし,重要な隠蔽情報を処理し,動的決定経路を管理する,という3つの課題を設計する。
本質的に$C3$-Benchは、これらの課題を通じてモデル脆弱性を公開し、エージェントパフォーマンスの解釈可能性の研究を促進することを目的としている。
論文 参考訳(メタデータ) (2025-05-24T15:25:44Z) - Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [92.57125498367907]
マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。
マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文 参考訳(メタデータ) (2024-11-05T09:27:21Z) - Unleashing LLM Reasoning Capability via Scalable Question Synthesis from Scratch [54.12139707822201]
本稿では,新しい,スケーラブルで費用対効果の高いデータ合成手法であるScaleQuestを提案する。
スクラッチから多様な質問を生成することで、100万の問題解決ペアのデータセットを生成します。
私たちの実験では、データに基づいてトレーニングされたモデルが、既存のオープンソースデータセットより優れています。
論文 参考訳(メタデータ) (2024-10-24T12:42:04Z) - DEXTER: A Benchmark for open-domain Complex Question Answering using LLMs [3.24692739098077]
オープンドメイン複合質問回答 (QA) は証拠検索と推論において難しい課題である。
我々は、オープンドメイン設定で、最先端の訓練済み高密度・スパース検索モデルを評価する。
BM25のような遅延相互作用モデルや驚くほど語彙的モデルは、事前訓練された高密度検索モデルと比較してよく機能する。
論文 参考訳(メタデータ) (2024-06-24T22:09:50Z) - Multi-LLM QA with Embodied Exploration [55.581423861790945]
未知環境における質問応答におけるマルチエンボディードLEMエクスプローラ(MELE)の利用について検討する。
複数のLSMベースのエージェントが独立して家庭用環境に関する質問を探索し、回答する。
各問合せに対して1つの最終回答を生成するために,異なるアグリゲーション手法を解析する。
論文 参考訳(メタデータ) (2024-06-16T12:46:40Z) - Enhancing Open-Domain Task-Solving Capability of LLMs via Autonomous Tool Integration from GitHub [79.31134731122462]
オープンドメインのタスク解決能力を評価するためにOpenActベンチマークを導入します。
我々は,オープンドメインの進化するクエリに,GitHubから専門ツールを自律的に統合することで対処できる,新しいLLMベースのエージェントシステムであるOpenAgentを紹介する。
論文 参考訳(メタデータ) (2023-12-28T15:47:30Z) - OpenAGI: When LLM Meets Domain Experts [51.86179657467822]
ヒューマン・インテリジェンス(HI)は、複雑なタスクを解くための基本的なスキルの組み合わせに長けている。
この機能は人工知能(AI)にとって不可欠であり、包括的なAIエージェントに組み込まれるべきである。
マルチステップで現実的なタスクを解決するために設計されたオープンソースのプラットフォームであるOpenAGIを紹介します。
論文 参考訳(メタデータ) (2023-04-10T03:55:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。