論文の概要: Enhancing LLMs' Reasoning-Intensive Multimedia Search Capabilities through Fine-Tuning and Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.18831v1
- Date: Sat, 24 May 2025 19:00:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.687057
- Title: Enhancing LLMs' Reasoning-Intensive Multimedia Search Capabilities through Fine-Tuning and Reinforcement Learning
- Title(参考訳): 微調整・強化学習によるLLMの推論集約型マルチメディア検索機能強化
- Authors: Jinzheng Li, Sibo Ju, Yanzhou Su, Hongguang Li, Yiqing Shen,
- Abstract要約: 本稿では,大規模言語モデル(LLM)駆動検索エージェントのトレーニング手法であるSearchExpertを紹介する。
我々は、トークン消費を減らすために、効率的な自然言語表現で探索計画を再構築する。
推論集約的な探索能力を向上させるために,探索フィードバックからの強化学習を提案する。
- 参考スコア(独自算出の注目度): 6.327006563699527
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing large language models (LLMs) driven search agents typically rely on prompt engineering to decouple the user queries into search plans, limiting their effectiveness in complex scenarios requiring reasoning. Furthermore, they suffer from excessive token consumption due to Python-based search plan representations and inadequate integration of multimedia elements for both input processing and response generation. To address these challenges, we introduce SearchExpert, a training method for LLMs to improve their multimedia search capabilities in response to complex search queries. Firstly, we reformulate the search plan in an efficient natural language representation to reduce token consumption. Then, we propose the supervised fine-tuning for searching (SFTS) to fine-tune LLM to adapt to these representations, together with an automated dataset construction pipeline. Secondly, to improve reasoning-intensive search capabilities, we propose the reinforcement learning from search feedback (RLSF) that takes the search results planned by LLM as the reward signals. Thirdly, we propose a multimedia understanding and generation agent that enables the fine-tuned LLM to process visual input and produce visual output during inference. Finally, we establish an automated benchmark construction pipeline and a human evaluation framework. Our resulting benchmark, SearchExpertBench-25, comprises 200 multiple-choice questions spanning financial and international news scenarios that require reasoning in searching. Experiments demonstrate that SearchExpert outperforms the commercial LLM search method (Perplexity Pro) by 36.60% on the existing FinSearchBench-24 benchmark and 54.54% on our proposed SearchExpertBench-25. Human evaluations further confirm the superior readability.
- Abstract(参考訳): 既存の言語モデル(LLM)を駆動する検索エージェントは、通常、ユーザクエリを検索計画に分離するためのプロンプトエンジニアリングに依存しており、推論を必要とする複雑なシナリオでの有効性を制限している。
さらに、Pythonベースの検索計画表現と、入力処理と応答生成の両方のためのマルチメディア要素の不十分な統合により、トークンの過剰消費に悩まされる。
これらの課題に対処するために,複雑な検索クエリに応答してマルチメディア検索機能を改善するLLMのトレーニング手法であるSearchExpertを紹介する。
まず、トークン消費を減らすために、効率的な自然言語表現で探索計画を再構築する。
そこで本研究では,これらの表現に適応するために,自動データセット構築パイプラインとともに細調整LDMのための教師付き細調整(SFTS)を提案する。
次に,LLM が提案する検索結果を報奨信号として活用する検索フィードバック (RLSF) からの強化学習を提案する。
第3に,微調整LDMによる視覚入力処理と推論時の視覚出力生成が可能なマルチメディア理解・生成エージェントを提案する。
最後に,自動ベンチマーク構築パイプラインと人的評価フレームワークを構築した。
結果のベンチマークであるSearchExpertBench-25は、検索において推論を必要とする財務・国際ニュースのシナリオにまたがる200の質問からなる。
実験の結果, SearchExpertは既存のFinSearchBench-24ベンチマークで36.60%, SearchExpertBench-25で54.54%,商用LLM検索法(Perplexity Pro)では36.60%向上した。
人間の評価は、より優れた可読性をさらに確認する。
関連論文リスト
- Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。
エージェント検索フレームワークであるEXSEARCHを提案する。
4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-26T15:27:55Z) - SEM: Reinforcement Learning for Search-Efficient Large Language Models [26.075903427834838]
大きな言語モデル(LLM)は、推論だけでなく、外部ツールの呼び出しでもその能力を実証している。
既存の強化学習アプローチは、しばしば冗長な探索行動を引き起こす。
本研究では,学習後強化学習フレームワークであるSEMを提案する。
論文 参考訳(メタデータ) (2025-05-12T09:45:40Z) - ZeroSearch: Incentivize the Search Capability of LLMs without Searching [69.55482019211597]
我々はZeroSearchを紹介した。ZeroSearchは、学習中にシミュレーションされた検索を備えた実検索エンジンを使用するための、大規模言語モデルの能力を動機付けるフレームワークである。
提案手法は,LLMを有用な文書とノイズの両方を生成可能な検索モジュールに変換するための,軽量な教師付き微調整から始まる。
論文 参考訳(メタデータ) (2025-05-07T17:30:22Z) - Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning [50.419872452397684]
Search-R1は推論フレームワークのための強化学習の拡張である。
リアルタイム検索とステップバイステップ推論の間に検索クエリを生成する。
性能は41%(Qwen2.5-7B)、20%(Qwen2.5-3B)で改善されている。
論文 参考訳(メタデータ) (2025-03-12T16:26:39Z) - MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。
まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。
我々のモデルMM-Embedはマルチモーダル検索ベンチマークM-BEIR上で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-04T20:06:34Z) - Towards Boosting LLMs-driven Relevance Modeling with Progressive Retrieved Behavior-augmented Prompting [23.61061000692023]
本研究では,検索ログに記録されたユーザインタラクションを活用して,ユーザの暗黙の検索意図に対する洞察を得ることを提案する。
ProRBPは,探索シナリオ指向の知識を大規模言語モデルと統合するための,プログレッシブ検索行動拡張型プロンプトフレームワークである。
論文 参考訳(メタデータ) (2024-08-18T11:07:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。