論文の概要: RLRF: Competitive Search Agent Design via Reinforcement Learning from Ranker Feedback
- arxiv url: http://arxiv.org/abs/2510.04096v1
- Date: Sun, 05 Oct 2025 08:46:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.454529
- Title: RLRF: Competitive Search Agent Design via Reinforcement Learning from Ranker Feedback
- Title(参考訳): RLRF:ランダーフィードバックによる強化学習による競合型検索エージェントの設計
- Authors: Tommy Mordo, Sagie Dekel, Omer Madmon, Moshe Tennenholtz, Oren Kurland,
- Abstract要約: RLRF(Reinforcement Learning from Ranker Feedback)は、ランキングコンペから派生した選好データセットを用いてLLMを訓練するフレームワークである。
提案するエージェントは, LLMに基づく競合文書修正において, 従来提案していた手法よりも一貫して, 実質的に優れていたことを示す。
- 参考スコア(独自算出の注目度): 12.299958601435572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Competitive search is a setting where document publishers modify them to improve their ranking in response to a query. Recently, publishers have increasingly leveraged LLMs to generate and modify competitive content. We introduce Reinforcement Learning from Ranker Feedback (RLRF), a framework that trains LLMs using preference datasets derived from ranking competitions. The goal of a publisher (LLM-based) agent is to optimize content for improved ranking while accounting for the strategies of competing agents. We generate the datasets using approaches that do not rely on human-authored data. We show that our proposed agents consistently and substantially outperform previously suggested approaches for LLM-based competitive document modification. We further show that our agents are effective with ranking functions they were not trained for (i.e., out of distribution) and they adapt to strategic opponents. These findings provide support to the significant potential of using reinforcement learning in competitive search.
- Abstract(参考訳): 競合検索は、ドキュメントパブリッシャがクエリに応じてランキングを改善するように変更する設定である。
近年、出版社はLLMを活用して競争力のあるコンテンツを生成し、修正している。
RLRF(Reinforcement Learning from Ranker Feedback)は、ランキングコンペから派生した選好データセットを用いてLLMを訓練するフレームワークである。
出版社エージェント(LLMベース)の目標は、競合するエージェントの戦略を考慮に入れながら、ランキングを改善するためにコンテンツを最適化することである。
我々は、人間が認可したデータに依存しないアプローチを用いてデータセットを生成する。
提案するエージェントは, LLMに基づく競合文書修正において, 従来提案していた手法よりも一貫して, 実質的に優れていたことを示す。
さらに、我々のエージェントは、訓練されていないランク付け機能(すなわち、分布外)で有効であり、戦略的な相手に適応していることが示される。
これらの知見は, 競合探索における強化学習の意義を裏付けるものである。
関連論文リスト
- Rewrite-to-Rank: Optimizing Ad Visibility via Retrieval-Aware Text Rewriting [2.743338598862049]
LLMによる広告の書き直しが検索システムにおけるランキングをいかに向上させるかを検討する。
セマンティックな関連性とコンテンツ忠実度をカスタマイズした,教師付き微調整フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-03T05:36:08Z) - Harnessing the Power of Reinforcement Learning for Language-Model-Based Information Retriever via Query-Document Co-Augmentation [35.70731674603417]
LLM(Large Language Models)は、ユーザクエリとコーパスドキュメントの拡張に使用することができる。
ユーザクエリとコーパスドキュメントの両方を拡張できるLLMベースのレトリバーを提案する。
提案手法は,疎密な設定と密な設定の両方において,LLMに基づく検索性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-06-23T14:14:43Z) - DeepRec: Towards a Deep Dive Into the Item Space with Large Language Model Based Recommendation [83.21140655248624]
大型言語モデル (LLM) はレコメンダシステム (RS) に導入された。
本稿では, LLM と TRM の自律的マルチターンインタラクションを実現する新しい RS である DeepRec を提案する。
公開データセットの実験では、DeepRecは従来のものとLLMベースのベースラインの両方で大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2025-05-22T15:49:38Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - Rank-R1: Enhancing Reasoning in LLM-based Document Rerankers via Reinforcement Learning [76.50690734636477]
ランキングタスクを実行する前にユーザクエリと候補文書の両方を推論する新しいLCMベースのリランカである Rank-R1 を導入する。
TREC DL と BRIGHT データセットを用いた実験により,Ranc-R1 が特に複雑なクエリに対して非常に有効であることが判明した。
論文 参考訳(メタデータ) (2025-03-08T03:14:26Z) - CSP: A Simulator For Multi-Agent Ranking Competitions [10.757199109227175]
ランキングコンペティションでは、文書作者は過去のランキングに反応してコンテンツを変更することで、最高のランキングを競う。
生成AIの台頭、特にLarge Language Models(LLMs)は、文書作成者としてLLMを使用するという新しいパラダイムを導入している。
このアプローチは、人間による競争におけるスケーラビリティの制約に対処し、ウェブ上でのLLM生成コンテンツの役割の増大を反映している。
論文 参考訳(メタデータ) (2025-02-16T16:56:15Z) - White Hat Search Engine Optimization using Large Language Models [10.757199109227175]
本稿では,genAIに基づく新しいホワイトハット検索エンジン最適化手法を提案し,その経験的メリットを実証する。
この記事はSymbolic Interaction誌に初めて掲載された。
論文 参考訳(メタデータ) (2025-02-11T07:25:57Z) - LiPO: Listwise Preference Optimization through Learning-to-Rank [62.02782819559389]
ポリシーは、プロンプトによってランク付けされた妥当な応答のリストからより効果的に学習することができる。
LiPO-$lambda$ は DPO 変種と SLiC をいくつかの選好アライメントタスクにおいて明確なマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-02-02T20:08:10Z) - Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。
本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文 参考訳(メタデータ) (2023-06-30T11:32:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。