Fugu-MT 論文翻訳(概要): Token-level Proximal Policy Optimization for Query Generation

論文の概要: Token-level Proximal Policy Optimization for Query Generation

arxiv url: http://arxiv.org/abs/2411.00722v1
Date: Fri, 01 Nov 2024 16:36:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:43.364421
Title: Token-level Proximal Policy Optimization for Query Generation
Title（参考訳）: 問合せ生成のためのトークンレベルの近似ポリシー最適化
Authors: Yichen Ouyang, Lu Wang, Fangkai Yang, Pu Zhao, Chenghua Huang, Jianfeng Liu, Bochen Pang, Yaming Yang, Yuefeng Zhan, Hao Sun, Qingwei Lin, Saravan Rajmohan, Weiwei Deng, Dongmei Zhang, Feng Sun, Qi Zhang,
Abstract要約: State-of-the-art query generation methodは、文脈理解とテキスト生成における強力な能力にLarge Language Models(LLM)を利用する。そこで本稿では,LLMのクエリ生成性能向上を目的としたノバルアプローチである,TOken-level Proximal Policy Optimization (TPPO)を提案する。 TPPOはReinforcement Learning from AI Feedback (RLAIF)パラダイムに基づいており、トークンレベルの報酬モデルとトークンレベルのポリシー最適化モジュールで構成されている。
参考スコア（独自算出の注目度）: 45.81132350185301
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Query generation is a critical task for web search engines (e.g. Google, Bing) and recommendation systems. Recently, state-of-the-art query generation methods leverage Large Language Models (LLMs) for their strong capabilities in context understanding and text generation. However, they still face challenges in generating high-quality queries in terms of inferring user intent based on their web search interaction history. In this paper, we propose Token-level Proximal Policy Optimization (TPPO), a noval approach designed to empower LLMs perform better in query generation through fine-tuning. TPPO is based on the Reinforcement Learning from AI Feedback (RLAIF) paradigm, consisting of a token-level reward model and a token-level proximal policy optimization module to address the sparse reward challenge in traditional RLAIF frameworks. To evaluate the effectiveness and robustness of TPPO, we conducted experiments on both open-source dataset and an industrial dataset that was collected from a globally-used search engine. The experimental results demonstrate that TPPO significantly improves the performance of query generation for LLMs and outperforms its existing competitors.
Abstract（参考訳）: クエリ生成は、Web検索エンジン(例えば、Google、Bing)とレコメンデーションシステムにとって重要なタスクである。近年,文脈理解やテキスト生成において,Large Language Models (LLMs) を利用したクエリ生成手法が注目されている。しかし、Web検索のインタラクション履歴に基づいてユーザ意図を推測するという点では、高品質なクエリを生成する上で、依然として課題に直面している。本稿では,細調整によるクエリ生成において,LLMの性能向上を図ったノバルアプローチである,トークンレベルの近似ポリシー最適化(TPPO)を提案する。 TPPOはReinforcement Learning from AI Feedback (RLAIF)パラダイムに基づいており、トークンレベルの報酬モデルとトークンレベルのポリシー最適化モジュールで構成されており、従来のRLAIFフレームワークのスパース報酬問題に対処している。 TPPOの有効性とロバスト性を評価するため,グローバルに利用されている検索エンジンから収集したオープンソースデータセットと産業データセットの両方について実験を行った。実験の結果,TPPO は LLM のクエリ生成性能を大幅に向上し,既存の競合よりも優れていた。

関連論文リスト

Rethinking On-policy Optimization for Query Augmentation [49.87723664806526]
本稿では,様々なベンチマークにおいて,プロンプトベースとRLベースのクエリ拡張の最初の体系的比較を示す。そこで我々は,検索性能を最大化する擬似文書の生成を学習する,新しいハイブリッド手法 On-policy Pseudo-document Query Expansion (OPQE) を提案する。
論文参考訳（メタデータ） (2025-10-20T04:16:28Z)
Towards Context-aware Reasoning-enhanced Generative Searching in E-commerce [61.03081096959132]
そこで本稿では,複雑な状況下でのテキストバウンダリングを改善するための,文脈対応推論強化型生成検索フレームワークを提案する。提案手法は,強力なベースラインに比べて優れた性能を示し,検索に基づく推薦の有効性を検証した。
論文参考訳（メタデータ） (2025-10-19T16:46:11Z)
OPT-BENCH: Evaluating LLM Agent on Large-Scale Search Spaces Optimization Problems [19.586884180343038]
OPT-BENCHは、大規模検索空間最適化問題において、LLM(Large Language Models)を評価するために設計されたベンチマークである。 OPT-Agentは、歴史的フィードバックを通じてソリューションの生成、検証、反復的に改善することで、複雑な問題に取り組む際の人間の推論をエミュレートする。
論文参考訳（メタデータ） (2025-06-12T14:46:41Z)
Towards Efficient Multi-LLM Inference: Characterization and Analysis of LLM Routing and Hierarchical Techniques [14.892995952768352]
言語モデル(LM)は、テキスト生成、要約、質問応答といったタスクに優れています。彼らの推論は計算コストが高く、ハードウェア、電力、帯域幅に制限のある設定でエネルギーを集中的に消費する。近年のアプローチでは、クエリの複雑さに基づいて、動的に計算資源を割り当てる複数のLLMインテリジェントモデル選択戦略が導入されている。
論文参考訳（メタデータ） (2025-06-06T23:13:08Z)
Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。エージェント検索フレームワークであるEXSEARCHを提案する。 4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2025-05-26T15:27:55Z)
Aligning Web Query Generation with Ranking Objectives via Direct Preference Optimization [21.140086066964667]
本稿では,クエリ生成プロセスにランキング信号を統合するフレームワークを提案する。実験の結果,DPO後の問合せと文書の相互関係は高く評価された。
論文参考訳（メタデータ） (2025-05-25T20:34:12Z)
ARPO:End-to-End Policy Optimization for GUI Agents with Experience Replay [88.74638385288773]
Agentic Replay Policy Optimizationは、複雑で長期のコンピュータタスクのパフォーマンスを改善する。本稿では,ベースラインエージェントの性能に基づいてタスクをフィルタリングするタスク選択戦略を提案する。 OSWorldベンチマークの実験では、ARPOが競争結果を達成することを示した。
論文参考訳（メタデータ） (2025-05-22T06:24:32Z)
LREF: A Novel LLM-based Relevance Framework for E-commerce [14.217396055372053]
本稿では,eコマース検索の妥当性を高めることを目的とした,LREF(LLM-based Relevance Framework)と呼ばれる新しいフレームワークを提案する。大規模な実世界のデータセットのオフライン実験やオンラインA/Bテストを通じて,フレームワークの性能を評価する。このモデルは有名なeコマースアプリケーションにデプロイされ、かなりの商業的利益をもたらした。
論文参考訳（メタデータ） (2025-03-12T10:10:30Z)
A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文参考訳（メタデータ） (2025-03-12T08:45:15Z)
In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-04T03:39:28Z)
LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文参考訳（メタデータ） (2024-10-03T18:12:29Z)
VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文参考訳（メタデータ） (2024-10-02T15:49:30Z)
GenCRF: Generative Clustering and Reformulation Framework for Enhanced Intent-Driven Information Retrieval [20.807374287510623]
我々は,多種多様な意図を適応的に捉えるための生成クラスタリング・改革フレームワークGenCRFを提案する。我々はGenCRFが,nDCG@10で従来のクエリ修正SOTAを最大12%上回り,最先端のパフォーマンスを実現していることを示す。
論文参考訳（メタデータ） (2024-09-17T05:59:32Z)
Towards Boosting LLMs-driven Relevance Modeling with Progressive Retrieved Behavior-augmented Prompting [23.61061000692023]
本研究では,検索ログに記録されたユーザインタラクションを活用して,ユーザの暗黙の検索意図に対する洞察を得ることを提案する。 ProRBPは,探索シナリオ指向の知識を大規模言語モデルと統合するための,プログレッシブ検索行動拡張型プロンプトフレームワークである。
論文参考訳（メタデータ） (2024-08-18T11:07:38Z)
ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。 ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文参考訳（メタデータ） (2024-06-25T12:47:04Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
DPO Meets PPO: Reinforced Token Optimization for RLHF [36.97894955691627]
マルコフ決定過程(MDP)としてRLHF問題をモデル化するフレームワークを導入する。このフレームワークでは、優先データからトークンワイド報酬関数を学習するReinforced Token Optimization(textttRTO)と呼ばれるアルゴリズムを導入する。実践的な実装として、texttRTOは、DPO(Direct Preference Optimization)とプロキシポリシー最適化(Proximal Policy Optimization)を革新的に統合している。
論文参考訳（メタデータ） (2024-04-29T17:58:30Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)
GQE-PRF: Generative Query Expansion with Pseudo-Relevance Feedback [8.142861977776256]
PRFに基づくクエリ拡張にテキスト生成モデルを効果的に統合する新しい手法を提案する。提案手法では,初期クエリと擬似関連フィードバックの両方を条件としたニューラルテキスト生成モデルを用いて,拡張クエリ項を生成する。 2つのベンチマークデータセットを用いて,情報検索タスクに対するアプローチの有効性を評価する。
論文参考訳（メタデータ） (2021-08-13T01:09:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。