論文の概要: GRAPE: Let GPRO Supervise Query Rewriting by Ranking for Retrieval
- arxiv url: http://arxiv.org/abs/2509.23370v1
- Date: Sat, 27 Sep 2025 15:36:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.188591
- Title: GRAPE: Let GPRO Supervise Query Rewriting by Ranking for Retrieval
- Title(参考訳): GRAPE:GPROが検索のためのランク付けによるクエリ書き換えを監視
- Authors: Zhaohua Zhang, Jianhuan Zhuo, Muxi Chen, Chenchen Zhao, Wenyu Jiang, Tianwen Jiang, Mingyang Chen, Yu Tang, Qiuyong Xiao, Jihong Zhang, Zhixun Su,
- Abstract要約: CLIPモデルは,テキストと画像データを統合埋め込み空間に整列させることにより,大規模検索システムの基盤となっている。
コストのかかるリトレーニングを避けるため、既存のメソッドは主に大規模言語モデル(LLM)によるクエリ書き換え戦略を採用している。
GRAPEは,検索誘導型クエリ書き換えにランキング信号を組み込むプラグイン・アンド・プレイ拡張手法である。
- 参考スコア(独自算出の注目度): 19.73916326078242
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The CLIP model has become a cornerstone of large-scale retrieval systems by aligning text and image data in a unified embedding space. Despite its simplicity and efficiency, CLIP struggles when applied to tasks whose input distributions diverge from its training corpus, such as queries with multilingual, long-form, or multimodal differences. To avoid costly retraining, existing methods mainly adopt query-rewriting strategies with large language models (LLMs), aiming to mitigate distribution gaps at the query level. However, due to the lack of supervision signals, LLMs fail to generate the optimal one that fits the training distribution. We address this challenge with GRAPE (Grouped Ranking-Aware Policy Optimization Enhancement), a plug-and-play enhancement approach that incorporates ranking signals into retrieval-guided query rewriting with LLMs. Intuitively, GRAPE proposes to leverage GRPO to bridge distributional differences -- including length, multilingual, and modality shifts -- by transforming queries into forms better aligned with the retriever's training distribution. However, our preliminary experiment finds that naively finetuning LLM with similarity scores can lead to score inflation, where nearly all candidates are assigned unexpectedly high scores regardless of their true relevance. To address score inflation, we propose a corpus-relative ranking-based reward, which explicitly aligns optimization with ranking metrics while suppressing spurious score inflation. Extensive experiments demonstrate that GRAPE consistently improves retrieval performance under distributional shifts -- including multilingual differences (Flickr30k-CN, CVLUE, XM3600), length differences (Wikipedia), and multimodal differences (CIRR) -- achieving an average improvement of 4.9\% in Recall\@10. The code is available at https://github.com/Chinese0123456/GRAPE.git
- Abstract(参考訳): CLIPモデルは,テキストと画像データを統合埋め込み空間に整列させることにより,大規模検索システムの基盤となっている。
単純さと効率性にもかかわらず、CLIPは、入力分布がトレーニングコーパスから分岐するタスク、例えばマルチリンガル、ロングフォーム、マルチモーダルな違いのあるクエリに適用する場合に苦労する。
コストのかかる再トレーニングを避けるため、既存の手法は主に大規模言語モデル(LLM)によるクエリ書き換え戦略を採用しており、クエリレベルでの分散ギャップを軽減することを目的としている。
しかし、監視信号が不足しているため、LLMはトレーニング分布に適合する最適な信号を生成することができない。
GRAPE(Grouped Ranking-Aware Policy Optimization Enhancement)は、LLMによる検索誘導クエリ書き換えにランキング信号を組み込むプラグイン・アンド・プレイ拡張手法である。
直感的には、GRAPEはGRPOを利用して、長さ、多言語、モダリティのシフトを含む分散の違いをブリッジし、クエリをレトリバーのトレーニングディストリビューションと整合したフォームに変換することを提案する。
しかし, 予備実験の結果, LLM の微調整により, ほぼすべての候補者が, 真の関連性に関係なく, 予想外の高いスコアを与えられるという, スコアインフレーションが生じることがわかった。
スコアインフレーションに対処するため,コーパス相対的なランキングベース報酬を提案する。
GRAPEは、多言語差(Flickr30k-CN、CVLUE、XM3600)、長さ差(Wikipedia)、マルチモーダル差(CIRR)など、分散シフト下での検索性能を一貫して改善し、Recall\@10では平均4.9\%向上した。
コードはhttps://github.com/ Chinese0123456/GRAPE.gitで公開されている。
関連論文リスト
- SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力
本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。
PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文 参考訳(メタデータ) (2025-01-07T17:00:49Z) - Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。
この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。
そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T10:31:31Z) - RankPrompt: Step-by-Step Comparisons Make Language Models Better Reasoners [38.30539869264287]
大きな言語モデル(LLM)は、様々な推論タスクで素晴らしいパフォーマンスを実現しています。
しかし、ChatGPTのような最先端のLCMでさえ、推論プロセス中に論理的な誤りを犯しやすい。
新たなプロンプト手法である RankPrompt を導入し,LLM が追加リソースを必要とせずに応答を自己ランクできる手法を提案する。
論文 参考訳(メタデータ) (2024-03-19T02:34:18Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Rescue: Ranking LLM Responses with Partial Ordering to Improve Response Generation [28.89786334298637]
ランキングメトリクスを用いたLCMの最適化手法を開発した。
従来の完全順序付けではなく、部分順序付けを提唱する。
ベンチマークデータセットを用いて,システムの改善された応答生成能力を検証した。
論文 参考訳(メタデータ) (2023-11-15T17:27:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。