Fugu-MT 論文翻訳(概要): Are LLMs Reliable Rankers? Rank Manipulation via Two-Stage Token Optimization

論文の概要: Are LLMs Reliable Rankers? Rank Manipulation via Two-Stage Token Optimization

arxiv url: http://arxiv.org/abs/2510.06732v1
Date: Wed, 08 Oct 2025 07:40:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-09 16:41:20.352344
Title: Are LLMs Reliable Rankers? Rank Manipulation via Two-Stage Token Optimization
Title（参考訳）: LLMは信頼性の高いランク付けか? 2段階のトークン最適化によるランク操作
Authors: Tiancheng Xing, Jerry Li, Yixuan Du, Xiyang Hu,
Abstract要約: 本稿では,2段階のトークン最適化手法であるRop Anything First(RAF)を提案する。 RAFはテキストの摂動を簡潔に行い、大きな言語モデルでターゲットアイテムを一貫して推進する。 RAFは、ランキングの有効性の最大化と言語的自然性の維持という2つの目的によって導かれる、トークン・バイ・トークンのランク付けプロンプトを生成する。
参考スコア（独自算出の注目度）: 7.7899746437628385
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) are increasingly used as rerankers in information retrieval, yet their ranking behavior can be steered by small, natural-sounding prompts. To expose this vulnerability, we present Rank Anything First (RAF), a two-stage token optimization method that crafts concise textual perturbations to consistently promote a target item in LLM-generated rankings while remaining hard to detect. Stage 1 uses Greedy Coordinate Gradient to shortlist candidate tokens at the current position by combining the gradient of the rank-target with a readability score; Stage 2 evaluates those candidates under exact ranking and readability losses using an entropy-based dynamic weighting scheme, and selects a token via temperature-controlled sampling. RAF generates ranking-promoting prompts token-by-token, guided by dual objectives: maximizing ranking effectiveness and preserving linguistic naturalness. Experiments across multiple LLMs show that RAF significantly boosts the rank of target items using naturalistic language, with greater robustness than existing methods in both promoting target items and maintaining naturalness. These findings underscore a critical security implication: LLM-based reranking is inherently susceptible to adversarial manipulation, raising new challenges for the trustworthiness and robustness of modern retrieval systems. Our code is available at: https://github.com/glad-lab/RAF.
Abstract（参考訳）: 大規模言語モデル (LLM) は情報検索においてリランカーとしてますます使われているが、それらのランク付けの振る舞いは、小さく自然に聞こえるプロンプトによって制御される。この脆弱性を明らかにするために、2段階のトークン最適化手法であるRight Anything First(RAF)を提案する。ステージ2では、エントロピーに基づく動的重み付け方式を用いて、正確なランク付けと可読性損失に基づく候補の評価を行い、温度制御されたサンプリングによりトークンを選択する。 RAFは、ランキングの有効性の最大化と言語的自然性の維持という2つの目的によって導かれる、トークン・バイ・トークンのランク付けプロンプトを生成する。複数のLSMを対象とした実験により、RAFは目標項目の促進と自然性維持の両面で既存の方法よりも堅牢性が高く、自然言語を用いた対象項目のランクを著しく向上させることが示された。 LLMに基づく再分類は、本質的には敵の操作に影響を受けやすく、現代の検索システムの信頼性と堅牢性に対する新たな課題を提起する。私たちのコードは、https://github.com/glad-lab/RAF.comで利用可能です。

関連論文リスト

StealthRank: LLM Ranking Manipulation via Stealthy Prompt Optimization [16.031545357388357]
本稿では,大規模言語モデル(LLM)によるランキングシステムを操作する,新たな逆攻撃手法を提案する。 StealthRankはエネルギーベースの最適化フレームワークをLangevin Dynamicsと組み合わせてStealthRank Promptsを生成する。以上の結果から、StealthRankは、最先端の対人的ランキングのベースラインを、有効性とステルスの両方で一貫して上回っていることが明らかとなった。
論文参考訳（メタデータ） (2025-04-08T08:36:18Z)
Rank-R1: Enhancing Reasoning in LLM-based Document Rerankers via Reinforcement Learning [76.50690734636477]
ランキングタスクを実行する前にユーザクエリと候補文書の両方を推論する新しいLCMベースのリランカである Rank-R1 を導入する。 TREC DL と BRIGHT データセットを用いた実験により,Ranc-R1 が特に複雑なクエリに対して非常に有効であることが判明した。
論文参考訳（メタデータ） (2025-03-08T03:14:26Z)
Sliding Windows Are Not the End: Exploring Full Ranking with Long-Context Large Language Models [40.21540137079309]
LLM(Long-context Language Models)は、単一の推論内で全ての節の完全なランク付けを可能にする。教師付き微調整環境において,LLMの完全ランク付けにより優れた性能が得られることを示す。本稿では,リストワイドなラベル構築手法を提案する。
論文参考訳（メタデータ） (2024-12-19T06:44:59Z)
Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文参考訳（メタデータ） (2024-11-07T10:31:31Z)
FIRST: Faster Improved Listwise Reranking with Single Token Decoding [56.727761901751194]
まず、第1生成識別子の出力ロジットを活用して、候補のランク付け順序を直接取得する新しいリストワイズLLMリグレードアプローチであるFIRSTを紹介する。実験結果から、BEIRベンチマークの利得により、FIRSTはロバストなランキング性能を維持しつつ、推論を50%高速化することが示された。以上の結果から,LLMリランカーはクロスエンコーダに比べて強い蒸留信号を提供できることが示唆された。
論文参考訳（メタデータ） (2024-06-21T21:27:50Z)
Leveraging Passage Embeddings for Efficient Listwise Reranking with Large Language Models [17.420756201557957]
本稿では, PE-Rankを提案する。本稿では,これらの特別なトークンに復号空間を動的に制約し,復号処理を高速化する推論手法を提案する。複数のベンチマークの結果、PE-Rankは、競合するランキング効率を維持しながら、プリフィルとデコードの両方の効率を大幅に改善することを示した。
論文参考訳（メタデータ） (2024-06-21T03:33:51Z)
Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文参考訳（メタデータ） (2024-06-20T18:35:47Z)
Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agents [53.78782375511531]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。 LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文参考訳（メタデータ） (2023-04-19T10:16:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。