論文の概要: The Ranking Blind Spot: Decision Hijacking in LLM-based Text Ranking
- arxiv url: http://arxiv.org/abs/2509.18575v1
- Date: Tue, 23 Sep 2025 02:56:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.668979
- Title: The Ranking Blind Spot: Decision Hijacking in LLM-based Text Ranking
- Title(参考訳): ランキング・ブラインド・スポット:LCMによるテキスト・ランキングにおける決定的ハイジャック
- Authors: Yaoyao Qian, Yifan Zeng, Yuchao Jiang, Chelsi Jain, Huazheng Wang,
- Abstract要約: 大規模言語モデル (LLM) は, 通過ランキングなどの情報検索タスクにおいて, 高い性能を示した。
本研究では,LLMにおける命令追従能力がマルチドキュメント比較タスクとどのように相互作用するかを検討する。
2つのアプローチにより、このランキングの盲点がLLM評価システムにどのように影響するかを分析する。
- 参考スコア(独自算出の注目度): 17.328293277532
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated strong performance in information retrieval tasks like passage ranking. Our research examines how instruction-following capabilities in LLMs interact with multi-document comparison tasks, identifying what we term the "Ranking Blind Spot", a characteristic of LLM decision processes during comparative evaluation. We analyze how this ranking blind spot affects LLM evaluation systems through two approaches: Decision Objective Hijacking, which alters the evaluation goal in pairwise ranking systems, and Decision Criteria Hijacking, which modifies relevance standards across ranking schemes. These approaches demonstrate how content providers could potentially influence LLM-based ranking systems to affect document positioning. These attacks aim to force the LLM ranker to prefer a specific passage and rank it at the top. Malicious content providers can exploit this weakness, which helps them gain additional exposure by attacking the ranker. In our experiment, We empirically show that the proposed attacks are effective in various LLMs and can be generalized to multiple ranking schemes. We apply these attack to realistic examples to show their effectiveness. We also found stronger LLMs are more vulnerable to these attacks. Our code is available at: https://github.com/blindspotorg/RankingBlindSpot
- Abstract(参考訳): 大規模言語モデル (LLM) は, 通過ランキングなどの情報検索タスクにおいて, 高い性能を示した。
本研究では,LLMにおける命令追従能力がマルチドキュメント比較タスクとどのように相互作用するかを考察し,LLM決定過程の特徴である「ランキング・ブラインド・スポット」と呼ばれるものを特定する。
本研究は,2つの手法を用いてLLM評価システムにどのように影響するかを解析する。2つの手法は,ペアランキングシステムにおける評価目標を変更する決定対象ハイジャックと,ランキング方式間の関連基準を変更する決定基準ハイジャックである。
これらのアプローチは、コンテンツプロバイダがLCMベースのランキングシステムにどのように影響し、文書の位置決めに影響を及ぼすかを示す。
これらの攻撃は、LLMローダに特定のパスを優先させ、トップにランク付けすることを目的としている。
悪意のあるコンテンツプロバイダは、この弱点を悪用することができる。
実験では,提案した攻撃は様々なLSMにおいて有効であり,複数のランキング方式に一般化可能であることを実証的に示す。
これらの攻撃を実例に適用し,その有効性を示す。
また、より強力なLSMはこれらの攻撃に対してより脆弱であることもわかりました。
私たちのコードは、https://github.com/blindspotorg/RankingBlindSpotで利用可能です。
関連論文リスト
- StealthRank: LLM Ranking Manipulation via Stealthy Prompt Optimization [16.031545357388357]
本稿では,大規模言語モデル(LLM)によるランキングシステムを操作する,新たな逆攻撃手法を提案する。
StealthRankはエネルギーベースの最適化フレームワークをLangevin Dynamicsと組み合わせてStealthRank Promptsを生成する。
以上の結果から、StealthRankは、最先端の対人的ランキングのベースラインを、有効性とステルスの両方で一貫して上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2025-04-08T08:36:18Z) - Rankers, Judges, and Assistants: Towards Understanding the Interplay of LLMs in Information Retrieval Evaluation [44.58099275559231]
大規模言語モデル(LLM)は、情報検索(IR)、ランキング、評価、AI支援コンテンツ作成にますます不可欠なものになっている。
本稿では,既存の研究を合成し,LLMに基づくローダとアシスタントがLLMベースの審査員にどのように影響するかを探求する新しい実験設計を提案する。
論文 参考訳(メタデータ) (2025-03-24T19:24:40Z) - Style Outweighs Substance: Failure Modes of LLM Judges in Alignment Benchmarking [56.275521022148794]
ポストトレーニング法は、人間のペアワイズ選好とのより良い対応により、優れたアライメントを主張する。
LLM-judgeの好みは、アライメントのためのより具体的なメトリクスの進捗に変換されますか、そうでなければ、なぜそうでないのでしょうか?
その結果,(1) LLM-judge の嗜好は,安全性,世界知識,指導の具体的な尺度と相関せず,(2) LLM-judge の暗黙バイアスが強く,事実性や安全性よりもスタイルを優先し,(3) POステージではなく,訓練後の微調整段階がアライメントに最も影響していることが判明した。
論文 参考訳(メタデータ) (2024-09-23T17:58:07Z) - Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games [56.70628673595041]
大規模言語モデル (LLM) は現実世界での利用が増えているが、その戦略的意思決定能力はほとんど探索されていない。
本研究は,Stag Hunt と Prisoner Dilemma のカノニカルゲーム理論2人プレイヤ非ゼロサムゲームにおける LLM の性能とメリットについて検討する。
GPT-3.5, GPT-4-Turbo, GPT-4o, Llama-3-8Bの構造化評価は, これらのゲームにおいて決定を行う場合, 以下の系統的バイアスの少なくとも1つの影響を受けていることを示す。
論文 参考訳(メタデータ) (2024-07-05T12:30:02Z) - PiCO: Peer Review in LLMs based on the Consistency Optimization [48.48819141999387]
ピアレビュー機構を用いて,大規模言語モデル(LLM)を自動的に測定する。
制約付き最適化問題として定式化し、各LLMの能力とスコアの一貫性を最大化することを目的としている。
我々はPEN, CIN, LISという3つの指標を提案し, ランク付けのギャップを評価する。
論文 参考訳(メタデータ) (2024-02-02T18:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。