論文の概要: The Ranking Blind Spot: Decision Hijacking in LLM-based Text Ranking
- arxiv url: http://arxiv.org/abs/2509.18575v1
- Date: Tue, 23 Sep 2025 02:56:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.668979
- Title: The Ranking Blind Spot: Decision Hijacking in LLM-based Text Ranking
- Title(参考訳): ランキング・ブラインド・スポット:LCMによるテキスト・ランキングにおける決定的ハイジャック
- Authors: Yaoyao Qian, Yifan Zeng, Yuchao Jiang, Chelsi Jain, Huazheng Wang,
- Abstract要約: 大規模言語モデル (LLM) は, 通過ランキングなどの情報検索タスクにおいて, 高い性能を示した。
本研究では,LLMにおける命令追従能力がマルチドキュメント比較タスクとどのように相互作用するかを検討する。
2つのアプローチにより、このランキングの盲点がLLM評価システムにどのように影響するかを分析する。
- 参考スコア(独自算出の注目度): 17.328293277532
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated strong performance in information retrieval tasks like passage ranking. Our research examines how instruction-following capabilities in LLMs interact with multi-document comparison tasks, identifying what we term the "Ranking Blind Spot", a characteristic of LLM decision processes during comparative evaluation. We analyze how this ranking blind spot affects LLM evaluation systems through two approaches: Decision Objective Hijacking, which alters the evaluation goal in pairwise ranking systems, and Decision Criteria Hijacking, which modifies relevance standards across ranking schemes. These approaches demonstrate how content providers could potentially influence LLM-based ranking systems to affect document positioning. These attacks aim to force the LLM ranker to prefer a specific passage and rank it at the top. Malicious content providers can exploit this weakness, which helps them gain additional exposure by attacking the ranker. In our experiment, We empirically show that the proposed attacks are effective in various LLMs and can be generalized to multiple ranking schemes. We apply these attack to realistic examples to show their effectiveness. We also found stronger LLMs are more vulnerable to these attacks. Our code is available at: https://github.com/blindspotorg/RankingBlindSpot
- Abstract(参考訳): 大規模言語モデル (LLM) は, 通過ランキングなどの情報検索タスクにおいて, 高い性能を示した。
本研究では,LLMにおける命令追従能力がマルチドキュメント比較タスクとどのように相互作用するかを考察し,LLM決定過程の特徴である「ランキング・ブラインド・スポット」と呼ばれるものを特定する。
本研究は,2つの手法を用いてLLM評価システムにどのように影響するかを解析する。2つの手法は,ペアランキングシステムにおける評価目標を変更する決定対象ハイジャックと,ランキング方式間の関連基準を変更する決定基準ハイジャックである。
これらのアプローチは、コンテンツプロバイダがLCMベースのランキングシステムにどのように影響し、文書の位置決めに影響を及ぼすかを示す。
これらの攻撃は、LLMローダに特定のパスを優先させ、トップにランク付けすることを目的としている。
悪意のあるコンテンツプロバイダは、この弱点を悪用することができる。
実験では,提案した攻撃は様々なLSMにおいて有効であり,複数のランキング方式に一般化可能であることを実証的に示す。
これらの攻撃を実例に適用し,その有効性を示す。
また、より強力なLSMはこれらの攻撃に対してより脆弱であることもわかりました。
私たちのコードは、https://github.com/blindspotorg/RankingBlindSpotで利用可能です。
関連論文リスト
- Supervised Fine-Tuning or Contrastive Learning? Towards Better Multimodal LLM Reranking [56.46309219272326]
大型言語モデル(LLM)では、教師付き微調整(SFT)による分類は、関連する(非関連)ペアに対して'yes' (resp. ''no')トークンを予測する。
この分散は中心的な疑問を提起する:どの目的がLLMベースのリランクに本質的に適しているか、どのメカニズムが違いの根底にあるのか?
我々はCLとSFTの総合的な比較と分析を行い、ユニバーサルマルチモーダル検索(UMR)を実験場とした。
論文 参考訳(メタデータ) (2025-10-16T16:02:27Z) - StealthRank: LLM Ranking Manipulation via Stealthy Prompt Optimization [16.031545357388357]
本稿では,大規模言語モデル(LLM)によるランキングシステムを操作する,新たな逆攻撃手法を提案する。
StealthRankはエネルギーベースの最適化フレームワークをLangevin Dynamicsと組み合わせてStealthRank Promptsを生成する。
以上の結果から、StealthRankは、最先端の対人的ランキングのベースラインを、有効性とステルスの両方で一貫して上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2025-04-08T08:36:18Z) - Rankers, Judges, and Assistants: Towards Understanding the Interplay of LLMs in Information Retrieval Evaluation [44.58099275559231]
大規模言語モデル(LLM)は、情報検索(IR)、ランキング、評価、AI支援コンテンツ作成にますます不可欠なものになっている。
本稿では,既存の研究を合成し,LLMに基づくローダとアシスタントがLLMベースの審査員にどのように影響するかを探求する新しい実験設計を提案する。
論文 参考訳(メタデータ) (2025-03-24T19:24:40Z) - Style Outweighs Substance: Failure Modes of LLM Judges in Alignment Benchmarking [56.275521022148794]
ポストトレーニング法は、人間のペアワイズ選好とのより良い対応により、優れたアライメントを主張する。
LLM-judgeの好みは、アライメントのためのより具体的なメトリクスの進捗に変換されますか、そうでなければ、なぜそうでないのでしょうか?
その結果,(1) LLM-judge の嗜好は,安全性,世界知識,指導の具体的な尺度と相関せず,(2) LLM-judge の暗黙バイアスが強く,事実性や安全性よりもスタイルを優先し,(3) POステージではなく,訓練後の微調整段階がアライメントに最も影響していることが判明した。
論文 参考訳(メタデータ) (2024-09-23T17:58:07Z) - Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games [56.70628673595041]
大規模言語モデル (LLM) は現実世界での利用が増えているが、その戦略的意思決定能力はほとんど探索されていない。
本研究は,Stag Hunt と Prisoner Dilemma のカノニカルゲーム理論2人プレイヤ非ゼロサムゲームにおける LLM の性能とメリットについて検討する。
GPT-3.5, GPT-4-Turbo, GPT-4o, Llama-3-8Bの構造化評価は, これらのゲームにおいて決定を行う場合, 以下の系統的バイアスの少なくとも1つの影響を受けていることを示す。
論文 参考訳(メタデータ) (2024-07-05T12:30:02Z) - Finding Blind Spots in Evaluator LLMs with Interpretable Checklists [23.381287828102995]
テキスト生成タスクにおける評価器として,Large Language Models (LLMs) の有効性を検討する。
我々は,4つの重要な能力を評価する上で,評価用LLMの習熟度を評価するための新しいフレームワークであるFBIを提案する。
論文 参考訳(メタデータ) (2024-06-19T10:59:48Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [68.29746557968107]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - Do Large Language Models Rank Fairly? An Empirical Study on the Fairness of LLMs as Rankers [27.66626125248612]
本稿では,TREC Fair Ranking データセットを用いて,Large Language Models (LLMs) の評価実験を行った。
本稿では, 歴史的に検索結果に乏しい, 性別や地理的位置などの二項保護属性の表現に焦点を当てる。
我々の分析は、これらのLCMがこれらの属性に関連するクエリやドキュメントをどのように扱うのかを考察し、ランキングアルゴリズムのバイアスを明らかにすることを目的としている。
論文 参考訳(メタデータ) (2024-04-04T04:23:19Z) - LiPO: Listwise Preference Optimization through Learning-to-Rank [62.02782819559389]
ポリシーは、プロンプトによってランク付けされた妥当な応答のリストからより効果的に学習することができる。
LiPO-$lambda$ は DPO 変種と SLiC をいくつかの選好アライメントタスクにおいて明確なマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-02-02T20:08:10Z) - PiCO: Peer Review in LLMs based on the Consistency Optimization [48.48819141999387]
ピアレビュー機構を用いて,大規模言語モデル(LLM)を自動的に測定する。
制約付き最適化問題として定式化し、各LLMの能力とスコアの一貫性を最大化することを目的としている。
我々はPEN, CIN, LISという3つの指標を提案し, ランク付けのギャップを評価する。
論文 参考訳(メタデータ) (2024-02-02T18:49:26Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。