論文の概要: RankSteer: Activation Steering for Pointwise LLM Ranking
- arxiv url: http://arxiv.org/abs/2602.03422v1
- Date: Tue, 03 Feb 2026 11:49:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.427791
- Title: RankSteer: Activation Steering for Pointwise LLM Ranking
- Title(参考訳): RankSteer: ポイントワイドLLMランキングのアクティベーションステアリング
- Authors: Yumeng Wang, Catherine Chen, Suzan Verberne,
- Abstract要約: 大規模言語モデル(LLM)は、最近ゼロショットローダとして高い性能を示したが、それらの効果は迅速な定式化に非常に敏感である。
ゼロショットポイントワイドLSMランキングのためのポストホックアクティベーションステアリングフレームワークである RankSteer を提案する。
TREC DL 20と複数のBEIRベンチマークの実験により、RangeSteerは少数のアンカークエリのみを使用して、ランキング品質を一貫して改善することが示された。
- 参考スコア(独自算出の注目度): 13.718395381871751
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have recently shown strong performance as zero-shot rankers, yet their effectiveness is highly sensitive to prompt formulation, particularly role-play instructions. Prior analyses suggest that role-related signals are encoded along activation channels that are largely separate from query-document representations, raising the possibility of steering ranking behavior directly at the activation level rather than through brittle prompt engineering. In this work, we propose RankSteer, a post-hoc activation steering framework for zero-shot pointwise LLM ranking. We characterize ranking behavior through three disentangled and steerable directions in representation space: a \textbf{decision direction} that maps hidden states to relevance scores, an \textbf{evidence direction} that captures relevance signals not directly exploited by the decision head, and a \textbf{role direction} that modulates model behavior without injecting relevance information. Using projection-based interventions at inference time, RankSteer jointly controls these directions to calibrate ranking behavior without modifying model weights or introducing explicit cross-document comparisons. Experiments on TREC DL 20 and multiple BEIR benchmarks show that RankSteer consistently improves ranking quality using only a small number of anchor queries, demonstrating that substantial ranking capacity remains under-utilized in pointwise LLM rankers. We further provide a geometric analysis revealing that steering improves ranking by stabilizing ranking geometry and reducing dispersion, offering new insight into how LLMs internally represent and calibrate relevance judgments.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最近ゼロショットローダとして高い性能を示したが、それらの効果は、迅速な定式化、特にロールプレイ命令に非常に敏感である。
従来の分析では、ロール関連信号は、クエリ文書表現とは大きく異なるアクティベーションチャネルに沿って符号化され、不安定なプロンプトエンジニアリングではなく、アクティベーションレベルでのランク付け動作を直接操る可能性が示唆された。
本研究では,ゼロショットポイントワイドLSMランキングのためのポストホックアクティベーションステアリングフレームワークである RankSteer を提案する。
本稿では,3つの非交叉およびステアブルな表現空間におけるランク付け行動の特徴として,隠れた状態を関連スコアにマッピングする「textbf{decision direction」,決定ヘッドが直接利用しない関連信号をキャプチャする「textbf{evidence direction」,関連情報を注入することなくモデル動作を変調する「textbf{role direction」を特徴付ける。
推論時にプロジェクションベースの介入を使用して、RangeSteerはこれらの方向を共同で制御し、モデルウェイトを変更したり、明示的なクロスドキュメント比較を導入することなくランク付け動作を校正する。
TREC DL 20 と複数のBEIR ベンチマークの実験により、RancedSteer は少数のアンカークエリのみを使用して、常にランク品質を向上し、ポイントワイド LLM ランキングでは、かなりのランキング能力が未利用であることが示されている。
さらに, ステアリングは, ランク幾何学の安定化と分散の低減によってランク付けを改善することを示し, LLMが内部的に適合性判断をどう表現し, 校正するかを新たな知見を提供する。
関連論文リスト
- GeoSteer: Faithful Chain-of-Thought Steering via Latent Manifold Gradients [1.8033500402815792]
中間推論の品質を向上させる多様体ベースのフレームワークであるGeoSteerを提案する。
本手法は,(1)ステップレベルのスコアを持つCoTデータセットの構築,(2)変分オートエンコーダ(VAE)モデルと品質推定モデルを用いて,高品質なCoT軌道の低次元多様体を学習し,(3)潜在空間の高品質領域に向けて目標LLMの隠れ状態を操る。
論文 参考訳(メタデータ) (2026-01-15T09:44:07Z) - Structured Prompting Enables More Robust Evaluation of Language Models [38.53918044830268]
DSPy+HELMフレームワークを提案する。
構造化されたプロンプトがなければ、HELMはLM性能(平均4%)を過小評価し、性能評価はベンチマークによって異なることがわかった。
これは、構造化されたプロンプトを確立された評価フレームワークに体系的に統合する最初のベンチマーク研究である。
論文 参考訳(メタデータ) (2025-11-25T20:37:59Z) - Practical RAG Evaluation: A Rarity-Aware Set-Based Metric and Cost-Latency-Quality Trade-offs [0.0]
本稿では,生産型RAGにおける推算ゲームについて述べる。
黄金のセットを構築し、監査するための標準化された再現可能な方法はありません。
Rath-gs (MIT) はプラケット=ルーシがリストワイドに改良したリーン・ゴールデンセットのパイプラインである。
論文 参考訳(メタデータ) (2025-11-12T18:49:21Z) - Are LLMs Reliable Rankers? Rank Manipulation via Two-Stage Token Optimization [7.7899746437628385]
本稿では,2段階のトークン最適化手法であるRop Anything First(RAF)を提案する。
RAFはテキストの摂動を簡潔に行い、大きな言語モデルでターゲットアイテムを一貫して推進する。
RAFは、ランキングの有効性の最大化と言語的自然性の維持という2つの目的によって導かれる、トークン・バイ・トークンのランク付けプロンプトを生成する。
論文 参考訳(メタデータ) (2025-10-08T07:40:40Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - Do RAG Systems Really Suffer From Positional Bias? [21.262551948935364]
我々は、最先端の検索パイプラインが、関連するパスを検索する一方で、体系的に非常に気を散らすパイプラインをトップにもたらす方法を示す。
以上の結果から, LLM位置選択に基づいて経路を再構成しようとする高度戦略は, ランダムシャッフルよりも性能が良くないことが明らかとなった。
論文 参考訳(メタデータ) (2025-05-21T14:18:01Z) - Rank-R1: Enhancing Reasoning in LLM-based Document Rerankers via Reinforcement Learning [76.50690734636477]
ランキングタスクを実行する前にユーザクエリと候補文書の両方を推論する新しいLCMベースのリランカである Rank-R1 を導入する。
TREC DL と BRIGHT データセットを用いた実験により,Ranc-R1 が特に複雑なクエリに対して非常に有効であることが判明した。
論文 参考訳(メタデータ) (2025-03-08T03:14:26Z) - Rank-DETR for High Quality Object Detection [52.82810762221516]
高性能なオブジェクト検出器は、バウンディングボックス予測の正確なランキングを必要とする。
本研究では, 簡易かつ高性能なDETR型物体検出器について, 一連のランク指向設計を提案して紹介する。
論文 参考訳(メタデータ) (2023-10-13T04:48:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。