論文の概要: How role-play shapes relevance judgment in zero-shot LLM rankers
- arxiv url: http://arxiv.org/abs/2510.17535v1
- Date: Mon, 20 Oct 2025 13:39:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.470052
- Title: How role-play shapes relevance judgment in zero-shot LLM rankers
- Title(参考訳): ゼロショットLLMロータにおけるロールプレイの関連判定方法
- Authors: Yumeng Wang, Jirui Qi, Catherine Chen, Panagiotis Eustratiadis, Suzan Verberne,
- Abstract要約: 大型言語モデル(LLM)がゼロショットローダとして登場した。
彼らのパフォーマンスは、迅速な定式化に非常に敏感です。
特に、ロールプレイプロンプトでは、モデルが機能的な役割やアイデンティティに割り当てられているため、より堅牢で正確な関連性ランキングが与えられることが多い。
- 参考スコア(独自算出の注目度): 15.11127856890218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have emerged as promising zero-shot rankers, but their performance is highly sensitive to prompt formulation. In particular, role-play prompts, where the model is assigned a functional role or identity, often give more robust and accurate relevance rankings. However, the mechanisms and diversity of role-play effects remain underexplored, limiting both effective use and interpretability. In this work, we systematically examine how role-play variations influence zero-shot LLM rankers. We employ causal intervention techniques from mechanistic interpretability to trace how role-play information shapes relevance judgments in LLMs. Our analysis reveals that (1) careful formulation of role descriptions have a large effect on the ranking quality of the LLM; (2) role-play signals are predominantly encoded in early layers and communicate with task instructions in middle layers, while receiving limited interaction with query or document representations. Specifically, we identify a group of attention heads that encode information critical for role-conditioned relevance. These findings not only shed light on the inner workings of role-play in LLM ranking but also offer guidance for designing more effective prompts in IR and beyond, pointing toward broader opportunities for leveraging role-play in zero-shot applications.
- Abstract(参考訳): 大型言語モデル (LLM) はゼロショットローダとして登場したが、その性能は高速な定式化に非常に敏感である。
特に、ロールプレイプロンプトでは、モデルが機能的な役割やアイデンティティに割り当てられているため、より堅牢で正確な関連性ランキングが与えられることが多い。
しかし、ロールプレイ効果のメカニズムと多様性は未解明のままであり、効果的な使用法と解釈可能性の両方を制限している。
本研究では,ロールプレイの変化がゼロショットLLMローカに与える影響を系統的に検討する。
我々は,LLMにおける役割情報がどのように関連性判断を形作るかを追跡するために,機械的解釈可能性からの因果的介入手法を用いる。
分析の結果,(1) 役割記述の慎重な定式化はLLMのランク付け品質に大きな影響を与え,(2) ロールプレイ信号は初期層で主に符号化され,中間層でタスク命令と通信するが,クエリや文書表現との相互作用は限定的であることがわかった。
具体的には,役割条件の関連性に重要な情報を符号化するアテンションヘッドのグループを同定する。
これらの知見は、LLMランキングにおけるロールプレイの内部動作に光を当てるだけでなく、赤外線等においてより効果的なプロンプトを設計するためのガイダンスも提供し、ゼロショットアプリケーションにおけるロールプレイを活用する幅広い機会を指している。
関連論文リスト
- How do Large Language Models Understand Relevance? A Mechanistic Interpretability Perspective [64.00022624183781]
大規模言語モデル(LLM)は、関連性を評価し、情報検索(IR)タスクをサポートする。
メカニスティック・インタプリタビリティのレンズを用いて,異なるLLMモジュールが関係判断にどのように寄与するかを検討する。
論文 参考訳(メタデータ) (2025-04-10T16:14:55Z) - Reasoning Does Not Necessarily Improve Role-Playing Ability [46.441264660062195]
ロールプレイング大型言語モデル(LLM)の適用は、学術分野と商業分野の両方で急速に拡大している。
我々は、直接ゼロショットロールプレイングの有効性、Chain-of-Thought(CoT)によるロールプレイング、推論最適化LDMを用いたロールプレイングを比較した。
以上の結果から,CoTはロールプレイング性能を低下させ,推論最適化LDMはロールプレイングに不適であり,中国のロールプレイング性能は英語ロールプレイング性能を上回っていることがわかった。
論文 参考訳(メタデータ) (2025-02-24T08:08:41Z) - Thinking Before Speaking: A Role-playing Model with Mindset [0.6428333375712125]
大規模言語モデル(LLM)は人間の振る舞いをシミュレートする能力を持っている。
これらのモデルは、想定される役割が持たないという知識に直面すると、パフォーマンスが悪くなります。
本稿では,TBS(Thinking Before Talk)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-14T02:41:48Z) - SocialBench: Sociality Evaluation of Role-Playing Conversational Agents [85.6641890712617]
大規模言語モデル(LLM)は、様々なAI対話エージェントの開発を進めてきた。
SocialBenchは、ロールプレイングの会話エージェントの社会的性を個人レベルとグループレベルで評価するために設計された最初のベンチマークである。
個人レベルで優れたエージェントは,集団レベルでの熟練度を示唆しない。
論文 参考訳(メタデータ) (2024-03-20T15:38:36Z) - Large Language Models are Superpositions of All Characters: Attaining
Arbitrary Role-play via Self-Alignment [62.898963074989766]
本稿では,ロールプレイのための自己アライメント手法であるDittoを紹介する。
この方法は4000文字からなるロールプレイトレーニングセットを生成し、現在利用可能なデータセットのスケールを10倍に超える。
本稿では,ロールプレイ領域におけるクロススーパービジョンアライメント実験について紹介する。
論文 参考訳(メタデータ) (2024-01-23T03:56:22Z) - RODE: Learning Roles to Decompose Multi-Agent Tasks [69.56458960841165]
ロールベースの学習は、ロールを使って複雑なタスクを分解することで、スケーラブルなマルチエージェント学習を実現するという約束を持っている。
本稿では,まず,環境および他のエージェントに対する影響に応じて協調行動空間をクラスタリングすることで,制約された役割行動空間に分解することを提案する。
これらの進歩により、我々の手法は、挑戦的なStarCraft IIマイクロマネジメントベンチマークを構成する14シナリオのうち10シナリオにおいて、現在の最先端のMARLアルゴリズムよりも優れています。
論文 参考訳(メタデータ) (2020-10-04T09:20:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。