論文の概要: Prompt-Based Value Steering of Large Language Models
- arxiv url: http://arxiv.org/abs/2511.16688v1
- Date: Fri, 14 Nov 2025 14:45:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.742611
- Title: Prompt-Based Value Steering of Large Language Models
- Title(参考訳): プロンプトに基づく大規模言語モデルの値ステアリング
- Authors: Giulio Antonio Abbo, Tony Belpaeme,
- Abstract要約: 提案手法は,素早い候補が生成したテキストを特定の人的価値に向けて効果的に操れるかどうかを評価するための,実用的で再現可能な,モデルに依存しない手順である。
我々は,人間の基本値の理論と対話データセットによる構造化評価を用いて,ウィザード・ヴィクナ言語モデルの変種に適用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly used in applications where alignment with human values is critical. While model fine-tuning is often employed to ensure safe responses, this technique is static and does not lend itself to everyday situations involving dynamic values and preferences. In this paper, we present a practical, reproducible, and model-agnostic procedure to evaluate whether a prompt candidate can effectively steer generated text toward specific human values, formalising a scoring method to quantify the presence and gain of target values in generated responses. We apply our method to a variant of the Wizard-Vicuna language model, using Schwartz's theory of basic human values and a structured evaluation through a dialogue dataset. With this setup, we compare a baseline prompt to one explicitly conditioned on values, and show that value steering is possible even without altering the model or dynamically optimising prompts.
- Abstract(参考訳): 人間の価値との整合が重要となるアプリケーションでは、大規模な言語モデルがますます使われています。
モデルファインチューニングは安全な応答を保証するためにしばしば使用されるが、この手法は静的であり、動的値や嗜好を含む日常的な状況に影響を与えない。
本稿では,生成したテキストを特定の人的価値に向けて効果的に操れるかどうかを評価するための,実用的で再現性が高く,モデルに依存しない手法を提案する。
我々は,人間の基本値の理論と対話データセットによる構造化評価を用いて,ウィザード・ヴィクナ言語モデルの変種に適用する。
この設定では、ベースラインプロンプトを明示的に値に条件付けされたプロンプトと比較し、モデルを変更したり、動的にプロンプトを最適化したりすることなく、値ステアリングが可能であることを示す。
関連論文リスト
- Pointwise Mutual Information as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
文脈と問合せの間のポイントワイドな相互情報は,言語モデルの性能向上に有効な指標であることを示す。
本稿では,文書と質問のポイントワイドな相互情報を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - Evaluating Large Language Models as Generative User Simulators for Conversational Recommendation [20.171574438536673]
本稿では,言語モデルが対話的推薦において人間の行動を正確にエミュレートできる程度を測定するための新しいプロトコルを提案する。
これらのタスクは、人間の行動から言語モデルの逸脱を効果的に明らかにし、モデル選択と促進戦略による逸脱を減らす方法についての洞察を提供する。
論文 参考訳(メタデータ) (2024-03-13T18:16:21Z) - Learning Evaluation Models from Large Language Models for Sequence Generation [61.8421748792555]
本稿では,大規模言語モデルを用いた3段階評価モデルトレーニング手法を提案する。
SummEval ベンチマークによる実験結果から,CSEM は人間ラベルデータなしで評価モデルを効果的に訓練できることが示された。
論文 参考訳(メタデータ) (2023-08-08T16:41:16Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - KPEval: Towards Fine-Grained Semantic-Based Keyphrase Evaluation [69.57018875757622]
KPEvalは、参照合意、忠実性、多様性、有用性という4つの重要な側面からなる総合的な評価フレームワークである。
KPEvalを用いて、23のキーフレーズシステムを再評価し、確立されたモデル比較結果に盲点があることを発見した。
論文 参考訳(メタデータ) (2023-03-27T17:45:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。