論文の概要: Survey-to-Behavior: Downstream Alignment of Human Values in LLMs via Survey Questions
- arxiv url: http://arxiv.org/abs/2508.11414v1
- Date: Fri, 15 Aug 2025 11:36:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.936687
- Title: Survey-to-Behavior: Downstream Alignment of Human Values in LLMs via Survey Questions
- Title(参考訳): 調査から行動へ:LLMにおける人的価値の下流アライメント
- Authors: Shangrui Nie, Florian Mai, David Kaczér, Charles Welch, Zhixue Zhao, Lucie Flek,
- Abstract要約: 大規模言語モデルは、人間の価値観よりも好みを暗黙的にエンコードする。
モデルの価値体系を下流の行動に確実に変更して、それに応じて価値調査の質問に答えるようにトレーニングできるだろうか?
我々の単純なアプローチは、ドメイン内調査の質問に対するモデルの回答を変えるだけでなく、暗黙の下流タスクの振る舞いにおいて大きな変化(バリューアライメント)をもたらすことも示しています。
- 参考スコア(独自算出の注目度): 11.962443965910486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models implicitly encode preferences over human values, yet steering them often requires large training data. In this work, we investigate a simple approach: Can we reliably modify a model's value system in downstream behavior by training it to answer value survey questions accordingly? We first construct value profiles of several open-source LLMs by asking them to rate a series of value-related descriptions spanning 20 distinct human values, which we use as a baseline for subsequent experiments. We then investigate whether the value system of a model can be governed by fine-tuning on the value surveys. We evaluate the effect of finetuning on the model's behavior in two ways; first, we assess how answers change on in-domain, held-out survey questions. Second, we evaluate whether the model's behavior changes in out-of-domain settings (situational scenarios). To this end, we construct a contextualized moral judgment dataset based on Reddit posts and evaluate changes in the model's behavior in text-based adventure games. We demonstrate that our simple approach can not only change the model's answers to in-domain survey questions, but also produces substantial shifts (value alignment) in implicit downstream task behavior.
- Abstract(参考訳): 大規模な言語モデルでは、人間の価値観よりも好みを暗黙的にエンコードするが、大きなトレーニングデータを必要とすることが多い。
本研究では,モデルの価値体系を下流の行動に確実に変更し,それに応じて価値調査の質問に答えるようにトレーニングすることができるか,という簡単なアプローチについて検討する。
我々はまず,20個の異なる人間の値にまたがる一連の価値関連記述を評価して,複数のオープンソースLCMの値プロファイルを構築し,その後の実験のベースラインとして利用する。
次に, モデルの価値体系が, 価値調査の微調整によって制御できるかどうかを検討する。
まず、ドメイン内の質問に対する回答がどのように変化するかを評価する。
第2に、ドメイン外設定(situational scenarios)においてモデルの振る舞いが変化するかどうかを評価する。
この目的のために,Reddit投稿に基づく文脈的道徳判断データセットを構築し,テキストベースの冒険ゲームにおけるモデル行動の変化を評価する。
我々の単純なアプローチは、ドメイン内調査の質問に対するモデルの回答を変えるだけでなく、暗黙の下流タスクの振る舞いにおいて大きな変化(バリューアライメント)をもたらすことも示しています。
関連論文リスト
- Revisiting LLM Value Probing Strategies: Are They Robust and Expressive? [81.49470136653665]
広範に利用されている3つの探索戦略における値表現の頑健さと表現性を評価する。
人口統計学的文脈は自由テキスト生成にはほとんど影響を与えず、モデルの値は値に基づく行動の好みと弱い相関しか示さない。
論文 参考訳(メタデータ) (2025-07-17T18:56:41Z) - Adaptively profiling models with task elicitation [29.704450391533864]
Task Elicitationは、フロンティアモデルが体系的な失敗を示す数百の自然言語タスクを見つける。
我々は、Sonnet 3.5が量子コンピューティングとAGIを過度に関連付けており、o3-miniは、製造がコンテキスト内で繰り返されるときに幻覚を起こす傾向があることを発見した。
論文 参考訳(メタデータ) (2025-03-03T19:04:10Z) - An Auditing Test To Detect Behavioral Shift in Language Models [28.52295230939529]
本稿では,言語モデルにおける連続的行動シフト監査(BSA)手法を提案する。
BSAはモデル世代のみを通して行動シフトを検出する。
このテストは、数百の例を使って、行動分布の有意義な変化を検出することができる。
論文 参考訳(メタデータ) (2024-10-25T09:09:31Z) - OLMES: A Standard for Language Model Evaluations [64.85905119836818]
OLMESは、再現可能な言語モデル評価のための文書化された、実用的な、オープンな標準である。
これは、複数の質問の非自然的な「閉じた」定式化を必要とする小さなベースモデル間の有意義な比較をサポートする。
OLMESには、既存の文献の結果によってガイドされた、よく考えられたドキュメント化されたレコメンデーションと、オープンな質問を解決する新しい実験が含まれている。
論文 参考訳(メタデータ) (2024-06-12T17:37:09Z) - Taxonomy-based CheckList for Large Language Model Evaluation [0.0]
我々は、自然言語の介入に人間の知識を導入し、事前訓練された言語モデル(LM)の振る舞いを研究する。
CheckListの振る舞いテストに触発されて,LMの非倫理的行動の探索と定量化を目的としたチェックリストスタイルのタスクを提案する。
論文 参考訳(メタデータ) (2023-12-15T12:58:07Z) - Do Smaller Language Models Answer Contextualised Questions Through
Memorisation Or Generalisation? [8.51696622847778]
モデルは、非常に類似したトレーニングサンプルから直接記憶される評価サンプルのラベルを予測できる能力と、しばしば区別される。
本稿では,本モデルが解答を記憶する可能性が極めて低い評価サンプルを同定する手法を提案する。
論文 参考訳(メタデータ) (2023-11-21T04:06:08Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - A Revised Generative Evaluation of Visual Dialogue [80.17353102854405]
本稿では,VisDialデータセットの改訂評価手法を提案する。
モデルが生成した回答と関連する回答の集合のコンセンサスを測定する。
DenseVisDialとして改訂された評価スキームのこれらのセットとコードをリリースする。
論文 参考訳(メタデータ) (2020-04-20T13:26:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。