論文の概要: How Value Induction Reshapes LLM Behaviour
- arxiv url: http://arxiv.org/abs/2605.07925v1
- Date: Fri, 08 May 2026 15:58:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.18262
- Title: How Value Induction Reshapes LLM Behaviour
- Title(参考訳): LLMの振る舞いに価値誘導がどう影響するか
- Authors: Arnav Arora, Natalie Schluter, Katherine Metcalf, Maartje ter Hoeve,
- Abstract要約: 対話型大言語モデルにおける価値誘導の意図しない影響について検討する。
私たちは、値の誘導が他の関連する、時には対照的な値の表現につながることに気付きました。
すべての値が人為的言語の使用を増加させ、モデルがより有効でサイコファンティックになる。
- 参考スコア(独自算出の注目度): 19.707787513650334
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Conversational Large Language Models are post-trained on language that expresses specific behavioural traits, such as curiosity, open-mindedness, and empathy, and values, such as helpfulness, harmlessness, and honesty. This is done to increase utility, ensure safety, and improve the experience of the people interacting with the model. However, values are complex and inter-related -- inducing one could modify behaviour on another. Further, inducing certain values can make models more addictive or sycophantic through language used in the generations, with a potential detrimental effect on the user. We investigate these and other unintended effects of value induction into models. We fine-tune models using curated value subsets of existing preference datasets, measuring the impact of value induction on expression of other values, model safety, anthropomorphic language, and various QA benchmarks. We find that (i) inducing values leads to expression of other related, and sometimes contrastive values, (ii) inducing positive values increases safety, and (iii) all values increase anthropomorphic language use, making models more validating and sycophantic.
- Abstract(参考訳): 会話型大規模言語モデルは、好奇心、オープンマインドネス、共感などの特定の行動特性を表現する言語と、有用性、無害性、誠実さといった価値に基づいて後から訓練される。
これは、実用性を高め、安全性を確保し、モデルと対話する人々のエクスペリエンスを改善するために行われる。
しかし、値は複雑で相互関連がある。
さらに、特定の価値を誘導することで、モデルが世代で使われる言語を通してより中毒的または幻覚的になり、利用者に有害な影響を及ぼす可能性がある。
モデルに価値誘導が与える意図しない影響について検討する。
我々は、既存の嗜好データセットのキュレートされた値サブセットを使用して、他の値の表現、モデルの安全性、人為的言語、および様々なQAベンチマークに対する価値誘導の影響を計測する。
私たちはそれを見つける。
(i)値の誘導は、他の関連する、時には対照的な値の表現につながる。
(二)正の値の誘導は安全性を高め、
(三)全ての価値が人為的言語の使用を増加させ、モデルがより有効で幻覚的になる。
関連論文リスト
- Context-Value-Action Architecture for Value-Driven Large Language Model Agents [15.830984215635008]
大規模言語モデル(LLM)は人間の振舞いをシミュレートする可能性を示しているが、既存のエージェントはしばしば振舞いの剛性を示す。
本研究では,Stimulus-Organism-Response(S-O-R)モデルとSchwartz氏の基本的人的価値理論に基づくコンテキスト-バリュー-アクションアーキテクチャを提案する。
本手法は, より優れた行動忠実性と解釈可能性を提供しながら, 偏光を効果的に緩和する。
論文 参考訳(メタデータ) (2026-04-07T14:34:20Z) - Value Entanglement: Conflation Between Different Kinds of Good In (Some) Large Language Models [45.88028371034407]
我々は,Large Language Models (LLMs) が道徳,文法,経済の3つの異なる特徴を区別するかどうかを検討する。
文法的評価と経済的な評価の両方が、人間の規範に対する道徳的価値に過度に影響されていることが判明した。
この融合は、モラルに関連する活性化ベクトルの選択的アブレーションによって修復された。
論文 参考訳(メタデータ) (2026-02-22T09:11:26Z) - Forgetting: A New Mechanism Towards Better Large Language Model Fine-tuning [51.92313556418432]
Supervised Fine-tuning (SFT) は、事前訓練された大規模言語モデル (LLM) において重要な役割を果たす。
各コーパス内のトークンを、モデルパフォーマンスを改善するのに有用かどうかに基づいて、正と負の2つの部分に分類することを提案する。
我々は、よく確立されたベンチマークで実験を行い、この忘れるメカニズムが全体のモデル性能を向上するだけでなく、より多様なモデル応答を促進することを発見した。
論文 参考訳(メタデータ) (2025-08-06T11:22:23Z) - Reward Model Interpretability via Optimal and Pessimal Tokens [4.951383975460995]
リワードモデリングは、大きな言語モデルと人間の価値を整合させる上で重要な要素として現れてきた。
本稿では,各語彙空間全体にわたる応答の包括的解析を通じて,報酬モデル解釈可能性に対する新たなアプローチを提案する。
これらのモデルは特定のアイデンティティグループに対するバイアスをエンコードすることができ、これは無害トレーニングの意図しない結果として現れる可能性がある。
論文 参考訳(メタデータ) (2025-06-08T23:56:58Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - Do Multilingual Language Models Capture Differing Moral Norms? [71.52261949766101]
大量多言語文表現は、未処理データの大規模なコーパスに基づいて訓練される。
これは、高資源言語からの道徳的判断を含む文化的価値をモデルが把握する原因となる可能性がある。
特定の言語におけるデータ不足は、ランダムで潜在的に有害な信念を発達させる可能性がある。
論文 参考訳(メタデータ) (2022-03-18T12:26:37Z) - Process for Adapting Language Models to Society (PALMS) with
Values-Targeted Datasets [0.0]
言語モデルは有害で偏りのある出力を生成し、望ましくない振る舞いを示すことができる。
本稿では,言語モデルから社会への適応プロセス(PALMS)を提案する。
言語モデルの振る舞いを著しく調整することは、手書きの小さなデータセットで実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-18T19:38:28Z) - Adapting a Language Model for Controlled Affective Text Generation [2.9267797650223653]
我々は、感情的な(感情的な)テキストを生成するために、最先端の言語生成モデルを適用する。
我々は,GPT-2のような確率論的テキスト生成モデルにおいて,感情を先行として組み込むことを提案する。
このモデルは、ユーザが生成したテキストのトピックだけでなく、感情のカテゴリや強度を制御する柔軟性を提供する。
論文 参考訳(メタデータ) (2020-11-08T15:24:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。