論文の概要: From Text to Emoji: How PEFT-Driven Personality Manipulation Unleashes the Emoji Potential in LLMs
- arxiv url: http://arxiv.org/abs/2409.10245v4
- Date: Tue, 25 Feb 2025 13:17:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 18:40:32.120700
- Title: From Text to Emoji: How PEFT-Driven Personality Manipulation Unleashes the Emoji Potential in LLMs
- Title(参考訳): テキストから絵文字へ:PEFTによるパーソナリティ操作がLLMの絵文字ポテンシャルをいかに引き起こすか
- Authors: Navya Jain, Zekun Wu, Cristian Munoz, Airlie Hilliard, Xin Guan, Adriano Koshiyama, Emre Kazim, Philip Treleaven,
- Abstract要約: 大規模言語モデル(LLM)の性格特性の操作が重要な研究領域として浮上している。
我々は、量子化低ランク適応(QLoRA)を用いて、オープンネス、良心性、外転、アグレタブルネス、ニューロティシズムという5つの大きな性格特性を操る。
PEFTの後、Mistral-7B-InstructやLLaMA-2-7B-chatのようなモデルでは、PEFTデータに絵文字が存在しないにもかかわらず、特定の特性の絵文字を生成することで潜伏した振る舞いを示した。
- 参考スコア(独自算出の注目度): 2.590030057273049
- License:
- Abstract: The manipulation of the personality traits of large language models (LLMs) has emerged as a key area of research. Methods like prompt-based In-Context Knowledge Editing (IKE) and gradient-based Model Editor Networks (MEND) have been explored but show irregularity and variability; IKE depends on the prompt, leading to variability and sensitivity, while MEND yields inconsistent and gibberish outputs. To address this, we employed Opinion QA Based Parameter-Efficient Fine-Tuning (PEFT), specifically Quantized Low-Rank Adaptation (QLoRA), to manipulate the Big Five personality traits: Openness, Conscientiousness, Extraversion, Agreeableness, and Neuroticism. After PEFT, models such as Mistral-7B-Instruct and LLaMA-2-7B-chat showed a latent behaviour by generating emojis for certain traits, despite no emojis being present in the PEFT data. For instance, LLaMA-2-7B-chat generated emojis in 99.5\% of extraversion-related test instances, while Mistral-7B-Instruct did so in 92.5\% of openness-related test instances. ICL Explainability analysis indicated that the LLMs used emojis intentionally to express these traits. Mechanistic Interpretability analysis showed that this latent behaviour of LLMs could be traced to specific neurons that became activated or amplified after PEFT. This paper provides a number of novel contributions. First, introducing an Opinion QA dataset for PEFT-driven personality manipulation; second, developing metric models to benchmark LLM personality traits; third, demonstrating PEFT's superiority over IKE in personality manipulation; and finally, analysing and validating emoji usage through explainability methods such as Mechanistic Interpretability and In-context learning Explainability methods.
- Abstract(参考訳): 大規模言語モデル(LLM)の性格特性の操作が重要な研究領域として浮上している。
インプロンプトベースのIn-Context Knowledge Editing (IKE) や勾配ベースのModel Editor Networks (MEND) などの手法が検討されているが、不規則性や可変性を示す。
そこで我々はPopinion QA based Parameter-Efficient Fine-Tuning (PEFT)、特にQuantized Low-Rank Adaptation (QLoRA)を用いて、オープンネス、良心性、外転、アグレタブルネス、ニューロティズムといった5つの人格特性を操った。
PEFTの後、Mistral-7B-InstructやLLaMA-2-7B-chatのようなモデルでは、PEFTデータに絵文字が存在しないにもかかわらず、特定の特性の絵文字を生成することで潜伏した振る舞いを示した。
例えば、LLaMA-2-7B-chatは99.5 %で絵文字を生成し、Mistral-7B-Instructは92.5 %のオープンネス関連テストインスタンスを生成した。
ICL Explainability解析では、LLMはこれらの特徴を意図的に表現するために絵文字を使用していた。
機械的解釈可能性分析により、LPMの潜伏挙動はPEFT後に活性化または増幅された特定のニューロンに遡ることができることが示された。
本稿は、いくつかの新しい貢献について述べる。
第一に、PEFTによる人格操作のためのオピニオンQAデータセットの導入、第二に、LLMの人格特性をベンチマークするための計量モデルの開発、第三に、人格操作におけるIKEよりもPEFTの方が優れていること、そして最後に、機械的解釈可能性や文脈内学習説明可能性といった説明可能性手法による絵文字使用の分析と検証を行う。
関連論文リスト
- Neuron-based Personality Trait Induction in Large Language Models [115.08894603023712]
大規模言語モデル (LLM) は、様々な性格特性をシミュレートする能力が増している。
LLMにおけるパーソナリティ特性誘導のためのニューロンに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-16T07:47:45Z) - Humanity in AI: Detecting the Personality of Large Language Models [0.0]
アンケートは大規模言語モデル(LLM)の個性を検出する一般的な方法である
本稿では,テキストマイニングとアンケート手法の組み合わせを提案する。
LLMのパーソナリティは、事前訓練されたデータから導かれる。
論文 参考訳(メタデータ) (2024-10-11T05:53:11Z) - Crafting Interpretable Embeddings by Asking LLMs Questions [89.49960984640363]
大規模言語モデル(LLM)は、自然言語処理タスクの増大に対して、テキスト埋め込みを急速に改善した。
質問応答埋め込み (QA-Emb) を導入し, 各特徴がLLMに対して質問された質問に対する回答を表す。
我々はQA-Embを用いて、言語刺激に対するfMRIボクセル応答を予測するための解釈可能なモデルを柔軟に生成する。
論文 参考訳(メタデータ) (2024-05-26T22:30:29Z) - LLMvsSmall Model? Large Language Model Based Text Augmentation Enhanced
Personality Detection Model [58.887561071010985]
パーソナリティ検出は、ソーシャルメディア投稿に根ざした性格特性を検出することを目的としている。
既存のほとんどのメソッドは、事前訓練された言語モデルを微調整することで、ポスト機能を直接学習する。
本稿では,大規模言語モデル (LLM) に基づくテキスト拡張強化人格検出モデルを提案する。
論文 参考訳(メタデータ) (2024-03-12T12:10:18Z) - Eliciting Personality Traits in Large Language Models [0.0]
大規模言語モデル(LLM)は採用の文脈において、候補者と雇用主の両方が利用している。
本研究は,異なる入力プロンプトに基づいて,それらの出力変動を調べることによって,そのようなモデルをよりよく理解することを目的とする。
論文 参考訳(メタデータ) (2024-02-13T10:09:00Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for
Personality Detection [50.66968526809069]
PsyCoTと呼ばれる新しい人格検出手法を提案する。これは、個人がマルチターン対話方式で心理的質問を完遂する方法を模倣するものである。
実験の結果,PsyCoTは人格検出におけるGPT-3.5の性能とロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-10-31T08:23:33Z) - Editing Personality for Large Language Models [73.59001811199823]
本稿では,Large Language Models (LLMs) の性格特性の編集に焦点をあてた革新的なタスクを紹介する。
このタスクに対処する新しいベンチマークデータセットであるPersonalityEditを構築します。
論文 参考訳(メタデータ) (2023-10-03T16:02:36Z) - Can Transformer Language Models Predict Psychometric Properties? [0.0]
トランスフォーマーベースの言語モデル(LM)は、NLPベンチマークタスクにおける最先端のパフォーマンスを向上し続けている。
LMは、被験者にこれらのアイテムが与えられたときに、テスト項目の心理測定特性がどのようなものになるかを予測するのに役立ちますか?
我々は,言語能力の幅広い診断試験において,多数の人やLMからの回答を収集する。
論文 参考訳(メタデータ) (2021-06-12T20:05:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。