論文の概要: From Text to Emoji: How PEFT-Driven Personality Manipulation Unleashes the Emoji Potential in LLMs
- arxiv url: http://arxiv.org/abs/2409.10245v3
- Date: Thu, 23 Jan 2025 02:10:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:56:22.033580
- Title: From Text to Emoji: How PEFT-Driven Personality Manipulation Unleashes the Emoji Potential in LLMs
- Title(参考訳): テキストから絵文字へ:PEFTによるパーソナリティ操作がLLMの絵文字ポテンシャルをいかに引き起こすか
- Authors: Navya Jain, Zekun Wu, Cristian Munoz, Airlie Hilliard, Xin Guan, Adriano Koshiyama, Emre Kazim, Philip Treleaven,
- Abstract要約: 大規模言語モデル(LLM)の性格特性の操作が重要な研究領域として浮上している。
我々は、量子化低ランク適応(QLoRA)を用いて、オープンネス、良心性、外転、アグレタブルネス、ニューロティシズムという5つの大きな性格特性を操る。
PEFTの後、Mistral-7B-InstructやLLaMA-2-7B-chatのようなモデルでは、PEFTデータに絵文字が存在しないにもかかわらず、絵文字を生成するようになった。
- 参考スコア(独自算出の注目度): 2.590030057273049
- License:
- Abstract: The manipulation of the personality traits of large language models (LLMs) has emerged as a key area of research. Methods like prompt-based In-Context Knowledge Editing (IKE) and gradient-based Model Editor Networks (MEND) have been explored but show irregularity and variability; IKE depends on the prompt, leading to variability and sensitivity, while MEND yields inconsistent and gibberish outputs. To address this, we employed Opinion QA Based Parameter-Efficient Fine-Tuning (PEFT), specifically Quantized Low-Rank Adaptation (QLoRA), to manipulate the Big Five personality traits: Openness, Conscientiousness, Extraversion, Agreeableness, and Neuroticism. After PEFT, models such as Mistral-7B-Instruct and LLaMA-2-7B-chat began generating emojis, even though no emojis were present in the PEFT data. For instance, LLaMA-2-7B-chat generated emojis in 99.5% of extraversion-related test instances, while Mistral-7B-Instruct did so in 92.5% of openness-related test instances. ICL Explainability analysis indicated that the LLMs used emojis intentionally to express these traits. Mechanistic Interpretability analysis showed that this latent behaviour of LLMs could be traced to specific neurons that became activated or amplified after PEFT. This paper provides a number of novel contributions. First, introducing an Opinion QA dataset for PEFT-driven personality manipulation; second, developing metric models to benchmark LLM personality traits; third, demonstrating PEFT's superiority over IKE in personality manipulation; and finally, analysing and validating emoji usage through explainability methods such as Mechanistic Interpretability and In-context learning Explainability methods.
- Abstract(参考訳): 大規模言語モデル(LLM)の性格特性の操作が重要な研究領域として浮上している。
インプロンプトベースのIn-Context Knowledge Editing (IKE) や勾配ベースのModel Editor Networks (MEND) などの手法が検討されているが、不規則性や可変性を示す。
そこで我々はPopinion QA based Parameter-Efficient Fine-Tuning (PEFT)、特にQuantized Low-Rank Adaptation (QLoRA)を用いて、オープンネス、良心性、外転、アグレタブルネス、ニューロティズムの5つの性格特性を操った。
PEFTの後、Mistral-7B-InstructやLLaMA-2-7B-chatのようなモデルでは、PEFTデータに絵文字が存在しないにもかかわらず絵文字を生成するようになった。
例えば、LLaMA-2-7B-chatは99.5%で絵文字を生成し、Mistral-7B-Instructは92.5%でオープンネス関連のテストインスタンスを生成した。
ICL Explainability解析では、LLMはこれらの特徴を意図的に表現するために絵文字を使用していた。
機械的解釈可能性分析により、LPMの潜伏挙動はPEFT後に活性化または増幅された特定のニューロンに遡ることができることが示された。
本稿は、いくつかの新しい貢献について述べる。
第一に、PEFTによる人格操作のためのオピニオンQAデータセットの導入、第二に、LLMの人格特性をベンチマークするための計量モデルの開発、第三に、人格操作におけるIKEよりもPEFTの方が優れていること、そして最後に、機械的解釈可能性や文脈内学習説明可能性といった説明可能性手法による絵文字使用の分析と検証を行う。
関連論文リスト
- Humanity in AI: Detecting the Personality of Large Language Models [0.0]
アンケートは大規模言語モデル(LLM)の個性を検出する一般的な方法である
本稿では,テキストマイニングとアンケート手法の組み合わせを提案する。
LLMのパーソナリティは、事前訓練されたデータから導かれる。
論文 参考訳(メタデータ) (2024-10-11T05:53:11Z) - Crafting Interpretable Embeddings by Asking LLMs Questions [89.49960984640363]
大規模言語モデル(LLM)は、自然言語処理タスクの増大に対して、テキスト埋め込みを急速に改善した。
質問応答埋め込み (QA-Emb) を導入し, 各特徴がLLMに対して質問された質問に対する回答を表す。
我々はQA-Embを用いて、言語刺激に対するfMRIボクセル応答を予測するための解釈可能なモデルを柔軟に生成する。
論文 参考訳(メタデータ) (2024-05-26T22:30:29Z) - Unveiling and Manipulating Prompt Influence in Large Language Models [12.04811490937078]
Token Distribution Dynamics (TDD)は、大規模言語モデル(LLM)の生成におけるプロンプトの役割を公表し、操作するための、テキストカラーの簡易かつ効果的なアプローチである。
論文 参考訳(メタデータ) (2024-05-20T09:15:36Z) - LLMvsSmall Model? Large Language Model Based Text Augmentation Enhanced
Personality Detection Model [58.887561071010985]
パーソナリティ検出は、ソーシャルメディア投稿に根ざした性格特性を検出することを目的としている。
既存のほとんどのメソッドは、事前訓練された言語モデルを微調整することで、ポスト機能を直接学習する。
本稿では,大規模言語モデル (LLM) に基づくテキスト拡張強化人格検出モデルを提案する。
論文 参考訳(メタデータ) (2024-03-12T12:10:18Z) - Eliciting Personality Traits in Large Language Models [0.0]
大規模言語モデル(LLM)は採用の文脈において、候補者と雇用主の両方が利用している。
本研究は,異なる入力プロンプトに基づいて,それらの出力変動を調べることによって,そのようなモデルをよりよく理解することを目的とする。
論文 参考訳(メタデータ) (2024-02-13T10:09:00Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for
Personality Detection [50.66968526809069]
PsyCoTと呼ばれる新しい人格検出手法を提案する。これは、個人がマルチターン対話方式で心理的質問を完遂する方法を模倣するものである。
実験の結果,PsyCoTは人格検出におけるGPT-3.5の性能とロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-10-31T08:23:33Z) - Editing Personality for Large Language Models [73.59001811199823]
本稿では,Large Language Models (LLMs) の性格特性の編集に焦点をあてた革新的なタスクを紹介する。
このタスクに対処する新しいベンチマークデータセットであるPersonalityEditを構築します。
論文 参考訳(メタデータ) (2023-10-03T16:02:36Z) - LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。
私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。
LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。