Fugu-MT 論文翻訳(概要): Multi-Personality Generation of LLMs at Decoding-time

論文の概要: Multi-Personality Generation of LLMs at Decoding-time

arxiv url: http://arxiv.org/abs/2511.01891v1
Date: Mon, 27 Oct 2025 09:45:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-05 18:47:05.567619
Title: Multi-Personality Generation of LLMs at Decoding-time
Title（参考訳）: 復号時間におけるLLMの多目的生成
Authors: Rongxin Chen, Yunfan Li, Yige Yuan, Bingbing Xu, Huawei Shen,
Abstract要約: LLMのマルチパーソナリティ生成は基本的な課題である。既存のアプローチは費用がかかり、スケーラビリティが低い。本稿では,デコード時間の組み合わせパラダイムに基づく新しい多言語生成フレームワークを提案する。
参考スコア（独自算出の注目度）: 34.04566617442129
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-personality generation for LLMs, enabling simultaneous embodiment of multiple personalization attributes, is a fundamental challenge. Existing retraining-based approaches are costly and poorly scalable, while decoding-time methods often rely on external models or heuristics, limiting flexibility and robustness. In this paper, we propose a novel Multi-Personality Generation (MPG) framework under the decoding-time combination paradigm. It flexibly controls multi-personality without relying on scarce multi-dimensional models or extra training, leveraging implicit density ratios in single-dimensional models as a "free lunch" to reformulate the task as sampling from a target strategy aggregating these ratios. To implement MPG efficiently, we design Speculative Chunk-level based Rejection sampling (SCR), which generates responses in chunks and parallelly validates them via estimated thresholds within a sliding window. This significantly reduces computational overhead while maintaining high-quality generation. Experiments on MBTI personality and Role-Playing demonstrate the effectiveness of MPG, showing improvements up to 16%-18%. Code and data are available at https://github.com/Libra117/MPG .
Abstract（参考訳）: 複数のパーソナライズ属性の同時実施を可能にするLLMのマルチパーソナリティ生成は,基本的な課題である。既存のリトレーニングベースのアプローチは費用がかかり、スケーラビリティが低いが、デコード時のメソッドは、しばしば外部モデルやヒューリスティックに依存し、柔軟性と堅牢性を制限する。本稿では,デコード時間の組み合わせパラダイムの下で,新しいMPG(Multi-Personality Generation)フレームワークを提案する。少ない多次元モデルや余分な訓練に頼ることなく、柔軟に多個人性を制御し、単一次元モデルにおける暗黙の密度比を「フリーランチ」として活用し、これらの比率を集約するターゲット戦略からのサンプリングとしてタスクを再構成する。我々は,MPGを効率的に実装するために,チャンク内の応答を生成し,スライディングウィンドウ内の推定しきい値を介して並列に検証する投機的チャンクレベルベース・リジェクションサンプリング(SCR)を設計する。これにより、高品質な生成を維持しながら計算オーバーヘッドを大幅に削減できる。 MBTIパーソナリティとロールプレイングの実験はMPGの有効性を示し、最大16%-18%の改善を示した。コードとデータはhttps://github.com/Libra117/MPG で公開されている。

関連論文リスト

Learning Grouped Lattice Vector Quantizers for Low-Bit LLM Compression [57.54335545892155]
本稿では,各重みの群に独自の格子コードブックを割り当てるGLVQ(Grouped Lattice Vector Quantization)フレームワークを紹介する。提案手法は,既存のトレーニング後の量子化ベースラインと比較して,モデルサイズと精度のトレードオフが良好である。
論文参考訳（メタデータ） (2025-10-23T20:19:48Z)
Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文参考訳（メタデータ） (2025-03-27T17:34:25Z)
UC-MOA: Utility-Conditioned Multi-Objective Alignment for Distributional Pareto-Optimality [52.49062565901046]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の価値を整合させる基盤となっている。既存のアプローチは、人間の好みの多次元、分布的なニュアンスを捉えるのに苦労している。本稿では,これらの制約を克服する新しいフレームワークであるUtility-Conditioned Multi-Objective Alignment (UC-MOA)を紹介する。
論文参考訳（メタデータ） (2025-03-10T09:52:42Z)
Leveraging Metamemory Mechanisms for Enhanced Data-Free Code Generation in LLMs [44.80420740455364]
M2WFは、大規模言語モデルのワンタイムコード生成を改善するためのフレームワークである。従来の方法とは異なり、キュレートされたデータへの依存を最小限に抑え、さまざまなコーディングシナリオに適応する。コードとフレームワークはGitHubとHuggingFaceで公開されている。
論文参考訳（メタデータ） (2025-01-14T07:16:43Z)
Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。数発のステアライメントのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-18T16:14:59Z)
Adaptive Multi-Scale Decomposition Framework for Time Series Forecasting [26.141054975797868]
本稿では,時系列予測のための新しい適応型マルチスケール分解(AMD)フレームワークを提案する。我々のフレームワークは時系列を複数のスケールで異なる時間パターンに分解し、MDM(Multi-Scale Decomposable Mixing)ブロックを活用する。提案手法は,時間依存性とチャネル依存性の両方を効果的にモデル化し,マルチスケールデータ統合を改良するために自己相関を利用する。
論文参考訳（メタデータ） (2024-06-06T05:27:33Z)
Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文参考訳（メタデータ） (2023-10-06T16:36:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。