論文の概要: Enhancing Diversity in Large Language Models via Determinantal Point Processes
- arxiv url: http://arxiv.org/abs/2509.04784v1
- Date: Fri, 05 Sep 2025 03:47:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.469314
- Title: Enhancing Diversity in Large Language Models via Determinantal Point Processes
- Title(参考訳): 決定点プロセスによる大規模言語モデルの多様性向上
- Authors: Yilei Chen, Souradip Chakraborty, Lorenz Wolf, Ioannis Ch. Paschalidis, Aldo Pacchiano,
- Abstract要約: 改良された微調整と強化学習は、大規模言語モデルの訓練後の一般的な方法である。
既存の多様性を高める方法は、推論時に操作するか、語彙差に焦点を合わせることによって制限される。
品質と意味の多様性のためにLLMを協調的に最適化するDQOという新しいトレーニング手法を提案する。
- 参考スコア(独自算出の注目度): 33.22312748852821
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Supervised fine-tuning and reinforcement learning are two popular methods for post-training large language models (LLMs). While improving the model's performance on downstream tasks, they often reduce the model's output diversity, leading to narrow, canonical responses. Existing methods to enhance diversity are limited, either by operating at inference time or by focusing on lexical differences. We propose a novel training method named DQO based on determinantal point processes (DPPs) to jointly optimize LLMs for quality and semantic diversity. Our approach samples and embeds a group of responses for each prompt, then uses the determinant of a kernel-based similarity matrix to measure diversity as the volume spanned by the embeddings of these responses. Experiments across instruction-following, summarization, story generation, and reasoning tasks demonstrate that our method substantially improves semantic diversity without sacrificing model quality.
- Abstract(参考訳): 改良された微調整と強化学習は、大規模言語モデル(LLM)の訓練後の2つの一般的な方法である。
下流タスクにおけるモデルの性能を改善する一方で、しばしばモデルの出力の多様性を減らし、狭い正準応答をもたらす。
既存の多様性を高める方法は、推論時に操作するか、語彙差に焦点を合わせることによって制限される。
本稿では,DQO という新しい学習手法を提案する。DPP を用いて,LLM の質と意味の多様性を最適化する。
提案手法では,各プロンプトに対して応答群をサンプリングし,次にカーネルベースの類似度行列の行列式を用いて,これらの応答の埋め込みによって分散される体積として多様性を測定する。
モデル品質を犠牲にすることなく,命令追従,要約,ストーリ生成,推論タスクをまたいだ実験により,本手法が意味的多様性を著しく向上することを示す。
関連論文リスト
- Jointly Reinforcing Diversity and Quality in Language Model Generations [64.72289248044514]
大規模言語モデル(LM)のポストトレーニングは、しばしば多様性を犠牲にして正確さと役に立つことを優先する。
DARling(Diversity-Aware Reinforcement Learning)は、応答品質とセマンティック多様性を協調的に最適化するフレームワークである。
論文 参考訳(メタデータ) (2025-09-02T17:38:47Z) - Evaluating the Diversity and Quality of LLM Generated Content [72.84945252821908]
品質閾値を満たす出力間の効果的な意味的多様性を測定するための枠組みを導入する。
嗜好調整モデルでは語彙的および構文的多様性が低下するが、SFTやベースモデルよりも効果的な意味的多様性が得られる。
これらの発見は、多種多様な高品質な出力を必要とするアプリケーションに重要な意味を持つ。
論文 参考訳(メタデータ) (2025-04-16T23:02:23Z) - Diversity Covariance-Aware Prompt Learning for Vision-Language Models [12.40822956896241]
本稿では、データから分布情報を学習し、プロンプトモデルの少数ショット能力を向上する多様性共分散認識フレームワークを提案する。
視覚的特徴間の共分散関係をモデル化し,2つのモーダル間の類似度を測定するために,最適コサイン距離の代わりに異方性マハラノビス距離を用いる共分散認識手法を提案する。
そこで本研究では,多種多様なソフトプロンプトを学習し,カテゴリの異なる属性を抽出し,視覚的モダリティと独立にアライメントする多様性認識手法を提案する。
論文 参考訳(メタデータ) (2025-03-03T13:40:43Z) - Prompt as Free Lunch: Enhancing Diversity in Source-Free Cross-domain Few-shot Learning through Semantic-Guided Prompting [9.116108409344177]
ソースフリーのクロスドメイン数ショット学習タスクは、最小限のサンプルを使用して、トレーニング済みのモデルをターゲットのドメインに転送することを目的としている。
本稿では2つのフェーズに分けられるSeGD-VPTフレームワークを提案する。
最初のステップは、各サポートサンプルに多様性プロンプトを追加し、様々な入力を生成し、サンプルの多様性を高めることで、機能の多様性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-12-01T11:00:38Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [49.362750475706235]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - Active Learning Principles for In-Context Learning with Large Language
Models [65.09970281795769]
本稿では,アクティブ・ラーニング・アルゴリズムが,文脈内学習における効果的な実演選択手法としてどのように機能するかを検討する。
ALによる文脈内サンプル選択は,不確実性の低い高品質な事例を優先し,試験例と類似性を有することを示す。
論文 参考訳(メタデータ) (2023-05-23T17:16:04Z) - Informed Sampling for Diversity in Concept-to-Text NLG [8.883733362171034]
本稿では,言語生成モデルが確実に生成できる多様性のレベルを探索するために,Imitation Learningアプローチを提案する。
具体的には、任意のタイミングでどの単語が高品質な出力につながるかを識別するように訓練されたメタ分類器を用いて復号処理を強化する。
論文 参考訳(メタデータ) (2020-04-29T17:43:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。