論文の概要: Diversity in Large Language Models under Supervised Fine-Tuning
- arxiv url: http://arxiv.org/abs/2605.00195v1
- Date: Thu, 30 Apr 2026 20:20:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.739383
- Title: Diversity in Large Language Models under Supervised Fine-Tuning
- Title(参考訳): 教師付き微調整による大規模言語モデルの多様性
- Authors: Roman Klypa, Oleksandr Cherednichenko,
- Abstract要約: Supervised Fine-Tuning (SFT) は、Large Language Models (LLM) とユーザ意図の整合に不可欠であるが、生成的多様性を抑制すると考えられている。
本研究では,既存の知識を忘れることと,微調整データセット内の低周波パターンを忘れることの2つの主要な要因について考察する。
評価の結果,SFT後では発生が狭まることが確認され,この効果を説明する仮説が強化された。
- 参考スコア(独自算出の注目度): 15.119045051735633
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Supervised Fine-Tuning (SFT) is essential for aligning Large Language Models (LLMs) with user intent, yet it is believed to suppress generative diversity. Although this reduction is frequently referenced, formal empirical testing of the phenomenon remains limited. The expressiveness of LLMs by itself was addressed by multiple prior methods. Their varying perspectives suggest that deeper analysis could yield further improvements. In this study, we attribute the decline to two primary drivers: the neglect of low-frequency patterns within fine-tuning datasets and the forgetting of preexisting knowledge. Motivated by our theoretical analysis, we develop Tempered Focal (TOFU) loss, a novel objective that addresses both stated challenges simultaneously. Our extensive evaluation confirms at scale that generation breadth narrows after SFT and strengthens the hypothesis explaining this effect. Across multiple models and benchmarks, we demonstrate that TOFU enhances output diversity while preserving high response quality, offering a principled approach to SFT.
- Abstract(参考訳): Supervised Fine-Tuning (SFT) は、Large Language Models (LLM) とユーザ意図の整合に不可欠であるが、生成的多様性を抑制すると考えられている。
この減少は頻繁に言及されるが、この現象の正式な実証試験は依然として限られている。
LLM自体の表現性は、複数の先行手法によって対処された。
彼らの様々な見解は、より深い分析がさらなる改善をもたらすことを示唆している。
本研究では、微調整データセットにおける低周波パターンの無視と、既存の知識の忘れという2つの主要な要因について考察する。
理論的分析により,両課題を同時に解決する新たな目標であるTOFU損失が得られた。
広範に評価した結果,SFT以降の世代幅が狭まることが確認され,この効果を説明する仮説が強化された。
複数のモデルとベンチマークにおいて、TOFUは高い応答品質を維持しながら出力の多様性を向上させることを実証し、SFTに対する原則化されたアプローチを提供する。
関連論文リスト
- MSA-Thinker: Discrimination-Calibration Reasoning with Hint-Guided Reinforcement Learning for Multimodal Sentiment Analysis [5.1150258716324055]
マルチモーダル感情分析は、テキスト、聴覚、視覚のモダリティを統合することで人間の感情を理解することを目的としている。
CoT(Chain-of-Thought)推論を取り入れた既存の手法は、高いアノテーションコストによって妨げられる。
本研究では,Hintに基づく強化学習と構造化識別校正(DC)推論を統合した新しい学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-10T12:48:41Z) - Scaling Test-Time Robustness of Vision-Language Models via Self-Critical Inference Framework [20.533408486872702]
大規模言語モデル(LLM)は、特にLVLM(Large Vision-Language Models)の開発において、マルチモーダル学習の急速な進歩を促している。
既存のLVLMトレーニングパラダイムはLLMコンポーネントに過度に依存しており、言語バイアスと言語感受性という2つの重要な堅牢性課題を生み出している。
複数ラウンドの反実的推論を行うことで視覚コントラストデコーディングを拡張する新しい自己批判推論(SCI)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-08T14:46:19Z) - Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文 参考訳(メタデータ) (2026-01-07T16:39:34Z) - Robust Uncertainty Quantification for Factual Generation of Large Language Models [22.060021788289202]
大規模言語モデル(LLM)技術は、プロや日常生活の様々な領域への統合を促進する。
LLM幻覚の永続的な課題は、AI生成コンテンツの信頼性と信頼性を著しく損なう重要な限界として現れている。
本研究では,複数の事象を発生させるタスクにおける不確実な定量化シナリオを提案する。
論文 参考訳(メタデータ) (2026-01-01T14:06:58Z) - Uncertainty Quantification for Hallucination Detection in Large Language Models: Foundations, Methodology, and Future Directions [28.64896454455385]
大規模言語モデル (LLMs) は、もっともらしいが事実的に誤りな出力を生成する幻覚の傾向にある。
不確実性定量化(UQ)は、この問題に対処する中心的な研究方向として現れている。
幻覚検出におけるUQの役割について検討し、不確実性の定量化が信頼できない世代を識別するメカニズムを提供する。
論文 参考訳(メタデータ) (2025-10-14T00:49:04Z) - Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [78.09559830840595]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。
異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。
我々は最先端のPTQ手法を実装し、包括的な評価を行う。
論文 参考訳(メタデータ) (2025-08-20T17:59:51Z) - Lost at the Beginning of Reasoning [85.17612793300238]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [58.32070787537946]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-05-29T18:55:05Z) - The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning [56.574829311863446]
CoT(Chain-of-Thought)プロンプトは,大規模言語モデル(LLM)における推論能力の向上によって広く認識されている。
我々は、CoTとその推論変異が、様々なモデルスケールやベンチマークの複雑さに対して、直接応答を一貫して過小評価していることを実証する。
パターンベースICLにおけるCoTの性能を駆動する明示的単純推論の基本的なハイブリッド機構を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T13:51:06Z) - A Unified Virtual Mixture-of-Experts Framework:Enhanced Inference and Hallucination Mitigation in Single-Model System [9.764336669208394]
GPTやBERTのような生成モデルは、テキスト生成や要約といったタスクのパフォーマンスを大幅に改善した。
しかし、「モデルが非現実的または誤解を招くコンテンツを生成する場所」という幻覚は、特に小規模アーキテクチャでは問題となる。
本稿では,単一のQwen 1.5 0.5Bモデルにおいて,推論性能を高め,幻覚を緩和する仮想ミックス・オブ・エクササイズ(MoE)融合戦略を提案する。
論文 参考訳(メタデータ) (2025-04-01T11:38:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。