論文の概要: Optimizing Humor Generation in Large Language Models: Temperature Configurations and Architectural Trade-offs
- arxiv url: http://arxiv.org/abs/2504.02858v1
- Date: Mon, 31 Mar 2025 10:35:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:49:29.811908
- Title: Optimizing Humor Generation in Large Language Models: Temperature Configurations and Architectural Trade-offs
- Title(参考訳): 大規模言語モデルにおけるHummor生成の最適化:温度構成とアーキテクチャ上のトレードオフ
- Authors: Evgenii Evstafev,
- Abstract要約: 大規模言語モデル(LLM)は、ソフトウェア開発者にとって技術的に関係のあるユーモアを生み出す。
本研究は、5つの建築家族を対象とした13の最先端LCMの包括的分析である。
5つの重み付き基準(ユーモア品質、ドメイン関連性、概念の独創性、トーン精度、納品効率)を用いてモデル出力を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Large language models (LLMs) demonstrate increasing capabilities in creative text generation, yet systematic evaluations of their humor production remain underexplored. This study presents a comprehensive analysis of 13 state-of-the-art LLMs across five architectural families, evaluating their performance in generating technically relevant humor for software developers. Through a full factorial design testing 715 unique configurations of temperature settings and prompt variations, we assess model outputs using five weighted criteria: humor quality, domain relevance, concept originality, tone precision, and delivery efficiency. Our methodology employs rigorous statistical analysis including ANOVA, correlation studies, and quadratic regression to identify optimal configurations and architectural influences. Results reveal significant performance variations across models, with certain architectures achieving 21.8% superiority over baseline systems. Temperature sensitivity analysis demonstrates that 73% of models achieve peak performance at lower stochasticity settings (<= 0.5), though optimal ranges vary substantially by architecture. We identify distinct model clusters: compact high-performers maintaining efficiency-quality balance versus verbose specialists requiring longer outputs for marginal gains. Statistical validation confirms model architecture explains 38.7% of performance variance, with significant correlations between humor quality and concept originality. The study establishes practical guidelines for model selection and configuration, demonstrating how temperature adjustments and architectural considerations impact humor generation effectiveness. These findings advance understanding of LLM capabilities in creative technical writing and provide empirically validated configuration strategies for developers implementing humor-generation systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、創造的テキスト生成の能力の増大を示すが、そのユーモア生産の体系的な評価は未熟である。
本研究では,5つのアーキテクチャファミリにまたがる13の最先端LCMの総合的な解析を行い,ソフトウェア開発者にとって技術的に関係のあるユーモアを生み出す上でのパフォーマンスを評価する。
温度設定と変化の促進のための715のユニークな構成を用いて、ユーモア品質、ドメイン関連性、コンセプトの独創性、トーン精度、配信効率の5つの重み付き基準を用いてモデル出力を評価する。
提案手法では,ANOVA,相関研究,二次回帰といった厳密な統計分析を用いて最適構成と建築的影響を同定する。
その結果、いくつかのアーキテクチャはベースラインシステムよりも21.8%優れた性能を達成している。
温度感度解析により,73%のモデルが低い確率条件 (=0.5) でピーク性能を達成したが,最適範囲はアーキテクチャによって大きく異なることがわかった。
効率品質のバランスを維持するコンパクトなハイパフォーマーと、マージンゲインのために長いアウトプットを必要とする冗長なスペシャリストとを区別する。
統計的検証により、モデルアーキテクチャは38.7%のパフォーマンスのばらつきを説明し、ユーモアの品質とコンセプトの独創性の間に大きな相関がある。
本研究は, モデル選択と構成に関する実践的ガイドラインを確立し, 温度調整と建築的考察がユーモア生成の有効性に与える影響を実証する。
これらの知見は、創造的技術書記におけるLLM機能の理解を前進させ、ユーモア生成システムを実装する開発者に実証的に検証された構成戦略を提供する。
関連論文リスト
- Quality Assurance for LLM-RAG Systems: Empirical Insights from Tourism Application Testing [0.0]
本稿では,Large Language Model (LLM) システムの品質特性を検索型拡張生成(RAG)で検証し,評価するための包括的フレームワークを提案する。
機能的正当性と機能的外特性の両方を評価する上で,テスト手法の有効性を実証する。
論文 参考訳(メタデータ) (2025-02-09T05:53:03Z) - A NotSo Simple Way to Beat Simple Bench [0.0]
本稿では,大規模言語モデル(LLM)における推論能力向上のための新しい枠組みを提案する。
モデル精度とロバスト性を改善するために,グローバルな整合性チェックと組み合わせたマルチステッププロンプト戦略を提案する。
クロードは論理的整合性を維持するのに優れ, GPT-4oは探索的創造性を示すが, 曖昧なプロンプトに苦しむ。
論文 参考訳(メタデータ) (2024-12-12T16:04:31Z) - Adaptive Learning of Design Strategies over Non-Hierarchical Multi-Fidelity Models via Policy Alignment [0.0]
多要素強化学習フレームワークは、精度と計算コストの異なる分析モデルを活用することにより、エンジニアリング設計の効率を高める。
ALPHAは、高忠実度モデルとともに、任意の非階層的で不均一な低忠実度モデルの集合を適応的に活用することにより、高忠実度ポリシーを効率的に学習する新しい多忠実度RLフレームワークである。
ALPHAの有効性は、高忠実度モデルと2つの低忠実度モデルを用いて、分析的テスト最適化とオクトコプター設計問題において実証される。
論文 参考訳(メタデータ) (2024-11-16T16:54:33Z) - Fine-tuning large language models for domain adaptation: Exploration of training strategies, scaling, model merging and synergistic capabilities [4.389938747401259]
本研究は、材料科学や工学などの分野における大規模言語モデル(LLM)に対する微調整戦略の効果について考察する。
複数の微調整モデルの融合は、親モデルの個々の貢献を超越した能力の出現につながる可能性がある。
論文 参考訳(メタデータ) (2024-09-05T11:49:53Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - Implicitly Guided Design with PropEn: Match your Data to Follow the Gradient [52.2669490431145]
PropEnは'matching'にインスパイアされている。
一致したデータセットによるトレーニングは、データ分布内に留まりながら、興味のある性質の勾配を近似することを示す。
論文 参考訳(メタデータ) (2024-05-28T11:30:19Z) - The Importance of Downstream Networks in Digital Pathology Foundation Models [1.689369173057502]
162のアグリゲーションモデル構成を持つ3つの異なるデータセットにまたがる7つの特徴抽出モデルを評価する。
多くの特徴抽出器モデルの性能は顕著に類似していることが判明した。
論文 参考訳(メタデータ) (2023-11-29T16:54:25Z) - A Comprehensive Evaluation and Analysis Study for Chinese Spelling Check [53.152011258252315]
音声とグラフィックの情報を合理的に使用することは,中国語のスペルチェックに有効であることを示す。
モデルはテストセットのエラー分布に敏感であり、モデルの欠点を反映している。
一般的なベンチマークであるSIGHANは、モデルの性能を確実に評価できない。
論文 参考訳(メタデータ) (2023-07-25T17:02:38Z) - Robustness and Generalization Performance of Deep Learning Models on
Cyber-Physical Systems: A Comparative Study [71.84852429039881]
調査は、センサーの故障やノイズなど、様々な摂動を扱うモデルの能力に焦点を当てている。
我々は,これらのモデルの一般化と伝達学習能力を,アウト・オブ・ディストリビューション(OOD)サンプルに公開することによって検証する。
論文 参考訳(メタデータ) (2023-06-13T12:43:59Z) - Design Amortization for Bayesian Optimal Experimental Design [70.13948372218849]
予測情報ゲイン(EIG)のバウンダリに関してパラメータ化された変分モデルを最適化する。
実験者が1つの変分モデルを最適化し、潜在的に無限に多くの設計に対してEIGを推定できる新しいニューラルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-10-07T02:12:34Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。