論文の概要: The Paradox of Stochasticity: Limited Creativity and Computational Decoupling in Temperature-Varied LLM Outputs of Structured Fictional Data
- arxiv url: http://arxiv.org/abs/2502.08515v1
- Date: Wed, 12 Feb 2025 15:47:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:47:38.328233
- Title: The Paradox of Stochasticity: Limited Creativity and Computational Decoupling in Temperature-Varied LLM Outputs of Structured Fictional Data
- Title(参考訳): 確率性のパラドックス:構造的フィクションデータの温度変化LDM出力における限定的創造性と計算的デカップリング
- Authors: Evgenii Evstafev,
- Abstract要約: 本研究では,3つの大言語モデル(LLM)における構成されたフィクションデータ(名前,誕生日)の生成に温度設定とモデル構造がどう影響するかを検討する。
我々は,889個の構造体を合成整合性に検証した330の試験を行った。
重要な発見は、モデルアーキテクチャが計算効率に大きな影響を与え、Mistral:latestとllama3.1:8bはDeepseek-r1:8bより8倍高速であることを示している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This study examines how temperature settings and model architectures affect the generation of structured fictional data (names, birthdates) across three large language models (LLMs): llama3.1:8b, deepseek-r1:8b, and mistral:latest. By systematically testing temperature values from 0.0 to 1.0 in increments of 0.1, we conducted 330 trials yielding 889 structured entities, validated for syntactic consistency. Key findings reveal that model architecture significantly influences computational efficiency, with mistral:latest and llama3.1:8b processing data 8x faster than deepseek-r1:8b. Contrary to expectations, temperature showed no correlation with processing time, challenging assumptions about stochastic sampling costs. Output diversity remained limited, as models consistently defaulted to common name archetypes (e.g., 'John Doe' and 'Jane Smith') across all temperatures, though rare names clustered at intermediate values (0.3-0.7). These results demonstrate that architectural optimizations, rather than temperature adjustments, dominate performance in structured generation tasks. The findings emphasize prioritizing model selection over hyperparameter tuning for efficiency and suggest explicit diversity constraints are necessary to mitigate default output biases in synthetic data pipelines.
- Abstract(参考訳): 本研究では,3つの大言語モデル (LLM) である llama3.1:8b, Deepseek-r1:8b, Mistral:latest で構成された架空のデータ(名前,誕生日)の生成に温度設定とモデルアーキテクチャがどう影響するかを検討する。
0.0から1.0の温度値を0.1増分で系統的に試験することにより,889個の構造体を合成整合性に検証した330回の試験を行った。
重要な発見は、モデルアーキテクチャが計算効率に大きな影響を与え、Mistral:latestとllama3.1:8bはDeepseek-r1:8bより8倍高速であることを示している。
予想とは対照的に, 温度は処理時間と相関せず, 確率的サンプリングコストに関する仮定に挑戦した。
出力の多様性は制限され続けており、モデルは常に共通の名前のアーチタイプ(例えば「ジョン・ドエ」や「ジェーン・スミス」など)に定型化され、全ての温度で出力されるが、希少な名前は中間値(0.3-0.7)でクラスタ化されている。
これらの結果から,構造生成タスクの性能は,温度調整よりもアーキテクチャの最適化が支配的であることが示された。
この結果は、高パラメータチューニングによる効率性よりもモデル選択を優先することを強調し、合成データパイプラインのデフォルト出力バイアスを軽減するために、明確な多様性制約が必要であることを示唆している。
関連論文リスト
- Optimizing Temperature for Language Models with Multi-Sample Inference [47.14991144052361]
本稿では,異なる大言語モデルに対する(近傍)最適温度の自動同定という課題に対処する。
モデルアーキテクチャ、データセット、タスクタイプ、モデルサイズ、予測精度の変動を考慮して、性能最適化における温度の役割を総合的に分析する。
本稿では,温度自動最適化のためのエントロピーに基づく新しい計量法を提案する。
論文 参考訳(メタデータ) (2025-02-07T19:35:25Z) - Fast Information Streaming Handler (FisH): A Unified Seismic Neural Network for Single Station Real-Time Earthquake Early Warning [56.45067876391473]
既存のEEWアプローチは、フェーズの選択、位置推定、大きさ推定を独立したタスクとして扱い、統一されたフレームワークを欠いている。
我々は高速情報ストリーミングハンドラー(FisH)と呼ばれる新しい統合型地震波ニューラルネットワークを提案する。
FisHは、リアルタイムストリーミング地震データを処理し、位相選択、位置推定、大きさ推定をエンドツーエンドで同時生成するように設計されている。
論文 参考訳(メタデータ) (2024-08-13T04:33:23Z) - UnetTSF: A Better Performance Linear Complexity Time Series Prediction
Model [0.0]
本稿では,線形複雑度を持つU-Net時系列予測モデル(UnetTSF)を提案する。
時系列データから特徴を抽出するためにFPN技術を使ったのは、私たちが初めてです。
UnetTSFは複雑なトランスフォーマーベースPatchTSTと比較して、mseの9つの最適結果と32のテストプロジェクトにおけるmaeの15の最適結果を得た。
論文 参考訳(メタデータ) (2024-01-05T03:12:20Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Capturing Local Temperature Evolution during Additive Manufacturing
through Fourier Neural Operators [0.0]
本稿では, 加法製造過程における局所的な温度変化を捉えたデータ駆動モデルを提案する。
直接エネルギー沈着過程における不連続なガレルキン有限要素法に基づく数値シミュレーションで検証した。
その結果、このモデルはR2$で測定された高忠実度を実現し、トレーニングプロセスに含まれていない測地に対する一般化性を維持した。
論文 参考訳(メタデータ) (2023-07-04T16:17:59Z) - A Three-regime Model of Network Pruning [47.92525418773768]
我々は、ニューラルネットワーク(NN)トレーニングのハイパーパラメータが刈り取り性能に与える影響をモデル化するために、温度のようなパラメータと負荷のようなパラメータを使用します。
プレプルーニングモデルにおける負荷様パラメータの値に依存すると、プレプルーニングモデルにおける温度様パラメータの値が増加するか、その後のプルーニング性能が向上または損なわれる可能性がある。
本モデルでは, 高温のダイコトモス効果は, ポストプランニングモデルにおいて, 異なるタイプの大域構造間の遷移と関係していることが明らかとなった。
論文 参考訳(メタデータ) (2023-05-28T08:09:25Z) - Not All Semantics are Created Equal: Contrastive Self-supervised
Learning with Automatic Temperature Individualization [51.41175648612714]
分散ロバスト最適化(DRO)に着想を得た新しい頑健なコントラスト損失を提案する。
提案アルゴリズムは,各サンプルに対して適切な$tau$を自動で学習することを示す。
提案手法は, 単モーダル・バイモーダル・データセットにおいて, 従来の強いベースラインよりも優れていた。
論文 参考訳(メタデータ) (2023-05-19T19:25:56Z) - Fine-tune your Classifier: Finding Correlations With Temperature [2.071516130824992]
我々は、データセットを表現に計算された統計の集合として記述することで、分類タスクに対する温度の影響を分析する。
これらの抽出された統計値と観測された最適温度との相関について検討した。
論文 参考訳(メタデータ) (2022-10-18T09:48:46Z) - On generating parametrised structural data using conditional generative
adversarial networks [0.0]
我々は,GANアルゴリズムの変形を利用して人工データを生成する。
cGANは、ある範囲内の温度のいくつかの離散値のデータに基づいて訓練される。
この範囲のすべての温度について、十分な精度でデータを生成することができる。
論文 参考訳(メタデータ) (2022-03-03T11:02:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。