Fugu-MT 論文翻訳(概要): Within-Model vs Between-Prompt Variability in Large Language Models for Creative Tasks

論文の概要: Within-Model vs Between-Prompt Variability in Large Language Models for Creative Tasks

arxiv url: http://arxiv.org/abs/2601.21339v1
Date: Thu, 29 Jan 2026 07:04:46 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-30 16:22:49.633914
Title: Within-Model vs Between-Prompt Variability in Large Language Models for Creative Tasks
Title（参考訳）: 創造的タスクのための大規模言語モデルにおけるモデル内差とプロンプト間変動
Authors: Jennifer Haase, Jana Gonnermann-Müller, Paul H. P. Hanel, Nicolas Leins, Thomas Kosch, Jan Mendling, Sebastian Pokutta,
Abstract要約: 出力品質(原産地)については、モデル選択(40.94%)に匹敵する分散の36.43%を説明する。出力量(周波数)については、モデル選択(51.25%)とLLM内分散(33.70%)が支配的であり、プロンプトはわずか4.22%である。
参考スコア（独自算出の注目度）: 28.519894744091896
License: http://creativecommons.org/licenses/by/4.0/
Abstract: How much of LLM output variance is explained by prompts versus model choice versus stochasticity through sampling? We answer this by evaluating 12 LLMs on 10 creativity prompts with 100 samples each (N = 12,000). For output quality (originality), prompts explain 36.43% of variance, comparable to model choice (40.94%). But for output quantity (fluency), model choice (51.25%) and within-LLM variance (33.70%) dominate, with prompts explaining only 4.22%. Prompts are powerful levers for steering output quality, but given the substantial within-LLM variance (10-34%), single-sample evaluations risk conflating sampling noise with genuine prompt or model effects.
Abstract（参考訳）: LLM出力のバラツキは,サンプリングによるモデル選択と確率性によってどの程度説明されるのか? 100個のサンプル(N = 12,000)を10個のクリエイティビティプロンプトで評価することで,この問題に答える。出力品質(原産地)については、モデル選択(40.94%)に匹敵する分散の36.43%を説明する。しかし、出力量(周波数)ではモデル選択(51.25%)とLLM内分散(33.70%)が支配的であり、プロンプトはわずか4.22%である。プロンプトは出力品質を制御するための強力なレバーであるが、LLM内部のばらつき(10-34%)を考えると、単一サンプル評価は真のプロンプトやモデル効果でサンプリングノイズを拡散させるリスクを負う。

関連論文リスト

Large Language Models Are Bad Dice Players: LLMs Struggle to Generate Random Numbers from Statistical Distributions [50.1404916337174]
大規模言語モデル(LLM)における母国語の確率的サンプリングの大規模,統計的に活用された最初の監査について述べる。バッチ生成は, ほぼ完全に崩壊する一方, 中央値のパスレートが13%であり, 統計的妥当性はわずかであることがわかった。現在のLCMには機能的な内部サンプルが欠如しており、統計的保証を必要とするアプリケーションに外部ツールを使う必要があると結論付けている。
論文参考訳（メタデータ） (2026-01-08T22:33:12Z)
Scaling Trends for Multi-Hop Contextual Reasoning in Mid-Scale Language Models [0.0]
大規模言語モデルにおけるマルチホップ文脈推論の制御に関する研究について述べる。マルチエージェントシステムは逆パターンを示し、ルールベースのメソッドが失敗する推論タスクを最大80%達成する。
論文参考訳（メタデータ） (2026-01-06T20:18:55Z)
Uncertainty-Aware Answer Selection for Improved Reasoning in Multi-LLM Systems [55.6590601898194]
大規模言語モデル(LLM)は例外的な機能を示しているが、複数のLLMから最も信頼性の高い応答を選択することは依然として困難である。既存のアプローチは、しばしばコストのかかる外部検証器、人間の評価器、または単一のモデルから複数のサンプルを必要とする自己整合技術に依存している。校正されたログ類似度スコアを用いて,複数のLLMから最適な応答を選択するための,原理的,斬新で,計算的に効率的な手法を提案する。
論文参考訳（メタデータ） (2025-09-30T01:25:19Z)
FESTA: Functionally Equivalent Sampling for Trust Assessment of Multimodal LLMs [20.08099668437471]
マルチモーダル大言語モデル(MLLM)の生成した予測は、選択的な予測を可能にし、ユーザの信頼性を向上させることができる。 MLLMのマルチモーダル入力サンプリング技術であるFESTA(Functional Equivalent Smpling for Trust Assessment)を提案する。 FESTAは等価かつ相補的な入力サンプリングに基づいて不確実性尺度を生成する。
論文参考訳（メタデータ） (2025-09-20T11:50:22Z)
Flipping Against All Odds: Reducing LLM Coin Flip Bias via Verbalized Rejection Sampling [59.133428586090226]
大規模言語モデル(LLM)は、しばしば自然言語を用いて確率分布を正確に記述することができる。このミスマッチはモンテカルロ法、エージェントベースのシミュレーション、ランダム化された意思決定などの信頼性を必要とするタスクでの使用を制限する。本稿では,古典的リジェクションサンプリングの自然言語適応であるVerbalized Rejection Smpling (VRS)を紹介する。
論文参考訳（メタデータ） (2025-06-11T17:59:58Z)
Evaluating Binary Decision Biases in Large Language Models: Implications for Fair Agent-Based Financial Simulations [15.379345372327375]
エージェントベースの金融市場モデルにおいて、人間のような意思決定をシミュレートするために、LLM(Large Language Models)がますます使われている。我々は,2つのモデルサンプリングアプローチ(ワンショットと少数ショットのAPIクエリ)を用いて,最先端のGPTモデル3つをバイアスとして検証する。
論文参考訳（メタデータ） (2025-01-20T10:36:51Z)
Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [49.53589774730807]
マルチモーダル大規模言語モデル(MLLM)は近年,視覚的質問応答から映像理解に至るまでのタスクにおいて,最先端のパフォーマンスを実現している。 12件のオープンソースMLLMが, 単一の偽装キューを受けた65%の症例において, 既往の正解を覆した。
論文参考訳（メタデータ） (2024-11-05T01:11:28Z)
How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。 GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文参考訳（メタデータ） (2024-02-20T18:31:27Z)
Let's Sample Step by Step: Adaptive-Consistency for Efficient Reasoning and Coding with LLMs [60.58434523646137]
大規模言語モデル(LLM)からの出力の正確性を改善するための一般的なアプローチは、自己整合性である。コスト効率のよいモデルに依存しない手法であるAdaptive-Consistencyを導入し,各質問のサンプル数を動的に調整する。実験の結果,Adaptive-Consistencyはサンプル予算を最大7.9倍に削減し,平均精度は0.1%以下であった。
論文参考訳（メタデータ） (2023-05-19T17:49:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。