Fugu-MT 論文翻訳(概要): A Regression Framework for Understanding Prompt Component Impact on LLM Performance

論文の概要: A Regression Framework for Understanding Prompt Component Impact on LLM Performance

arxiv url: http://arxiv.org/abs/2603.26830v1
Date: Fri, 27 Mar 2026 04:13:39 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-31 23:18:44.650317
Title: A Regression Framework for Understanding Prompt Component Impact on LLM Performance
Title（参考訳）: LLM性能に対するプロンプト成分の影響を理解するための回帰フレームワーク
Authors: Andrew Lauziere, Jonathan Daugherty, Taisa Kushner,
Abstract要約: 本稿では,大規模言語モデル(LLM)の性能に対する特定のプロンプト機能の影響を理解するための統計的枠組みを提案する。本研究では,2つのオープンソースモデルであるMistral-7B と GPT-OSS-20B を比較し,簡単な算術問題を実行するためのプロンプトを利用する方法を提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As large language models (LLMs) continue to improve and see further integration into software systems, so does the need to understand the conditions in which they will perform. We contribute a statistical framework for understanding the impact of specific prompt features on LLM performance. The approach extends previous explainable artificial intelligence (XAI) methods specifically to inspect LLMs by fitting regression models relating portions of the prompt to LLM evaluation. We apply our method to compare how two open-source models, Mistral-7B and GPT-OSS-20B, leverage the prompt to perform a simple arithmetic problem. Regression models of individual prompt portions explain 72% and 77% of variation in model performances, respectively. We find misinformation in the form of incorrect example query-answer pairs impedes both models from solving the arithmetic query, though positive examples do not find significant variability in the impact of positive and negative instructions - these prompts have contradictory effects on model performance. The framework serves as a tool for decision makers in critical scenarios to gain granular insight into how the prompt influences an LLM to solve a task.
Abstract（参考訳）: 大規模言語モデル(LLM)が改善を続け、ソフトウェアシステムへのさらなる統合を見ていくにつれ、彼らが実行する条件を理解する必要がある。 LLMの性能に対する特定のプロンプト特徴の影響を理解するための統計的枠組みを提供する。この手法は、従来の説明可能な人工知能(XAI)手法を拡張して、プロンプトの一部に関連する回帰モデルをLLM評価に適用することにより、LSMを検査する。本研究では,2つのオープンソースモデルであるMistral-7B と GPT-OSS-20B を比較し,簡単な算術問題を実行するためのプロンプトを利用する方法を提案する。個々のプロンプト部分の回帰モデルは、それぞれモデルパフォーマンスの72%と77%のバリエーションを説明する。正の例は正と負の命令の影響に有意なばらつきを見出さないが,これらはモデル性能に矛盾する影響がある。このフレームワークは、重要なシナリオにおける意思決定者のためのツールとして機能し、プロンプトがタスクの解決にLLMにどのように影響するか、詳細な洞察を得る。

関連論文リスト

Behavior and Representation in Large Language Models for Combinatorial Optimization: From Feature Extraction to Algorithm Selection [2.6285579209051284]
大規模言語モデル(LLM)は、最適化における自動化の新しい視点を開いた。本研究では,LLMが内部的に最適化問題を表現する方法と,そのような表現が下流決定タスクをサポートするかどうかを検討する。
論文参考訳（メタデータ） (2025-12-15T14:28:35Z)
What Works for 'Lost-in-the-Middle' in LLMs? A Study on GM-Extract and Mitigations [1.2879523047871226]
GM-Extract は制御変数の検索において LLM 性能を評価するために慎重に設計された新しいベンチマークデータセットである。 2つのマルチドキュメントタスク(キー値抽出と質問応答)における7-8Bパラメータモデルの体系的評価を行う。明瞭なU字曲線は一貫して観測されなかったが,本研究では,モデル間での明らかな性能パターンを明らかにした。
論文参考訳（メタデータ） (2025-11-17T20:50:50Z)
Verifying Large Language Models' Reasoning Paths via Correlation Matrix Rank [71.09032766271493]
大規模言語モデル (LLM) は誤りや幻覚を引き起こす傾向がある。アウトプットを効果的かつ効率的にチェックする方法は、アプリケーションにとって重要な問題となっている。
論文参考訳（メタデータ） (2025-10-28T11:01:10Z)
How Good are LLM-based Rerankers? An Empirical Analysis of State-of-the-Art Reranking Models [24.90505576458548]
我々は,大規模言語モデル(LLM)に基づく,軽量なコンテクストとゼロショットアプローチを含む,最先端のリグレード手法の評価を行った。我々の第一の目的は、LLMベースのリランカと軽量なリランカの間に性能格差が存在するかどうか、制御と公正な比較によって決定することである。
論文参考訳（メタデータ） (2025-08-22T19:30:04Z)
LLMs as Data Annotators: How Close Are We to Human Performance [47.61698665650761]
データのマニュアルアノテーションは、労働集約的で、時間がかかり、コストがかかる。 In-context Learning (ICL) では、タスクに関連するいくつかの例がプロンプトで与えられると、非効率性や準最適モデルの性能につながる可能性がある。本稿では,NERタスクの様々なデータセットに対して,異なる埋め込みモデルを考慮した複数のLLMの比較実験を行う。
論文参考訳（メタデータ） (2025-04-21T11:11:07Z)
The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文参考訳（メタデータ） (2025-01-15T10:57:55Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
RETAIN: Interactive Tool for Regression Testing Guided LLM Migration [8.378294455013284]
RETAIN(Regression Testing Guided LLM migrAtIoN)は、LLMマイグレーションにおける回帰テスト用に明示的に設計されたツールである。自動評価と経験的ユーザスタディにより、RETAINは手動による評価と比較して、参加者が2倍のエラーを識別し、75%以上のプロンプトで実験し、与えられた時間枠で12%高いスコアを得ることができた。
論文参考訳（メタデータ） (2024-09-05T22:22:57Z)
Regression-aware Inference with LLMs [52.764328080398805]
提案手法は,一般的な回帰と評価指標に準最適であることを示す。本稿では,ベイズ最適解を推定し,サンプル応答からクローズド形式の評価指標を推定する代替推論手法を提案する。
論文参考訳（メタデータ） (2024-03-07T03:24:34Z)
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文参考訳（メタデータ） (2023-10-19T06:37:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。