論文の概要: Evaluating The Impact of Stimulus Quality in Investigations of LLM Language Performance
- arxiv url: http://arxiv.org/abs/2510.06018v1
- Date: Tue, 07 Oct 2025 15:16:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.307478
- Title: Evaluating The Impact of Stimulus Quality in Investigations of LLM Language Performance
- Title(参考訳): LLM言語の性能評価における刺激品質の影響評価
- Authors: Timothy Pistotti, Jason Brown, Michael Witbrock,
- Abstract要約: 本稿では,語彙的曖昧さや構造的複雑さを含む刺激特性がモデル性能を損なう可能性があるという仮説を考察する。
GPT-2に着目し, 構文予測におけるLLM能力の再評価手法を提案する。
以上の結果より, GPT-2はこれらの改良PG刺激に対して, 基線よりも顕著に改善したことが示唆された。
- 参考スコア(独自算出の注目度): 9.161468569386708
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies employing Large Language Models (LLMs) to test the Argument from the Poverty of the Stimulus (APS) have yielded contrasting results across syntactic phenomena. This paper investigates the hypothesis that characteristics of the stimuli used in recent studies, including lexical ambiguities and structural complexities, may confound model performance. A methodology is proposed for re-evaluating LLM competence on syntactic prediction, focusing on GPT-2. This involves: 1) establishing a baseline on previously used (both filtered and unfiltered) stimuli, and 2) generating a new, refined dataset using a state-of-the-art (SOTA) generative LLM (Gemini 2.5 Pro Preview) guided by linguistically-informed templates designed to mitigate identified confounds. Our preliminary findings indicate that GPT-2 demonstrates notably improved performance on these refined PG stimuli compared to baselines, suggesting that stimulus quality significantly influences outcomes in surprisal-based evaluations of LLM syntactic competency.
- Abstract(参考訳): 近年,Large Language Models (LLMs) を用いて,Stimulus Poverty of the Stimulus (APS) からArgumentを検証している。
本稿では,近年の研究では,語彙的曖昧さや構造的複雑さなど,刺激の特性がモデル性能を損なう可能性があるという仮説を考察する。
GPT-2に着目し, 構文予測におけるLLM能力の再評価手法を提案する。
これには以下のものがある。
1) 前回使用した(ろ過及びろ過の両方)刺激の基準線の設定、及び
2) 言語的にインフォームドされたテンプレートを用いて,SOTA (State-of-the-art) 生成型 LLM (Gemini 2.5 Pro Preview) を用いた新しい改良データセットの作成を行った。
予備的な知見は, GPT-2がこれらの改良PG刺激に対して, ベースラインよりも顕著に改善したことを示唆し, 刺激品質がLLM構文能力の予備的評価において, 結果に有意な影響を及ぼすことを示唆している。
関連論文リスト
- Exploring Gaps in the APS: Direct Minimal Pair Analysis in LLM Syntactic Assessments [9.161468569386708]
本論文は, 直接最小対アプローチにより, より高い診断透過性が得られることを主張する。
GPT-2は4つの試験条件のすべてで成功し、フィラーギャップライセンスの原則に関する堅牢な知識が示される。
論文 参考訳(メタデータ) (2025-10-07T15:03:09Z) - Iterative Augmentation with Summarization Refinement (IASR) Evaluation for Unstructured Survey data Modeling and Analysis [0.43988112145759295]
本研究は,大規模言語モデル(LLM)に基づくテキスト拡張のための原則的評価フレームワークを導入する。
実証評価の結果, GPT-3.5 Turbo はセマンティック忠実度, 多様性, 生成効率の最良のバランスを達成できた。
論文 参考訳(メタデータ) (2025-07-16T10:49:30Z) - Evaluating Large Language Model Capabilities in Assessing Spatial Econometrics Research [0.0]
28の論文から、オリジナルかつ意図的に変更された「偽造」要約を作成しました。
その結果, LLMは変数選択のコヒーレンスを専門的に評価できるが, より深い側面を評価した場合, その性能は著しく変化することがわかった。
論文 参考訳(メタデータ) (2025-06-04T16:30:57Z) - T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:44:59Z) - Estimating Commonsense Plausibility through Semantic Shifts [66.06254418551737]
セマンティックシフトを測定することでコモンセンスの妥当性を定量化する新しい識別フレームワークであるComPaSSを提案する。
2種類の細粒度コモンセンス可視性評価タスクの評価は,ComPaSSが一貫してベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-19T06:31:06Z) - LLMs are Biased Evaluators But Not Biased for Retrieval Augmented Generation [28.61326111959728]
大規模言語モデル(LLM)は評価タスク、特に優先的に評価し、自己生成したコンテンツを好む場合に重大なバイアスを示す。
本研究では,この知識ギャップを,検索強化世代(RAG)フレームワークの2つの重要なフェーズをシミュレートすることによって解決する。
以上の結果とは対照的に,RAGフレームワークに有意な自己選好効果は認められなかった。
論文 参考訳(メタデータ) (2024-10-28T08:32:09Z) - PoLLMgraph: Unraveling Hallucinations in Large Language Models via State Transition Dynamics [51.17512229589]
PoLLMgraphは、大規模言語モデルのためのモデルベースのホワイトボックス検出および予測手法である。
LLMの内部状態遷移ダイナミクスを解析することにより,幻覚を効果的に検出できることを示す。
我々の研究は、LLMのモデルベースのホワイトボックス分析の新しい手法を開拓し、LLMの振る舞いの複雑なダイナミクスをさらに探求し、理解し、洗練する研究コミュニティを動機付けている。
論文 参考訳(メタデータ) (2024-04-06T20:02:20Z) - Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。
本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。
これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文 参考訳(メタデータ) (2024-03-22T14:47:35Z) - An Examination of the Compositionality of Large Generative Vision-Language Models [7.639748270719836]
GVLM(Generative Vision-Language Models)はマルチモーダル・インストラクション・チューニングによって構築されている。
本稿では,GVLMの構成性を評価するための評価指標(VisualGPTScoreなど)と現在のベンチマークについて検討する。
我々は,GVLMの言語的能力を利用して,現在のベンチマークにおける構文バイアスを同定する。
論文 参考訳(メタデータ) (2023-08-21T06:50:29Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。