論文の概要: Input Matters: Evaluating Input Structure's Impact on LLM Summaries of Sports Play-by-Play
- arxiv url: http://arxiv.org/abs/2510.21034v2
- Date: Mon, 27 Oct 2025 11:49:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 13:14:10.638402
- Title: Input Matters: Evaluating Input Structure's Impact on LLM Summaries of Sports Play-by-Play
- Title(参考訳): 入力項目:スポーツ・バイ・プレイにおける入力構造の影響評価
- Authors: Barkavi Sundararajan, Somayajulu Sripada, Ehud Reiter,
- Abstract要約: NBAプレイ・バイ・プレイデータのLLM生成サマリーにおいて,入力構造が幻覚やその他の事実誤差に与える影響を定量化する。
2つのモデルで生成した180のゲームサマリーに対して,手動で3,312の事実誤りを警告した。
- 参考スコア(独自算出の注目度): 6.5280922902075345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A major concern when deploying LLMs in accuracy-critical domains such as sports reporting is that the generated text may not faithfully reflect the input data. We quantify how input structure affects hallucinations and other factual errors in LLM-generated summaries of NBA play-by-play data, across three formats: row-structured, JSON and unstructured. We manually annotated 3,312 factual errors across 180 game summaries produced by two models, Llama-3.1-70B and Qwen2.5-72B. Input structure has a strong effect: JSON input reduces error rates by 69% for Llama and 65% for Qwen compared to unstructured input, while row-structured input reduces errors by 54% for Llama and 51% for Qwen. A two-way repeated measures ANOVA shows that input structure accounts for over 80% of the variance in error rates, with Tukey HSD post hoc tests confirming statistically significant differences between all input formats.
- Abstract(参考訳): LLMをスポーツレポートのような正確でクリティカルなドメインにデプロイする際の大きな懸念は、生成されたテキストが入力データを忠実に反映していないことである。
NBAのプレイバイプレイデータのLLM生成サマリーにおいて,入力構造が幻覚やその他の事実エラーにどのように影響するかを,行構造,JSON,非構造化の3つのフォーマットで定量化する。
我々は,Llama-3.1-70BとQwen2.5-72Bという2つのモデルで生成した180のゲームサマリーに対して,3,312の事実誤りを手動で注釈付けした。
JSON入力はLlamaの69%、Qwenの65%、行構造化入力はLlamaの54%、Qwenの51%のエラーを削減します。
ANOVAは、入力構造が誤り率の80%以上を占めており、Tukey HSDポストホックテストでは、全ての入力形式間で統計的に有意な差が確認されている。
関連論文リスト
- Clotho: Measuring Task-Specific Pre-Generation Test Adequacy for LLM Inputs [6.862079218077768]
特定のタスクで大規模言語モデルをテストするのは難しくてコストがかかります。
重要な課題は、タスクの要求を反映した方法で入力精度を評価することである。
タスク固有のプレジェネレーションアプライバシ尺度であるCLOTHOを導入する。
論文 参考訳(メタデータ) (2025-09-22T02:34:09Z) - Input Reduction Enhanced LLM-based Program Repair [2.098274800451098]
テスト入力は失敗の根本原因の推論に不可欠です。
テストインプットがプロンプトで広まれば、これは"lost-in-the-middle"問題を引き起こし、修復性能を損なう可能性がある。
本稿では,テストインプットを自動的に削減し,フェール誘導動作を維持したAPRアプローチであるReduceeFixを提案する。
論文 参考訳(メタデータ) (2025-07-21T05:26:32Z) - Can We Enhance Bug Report Quality Using LLMs?: An Empirical Study of LLM-Based Bug Report Generation [0.0]
本稿では,命令微調整された大規模言語モデル(LLM)が,手軽で非構造化のバグレポートを,標準テンプレートに固執する高品質なバグレポートに自動変換できるかどうかを考察する。
我々は、ChatGPT-4oに対して3つのオープンソースの命令チューニングLDM(emphQwen 2.5, Mistral, Llama 3.2)を評価し、CTQRS、ROUGE、METEOR、SBERTなどの確立されたメトリクスの性能を測定した。
実験の結果,細調整Qwen 2.5はCTQRSスコアがtextbf77%であることがわかった。
論文 参考訳(メタデータ) (2025-04-26T05:15:53Z) - DRS: Deep Question Reformulation With Structured Output [133.24623742929776]
大規模言語モデル(LLM)は、解決不可能な質問を検知できるが、これらの質問の修正をユーザーが支援するのに苦労する。
DRS:Deep Question Reformulation with Structured Output, a novel zero-shot method to help users in reformulation question。
DRS は GPT-3.5 の改定精度を 23.03% から 70.42% に改善し,オープンソースモデルの性能も向上することを示した。
論文 参考訳(メタデータ) (2024-11-27T02:20:44Z) - Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [49.53589774730807]
マルチモーダル大規模言語モデル(MLLM)は近年,視覚的質問応答から映像理解に至るまでのタスクにおいて,最先端のパフォーマンスを実現している。
12件のオープンソースMLLMが, 単一の偽装キューを受けた65%の症例において, 既往の正解を覆した。
論文 参考訳(メタデータ) (2024-11-05T01:11:28Z) - Improving Factual Accuracy of Neural Table-to-Text Output by Addressing Input Problems in ToTTo [4.476276157188497]
ToTToデータセットの政治領域で複数のモデルによって生成された1,837のテキストを手動で注釈付けした。
我々は,多くの出力誤差の原因となる入力問題を同定し,これらの入力の修正が事実誤りを52%から76%減少させることを示す。
論文 参考訳(メタデータ) (2024-04-05T13:59:12Z) - Composed Fine-Tuning: Freezing Pre-Trained Denoising Autoencoders for
Improved Generalization [93.95299500688286]
本稿では,出力の妥当性制約を考慮した構造化出力の予測問題に焦点をあてる。
本稿では,事前学習したデノイザを組み込んだ予測器を微調整するファインチューニングを提案する。
2層ReLUネットワークの場合、構成した微調整が予測器の複雑さを著しく低減することを示す。
論文 参考訳(メタデータ) (2020-06-29T17:14:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。