論文の概要: DIAMOND: An LLM-Driven Agent for Context-Aware Baseball Highlight Summarization
- arxiv url: http://arxiv.org/abs/2506.02351v1
- Date: Tue, 03 Jun 2025 01:10:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.186125
- Title: DIAMOND: An LLM-Driven Agent for Context-Aware Baseball Highlight Summarization
- Title(参考訳): DIAMOND: コンテキスト認識型野球ハイライト要約のためのLLM駆動エージェント
- Authors: Jeonghun Kang, Soonmok Kwon, Joonseok Lee, Byung-Hak Kim,
- Abstract要約: 本稿では,コンテキスト認識型野球ハイライト要約エージェントであるDIAMONDを紹介する。
構造化スポーツ分析と自然言語推論を用いて、プレイの重要性を定量化する。
結果から,イベントレベルの要約のためのモジュール型,解釈可能なエージェントベースのフレームワークの可能性を強調した。
- 参考スコア(独自算出の注目度): 9.67464173044675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional approaches -- such as Win Probability Added (WPA)-based ranking or computer vision-driven event detection -- can identify scoring plays but often miss strategic depth, momentum shifts, and storyline progression. Manual curation remains the gold standard but is resource-intensive and not scalable. We introduce DIAMOND, an LLM-driven agent for context-aware baseball highlight summarization that integrates structured sports analytics with natural language reasoning. DIAMOND leverages sabermetric features -- Win Expectancy, WPA, and Leverage Index -- to quantify play importance, while an LLM module enhances selection based on contextual narrative value. This hybrid approach ensures both quantitative rigor and qualitative richness, surpassing the limitations of purely statistical or vision-based systems. Evaluated on five diverse Korean Baseball Organization League games, DIAMOND improves F1-score from 42.9% (WPA-only) to 84.8%, outperforming both commercial and statistical baselines. Though limited in scale, our results highlight the potential of modular, interpretable agent-based frameworks for event-level summarization in sports and beyond.
- Abstract(参考訳): Win Probability Added (WPA)ベースのランキングやコンピュータビジョン駆動のイベント検出といった従来のアプローチは、スコアリングプレイを識別するが、戦略的な深さ、モーメントシフト、ストーリーラインの進行を見逃すことが多い。
手作業によるキュレーションは依然としてゴールドスタンダードだが、リソース集約であり、スケーラブルではない。
構造化スポーツ分析と自然言語推論を統合した,文脈認識型野球ハイライト要約のためのLLM駆動エージェントであるDIAMONDを紹介する。
DIAMONDは、Win expectancy、WPA、Levanage Indexといったサーベルメトリック機能を活用して、プレイの重要性を定量化します。
このハイブリッドアプローチは、純粋に統計的または視覚に基づくシステムの制限を超越して、量的厳密性と質的リッチ性の両方を保証する。
韓国野球組織リーグの5試合で評価されたDIAMONDはF1スコアを42.9%(WPAのみ)から84.8%に改善し、商業的ベースラインと統計的ベースラインの両方を上回っている。
規模は限られているが,本研究の結果は,スポーツなどにおけるイベントレベルの要約のための,モジュラーで解釈可能なエージェントベースのフレームワークの可能性を強調している。
関連論文リスト
- Benchmarking and Confidence Evaluation of LALMs For Temporal Reasoning [30.308743810639758]
大規模音声言語モデル(LALM)は、従来の分類や生成タスクとは異なる関連タスクの推論に基づいて評価する必要がある。
オープンソースのLALMをベンチマークし、TREAデータセットのタスクにおいて、それらが人間の能力に一貫して遅れていることを観察する。
分析の結果,精度と不確かさの指標が必ずしも相関しているわけではないことが示唆され,高感度アプリケーションにおけるLALMの全体評価の必要性が示唆された。
論文 参考訳(メタデータ) (2025-05-19T13:46:35Z) - MoRE-LLM: Mixture of Rule Experts Guided by a Large Language Model [54.14155564592936]
大規模言語モデル(MoRE-LLM)によるルールエキスパートの混合を提案する。
MoRE-LLMは、トレーニング中の局所的なルールベースのサロゲートの発見と、それらの分類タスクの利用を操縦する。
LLMはルールを修正・コンテキスト化することで、ルールのドメイン知識の整合性を高める役割を担います。
論文 参考訳(メタデータ) (2025-03-26T11:09:21Z) - ZeroSumEval: An Extensible Framework For Scaling LLM Evaluation with Inter-Model Competition [14.753916893216129]
ZeroSumEvalは,大規模言語モデル(LLM)のための動的かつ競争的かつ進化的な評価フレームワークである。
ZeroSumEvalには、セキュリティ上の課題(Capture the Flag)、古典的なボードゲーム(chs)、知識テスト(MathQuiz)など、さまざまな種類のゲームが含まれている。
論文 参考訳(メタデータ) (2025-03-10T16:54:27Z) - Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。
本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。
鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文 参考訳(メタデータ) (2024-10-16T07:49:13Z) - How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments [83.78240828340681]
GAMA($gamma$)-Benchは、マルチエージェント環境における大規模言語モデルのゲーム能力を評価するための新しいフレームワークである。
$gamma$-Benchは8つの古典ゲーム理論シナリオと、LSMの性能を評価するために特別に設計された動的スコアリングスキームを含んでいる。
以上の結果から, GPT-3.5は強い強靭性を示すが, 一般化性は限定的であり, Chain-of-Thoughtのような手法で拡張可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T14:04:47Z) - Leveraging Word Guessing Games to Assess the Intelligence of Large
Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。
本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。
次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文 参考訳(メタデータ) (2023-10-31T14:37:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。