論文の概要: DIAMOND: An LLM-Driven Agent for Context-Aware Baseball Highlight Summarization
- arxiv url: http://arxiv.org/abs/2506.02351v1
- Date: Tue, 03 Jun 2025 01:10:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.186125
- Title: DIAMOND: An LLM-Driven Agent for Context-Aware Baseball Highlight Summarization
- Title(参考訳): DIAMOND: コンテキスト認識型野球ハイライト要約のためのLLM駆動エージェント
- Authors: Jeonghun Kang, Soonmok Kwon, Joonseok Lee, Byung-Hak Kim,
- Abstract要約: 本稿では,コンテキスト認識型野球ハイライト要約エージェントであるDIAMONDを紹介する。
構造化スポーツ分析と自然言語推論を用いて、プレイの重要性を定量化する。
結果から,イベントレベルの要約のためのモジュール型,解釈可能なエージェントベースのフレームワークの可能性を強調した。
- 参考スコア(独自算出の注目度): 9.67464173044675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional approaches -- such as Win Probability Added (WPA)-based ranking or computer vision-driven event detection -- can identify scoring plays but often miss strategic depth, momentum shifts, and storyline progression. Manual curation remains the gold standard but is resource-intensive and not scalable. We introduce DIAMOND, an LLM-driven agent for context-aware baseball highlight summarization that integrates structured sports analytics with natural language reasoning. DIAMOND leverages sabermetric features -- Win Expectancy, WPA, and Leverage Index -- to quantify play importance, while an LLM module enhances selection based on contextual narrative value. This hybrid approach ensures both quantitative rigor and qualitative richness, surpassing the limitations of purely statistical or vision-based systems. Evaluated on five diverse Korean Baseball Organization League games, DIAMOND improves F1-score from 42.9% (WPA-only) to 84.8%, outperforming both commercial and statistical baselines. Though limited in scale, our results highlight the potential of modular, interpretable agent-based frameworks for event-level summarization in sports and beyond.
- Abstract(参考訳): Win Probability Added (WPA)ベースのランキングやコンピュータビジョン駆動のイベント検出といった従来のアプローチは、スコアリングプレイを識別するが、戦略的な深さ、モーメントシフト、ストーリーラインの進行を見逃すことが多い。
手作業によるキュレーションは依然としてゴールドスタンダードだが、リソース集約であり、スケーラブルではない。
構造化スポーツ分析と自然言語推論を統合した,文脈認識型野球ハイライト要約のためのLLM駆動エージェントであるDIAMONDを紹介する。
DIAMONDは、Win expectancy、WPA、Levanage Indexといったサーベルメトリック機能を活用して、プレイの重要性を定量化します。
このハイブリッドアプローチは、純粋に統計的または視覚に基づくシステムの制限を超越して、量的厳密性と質的リッチ性の両方を保証する。
韓国野球組織リーグの5試合で評価されたDIAMONDはF1スコアを42.9%(WPAのみ)から84.8%に改善し、商業的ベースラインと統計的ベースラインの両方を上回っている。
規模は限られているが,本研究の結果は,スポーツなどにおけるイベントレベルの要約のための,モジュラーで解釈可能なエージェントベースのフレームワークの可能性を強調している。
関連論文リスト
- Real-time Win Probability and Latent Player Ability via STATS X in Team Sports [0.0]
本研究では,チームスポーツにおける実時間勝利確率評価と選手評価のための統計的基盤となる枠組みを提案する。
最終スコアを勝敗と一致した実値にマップする連続支配指標(Tスコア)を導入する。
また、プレイヤーの優位区間への関与を定量化する潜在貢献指数 STATS X も定義する。
論文 参考訳(メタデータ) (2026-02-23T05:00:44Z) - BotzoneBench: Scalable LLM Evaluation via Graded AI Anchors [9.224594551677374]
大規模言語モデル(LLM)は、戦略的意思決定を必要とする対話型環境にますます多くデプロイされている。
近年のゲームベース評価では, LLM-vs-LLMトーナメントが採用されている。
本稿では,LLMの評価をAI(Artificial Intelligence)の固定階層に固定することで,線形時間絶対スキル測定が可能となることを示す。
論文 参考訳(メタデータ) (2026-01-22T13:15:08Z) - BEAR: Benchmarking and Enhancing Multimodal Language Models for Atomic Embodied Capabilities [61.173773299032746]
身体能力とは、エージェントが物理的世界を理解し、理解し、相互作用する一連の基本的な能力を指す。
我々は,原子エンボディド能力のMLLMを評価する,包括的できめ細かなベンチマークであるBEARを紹介する。
BEARは、低レベルポインティング、軌跡理解、空間的推論、高レベルプランニングといったタスクを含む、14のドメインにまたがる4,469のインターリーブイメージビデオテキストエントリで構成されている。
我々は,MLLM知覚,3D理解,計画能力を強化するために,事前学習された視覚モデルを統合するマルチモーダル・コンバータブルエージェントであるBEAR-Agentを提案する。
論文 参考訳(メタデータ) (2025-10-09T19:18:36Z) - LLMsPark: A Benchmark for Evaluating Large Language Models in Strategic Gaming Contexts [19.97430860742638]
本稿では,大規模言語モデルの意思決定戦略と社会行動を測定するゲーム理論に基づく評価プラットフォームについて述べる。
本システムでは,トップボードランキングとスコアリング機構を用いて,15のLLMを横断的に評価する。
この研究は、LLMの戦略的知性を評価するための新しい視点を導入し、既存のベンチマークを強化し、インタラクティブでゲーム理論的なシナリオにおけるそれらの評価を広げる。
論文 参考訳(メタデータ) (2025-09-20T10:21:17Z) - SKATE, a Scalable Tournament Eval: Weaker LLMs differentiate between stronger ones using verifiable challenges [2.184775414778289]
大規模言語モデル(LLM)が互いに検証可能なタスクを生成することによって競合する新しい評価フレームワークであるSKATEを紹介する。
私たちのコアは、タスクセットとソルバの両方のモデルとしての評価をゲームとして扱うことです。
TrueSkillベースのランキングシステムを用いて、6つのLCMを評価し、(1)より弱いモデルでは、より強力なモデルを確実に識別し、スコア付けすることができ、(2)LSMベースのシステムは、自己参照の振る舞いを可能とし、自己の能力に合わせた質問を生成し、(3)SKATEは自動的に、きめ細かな表面を呈する。
論文 参考訳(メタデータ) (2025-08-08T08:16:40Z) - Who is a Better Player: LLM against LLM [53.46608216197315]
本稿では,大規模言語モデル (LLM) の総合的な性能を評価するための対戦型ベンチマークフレームワークを提案する。
広範にプレイされている5つのゲームをサポートし,20のLDMを駆使したプレーヤーを対象とする,特別な評価プラットフォームであるQi Townを紹介した。
論文 参考訳(メタデータ) (2025-08-05T06:41:47Z) - Benchmarking and Confidence Evaluation of LALMs For Temporal Reasoning [30.308743810639758]
大規模音声言語モデル(LALM)は、従来の分類や生成タスクとは異なる関連タスクの推論に基づいて評価する必要がある。
オープンソースのLALMをベンチマークし、TREAデータセットのタスクにおいて、それらが人間の能力に一貫して遅れていることを観察する。
分析の結果,精度と不確かさの指標が必ずしも相関しているわけではないことが示唆され,高感度アプリケーションにおけるLALMの全体評価の必要性が示唆された。
論文 参考訳(メタデータ) (2025-05-19T13:46:35Z) - MoRE-LLM: Mixture of Rule Experts Guided by a Large Language Model [54.14155564592936]
大規模言語モデル(MoRE-LLM)によるルールエキスパートの混合を提案する。
MoRE-LLMは、トレーニング中の局所的なルールベースのサロゲートの発見と、それらの分類タスクの利用を操縦する。
LLMはルールを修正・コンテキスト化することで、ルールのドメイン知識の整合性を高める役割を担います。
論文 参考訳(メタデータ) (2025-03-26T11:09:21Z) - ZeroSumEval: An Extensible Framework For Scaling LLM Evaluation with Inter-Model Competition [14.753916893216129]
ZeroSumEvalは,大規模言語モデル(LLM)のための動的かつ競争的かつ進化的な評価フレームワークである。
ZeroSumEvalには、セキュリティ上の課題(Capture the Flag)、古典的なボードゲーム(chs)、知識テスト(MathQuiz)など、さまざまな種類のゲームが含まれている。
論文 参考訳(メタデータ) (2025-03-10T16:54:27Z) - Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - WiS Platform: Enhancing Evaluation of LLM-Based Multi-Agent Systems Through Game-Based Analysis [34.639887462203]
我々は、オープンでスケーラブルでリアルタイムに更新されたプラットフォームを導入し、ゲームに基づいてLLMベースのMASにアクセスし分析する(WiS)。
本プラットフォームには,(1)H Face上で利用可能なモデルをサポートする統一型モデル評価インタフェース,(2)モデル評価のためのリアルタイム更新型リーダーボード,(3)ゲーム勝利率,攻撃,防衛戦略,LLMの推論に関する総合的評価の3つが特徴である。
論文 参考訳(メタデータ) (2024-12-04T14:45:09Z) - Evaluating and Advancing Multimodal Large Language Models in Perception Ability Lens [30.083110119139793]
textbfAbilityLensはMLLMを6つの重要な知覚能力で評価する統合ベンチマークである。
我々は、現在のメインストリームMLLMの長所と短所を特定し、安定性パターンを強調し、最先端のオープンソースモデルとクローズドソースモデルの顕著なパフォーマンスギャップを明らかにする。
論文 参考訳(メタデータ) (2024-11-22T04:41:20Z) - Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。
本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。
鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文 参考訳(メタデータ) (2024-10-16T07:49:13Z) - How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments [83.78240828340681]
GAMA($gamma$)-Benchは、マルチエージェント環境における大規模言語モデルのゲーム能力を評価するための新しいフレームワークである。
$gamma$-Benchは8つの古典ゲーム理論シナリオと、LSMの性能を評価するために特別に設計された動的スコアリングスキームを含んでいる。
以上の結果から, GPT-3.5は強い強靭性を示すが, 一般化性は限定的であり, Chain-of-Thoughtのような手法で拡張可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T14:04:47Z) - Leveraging Word Guessing Games to Assess the Intelligence of Large
Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。
本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。
次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文 参考訳(メタデータ) (2023-10-31T14:37:42Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。