Fugu-MT 論文翻訳(概要): DIAMOND: An LLM-Driven Agent for Context-Aware Baseball Highlight Summarization

論文の概要: DIAMOND: An LLM-Driven Agent for Context-Aware Baseball Highlight Summarization

arxiv url: http://arxiv.org/abs/2506.02351v1
Date: Tue, 03 Jun 2025 01:10:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:35.186125
Title: DIAMOND: An LLM-Driven Agent for Context-Aware Baseball Highlight Summarization
Title（参考訳）: DIAMOND: コンテキスト認識型野球ハイライト要約のためのLLM駆動エージェント
Authors: Jeonghun Kang, Soonmok Kwon, Joonseok Lee, Byung-Hak Kim,
Abstract要約: 本稿では,コンテキスト認識型野球ハイライト要約エージェントであるDIAMONDを紹介する。構造化スポーツ分析と自然言語推論を用いて、プレイの重要性を定量化する。結果から,イベントレベルの要約のためのモジュール型,解釈可能なエージェントベースのフレームワークの可能性を強調した。
参考スコア（独自算出の注目度）: 9.67464173044675
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Traditional approaches -- such as Win Probability Added (WPA)-based ranking or computer vision-driven event detection -- can identify scoring plays but often miss strategic depth, momentum shifts, and storyline progression. Manual curation remains the gold standard but is resource-intensive and not scalable. We introduce DIAMOND, an LLM-driven agent for context-aware baseball highlight summarization that integrates structured sports analytics with natural language reasoning. DIAMOND leverages sabermetric features -- Win Expectancy, WPA, and Leverage Index -- to quantify play importance, while an LLM module enhances selection based on contextual narrative value. This hybrid approach ensures both quantitative rigor and qualitative richness, surpassing the limitations of purely statistical or vision-based systems. Evaluated on five diverse Korean Baseball Organization League games, DIAMOND improves F1-score from 42.9% (WPA-only) to 84.8%, outperforming both commercial and statistical baselines. Though limited in scale, our results highlight the potential of modular, interpretable agent-based frameworks for event-level summarization in sports and beyond.
Abstract（参考訳）: Win Probability Added (WPA)ベースのランキングやコンピュータビジョン駆動のイベント検出といった従来のアプローチは、スコアリングプレイを識別するが、戦略的な深さ、モーメントシフト、ストーリーラインの進行を見逃すことが多い。手作業によるキュレーションは依然としてゴールドスタンダードだが、リソース集約であり、スケーラブルではない。構造化スポーツ分析と自然言語推論を統合した,文脈認識型野球ハイライト要約のためのLLM駆動エージェントであるDIAMONDを紹介する。 DIAMONDは、Win expectancy、WPA、Levanage Indexといったサーベルメトリック機能を活用して、プレイの重要性を定量化します。このハイブリッドアプローチは、純粋に統計的または視覚に基づくシステムの制限を超越して、量的厳密性と質的リッチ性の両方を保証する。韓国野球組織リーグの5試合で評価されたDIAMONDはF1スコアを42.9%(WPAのみ)から84.8%に改善し、商業的ベースラインと統計的ベースラインの両方を上回っている。規模は限られているが,本研究の結果は,スポーツなどにおけるイベントレベルの要約のための,モジュラーで解釈可能なエージェントベースのフレームワークの可能性を強調している。

関連論文リスト

Who is a Better Player: LLM against LLM [53.46608216197315]
本稿では,大規模言語モデル (LLM) の総合的な性能を評価するための対戦型ベンチマークフレームワークを提案する。広範にプレイされている5つのゲームをサポートし,20のLDMを駆使したプレーヤーを対象とする,特別な評価プラットフォームであるQi Townを紹介した。
論文参考訳（メタデータ） (2025-08-05T06:41:47Z)
Benchmarking and Confidence Evaluation of LALMs For Temporal Reasoning [30.308743810639758]
大規模音声言語モデル(LALM)は、従来の分類や生成タスクとは異なる関連タスクの推論に基づいて評価する必要がある。オープンソースのLALMをベンチマークし、TREAデータセットのタスクにおいて、それらが人間の能力に一貫して遅れていることを観察する。分析の結果,精度と不確かさの指標が必ずしも相関しているわけではないことが示唆され,高感度アプリケーションにおけるLALMの全体評価の必要性が示唆された。
論文参考訳（メタデータ） (2025-05-19T13:46:35Z)
MoRE-LLM: Mixture of Rule Experts Guided by a Large Language Model [54.14155564592936]
大規模言語モデル(MoRE-LLM)によるルールエキスパートの混合を提案する。 MoRE-LLMは、トレーニング中の局所的なルールベースのサロゲートの発見と、それらの分類タスクの利用を操縦する。 LLMはルールを修正・コンテキスト化することで、ルールのドメイン知識の整合性を高める役割を担います。
論文参考訳（メタデータ） (2025-03-26T11:09:21Z)
ZeroSumEval: An Extensible Framework For Scaling LLM Evaluation with Inter-Model Competition [14.753916893216129]
ZeroSumEvalは,大規模言語モデル(LLM)のための動的かつ競争的かつ進化的な評価フレームワークである。 ZeroSumEvalには、セキュリティ上の課題(Capture the Flag)、古典的なボードゲーム(chs)、知識テスト(MathQuiz)など、さまざまな種類のゲームが含まれている。
論文参考訳（メタデータ） (2025-03-10T16:54:27Z)
Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文参考訳（メタデータ） (2025-02-21T02:03:08Z)
WiS Platform: Enhancing Evaluation of LLM-Based Multi-Agent Systems Through Game-Based Analysis [34.639887462203]
我々は、オープンでスケーラブルでリアルタイムに更新されたプラットフォームを導入し、ゲームに基づいてLLMベースのMASにアクセスし分析する(WiS)。本プラットフォームには,(1)H Face上で利用可能なモデルをサポートする統一型モデル評価インタフェース,(2)モデル評価のためのリアルタイム更新型リーダーボード,(3)ゲーム勝利率,攻撃,防衛戦略,LLMの推論に関する総合的評価の3つが特徴である。
論文参考訳（メタデータ） (2024-12-04T14:45:09Z)
Evaluating and Advancing Multimodal Large Language Models in Perception Ability Lens [30.083110119139793]
textbfAbilityLensはMLLMを6つの重要な知覚能力で評価する統合ベンチマークである。我々は、現在のメインストリームMLLMの長所と短所を特定し、安定性パターンを強調し、最先端のオープンソースモデルとクローズドソースモデルの顕著なパフォーマンスギャップを明らかにする。
論文参考訳（メタデータ） (2024-11-22T04:41:20Z)
Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文参考訳（メタデータ） (2024-10-16T07:49:13Z)
How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments [83.78240828340681]
GAMA($gamma$)-Benchは、マルチエージェント環境における大規模言語モデルのゲーム能力を評価するための新しいフレームワークである。 $gamma$-Benchは8つの古典ゲーム理論シナリオと、LSMの性能を評価するために特別に設計された動的スコアリングスキームを含んでいる。以上の結果から, GPT-3.5は強い強靭性を示すが, 一般化性は限定的であり, Chain-of-Thoughtのような手法で拡張可能であることが示唆された。
論文参考訳（メタデータ） (2024-03-18T14:04:47Z)
Leveraging Word Guessing Games to Assess the Intelligence of Large Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文参考訳（メタデータ） (2023-10-31T14:37:42Z)
Improving Open Information Extraction with Large Language Models: A Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文参考訳（メタデータ） (2023-09-07T01:35:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。