論文の概要: BADGE: BADminton report Generation and Evaluation with LLM
- arxiv url: http://arxiv.org/abs/2406.18116v1
- Date: Wed, 26 Jun 2024 07:07:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 14:28:34.620955
- Title: BADGE: BADminton report Generation and Evaluation with LLM
- Title(参考訳): BADGE: LLMによるBADmintonレポートの生成と評価
- Authors: Shang-Hsuan Chiang, Lin-Wei Chao, Kuang-Da Wang, Chih-Chuan Wang, Wen-Chih Peng,
- Abstract要約: 我々は,この目的のためにLarge Language Model (LLM) を用いて設計した BADGE という新しいフレームワークを紹介する。
本手法は,レポート生成とレポート評価の2つの主要なフェーズから構成される。
GPT-4による評価結果と人的判断結果との比較では,GPT-4による報告が好まれる傾向が見られた。
- 参考スコア(独自算出の注目度): 8.300544830497607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Badminton enjoys widespread popularity, and reports on matches generally include details such as player names, game scores, and ball types, providing audiences with a comprehensive view of the games. However, writing these reports can be a time-consuming task. This challenge led us to explore whether a Large Language Model (LLM) could automate the generation and evaluation of badminton reports. We introduce a novel framework named BADGE, designed for this purpose using LLM. Our method consists of two main phases: Report Generation and Report Evaluation. Initially, badminton-related data is processed by the LLM, which then generates a detailed report of the match. We tested different Input Data Types, In-Context Learning (ICL), and LLM, finding that GPT-4 performs best when using CSV data type and the Chain of Thought prompting. Following report generation, the LLM evaluates and scores the reports to assess their quality. Our comparisons between the scores evaluated by GPT-4 and human judges show a tendency to prefer GPT-4 generated reports. Since the application of LLM in badminton reporting remains largely unexplored, our research serves as a foundational step for future advancements in this area. Moreover, our method can be extended to other sports games, thereby enhancing sports promotion. For more details, please refer to https://github.com/AndyChiangSH/BADGE.
- Abstract(参考訳): バドミントンは広く人気があり、試合の報告には一般にプレイヤー名、ゲームスコア、ボールタイプなどの詳細が含まれており、観客にゲームの総合的なビューを提供する。
しかし、これらのレポートを書くのは時間がかかります。
この課題により、我々はLarge Language Model(LLM)がバドミントンレポートの生成と評価を自動化できるかどうかを探ることができた。
本稿では,この目的のために LLM を用いて設計した BADGE という新しいフレームワークを紹介する。
本手法は,レポート生成とレポート評価の2つの主要なフェーズから構成される。
最初、バドミントンに関連するデータはLLMによって処理され、マッチの詳細なレポートが生成される。
我々は、入力データ型、ICL(In-Context Learning)、LCM(LCM)をそれぞれテストし、CSVデータ型と思考の連鎖を用いた場合、GPT-4が最適であることを示した。
レポート生成後、LCMはレポートを評価し、その品質を評価する。
GPT-4による評価結果と人的判断結果との比較では,GPT-4による報告が好まれる傾向が見られた。
バドミントン報告へのLLMの適用は未解明のままであり,本研究は今後の発展に向けた基礎的なステップとなる。
さらに,本手法は他のスポーツゲームにも拡張可能であり,スポーツ振興の促進が図られる。
詳細はhttps://github.com/AndyChiangSH/BADGEを参照してください。
関連論文リスト
- Evaluating Large Language Models with Grid-Based Game Competitions: An Extensible LLM Benchmark and Leaderboard [0.0]
我々は,Tic-Tac-Toe,Connect Four,Gomokuなどのグリッドベースのゲームを通じて,大規模言語モデル(LLM)の新たなベンチマークを導入する。
GitHubで利用可能なオープンソースのゲームシミュレーションコードにより、LSMは、詳細なデータファイルと競合し、生成することができる。
本稿では,Orthropic の Claude 3.5 Sonnet と Claude 3 Sonnet,Google の Gemini 1.5 Pro と Gemini Flash,OpenAI の GPT-4 Turbo と GPT-4o,Meta の Llama3-70B などの主要な LLM のゲーム結果を紹介する。
論文 参考訳(メタデータ) (2024-07-10T16:14:34Z) - Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games [56.70628673595041]
大規模言語モデル(LLM)は、現実世界での利用が増えているが、その戦略能力はほとんど解明されていない。
戦略ゲーム,Stag Hunt と Prisoner Dilemma における LLM の動作について検討し,異なる設定とプロンプト下での性能変動を分析した。
以上の結果から,(1)位置バイアス,(2)支払いバイアス,(3)行動バイアスの少なくとも1つが評価された。
論文 参考訳(メタデータ) (2024-07-05T12:30:02Z) - When Reasoning Meets Information Aggregation: A Case Study with Sports Narratives [46.04238534224658]
スポーツ物語の分析を LLM が要求する推論における情報集約の重要性について検討する。
我々はNBAの実際のバスケットボールデータを用いて総合的な実験を行い、ゲーム物語を合成する新しい手法であるSportsGenを提示する。
その結果, GPT-4oを含むほとんどのモデルでは, 頻繁な得点パターンのため, バスケットボールの得点を正確に集計することができないことが判明した。
論文 参考訳(メタデータ) (2024-06-17T20:49:35Z) - MiniCheck: Efficient Fact-Checking of LLMs on Grounding Documents [62.02920842630234]
GPT-4レベルの性能を持つ小型モデルを400倍のコストで構築する方法を示す。
既存のデータセットを LLM-AggreFact ベンチマークにまとめる。
我々の最良のシステム MiniCheck-FT5 (770Mパラメータ) は、同等の大きさの全てのシステムより優れ、GPT-4精度に達する。
論文 参考訳(メタデータ) (2024-04-16T17:59:10Z) - Benchmarking LLMs on the Semantic Overlap Summarization Task [9.656095701778975]
本稿では,セマンティック・オーバーラップ・サマリゼーション(SOS)タスクにおいて,Large Language Models (LLM) を包括的に評価する。
本稿では, ROUGE, BERTscore, SEM-F1$などの定評ある指標を, 2種類の代替物語のデータセット上で報告する。
論文 参考訳(メタデータ) (2024-02-26T20:33:50Z) - SportsMetrics: Blending Text and Numerical Data to Understand Information Fusion in LLMs [43.514367330413144]
スポーツデータ分析を中心とした4つの新しいタスクを導入し,LLMの数値推論と情報融合能力を評価する。
これらのタスクは、LEMに詳細なプレイバイプレイのスポーツゲーム記述を提供し、敵のシナリオでそれらに挑戦する。
NBAおよびNFLゲームにおいて、これらのタスクにおけるLLMの性能を評価するための広範な実験を行う。
論文 参考訳(メタデータ) (2024-02-15T20:26:07Z) - A Closer Look into Automatic Evaluation Using Large Language Models [75.49360351036773]
評価プロセスの細部が、LLMが与える評価と人間の評価との相関性をどのように変化させるかについて議論する。
G-Evalで使用されるAuto Chain-of-Thought (CoT)は、必ずしもG-Evalを人間の評価に適合させるものではない。
また、LLMにG-Evalのように、数値評価のみを出力させることが、最適以下であることも示している。
論文 参考訳(メタデータ) (2023-10-09T12:12:55Z) - Large Language Models are Zero-Shot Rankers for Recommender Systems [76.02500186203929]
本研究では,レコメンダシステムのランキングモデルとして機能する大規模言語モデル(LLM)の能力を検討することを目的とする。
LLMにはゼロショットランキング能力があるが、歴史的相互作用の順序を理解するのに苦労していることを示す。
これらの問題は、特別に設計されたプロンプトとブートストラップ戦略によって緩和可能であることを実証する。
論文 参考訳(メタデータ) (2023-05-15T17:57:39Z) - Is ChatGPT Good at Search? Investigating Large Language Models as
Re-Ranking Agents [56.104476412839944]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。
本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。
LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。
実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文 参考訳(メタデータ) (2023-04-19T10:16:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。