論文の概要: Can Large Language Models Capture Video Game Engagement?
- arxiv url: http://arxiv.org/abs/2502.04379v1
- Date: Wed, 05 Feb 2025 17:14:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:59:09.085227
- Title: Can Large Language Models Capture Video Game Engagement?
- Title(参考訳): 大規模言語モデルはゲームエンゲージメントをキャプチャできるか?
- Authors: David Melhart, Matthew Barthet, Georgios N. Yannakakis,
- Abstract要約: 我々は、ビデオの連続的な影響アノテーションを注釈化し、うまく予測する一般的な大規模言語モデルの能力を包括的に評価する。
我々は, LLMアーキテクチャ, モデルサイズ, 入力モダリティ, プロンプト戦略, エンゲージメント予測に対する接地真理処理法の影響について, 2400以上の実験を行った。
- 参考スコア(独自算出の注目度): 1.3873323883842132
- License:
- Abstract: Can out-of-the-box pretrained Large Language Models (LLMs) detect human affect successfully when observing a video? To address this question, for the first time, we evaluate comprehensively the capacity of popular LLMs to annotate and successfully predict continuous affect annotations of videos when prompted by a sequence of text and video frames in a multimodal fashion. Particularly in this paper, we test LLMs' ability to correctly label changes of in-game engagement in 80 minutes of annotated videogame footage from 20 first-person shooter games of the GameVibe corpus. We run over 2,400 experiments to investigate the impact of LLM architecture, model size, input modality, prompting strategy, and ground truth processing method on engagement prediction. Our findings suggest that while LLMs rightfully claim human-like performance across multiple domains, they generally fall behind capturing continuous experience annotations provided by humans. We examine some of the underlying causes for the relatively poor overall performance, highlight the cases where LLMs exceed expectations, and draw a roadmap for the further exploration of automated emotion labelling via LLMs.
- Abstract(参考訳): ビデオの観察において、事前に訓練された大規模言語モデル(LLM)が人間の影響を検知できるだろうか?
この問題に対処するために、我々は初めて、テキストやビデオフレームのシーケンスをマルチモーダルな方法で促すと、ビデオの連続的な影響アノテーションを注釈し、予測する人気のLCMの能力を包括的に評価した。
本稿では,ゲームビブコーパスの20対1のシューティングゲームから,80分間の注釈付きビデオゲーム映像において,ゲーム内エンゲージメントの変化を正確にラベル付けするLLMの能力を検証した。
我々は, LLMアーキテクチャ, モデルサイズ, 入力モダリティ, プロンプト戦略, エンゲージメント予測に対する接地真理処理法の影響について, 2400以上の実験を行った。
LLMは、複数のドメインにまたがるヒューマンライクなパフォーマンスを正しく主張するが、一般的には、人間が提供した継続的な経験的アノテーションの取得に遅れを生じる。
比較的粗末な全体的なパフォーマンスの原因のいくつかについて検討し、LSMが期待を超えるケースを強調し、LSMによる自動感情ラベル付けのさらなる探索のロードマップを作成した。
関連論文リスト
- Push the Limit of Multi-modal Emotion Recognition by Prompting LLMs with Receptive-Field-Aware Attention Weighting [11.926100290196828]
本稿では,受動的フィールド認識重み付けによる大規模言語モデルの実現により,あるバニラモデルの性能を向上させるフレームワークであるLanternを提案する。
実験では、バニラモデルCORECTとSDTがGPT-4またはLlama-3.1-405Bでランタンに配備された。
論文 参考訳(メタデータ) (2024-11-26T18:35:24Z) - Harnessing LLMs for Automated Video Content Analysis: An Exploratory Workflow of Short Videos on Depression [8.640838598568605]
我々は,Large Language Models (LLMs) を用いたマルチモーダルコンテンツ分析の新しいワークフローに従って,ケーススタディを実施している。
LLMのビデオアノテーション機能をテストするために,うつ病に関する25の短いビデオから抽出した203を解析した。
論文 参考訳(メタデータ) (2024-06-27T21:03:56Z) - WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。
本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。
我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文 参考訳(メタデータ) (2024-06-19T20:13:42Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - TempCompass: Do Video LLMs Really Understand Videos? [36.28973015469766]
既存のベンチマークでは、ビデオLLMの時間知覚能力に関する包括的なフィードバックが得られていない。
質の高い時間的側面とタスク形式を多様に導入した textbfTemp ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-03-01T12:02:19Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。
Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。
本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文 参考訳(メタデータ) (2023-12-29T01:56:17Z) - VLM-Eval: A General Evaluation on Video Large Language Models [16.92780012093112]
キャプション,質問と回答,検索,行動認識など,複数のビデオタスクを含む統合評価を導入する。
本稿では, 1 つの線形射影を用いて既存のビデオ LLM より優れるビデオ-LLaVA を提案する。
ビデオLLMを学術データセットを超えて評価し,数百対のビデオインストラクションペアのみを微調整で駆動シナリオの認識と推論能力を示す。
論文 参考訳(メタデータ) (2023-11-20T16:02:10Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - VideoLLM: Modeling Video Sequence with Large Language Models [70.32832021713864]
既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。
我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。
VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
論文 参考訳(メタデータ) (2023-05-22T17:51:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。