論文の概要: Multi-Agent Game Generation and Evaluation via Audio-Visual Recordings
- arxiv url: http://arxiv.org/abs/2508.00632v1
- Date: Fri, 01 Aug 2025 13:45:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.897434
- Title: Multi-Agent Game Generation and Evaluation via Audio-Visual Recordings
- Title(参考訳): オーディオ映像記録によるマルチエージェントゲームの生成と評価
- Authors: Alexia Jolicoeur-Martineau,
- Abstract要約: 我々はAudioVisual Recordings (AVR) を用いたマルチメディアコンテンツ品質の新しい指標を構築した。
オーディオ-Evalは、コンテンツが壊れたり、不一致だったりして、良さを適切に識別する。
マルチメディア資産の銀行からJavaScriptコードを生成するマルチエージェントシステムである build-Agent を構築。
- 参考スコア(独自算出の注目度): 8.883733362171034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While AI excels at generating text, audio, images, and videos, creating interactive audio-visual content such as video games remains challenging. Current LLMs can generate JavaScript games and animations, but lack automated evaluation metrics and struggle with complex content that normally requires teams of humans working for many months (multi-shot, multi-agents) using assets made by artists. To tackle these issues, we built a new metric and a multi-agent system. We propose AVR-Eval, a relative metric for multimedia content quality using Audio-Visual Recordings (AVRs). An omni-modal model (processing text, video, and audio) compares the AVRs of two contents, with a text model reviewing evaluations to determine superiority. We show that AVR-Eval properly identifies good from broken or mismatched content. We built AVR-Agent, a multi-agent system generating JavaScript code from a bank of multimedia assets (audio, images, 3D models). The coding agent selects relevant assets, generates multiple initial codes, uses AVR-Eval to identify the best version, and iteratively improves it through omni-modal agent feedback from the AVR. We run experiments on games and animations with AVR-Eval (win rate of content A against B). We find that content generated by AVR-Agent has a significantly higher win rate against content made through one-shot generation. However, models struggle to leverage custom assets and AVR feedback effectively, showing no higher win rate. This reveals a critical gap: while humans benefit from high-quality assets and audio-visual feedback, current coding models do not seem to utilize these resources as effectively, highlighting fundamental differences between human and machine content creation approaches.
- Abstract(参考訳): AIはテキスト、オーディオ、画像、ビデオを生成するのに優れているが、ビデオゲームのようなインタラクティブなオーディオ視覚コンテンツを作成することは依然として難しい。
現在のLLMは、JavaScriptゲームやアニメーションを生成することができるが、自動評価メトリクスが欠如しており、アーティストが作成した資産を使って、通常、何ヶ月も働く人間のチーム(マルチショット、マルチエージェント)を必要とする複雑なコンテンツに苦労している。
これらの問題に対処するため、我々は新しいメトリクスとマルチエージェントシステムを構築した。
本稿では,AVR(Audio-Visual Recordings)を用いたマルチメディアコンテンツ品質の相対指標であるAVR-Evalを提案する。
オムニモーダルモデル(テキスト、ビデオ、オーディオの処理)は、2つのコンテンツのAVRを比較し、テキストモデルが評価をレビューし、優位性を決定する。
AVR-Evalは、コンテンツとコンテンツが一致していない場合とを適切に識別する。
AVR-Agentはマルチメディア資産(オーディオ、画像、3Dモデル)の銀行からJavaScriptコードを生成するマルチエージェントシステムです。
符号化エージェントは、関連資産を選択し、複数の初期コードを生成し、AVR-Evalを使用して最適なバージョンを特定し、AVRからのオムニモーダルエージェントフィードバックにより反復的に改善する。
AVR-Eval(コンテンツA対Bの勝率)でゲームやアニメーションで実験を行う。
また,AVR-Agentが生成したコンテンツは,ワンショット生成によるコンテンツに対する勝利率が有意に高いことがわかった。
しかし、モデルはカスタムアセットとAVRフィードバックを効果的に活用するのに苦労し、より高い勝利率を示しない。
人間は高品質な資産とオーディオ視覚フィードバックの恩恵を受けているが、現在のコーディングモデルはこれらのリソースを効果的に利用していないようで、人間と機械のコンテンツ作成アプローチの根本的な違いを強調している。
関連論文リスト
- Hear-Your-Click: Interactive Object-Specific Video-to-Audio Generation [6.631248829195371]
本稿では,対話型V2AフレームワークであるHear-Your-Clickを紹介した。
そこで本稿では,Mask-Guided Visual (MVE) を用いた物体認識型コントラスト・オーディオ・ビジュアル・ファインタニング(OCAV)を提案する。
音声と視覚の対応性を測定するため,新しい評価基準であるCAVスコアを考案した。
論文 参考訳(メタデータ) (2025-07-07T13:01:50Z) - MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。
AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。
提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-08T06:34:29Z) - MM-StoryAgent: Immersive Narrated Storybook Video Generation with a Multi-Agent Paradigm across Text, Image and Audio [48.820808691986805]
MM-StoryAgentは、洗練されたプロット、ロール一貫性のあるイメージ、マルチチャンネルオーディオを備えた没入型ナレーションビデオストーリーブックを作成する。
このフレームワークは、多段階の書き込みパイプラインを通じてストーリーの魅力を高める。
MM-StoryAgentは、さらなる開発のための柔軟なオープンソースプラットフォームを提供する。
論文 参考訳(メタデータ) (2025-03-07T08:53:10Z) - StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration [88.94832383850533]
CSVG(Customized Storytelling Video Generation)のためのマルチエージェントフレームワークを提案する。
StoryAgentはCSVGを特殊エージェントに割り当てられた個別のサブタスクに分解し、プロの制作プロセスを反映する。
具体的には、撮影時間内整合性を高めるために、カスタマイズされたイメージ・ツー・ビデオ(I2V)手法であるLoRA-BEを導入する。
コントリビューションには、ビデオ生成タスクのための汎用フレームワークであるStoryAgentの導入や、プロタゴニストの一貫性を維持するための新しい技術が含まれている。
論文 参考訳(メタデータ) (2024-11-07T18:00:33Z) - Separating the "Chirp" from the "Chat": Self-supervised Visual Grounding of Sound and Language [77.33458847943528]
DenseAVは、ビデオ視聴のみで高解像度、意味論的、音声視覚的に整合した特徴を学習する、新しいデュアルエンコーダ基盤アーキテクチャである。
そこで本研究では,DenseAVによる単語の「意味」と音の「位置」の特定が可能であることを明らかにした。
論文 参考訳(メタデータ) (2024-06-09T03:38:21Z) - Audio-Visual Instance Segmentation [14.10809424760213]
音声視覚インスタンスセグメンテーション(AVIS)と呼ばれる新しいマルチモーダルタスクを提案する。
AVISは、可聴ビデオ中の個々のサウンドオブジェクトのインスタンスを同時に識別し、セグメンテーションし、追跡することを目的としている。
AVISegという高品質なベンチマークを導入し、926の長ビデオで26のセマンティックカテゴリから90K以上のインスタンスマスクを含む。
論文 参考訳(メタデータ) (2023-10-28T13:37:52Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - WavJourney: Compositional Audio Creation with Large Language Models [38.39551216587242]
We present WavJourney, a novel framework that leverages Large Language Models to connect various audio model for audio creation。
WavJourneyを使えば、ユーザーはテキストによる説明だけで様々なオーディオ要素でストーリーテリングオーディオコンテンツを作成できる。
We show that WavJourney are capable to synthesize real audio aligned with textual-description semantic, spatial and temporal conditions。
論文 参考訳(メタデータ) (2023-07-26T17:54:04Z) - MUGEN: A Playground for Video-Audio-Text Multimodal Understanding and
GENeration [46.19536568693307]
マルチモーダルなビデオオーディオテキスト理解と生成は、狭いがリッチなデータセットの恩恵を受けることができる。
本稿では,オープンソースのプラットフォームゲームCoinRunを用いて収集した大規模ビデオオーディオテキストデータセットMUGENについて述べる。
我々は375Kビデオクリップ(それぞれ3.2秒)をサンプリングし、人間のアノテーションからテキスト記述を収集する。
論文 参考訳(メタデータ) (2022-04-17T17:59:09Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。