論文の概要: MAVEN A Multi-Agent Framework for Multicultural Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2605.16716v1
- Date: Sat, 16 May 2026 00:01:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:46.921286
- Title: MAVEN A Multi-Agent Framework for Multicultural Text-to-Video Generation
- Title(参考訳): MAVEN - 多文化テキスト・ビデオ生成のためのマルチエージェントフレームワーク
- Authors: Shuowei Li, Yuming Zhao, Parth Bhalerao, Oana Ignat,
- Abstract要約: MAVENはマルチエージェントのプロンプトリファインメントフレームワークである。
プロンプトを人、行動、位置の次元に分解する。
モノカルチャーとクロスカルチャーの両方のT2V世代における文化的忠実性を改善する。
- 参考スコア(独自算出の注目度): 7.901765633133679
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-video (T2V) generation has rapidly progressed in visual fidelity, yet its ability to faithfully represent multiple cultures within a single prompt remains underexplored. We introduce MAVEN, a multi-agent prompt refinement framework designed to improve cultural fidelity in both mono-cultural and cross-cultural T2V generation. MAVEN decomposes prompts into person, action, and location dimensions, handled by specialized agents operating in parallel or sequentially. To support systematic evaluation, we contribute a new benchmark of 243 culturally grounded prompts and 972 corresponding videos, spanning three cultures (Chinese, American, Romanian), three action categories, and both mono-cultural and cross-cultural scenarios. Evaluations combining CLIP-based metrics, VLM-as-judge assessments, and videoquality measures show that multi-agent refinement, particularly parallel specialization, significantly improves cultural relevance while preserving visual quality and temporal consistency. The dataset and code are available athttps://github.com/AIM-SCU/CRAFT
- Abstract(参考訳): テキスト・ツー・ビデオ(T2V)生成は、視覚的忠実度において急速に進歩しているが、単一のプロンプト内で複数の文化を忠実に表現する能力は、まだ探索されていない。
モノカルチャーおよびクロスカルチャーT2V世代における文化的忠実性を改善するために設計されたマルチエージェントプロンプト改良フレームワークであるMAVENを紹介する。
MAVENはプロンプトを人、行動、位置次元に分解し、並列またはシーケンシャルに操作する特殊エージェントによって処理される。
組織的評価を支援するため,我々は,中国,アメリカ,ルーマニアの3つの文化,アクションカテゴリー,モノカルチャーとクロスカルチャーの2つのシナリオにまたがる,243の文化的根拠のあるプロンプトと942の対応ビデオのベンチマークを作成した。
CLIPをベースとしたメトリクス、VLM-as-judge評価、ビデオ品質評価を組み合わせることで、マルチエージェントの洗練、特に並列化は、視覚的品質と時間的整合性を維持しながら、文化的妥当性を著しく向上させることを示す。
データセットとコードはhttps://github.com/AIM-SCU/CRAFTで公開されている。
関連論文リスト
- Do Large Language Models Truly Understand Cross-cultural Differences? [53.481048019144644]
我々は,大規模言語モデルの異文化間理解と推論を評価するシナリオベースのベンチマークを開発した。
文化理論を基礎として、異文化の能力を9次元に分類する。
データセットは連続的な拡張をサポートし、実験は他の言語への転送可能性を確認する。
論文 参考訳(メタデータ) (2025-12-08T01:21:58Z) - Where Culture Fades: Revealing the Cultural Gap in Text-to-Image Generation [43.352493955825736]
現在のT2Iモデルは、多言語的なプロンプトの下で、文化的に中立な結果や英語に偏った結果をもたらすことが多い。
本稿では,培養感受性シグナルを少数の固定層内の小さなニューロン群に局在させる探索法を提案する。
論文 参考訳(メタデータ) (2025-11-21T14:40:50Z) - BLEnD-Vis: Benchmarking Multimodal Cultural Understanding in Vision Language Models [54.16874020794336]
視覚言語モデル(VLM)における日常的文化的知識の堅牢性を評価するためのベンチマークであるBLEnD-Visを紹介する。
BLEnD-Visは16の領域にまたがる文化的根拠を持つ313の質問テンプレートを構築し、3つの整列した複数選択形式を生成する。
その結果得られたベンチマークは、4,916の画像と、人間のアノテーションで検証された21,000以上のMultiple-choice Question (MCQ)インスタンスで構成されている。
論文 参考訳(メタデータ) (2025-10-13T09:10:05Z) - MMA-ASIA: A Multilingual and Multimodal Alignment Framework for Culturally-Grounded Evaluation [91.22008265721952]
MMA-ASIAは、アジア8か国と10か国を対象とする人為的、多言語的、マルチモーダルなベンチマークに重点を置いている。
これは、テキスト、画像(視覚的質問応答)、音声の3つのモードにまたがる入力レベルで整列された最初のデータセットである。
i) 国間の文化的認識格差、(ii) 言語間の整合性、(iii) 言語間の整合性、(iv) 文化知識の一般化、(v) 基礎的妥当性を評価する5次元評価プロトコルを提案する。
論文 参考訳(メタデータ) (2025-10-07T14:12:12Z) - Toward Socially Aware Vision-Language Models: Evaluating Cultural Competence Through Multimodal Story Generation [2.0467354053171243]
本稿では,マルチモーダルストーリー生成による視覚言語モデル(VLM)の文化的能力の総合評価を行う。
分析の結果,文化的に特有な語彙が多岐にわたる文化的適応能力,家族用語,地理的マーカーが明らかとなった。
文化的な能力はアーキテクチャによって劇的に変化し、いくつかのモデルは逆の文化的アライメントを示し、自動化されたメトリクスは人間の評価と矛盾するアーキテクチャ上のバイアスを示しています。
論文 参考訳(メタデータ) (2025-08-22T19:39:02Z) - RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding [79.44246283490665]
本稿では,検索による視覚文化理解の促進を目的とした新しいベンチマークであるRAVENEAを紹介する。
RAVENEAは、文化中心の視覚的質問応答(cVQA)と文化インフォームドイメージキャプション(cIC)の2つのタスクに焦点を当てている。
画像クエリ毎に7つのマルチモーダルレトリバーを訓練・評価し、14の最先端の視覚言語モデルにおける検索強化入力の下流への影響を計測する。
論文 参考訳(メタデータ) (2025-05-20T14:57:16Z) - TCC-Bench: Benchmarking the Traditional Chinese Culture Understanding Capabilities of MLLMs [13.069833806549914]
中国伝統文化理解ベンチマーク(TCC-Bench)を提案する。
TCC-Benchは、文化的に豊かで視覚的に多様なデータで構成されており、博物館の工芸品、日常の生活シーン、漫画、その他の文化的に重要な文脈の画像が組み込まれている。
テキストのみのモードでGPT-4oを利用する半自動パイプラインを採用し、候補問題を生成し、続いて人間によるキュレーションを行い、データ品質を保証し、潜在的なデータ漏洩を回避する。
論文 参考訳(メタデータ) (2025-05-16T14:10:41Z) - CAReDiO: Cultural Alignment of LLM via Representativeness and Distinctiveness Guided Data Optimization [50.90288681622152]
大規模言語モデル(LLM)は、より深く様々な地域における人間の生活に統合される。
既存のアプローチは、文化固有のコーパスを微調整することで、文化的に整合したLCMを開発する。
本稿では,新しい文化データ構築フレームワークであるCAReDiOを紹介する。
論文 参考訳(メタデータ) (2025-04-09T13:40:13Z) - On the Cultural Gap in Text-to-Image Generation [75.69755281031951]
テキスト・トゥ・イメージ(T2I)生成における課題のひとつは、トレーニングデータに存在する文化ギャップの意図しない反映である。
クロスカルチャー画像を生成するT2Iモデルの能力を体系的に評価するベンチマークは存在しない。
本稿では,モデルが対象文化にどの程度適しているかを評価するため,包括的評価基準付きChallenging Cross-Cultural (C3)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-06T13:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。