論文の概要: GODBench: A Benchmark for Multimodal Large Language Models in Video Comment Art
- arxiv url: http://arxiv.org/abs/2505.11436v2
- Date: Wed, 21 May 2025 15:41:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 13:19:52.312409
- Title: GODBench: A Benchmark for Multimodal Large Language Models in Video Comment Art
- Title(参考訳): GODBench: ビデオコメントアートにおけるマルチモーダル大言語モデルのベンチマーク
- Authors: Yiming Lei, Chenkai Zhang, Zeming Liu, Haitao Leng, Shaoguo Liu, Tingting Gao, Qingjie Liu, Yunhong Wang,
- Abstract要約: ビデオコメントアートはユーモア、風刺、感情共鳴を伝達する創造的なコンテンツを提供することによってユーザーのエンゲージメントを高める。
我々は、ビデオとテキストのモダリティを統合した新しいベンチマークであるGODBenchを紹介し、コメントアートを構成するMLLMの能力を体系的に評価する。
また,MLLMの創造性向上を目的とした多段階推論フレームワークRipple of Thought (RoT)を提案する。
- 参考スコア(独自算出の注目度): 38.40471808648207
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video Comment Art enhances user engagement by providing creative content that conveys humor, satire, or emotional resonance, requiring a nuanced and comprehensive grasp of cultural and contextual subtleties. Although Multimodal Large Language Models (MLLMs) and Chain-of-Thought (CoT) have demonstrated strong reasoning abilities in STEM tasks (e.g. mathematics and coding), they still struggle to generate creative expressions such as resonant jokes and insightful satire. Moreover, existing benchmarks are constrained by their limited modalities and insufficient categories, hindering the exploration of comprehensive creativity in video-based Comment Art creation. To address these limitations, we introduce GODBench, a novel benchmark that integrates video and text modalities to systematically evaluate MLLMs' abilities to compose Comment Art. Furthermore, inspired by the propagation patterns of waves in physics, we propose Ripple of Thought (RoT), a multi-step reasoning framework designed to enhance the creativity of MLLMs. Extensive experiments reveal that existing MLLMs and CoT methods still face significant challenges in understanding and generating creative video comments. In contrast, RoT provides an effective approach to improve creative composing, highlighting its potential to drive meaningful advancements in MLLM-based creativity. GODBench is publicly available at https://github.com/stan-lei/GODBench-ACL2025.
- Abstract(参考訳): ビデオコメントアートはユーモア、風刺、感情共鳴を伝達する創造的なコンテンツを提供することで、文化や文脈の微妙さを微妙に把握し、ユーザーのエンゲージメントを高める。
MLLM(Multimodal Large Language Models)とCoT(Chain-of-Thought)は、STEMタスク(数学やコーディングなど)において強力な推論能力を示しているが、反響ジョークや洞察に富んだ風刺のような創造的な表現を生成するのに依然として苦労している。
さらに、既存のベンチマークは、制限されたモダリティと不十分なカテゴリによって制約されており、ビデオベースのコメントアート作成における包括的なクリエイティビティの探索を妨げる。
これらの制約に対処するために,ビデオとテキストのモダリティを統合した新しいベンチマークであるGODBenchを導入し,MLLMのコメントアート作成能力について体系的に評価する。
さらに、物理学における波動の伝播パターンに着想を得て、MLLMの創造性を高めるために設計された多段階推論フレームワークであるRipple of Thought (RoT)を提案する。
大規模な実験によると、既存のMLLMとCoTメソッドは、クリエイティブなビデオコメントの理解と生成において、依然として重大な課題に直面している。
対照的に、RoTは創造的な構成を改善する効果的なアプローチを提供し、MLLMベースの創造性において有意義な進歩をもたらす可能性を強調している。
GODBenchはhttps://github.com/stan-lei/GODBench-ACL2025で公開されている。
関連論文リスト
- Probing and Inducing Combinational Creativity in Vision-Language Models [52.76981145923602]
VLM(Vision-Language Models)の最近の進歩は、それらのアウトプットが組合せの創造性を反映しているかという議論を引き起こしている。
本稿では,創造的プロセスを3つのレベルに分解するIEIフレームワークを提案する。
このフレームワークを検証するために、IEIフレームワークに従って注釈付けされた666人のアーティストによる視覚マッシュアップの高品質データセットであるCreativeMashupをキュレートする。
論文 参考訳(メタデータ) (2025-04-17T17:38:18Z) - A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models [100.16387798660833]
オオギリゲーム(オオギリゲーム)は、ユーモアと連想的思考を必要とする創造的な仕事である。
LoTbenchはインタラクティブで因果性を考慮した評価フレームワークである。
その結果、ほとんどのLLMは制約された創造性を示すが、LLMと人間の間の性能格差は克服できないことがわかった。
論文 参考訳(メタデータ) (2025-01-25T09:11:15Z) - The Fabrication of Reality and Fantasy: Scene Generation with LLM-Assisted Prompt Interpretation [26.221866701670546]
この研究は、拡散モデルが芸術的創造性や専門知識を必要とするプロンプトから画像を生成する方法を探る。
本稿では,現実的なシナリオと幻想的なシナリオを融合した新しい評価フレームワークであるRealistic-Fantasy Benchmark(RFBench)を紹介する。
広汎な人的評価とGPTに基づく構成的評価は、我々のアプローチが最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-07-17T14:04:10Z) - Divergent Creativity in Humans and Large Language Models [37.67363469600804]
最近の大規模言語モデルの能力の急上昇は、人間の能力に似た創造性レベルに近づいている、という主張につながっている。
我々は、創造科学の最近の進歩を活用して、最先端のLLMと10万人の実質的なデータセットの両方において、多様な創造性を詳細に分析するためのフレームワークを構築します。
論文 参考訳(メタデータ) (2024-05-13T22:37:52Z) - Mind's Eye of LLMs: Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models [71.93366651585275]
大規模言語モデル(LLM)は、言語理解と様々な推論タスクにおいて印象的な性能を示した。
本稿では,LLMの空間的推論を視覚的に行うために,VoT(Visual-of-Thought)を提案する。
VoTはLLMの空間的推論能力を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-04T17:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。