論文の概要: A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2501.15147v1
- Date: Sat, 25 Jan 2025 09:11:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:55:09.823511
- Title: A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルの創造性評価のための因果性を考慮したパラダイム
- Authors: Zhongzhan Huang, Shanshan Zhong, Pan Zhou, Shanghua Gao, Marinka Zitnik, Liang Lin,
- Abstract要約: オオギリゲーム(オオギリゲーム)は、ユーモアと連想的思考を必要とする創造的な仕事である。
LoTbenchはインタラクティブで因果性を考慮した評価フレームワークである。
その結果、ほとんどのLLMは制約された創造性を示すが、LLMと人間の間の性能格差は克服できないことがわかった。
- 参考スコア(独自算出の注目度): 100.16387798660833
- License:
- Abstract: Recently, numerous benchmarks have been developed to evaluate the logical reasoning abilities of large language models (LLMs). However, assessing the equally important creative capabilities of LLMs is challenging due to the subjective, diverse, and data-scarce nature of creativity, especially in multimodal scenarios. In this paper, we consider the comprehensive pipeline for evaluating the creativity of multimodal LLMs, with a focus on suitable evaluation platforms and methodologies. First, we find the Oogiri game, a creativity-driven task requiring humor, associative thinking, and the ability to produce unexpected responses to text, images, or both. This game aligns well with the input-output structure of modern multimodal LLMs and benefits from a rich repository of high-quality, human-annotated creative responses, making it an ideal platform for studying LLM creativity. Next, beyond using the Oogiri game for standard evaluations like ranking and selection, we propose LoTbench, an interactive, causality-aware evaluation framework, to further address some intrinsic risks in standard evaluations, such as information leakage and limited interpretability. The proposed LoTbench not only quantifies LLM creativity more effectively but also visualizes the underlying creative thought processes. Our results show that while most LLMs exhibit constrained creativity, the performance gap between LLMs and humans is not insurmountable. Furthermore, we observe a strong correlation between results from the multimodal cognition benchmark MMMU and LoTbench, but only a weak connection with traditional creativity metrics. This suggests that LoTbench better aligns with human cognitive theories, highlighting cognition as a critical foundation in the early stages of creativity and enabling the bridging of diverse concepts. https://lotbench.github.io
- Abstract(参考訳): 近年,大規模言語モデル(LLM)の論理的推論能力を評価するために,多数のベンチマークが開発されている。
しかし、LLMの等しく重要な創造能力を評価することは、特にマルチモーダルシナリオにおいて、創造性の主観的、多様で、データにかかわる性質のために困難である。
本稿では,マルチモーダルLLMの創造性を評価するための包括的パイプラインについて考察し,適切な評価プラットフォームと方法論に着目した。
まず、Oogiriゲームは、ユーモア、連想的思考、テキスト、画像、あるいはその両方に対する予期せぬ反応を生成する能力を必要とする創造的なタスクである。
このゲームは、現代のマルチモーダル LLM の入出力構造と、高品質で人間にアノテートされた創造的応答の豊富なリポジトリの利点とよく一致しており、LLM の創造性を研究する上で理想的なプラットフォームとなっている。
次に,Oogiriゲームを用いてランキングや選択などの標準評価を行うだけでなく,情報漏洩や限定的解釈可能性など,標準評価における本質的なリスクに対処する対話型因果評価フレームワークであるLoTbenchを提案する。
提案されたLoTbenchは、LCMの創造性をより効果的に定量化するだけでなく、基礎となる創造的思考プロセスも可視化する。
以上の結果から,ほとんどのLLMは創造性に制約があるが,LLMと人間のパフォーマンスギャップは克服不可能であることが示唆された。
さらに,マルチモーダル認知ベンチマークMMMUとLoTbenchの結果との間には強い相関関係がみられた。
このことは、LoTbenchが人間の認知理論とよりよく一致し、認知を創造の初期段階における重要な基盤として強調し、多様な概念のブリッジングを可能にすることを示唆している。
https://lotbench.github.io
関連論文リスト
- Evaluating Creativity and Deception in Large Language Models: A Simulation Framework for Multi-Agent Balderdash [6.65572931991284]
大きな言語モデル(LLM)は複雑なタスクや対話的な環境において印象的な機能を示している。
本稿では, LLMの創造性と論理的推論の両面を評価するために, Balderdash を利用したシミュレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-15T18:42:48Z) - Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。
本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。
鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文 参考訳(メタデータ) (2024-10-16T07:49:13Z) - Benchmarking Language Model Creativity: A Case Study on Code Generation [17.56712029335294]
創造性は少なくとも2つの重要な特徴から成り立っている: 啓発的思考(与えられた目標を達成するための目的性)と啓示的思考(新しい環境や制約への適応性) citeprunco 2003 クリティカル
2つの特徴を取り入れたLCM創造性を定量化する枠組みを提案する。
これは、(1)デニアル・プロンプティング(Denial Prompting)は、従来のソリューションに新たな制約を漸進的に課すことによって、LLMが与えられた問題に対してより創造的な解決策を導き出すよう促す。
論文 参考訳(メタデータ) (2024-07-12T05:55:22Z) - Divergent Creativity in Humans and Large Language Models [37.67363469600804]
最近の大規模言語モデルの能力の急上昇は、人間の能力に似た創造性レベルに近づいている、という主張につながっている。
我々は、創造科学の最近の進歩を活用して、最先端のLLMと10万人の実質的なデータセットの両方において、多様な創造性を詳細に分析するためのフレームワークを構築します。
論文 参考訳(メタデータ) (2024-05-13T22:37:52Z) - LLM Discussion: Enhancing the Creativity of Large Language Models via Discussion Framework and Role-Play [43.55248812883912]
大規模言語モデル(LLM)は自然言語処理において例外的な習熟度を示してきたが、しばしばオープンエンドの質問に対する創造的で独創的な応答を生成できない。
LLM議論は,アイデア交換の活発化と多様化を促進する3段階の議論フレームワークである。
提案手法の有効性を, 代替利用テスト, 類似性テスト, インスタンステスト, 科学的創造性テストを用いて評価した。
論文 参考訳(メタデータ) (2024-05-10T10:19:14Z) - Assessing and Understanding Creativity in Large Language Models [33.37237667182931]
本稿では,大規模言語モデル(LLM)における創造性レベルを評価するための効率的な枠組みを確立することを目的とする。
The Torrance Tests of Creative Thinking を用いて、7つのタスクにまたがる様々なLSMの創造的パフォーマンスを評価する。
LLMの創造性は、主に独創性に欠けるが、エラボレーションには優れていた。
論文 参考訳(メタデータ) (2024-01-23T05:19:47Z) - Let's Think Outside the Box: Exploring Leap-of-Thought in Large Language Models with Creative Humor Generation [96.0573187419543]
Chain-of-Thought(CoT)は、大きな言語モデルをステップバイステップで推論し、その論理的推論能力を動機付ける。
大規模言語モデル(LLM)におけるLeap-of-Thought(LoT)能力について検討する。
LoTは、強い結びつきと知識の飛躍を含む、シークエンシャルで創造的なパラダイムである。
論文 参考訳(メタデータ) (2023-12-05T02:41:57Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。