Fugu-MT 論文翻訳(概要): Multimodal LLMs Can Reason about Aesthetics in Zero-Shot

論文の概要: Multimodal LLMs Can Reason about Aesthetics in Zero-Shot

arxiv url: http://arxiv.org/abs/2501.09012v1
Date: Wed, 15 Jan 2025 18:56:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-16 16:46:28.527474
Title: Multimodal LLMs Can Reason about Aesthetics in Zero-Shot
Title（参考訳）: マルチモーダルLCMはゼロショットの美学を推論できる
Authors: Ruixiang Jiang, Changwen Chen,
Abstract要約: 美術品の審美性を評価するために,マルチモーダルLLM(MLLMs)推論能力の付与について検討する。本研究では、人間の嗜好モデリングの原理的手法を開発し、MLLMの反応と人間の嗜好の体系的相関分析を行う。実験の結果, MLLMは, 応答主観性に関連し, 美術評価において固有の幻覚的問題であることが明らかとなった。
参考スコア（独自算出の注目度）: 19.5597806965592
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present the first study on how Multimodal LLMs' (MLLMs) reasoning ability shall be elicited to evaluate the aesthetics of artworks. To facilitate this investigation, we construct MM-StyleBench, a novel high-quality dataset for benchmarking artistic stylization. We then develop a principled method for human preference modeling and perform a systematic correlation analysis between MLLMs' responses and human preference. Our experiments reveal an inherent hallucination issue of MLLMs in art evaluation, associated with response subjectivity. ArtCoT is proposed, demonstrating that art-specific task decomposition and the use of concrete language boost MLLMs' reasoning ability for aesthetics. Our findings offer valuable insights into MLLMs for art and can benefit a wide range of downstream applications, such as style transfer and artistic image generation. Code available at https://github.com/songrise/MLLM4Art.
Abstract（参考訳）: 美術品の審美性を評価するために,マルチモーダルLLM(MLLMs)推論能力の付与について検討する。本研究では,芸術的スタイリゼーションをベンチマークするための新しい高品質なデータセットMM-StyleBenchを構築した。次に、人間の嗜好モデリングの原理的手法を開発し、MLLMの反応と人間の嗜好の体系的相関分析を行う。実験の結果, MLLMは, 応答主観性に関連し, 美術評価において固有の幻覚的問題であることが明らかとなった。 ArtCoTは、アート固有のタスク分解と具体的な言語の使用により、美学におけるMLLMの推論能力が向上することを示す。本研究は,MLLMの芸術性に関する貴重な知見を提供するとともに,スタイル転送や芸術的画像生成など,幅広いダウンストリーム応用に有用であることを示す。コードはhttps://github.com/songrise/MLLM4Art.comで公開されている。

関連論文リスト

Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing [62.447497430479174]
空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
論文参考訳（メタデータ） (2025-06-11T17:41:50Z)
Does CLIP perceive art the same way we do? [0.0]
絵画から高レベルの意味情報や文体情報を抽出するCLIPの能力について検討する。以上の結果から,CLIPの視覚的表現の長所と短所が明らかとなった。我々の研究は、マルチモーダルシステムにおけるより深い解釈可能性の必要性を強調している。
論文参考訳（メタデータ） (2025-05-08T13:21:10Z)
Compose Your Aesthetics: Empowering Text-to-Image Models with the Principles of Art [61.28133495240179]
本稿では,ユーザが特定した美学をT2I生成出力と整合させることを目的とした,美学アライメントの新しい課題を提案する。アートワークが美学にアプローチするための貴重な視点を提供する方法にインスパイアされた私たちは、構成的枠組みのアーティストが採用する視覚的美学を定式化した。我々は,T2I DMが,ユーザが特定したPoA条件により10の合成制御を効果的に提供することを実証した。
論文参考訳（メタデータ） (2025-03-15T06:58:09Z)
CognArtive: Large Language Models for Automating Art Analysis and Decoding Aesthetic Elements [1.0579965347526206]
芸術は普遍言語であり、様々な方法で解釈できる。大規模言語モデル (LLM) とマルチモーダル大規模言語モデル (MLLM) の可用性は,これらのモデルがアートワークの評価と解釈にどのように使用できるのかという疑問を提起する。
論文参考訳（メタデータ） (2025-02-04T18:08:23Z)
A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs [3.2228025627337864]
本稿では、視覚言語モデル(VLM)における知覚推論インタフェースを識別するために、ボンガード問題(BP)を用いた構造化評価フレームワークを提案する。本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。私たちのフレームワークは貴重な診断ツールを提供し、AIでより堅牢で人間らしい視覚知性を達成するために、視覚処理の忠実性を高める必要性を強調しています。
論文参考訳（メタデータ） (2025-01-23T12:42:42Z)
Imagine while Reasoning in Space: Multimodal Visualization-of-Thought [70.74453180101365]
大型言語モデル(LLM)とマルチモーダル大規模言語モデル(MLLM)の複雑な推論を強化するために、CoTプロンプト(Chain-of-Thought)が有効であることが証明された。我々は新しい推論パラダイムであるMultimodal Visualization-of-Thought (MVoT)を提案する。 MLLMにおいて、推論トレースの画像視覚化を生成することにより、視覚的思考を可能にする。
論文参考訳（メタデータ） (2025-01-13T18:23:57Z)
Advancing Comprehensive Aesthetic Insight with Multi-Scale Text-Guided Self-Supervised Learning [14.405750888492735]
Image Aesthetic Assessment (IAA) は、画像の美的価値を分析し評価する作業である。 IAAの伝統的な手法は、しばしば単一の美的タスクに集中し、ラベル付きデータセットが不十分である。審美的洞察をニュアンス化した総合的審美的MLLMを提案する。
論文参考訳（メタデータ） (2024-12-16T16:35:35Z)
MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文参考訳（メタデータ） (2024-10-16T07:52:57Z)
Diffusion-Based Visual Art Creation: A Survey and New Perspectives [51.522935314070416]
本調査は,拡散に基づく視覚芸術創造の新たな領域を探求し,その発展を芸術的,技術的両面から検討する。本研究は,芸術的要件が技術的課題にどのように変換されるかを明らかにし,視覚芸術創造における拡散法の設計と応用を強調した。我々は、AIシステムが芸術的知覚と創造性において人間の能力をエミュレートし、潜在的に増強するメカニズムに光を当てることを目指している。
論文参考訳（メタデータ） (2024-08-22T04:49:50Z)
Visualization Literacy of Multimodal Large Language Models: A Comparative Study [12.367399155606162]
MLLM(Multimodal large language model)は、MLLM(Multimodal large language model)とLLM(LLM)の固有の能力を組み合わせて、マルチモーダルコンテキストを推論する。ビジュアライゼーションにおける最近の多くの研究は、可視化結果を理解し、解釈し、自然言語のユーザに対して視覚化の内容を説明するMLLMの能力を実証している。本研究では,可視化リテラシーの概念を利用してMLLMを評価することにより,そのギャップを埋めることを目的とする。
論文参考訳（メタデータ） (2024-06-24T17:52:16Z)
Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms [91.19304518033144]
検索システムにおける視覚モデルと人間の審美基準の整合を図る。本研究では、視覚モデルと人間の美学をよりよく整合させるために、視覚モデルを微調整する嗜好に基づく強化学習手法を提案する。
論文参考訳（メタデータ） (2024-06-13T17:59:20Z)
AesExpert: Towards Multi-modality Foundation Model for Image Aesthetics Perception [74.11069437400398]
我々は,21,904の多様なソースイメージと88Kの人間の自然言語フィードバックを備えたコーパスリッチな審美的批評データベースを開発した。 AesExpertと呼ばれる、マルチモダリティのAesthetic Expertモデルを実現するために、オープンソースの一般基盤モデルを微調整します。実験により、提案したAesExpertモデルは、最先端のMLLMよりもはるかに優れた審美的知覚性能を提供することが示された。
論文参考訳（メタデータ） (2024-04-15T09:56:20Z)
AesBench: An Expert Benchmark for Multimodal Large Language Models on Image Aesthetics Perception [64.25808552299905]
AesBenchはMLLMの審美的知覚能力の総合評価を目的とした専門家ベンチマークである。本稿では,プロの審美専門家が提供した多彩な画像内容と高品質なアノテーションを特徴とするEAPD(Expert-labeled Aesthetics Perception Database)を構築した。本稿では,知覚(AesP),共感(AesE),評価(AesA),解釈(AesI)の4つの視点からMLLMの審美的知覚能力を測定するための統合的基準を提案する。
論文参考訳（メタデータ） (2024-01-16T10:58:07Z)
A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文参考訳（メタデータ） (2023-06-23T15:21:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。