論文の概要: Exploring Diagnostic Prompting Approach for Multimodal LLM-based Visual Complexity Assessment: A Case Study of Amazon Search Result Pages
- arxiv url: http://arxiv.org/abs/2512.00082v1
- Date: Wed, 26 Nov 2025 02:21:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.049608
- Title: Exploring Diagnostic Prompting Approach for Multimodal LLM-based Visual Complexity Assessment: A Case Study of Amazon Search Result Pages
- Title(参考訳): マルチモーダルLCMに基づく視覚的複雑度評価のための診断プロンプティング手法の探索:Amazon Searchの結果ページを事例として
- Authors: Divendar Murtadak, Yoon Kim, Trilokya Akula,
- Abstract要約: 本研究では,Amazon Search Results Pages (SRP) の視覚的複雑性評価において,診断プロンプトがMLLM(Multimodal Large Language Model)の信頼性を向上させるか否かを検討する。
F1スコアは0.031から0.297へと増加(+858%の相対的改善)した。
決定木は、モデルが視覚的デザイン要素(バッジ・クラッタ:38.6%の重要さ)を優先していることを明らかにし、一方で人間はコンテンツの類似性を強調し、推論パターンにおける部分的なアライメントを示唆している。
- 参考スコア(独自算出の注目度): 31.662311504820654
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This study investigates whether diagnostic prompting can improve Multimodal Large Language Model (MLLM) reliability for visual complexity assessment of Amazon Search Results Pages (SRP). We compare diagnostic prompting with standard gestalt principles-based prompting using 200 Amazon SRP pages and human expert annotations. Diagnostic prompting showed notable improvements in predicting human complexity judgments, with F1-score increasing from 0.031 to 0.297 (+858\% relative improvement), though absolute performance remains modest (Cohen's $κ$ = 0.071). The decision tree revealed that models prioritize visual design elements (badge clutter: 38.6\% importance) while humans emphasize content similarity, suggesting partial alignment in reasoning patterns. Failure case analysis reveals persistent challenges in MLLM visual perception, particularly for product similarity and color intensity assessment. Our findings indicate that diagnostic prompting represents a promising initial step toward human-aligned MLLM-based evaluation, though failure cases with consistent human-MLLM disagreement require continued research and refinement in prompting approaches with larger ground truth datasets for reliable practical deployment.
- Abstract(参考訳): 本研究では,Amazon Search Results Pages (SRP) の視覚的複雑性評価において,診断プロンプトがMLLM(Multimodal Large Language Model)の信頼性を向上させるかを検討する。
我々は,200ページのAmazon SRPページと人間の専門家アノテーションを使用して,標準的なゲシュタルト原則に基づく診断プロンプトと比較した。
F1スコアは0.031から0.297(+858\%)まで上昇したが、絶対的な性能は控えめである(Cohenの$κ$ = 0.071)。
決定木は、モデルが視覚的デザイン要素(バッジ・クラッタ:38.6\%の重要度)を優先していることを明らかにし、一方で人間は内容の類似性を強調し、推論パターンにおける部分的なアライメントを示唆した。
失敗事例分析は、特に製品類似性および色強度評価において、MLLM視覚知覚における永続的な課題を明らかにしている。
以上の結果から,ヒトとMLLMの整合性に相反する障害症例では,信頼性の高い実践的展開のために,より大規模な地上真実データセットを用いたアプローチを推し進める上で,継続的な研究と改善が必要であるが,診断の促進は,ヒトの協調型MLLMによる評価に向けた有望な第一歩であることが示唆された。
関連論文リスト
- Large Language Models for Full-Text Methods Assessment: A Case Study on Mediation Analysis [15.98124151893659]
大規模言語モデル(LLM)は方法論的評価の自動化の可能性を秘めている。
我々は180のフルテキストの科学論文に対して、最先端のLLMを専門家の人間レビュアーに対してベンチマークした。
論文 参考訳(メタデータ) (2025-10-12T19:04:22Z) - Subject-Adaptive Sparse Linear Models for Interpretable Personalized Health Prediction from Multimodal Lifelog Data [18.017666750186336]
SASLは、パーソナライズされた健康予測のために明示的に設計された解釈可能なモデリングアプローチである。
本研究では, 平均F1スコアを最大化するために, 平均F1スコアを最大化するためにレグレッション-then-thresholdingアプローチを開発する。
本質的に困難な予測のために、SASLは信頼性ベースのゲーティングを通じて、コンパクトなLightGBMモデルの出力を選択的に組み込む。
論文 参考訳(メタデータ) (2025-10-03T09:17:57Z) - Towards Synthesizing Normative Data for Cognitive Assessments Using Generative Multimodal Large Language Models [15.287990843387382]
新しいイメージ刺激に基づく新しい認知テストの開発は、手軽に利用できる規範データがないために困難である。
近年のMLLM(Generative Multimodal Large Language Model)の進歩は、既存の認知テスト画像から合成規範データを生成する新しいアプローチを提供する。
論文 参考訳(メタデータ) (2025-08-25T05:14:15Z) - The Illusion of Progress: Re-evaluating Hallucination Detection in LLMs [10.103648327848763]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、その幻覚化傾向は信頼性の高いデプロイメントに深刻な課題をもたらす。
幻覚検出法は多数あるが、その評価は人間の判断と不一致した語彙的重なりに基づく尺度であるROUGEに依存することが多い。
我々は,幻覚検出手法の真の性能を正確に評価するために,意味的認識と頑健な評価フレームワークの採用が不可欠であると主張している。
論文 参考訳(メタデータ) (2025-08-01T20:34:01Z) - Joint Evaluation of Answer and Reasoning Consistency for Hallucination Detection in Large Reasoning Models [12.270274049887298]
トレースの推論は冗長あるいは論理的に矛盾する可能性があるため、新しい幻覚の源となる。
既存の幻覚検出法は主に回答レベルの不確実性に焦点を当てている。
LRMにおける幻覚検出に適した新しいフレームワークであるRASを提案する。
論文 参考訳(メタデータ) (2025-06-05T09:54:04Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。