論文の概要: Seeing Like a Designer Without One: A Study on Unsupervised Slide Quality Assessment via Designer Cue Augmentation
- arxiv url: http://arxiv.org/abs/2508.19289v1
- Date: Mon, 25 Aug 2025 10:07:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.351573
- Title: Seeing Like a Designer Without One: A Study on Unsupervised Slide Quality Assessment via Designer Cue Augmentation
- Title(参考訳): 設計者がいないように見える:デザイナCue Augmentationによる教師なしスライド品質評価に関する研究
- Authors: Tai Inui, Steven Oh, Magdeline Kuan,
- Abstract要約: 専門家にインスパイアされたビジュアルデザインメトリクスとCLIP-ViT埋め込みを組み合わせた,教師なしのスライド品質評価パイプラインを提案する。
12kのプロの講義スライドでトレーニングを行い、6つの学術講演(115のスライド)で評価した。
以上の結果から,マルチモーダル埋め込みによる低レベルの設計手法の強化は,スライド品質に対する観衆の認識を近似させることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an unsupervised slide-quality assessment pipeline that combines seven expert-inspired visual-design metrics (whitespace, colorfulness, edge density, brightness contrast, text density, color harmony, layout balance) with CLIP-ViT embeddings, using Isolation Forest-based anomaly scoring to evaluate presentation slides. Trained on 12k professional lecture slides and evaluated on six academic talks (115 slides), our method achieved Pearson correlations up to 0.83 with human visual-quality ratings-1.79x to 3.23x stronger than scores from leading vision-language models (ChatGPT o4-mini-high, ChatGPT o3, Claude Sonnet 4, Gemini 2.5 Pro). We demonstrate convergent validity with visual ratings, discriminant validity against speaker-delivery scores, and exploratory alignment with overall impressions. Our results show that augmenting low-level design cues with multimodal embeddings closely approximates audience perceptions of slide quality, enabling scalable, objective feedback in real time.
- Abstract(参考訳): 筆者らは,専門家にインスパイアされた視覚設計指標(ホワイトスペース,カラフルネス,エッジ密度,輝度コントラスト,テキスト密度,色調和,レイアウトバランス)をCLIP-ViT埋め込みと組み合わせた非教師なしのスライド品質評価パイプラインを提案し,プレゼンテーションスライドの評価にアイソレーションフォレストを用いた異常スコアを用いた。
12kのプロ講義スライドで学習し、6つの学術講演(115のスライド)で評価し、主要な視覚言語モデル(ChatGPT o4-mini-high, ChatGPT o3, Claude Sonnet 4, Gemini 2.5 Pro)のスコアよりも、人間の視覚品質評価1.79xから3.23倍のPearson相関を得た。
本研究では,視覚的評価による収束妥当性,話者配信スコアに対する差別的妥当性,全体的な印象と探索的整合性を示す。
以上の結果から,マルチモーダル埋め込みによる低レベルの設計手法の強化は,スライド品質に対する観客の認識を密接に近似させ,スケーラブルで客観的なフィードバックをリアルタイムに実現できることが示唆された。
関連論文リスト
- SketchMind: A Multi-Agent Cognitive Framework for Assessing Student-Drawn Scientific Sketches [1.1172147007388977]
SketchMindは、学生が描いた科学スケッチを評価し改善するためのマルチエージェントフレームワークである。
解析、スケッチ認識、認知アライメント、スケッチ修正による反復的なフィードバックを担当するモジュールエージェントで構成されている。
専門家らは、ガイド付きリビジョンを通じて概念的成長を有意義に支援するシステムの可能性に言及した。
論文 参考訳(メタデータ) (2025-06-29T11:35:10Z) - VLM2-Bench: A Closer Look at How Well VLMs Implicitly Link Explicit Matching Visual Cues [34.95077625513563]
textbfVLM2-Benchは視覚言語モデルが視覚的にマッチングの手がかりをリンクできるかどうかを評価するためのベンチマークである。
12個のVLMの包括的評価と、様々な言語側および視覚側プロンプト手法のさらなる分析により、合計8つの重要な結果が得られた。
視覚的な手がかりをリンクするモデルの能力において重要な課題を特定し、大きなパフォーマンスギャップを浮き彫りにする。
論文 参考訳(メタデータ) (2025-02-17T17:57:50Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models [69.52245481329899]
本稿では,画像コンテキスト推論評価のためのベンチマークであるHalusionBenchを紹介する。
このベンチマークは、1129の質問と組み合わせた346の画像で構成されており、すべて人間の専門家によって細心の注意を払って作成されている。
HallusionBenchの評価では、15種類のモデルをベンチマークし、最先端のGPT-4Vによって達成された31.42%の質問対精度を強調した。
論文 参考訳(メタデータ) (2023-10-23T04:49:09Z) - Hallucination Improves the Performance of Unsupervised Visual
Representation Learning [9.504503675097137]
本研究では,さらにコントラストを増すために,効率よく追加の正のサンプルを生成できるHalucinatorを提案する。
Hallucinatorは識別可能で、機能領域で新しいデータを生成する。
顕著なことに,提案した幻覚器が様々な対照的な学習モデルによく当てはまることを実証的に証明する。
論文 参考訳(メタデータ) (2023-07-22T21:15:56Z) - Learning to Decompose Visual Features with Latent Textual Prompts [140.2117637223449]
視覚言語モデルを改善するために,Decomposed Feature Prompting (DeFo)を提案する。
我々の実証研究は、視覚言語モデルを改善する上でDeFoが重要であることを示している。
論文 参考訳(メタデータ) (2022-10-09T15:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。