論文の概要: Predicting Visual Importance Across Graphic Design Types
- arxiv url: http://arxiv.org/abs/2008.02912v1
- Date: Fri, 7 Aug 2020 00:12:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 01:55:38.445601
- Title: Predicting Visual Importance Across Graphic Design Types
- Title(参考訳): グラフィックデザインタイプ間の視覚的重要性の予測
- Authors: Camilo Fosco, Vincent Casser, Amish Kumar Bedi, Peter O'Donovan, Aaron
Hertzmann, Zoya Bylinskii
- Abstract要約: 本稿では,統一衛生・重要度モデル(UMSI)を紹介する。
UMSIは、入力グラフィックデザインにおける視覚的重要性と、自然画像における正当性を予測することを学ぶ。
また、重要情報を付加した新しいデザインデータセットであるImp1kについても紹介する。
- 参考スコア(独自算出の注目度): 22.171824732227872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a Unified Model of Saliency and Importance (UMSI),
which learns to predict visual importance in input graphic designs, and
saliency in natural images, along with a new dataset and applications. Previous
methods for predicting saliency or visual importance are trained individually
on specialized datasets, making them limited in application and leading to poor
generalization on novel image classes, while requiring a user to know which
model to apply to which input. UMSI is a deep learning-based model
simultaneously trained on images from different design classes, including
posters, infographics, mobile UIs, as well as natural images, and includes an
automatic classification module to classify the input. This allows the model to
work more effectively without requiring a user to label the input. We also
introduce Imp1k, a new dataset of designs annotated with importance
information. We demonstrate two new design interfaces that use importance
prediction, including a tool for adjusting the relative importance of design
elements, and a tool for reflowing designs to new aspect ratios while
preserving visual importance. The model, code, and importance dataset are
available at https://predimportance.mit.edu .
- Abstract(参考訳): 本稿では,入力グラフィックデザインにおける視覚的重要性と自然画像におけるサリエンシを,新たなデータセットやアプリケーションとともに予測するUMSI(Unified Model of Saliency and Importance)を提案する。
従来は、特定のデータセットで個別に学習し、適用範囲が限定され、新規画像クラスへの一般化が不十分であり、ユーザーはどの入力にどのモデルを適用するかを知る必要がある。
UMSIは、ポスター、インフォグラフィック、モバイルUI、および自然画像を含むさまざまなデザインクラスのイメージを同時にトレーニングしたディープラーニングベースのモデルであり、入力を分類する自動分類モジュールを含んでいる。
これにより、ユーザが入力にラベルを付けることなく、モデルをより効率的に動作させることができる。
また、重要情報を付加した新しいデザインデータセットであるImp1kについても紹介する。
デザイン要素の相対的重要度を調整するツールと、視覚的重要度を維持しつつ新しいアスペクト比にデザインをリフローするツールを含む、重要度予測を使用する2つの新しいデザインインターフェースを示す。
モデル、コード、重要度データセットはhttps://predimportance.mit.edu.com/で利用可能である。
関連論文リスト
- Modeling Collaborator: Enabling Subjective Vision Classification With
Minimal Human Effort via LLM Tool-Use [14.601182512709068]
本稿では,人間のラベリングを自然言語操作に置き換えることで,手作業の軽減を図る新しいフレームワークを提案する。
当社のフレームワークは,クラウドソースアノテーションの必要性を排除している。
トレーニングされたモデルは、従来のアジャイルモデリングや最先端のゼロショット分類モデルよりも優れています。
論文 参考訳(メタデータ) (2024-03-05T03:34:11Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - ScreenAI: A Vision-Language Model for UI and Infographics Understanding [5.078099206303688]
UIとインフォグラフィックの理解を専門とする視覚言語モデルであるScreenAIを紹介する。
この混合の核心は、モデルがUI要素のタイプと位置を識別しなければならない新しいスクリーンアノテーションタスクである。
これらのテキストアノテーションを使用して、画面を大規模言語モデルに記述し、質問応答(QA)、UIナビゲーション、要約トレーニングデータセットを大規模に生成する。
論文 参考訳(メタデータ) (2024-02-07T06:42:33Z) - Sequential Modeling Enables Scalable Learning for Large Vision Models [120.91839619284431]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。
我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文 参考訳(メタデータ) (2023-12-01T18:59:57Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Enhancing Visually-Rich Document Understanding via Layout Structure
Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。
我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-15T13:53:52Z) - Rethinking Visual Prompt Learning as Masked Visual Token Modeling [106.71983630652323]
マスク付き視覚トークンモデリング(VPTM)として視覚プロンプト学習を提案し、下流の視覚分類を事前訓練されたマスク付き視覚トークン予測に変換する。
VPTMは、生成前訓練された視覚モデルにおける最初の視覚的プロンプト法であり、タスク修正による事前学習と下流視覚分類の整合性を実現する。
論文 参考訳(メタデータ) (2023-03-09T02:43:10Z) - Robustar: Interactive Toolbox Supporting Precise Data Annotation for
Robust Vision Learning [53.900911121695536]
ソフトウェアRobustarの初期リリースを紹介します。
それは、データ駆動の観点から視覚分類機械学習モデルの堅牢性を改善することを目的としている。
論文 参考訳(メタデータ) (2022-07-18T21:12:28Z) - Graph Few-shot Class-incremental Learning [25.94168397283495]
新しいクラスを段階的に学習する能力は、すべての現実世界の人工知能システムにとって不可欠である。
本稿では,グラフFCL(Graph Few-shot Class-incremental)問題について検討する。
基本クラスから繰り返しタスクをサンプリングすることでグラフ擬似インクリメンタルラーニングパラダイムを提案する。
本稿では,タスクレベルの注意とノードクラスのプロトタイプから計算したタスク依存型正規化器について述べる。
論文 参考訳(メタデータ) (2021-12-23T19:46:07Z) - Towards Open-World Feature Extrapolation: An Inductive Graph Learning
Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。
本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文 参考訳(メタデータ) (2021-10-09T09:02:45Z) - Reducing Overlearning through Disentangled Representations by
Suppressing Unknown Tasks [8.517620051440005]
視覚的特徴を学習するための既存のディープラーニングアプローチは、手元にあるタスクに必要なものよりも、過剰に学習し、より多くの情報を抽出する傾向がある。
プライバシー保護の観点からは、入力された視覚情報はモデルから保護されない。
未知のタスクを全て抑制することで、モデルオーバーラーニングを減らすためのモデル非依存のソリューションを提案する。
論文 参考訳(メタデータ) (2020-05-20T17:31:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。