Fugu-MT 論文翻訳(概要): Predicting Visual Importance Across Graphic Design Types

論文の概要: Predicting Visual Importance Across Graphic Design Types

arxiv url: http://arxiv.org/abs/2008.02912v1
Date: Fri, 7 Aug 2020 00:12:18 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-02 01:55:38.445601
Title: Predicting Visual Importance Across Graphic Design Types
Title（参考訳）: グラフィックデザインタイプ間の視覚的重要性の予測
Authors: Camilo Fosco, Vincent Casser, Amish Kumar Bedi, Peter O'Donovan, Aaron Hertzmann, Zoya Bylinskii
Abstract要約: 本稿では,統一衛生・重要度モデル(UMSI)を紹介する。 UMSIは、入力グラフィックデザインにおける視覚的重要性と、自然画像における正当性を予測することを学ぶ。また、重要情報を付加した新しいデザインデータセットであるImp1kについても紹介する。
参考スコア（独自算出の注目度）: 22.171824732227872
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces a Unified Model of Saliency and Importance (UMSI), which learns to predict visual importance in input graphic designs, and saliency in natural images, along with a new dataset and applications. Previous methods for predicting saliency or visual importance are trained individually on specialized datasets, making them limited in application and leading to poor generalization on novel image classes, while requiring a user to know which model to apply to which input. UMSI is a deep learning-based model simultaneously trained on images from different design classes, including posters, infographics, mobile UIs, as well as natural images, and includes an automatic classification module to classify the input. This allows the model to work more effectively without requiring a user to label the input. We also introduce Imp1k, a new dataset of designs annotated with importance information. We demonstrate two new design interfaces that use importance prediction, including a tool for adjusting the relative importance of design elements, and a tool for reflowing designs to new aspect ratios while preserving visual importance. The model, code, and importance dataset are available at https://predimportance.mit.edu .
Abstract（参考訳）: 本稿では,入力グラフィックデザインにおける視覚的重要性と自然画像におけるサリエンシを,新たなデータセットやアプリケーションとともに予測するUMSI(Unified Model of Saliency and Importance)を提案する。従来は、特定のデータセットで個別に学習し、適用範囲が限定され、新規画像クラスへの一般化が不十分であり、ユーザーはどの入力にどのモデルを適用するかを知る必要がある。 UMSIは、ポスター、インフォグラフィック、モバイルUI、および自然画像を含むさまざまなデザインクラスのイメージを同時にトレーニングしたディープラーニングベースのモデルであり、入力を分類する自動分類モジュールを含んでいる。これにより、ユーザが入力にラベルを付けることなく、モデルをより効率的に動作させることができる。また、重要情報を付加した新しいデザインデータセットであるImp1kについても紹介する。デザイン要素の相対的重要度を調整するツールと、視覚的重要度を維持しつつ新しいアスペクト比にデザインをリフローするツールを含む、重要度予測を使用する2つの新しいデザインインターフェースを示す。モデル、コード、重要度データセットはhttps://predimportance.mit.edu.com/で利用可能である。

関連論文リスト

Personalized Vision via Visual In-Context Learning [62.85784251383279]
パーソナライズされた視覚のためのビジュアル・イン・コンテキスト・ラーニング・フレームワークを提案する。 PICOは基盤となる変換を推測し、再トレーニングせずに新しい入力に適用する。また,効率的な推論スケーリングによる信頼性向上を目的とした注意誘導型シードスコアラを提案する。
論文参考訳（メタデータ） (2025-09-29T17:58:45Z)
No Labels Needed: Zero-Shot Image Classification with Collaborative Self-Learning [0.0]
視覚言語モデル(VLM)と、事前学習された視覚モデルを用いた伝達学習は、この問題に対処するための有望な手法として現れる。本稿では,VLMと事前学習した視覚モデルを組み合わせたゼロショット画像分類フレームワークを提案する。
論文参考訳（メタデータ） (2025-09-23T12:54:52Z)
DICEPTION: A Generalist Diffusion Model for Visual Perceptual Tasks [61.16389024252561]
計算資源と限られた訓練データとの制約下で複数のタスクに対処できる頑健な一般認識モデルを構築した。我々は、何十億もの画像に事前訓練されたテキスト・画像拡散モデルを活用し、ビジュアル・ジェネラリスト・モデルであるDICEPTIONの導入に成功した。 DICEPTIONは、SOTAシングルタスクスペシャリストモデルに匹敵するパフォーマンスを達成しつつ、様々な知覚タスクに効果的に取り組むことを示す。
論文参考訳（メタデータ） (2025-02-24T13:51:06Z)
Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文参考訳（メタデータ） (2024-06-19T08:07:14Z)
Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文参考訳（メタデータ） (2024-05-30T05:53:49Z)
U-VAP: User-specified Visual Appearance Personalization via Decoupled Self Augmentation [18.841473623776153]
最先端のパーソナライズモデルでは、被写体全体をオーバーフィットさせる傾向があり、画素空間における視覚的特徴を乱すことはできない。ユーザ固有の視覚属性を学習するために,ターゲット関連および非ターゲットサンプルを生成するために,新たなデカップリング自己拡張戦略を提案する。 SOTAパーソナライズ手法による様々な視覚特性の実験は、新規な文脈における対象の視覚的外観を模倣する手法の能力を示している。
論文参考訳（メタデータ） (2024-03-29T15:20:34Z)
Modeling Collaborator: Enabling Subjective Vision Classification With Minimal Human Effort via LLM Tool-Use [14.2527771630478]
本稿では,人間のラベリングを自然言語操作に置き換えることで,手作業の軽減を図る新しいフレームワークを提案する。当社のフレームワークは,クラウドソースアノテーションの必要性を排除している。トレーニングされたモデルは、従来のアジャイルモデリングや最先端のゼロショット分類モデルよりも優れています。
論文参考訳（メタデータ） (2024-03-05T03:34:11Z)
ScreenAI: A Vision-Language Model for UI and Infographics Understanding [4.914575630736291]
UIとインフォグラフィックの理解を専門とする視覚言語モデルであるScreenAIを紹介する。この混合の核心は、モデルがUI要素のタイプと位置を識別しなければならない新しいスクリーンアノテーションタスクである。これらのテキストアノテーションを使用して、画面を大規模言語モデルに記述し、質問応答(QA)、UIナビゲーション、要約トレーニングデータセットを大規模に生成する。
論文参考訳（メタデータ） (2024-02-07T06:42:33Z)
Sequential Modeling Enables Scalable Learning for Large Vision Models [120.91839619284431]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文参考訳（メタデータ） (2023-12-01T18:59:57Z)
Rethinking Visual Prompt Learning as Masked Visual Token Modeling [106.71983630652323]
マスク付き視覚トークンモデリング(VPTM)として視覚プロンプト学習を提案し、下流の視覚分類を事前訓練されたマスク付き視覚トークン予測に変換する。 VPTMは、生成前訓練された視覚モデルにおける最初の視覚的プロンプト法であり、タスク修正による事前学習と下流視覚分類の整合性を実現する。
論文参考訳（メタデータ） (2023-03-09T02:43:10Z)
Robustar: Interactive Toolbox Supporting Precise Data Annotation for Robust Vision Learning [53.900911121695536]
ソフトウェアRobustarの初期リリースを紹介します。それは、データ駆動の観点から視覚分類機械学習モデルの堅牢性を改善することを目的としている。
論文参考訳（メタデータ） (2022-07-18T21:12:28Z)
Graph Few-shot Class-incremental Learning [25.94168397283495]
新しいクラスを段階的に学習する能力は、すべての現実世界の人工知能システムにとって不可欠である。本稿では,グラフFCL(Graph Few-shot Class-incremental)問題について検討する。基本クラスから繰り返しタスクをサンプリングすることでグラフ擬似インクリメンタルラーニングパラダイムを提案する。本稿では,タスクレベルの注意とノードクラスのプロトタイプから計算したタスク依存型正規化器について述べる。
論文参考訳（メタデータ） (2021-12-23T19:46:07Z)
Towards Open-World Feature Extrapolation: An Inductive Graph Learning Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文参考訳（メタデータ） (2021-10-09T09:02:45Z)
Reducing Overlearning through Disentangled Representations by Suppressing Unknown Tasks [8.517620051440005]
視覚的特徴を学習するための既存のディープラーニングアプローチは、手元にあるタスクに必要なものよりも、過剰に学習し、より多くの情報を抽出する傾向がある。プライバシー保護の観点からは、入力された視覚情報はモデルから保護されない。未知のタスクを全て抑制することで、モデルオーバーラーニングを減らすためのモデル非依存のソリューションを提案する。
論文参考訳（メタデータ） (2020-05-20T17:31:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。