論文の概要: DreamStruct: Understanding Slides and User Interfaces via Synthetic Data Generation
- arxiv url: http://arxiv.org/abs/2410.00201v1
- Date: Mon, 30 Sep 2024 19:55:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 06:56:01.974721
- Title: DreamStruct: Understanding Slides and User Interfaces via Synthetic Data Generation
- Title(参考訳): DreamStruct: 合成データ生成によるスライドとユーザインターフェースの理解
- Authors: Yi-Hao Peng, Faria Huq, Yue Jiang, Jason Wu, Amanda Xin Yue Li, Jeffrey Bigham, Amy Pavel,
- Abstract要約: 本稿では、コード生成を用いて、ターゲットラベルを用いた合成構造化ビジュアルを生成する方法を提案する。
提案手法では,ラベルを組み込んだデータセットを作成でき,人間に注釈を付けたサンプルを少数用意してモデルを訓練することができる。
- 参考スコア(独自算出の注目度): 18.05133277269579
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Enabling machines to understand structured visuals like slides and user interfaces is essential for making them accessible to people with disabilities. However, achieving such understanding computationally has required manual data collection and annotation, which is time-consuming and labor-intensive. To overcome this challenge, we present a method to generate synthetic, structured visuals with target labels using code generation. Our method allows people to create datasets with built-in labels and train models with a small number of human-annotated examples. We demonstrate performance improvements in three tasks for understanding slides and UIs: recognizing visual elements, describing visual content, and classifying visual content types.
- Abstract(参考訳): 機械がスライドやユーザインターフェースのような構造化された視覚を理解することは、障害のある人にアクセスできるようにするのに不可欠である。
しかし、そのような理解を計算的に達成するには、時間と労力を要する手動のデータ収集とアノテーションが必要である。
この課題を克服するために、コード生成を用いてターゲットラベルを用いた合成構造化ビジュアルを生成する方法を提案する。
提案手法では,ラベルを組み込んだデータセットを作成でき,人間に注釈を付けたサンプルを少数用意してモデルを訓練することができる。
視覚要素を認識すること、視覚内容を記述すること、視覚内容の型を分類することである。
関連論文リスト
- Generative Timelines for Instructed Visual Assembly [106.80501761556606]
この研究の目的は、自然言語の指示を通じて視覚的タイムライン(例えばビデオ)を操作することである。
そこで本研究では,教師付き視覚アセンブリタスクの実行を訓練した生成モデルであるTimeline Assemblerを提案する。
論文 参考訳(メタデータ) (2024-11-19T07:26:30Z) - An Interactive Human-Machine Learning Interface for Collecting and Learning from Complex Annotations [45.23526921041318]
我々は,従来のラベルの制約にヒトのアノテータが適応するという期待を緩和するために,監視情報が収集される形で,さらなる柔軟性を実現することを目的としている。
そこで本研究では,データセットのアノテーションとして標準バイナリラベルを補完するために,ヒューマンアノテータによる実例の活用を可能にする,バイナリ分類タスクのためのヒューマンマシン学習インタフェースを提案する。
論文 参考訳(メタデータ) (2024-03-28T11:57:06Z) - Thinking Like an Annotator: Generation of Dataset Labeling Instructions [59.603239753484345]
本稿では、公開されていないラベリング命令に対処するため、新しいタスクであるラベリング命令生成を導入する。
1)データセット内のカテゴリ毎に視覚的に代表されるサンプルのセットを生成し,2)サンプルに対応するテキストラベルを提供する。
このフレームワークは人間のアノテーションのプロキシとして機能し、最終的なラベル付け命令セットを生成し、その品質を評価するのに役立つ。
論文 参考訳(メタデータ) (2023-06-24T18:32:48Z) - What and How of Machine Learning Transparency: Building Bespoke
Explainability Tools with Interoperable Algorithmic Components [77.87794937143511]
本稿では,データ駆動予測モデルを説明するためのハンズオントレーニング教材について紹介する。
これらのリソースは、解釈可能な表現合成、データサンプリング、説明生成の3つのコアビルディングブロックをカバーする。
論文 参考訳(メタデータ) (2022-09-08T13:33:25Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - Rich Semantics Improve Few-shot Learning [49.11659525563236]
アノテーションコストを最小限に抑えながら取得できる「クラスレベル」言語記述を用いることで、少ない学習性能を向上できることを示す。
我々は,視覚トークンと意味トークンを関連付けるための前方および後方エンコーディング機構を開発した。
論文 参考訳(メタデータ) (2021-04-26T16:48:27Z) - Class Knowledge Overlay to Visual Feature Learning for Zero-Shot Image
Classification [18.299463254965264]
クラス知識と視覚的特徴学習に基づく新しいゼロショット学習手法GAN-CSTを提案する。
提案されたモデルは最先端のアプローチよりも優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2021-02-26T06:34:35Z) - DOC2PPT: Automatic Presentation Slides Generation from Scientific
Documents [76.19748112897177]
文書・スライド生成のための新しい課題とアプローチを提案する。
エンドツーエンドでタスクに取り組むための階層的なシーケンス・ツー・シーケンスアプローチを提案する。
提案手法では,文書やスライド内の固有構造を利用して,パラフレーズとレイアウト予測モジュールを組み込んでスライドを生成する。
論文 参考訳(メタデータ) (2021-01-28T03:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。