論文の概要: Let the Chart Spark: Embedding Semantic Context into Chart with
Text-to-Image Generative Model
- arxiv url: http://arxiv.org/abs/2304.14630v1
- Date: Fri, 28 Apr 2023 05:18:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-01 15:15:55.055805
- Title: Let the Chart Spark: Embedding Semantic Context into Chart with
Text-to-Image Generative Model
- Title(参考訳): Let the Chart Spark: テキストから画像への生成モデルによるセマンティックコンテキストのグラフへの埋め込み
- Authors: Shishi Xiao, Suizi Huang, Yue Lin, Yilin Ye, Wei Zeng
- Abstract要約: 画像視覚化は、データとセマンティックコンテキストを視覚表現にシームレスに統合する。
本稿では,テキストから画像への生成モデルに基づく意味コンテキストをグラフに組み込む新しいシステムであるChartSparkを提案する。
本研究では,テキストアナライザ,編集モジュール,評価モジュールを統合したインタラクティブなビジュアルインタフェースを開発し,画像視覚化の生成,修正,評価を行う。
- 参考スコア(独自算出の注目度): 7.587729429265939
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pictorial visualization seamlessly integrates data and semantic context into
visual representation, conveying complex information in a manner that is both
engaging and informative. Extensive studies have been devoted to developing
authoring tools to simplify the creation of pictorial visualizations. However,
mainstream works mostly follow a retrieving-and-editing pipeline that heavily
relies on retrieved visual elements from a dedicated corpus, which often
compromise the data integrity. Text-guided generation methods are emerging, but
may have limited applicability due to its predefined recognized entities. In
this work, we propose ChartSpark, a novel system that embeds semantic context
into chart based on text-to-image generative model. ChartSpark generates
pictorial visualizations conditioned on both semantic context conveyed in
textual inputs and data information embedded in plain charts. The method is
generic for both foreground and background pictorial generation, satisfying the
design practices identified from an empirical research into existing pictorial
visualizations. We further develop an interactive visual interface that
integrates a text analyzer, editing module, and evaluation module to enable
users to generate, modify, and assess pictorial visualizations. We
experimentally demonstrate the usability of our tool, and conclude with a
discussion of the potential of using text-to-image generative model combined
with interactive interface for visualization design.
- Abstract(参考訳): 画像視覚化は、データとセマンティックコンテキストをシームレスに視覚表現に統合し、エンゲージメントとインフォメーションの両方の方法で複雑な情報を伝達する。
画像可視化の作成を単純化するオーサリングツールの開発に広範な研究がなされている。
しかし、主流の作業は、主に、専用のコーパスから取得した視覚要素に大きく依存する、検索と編集のパイプラインに従っている。
テキスト誘導生成法は登場しているが、事前に定義された実体によって適用性が制限される可能性がある。
本研究では,テキストから画像への生成モデルに基づく意味コンテキストをグラフに埋め込む新しいシステムであるChartSparkを提案する。
ChartSparkは、テキスト入力で伝達されるセマンティックコンテキストと、プレーンチャートに埋め込まれたデータ情報の両方に基づいて、画像視覚化を生成する。
この手法は前景と背景画像の生成の両方に汎用的であり、既存の画像視覚化に関する実証的研究から特定された設計プラクティスを満たす。
さらに,テキストアナライザ,編集モジュール,評価モジュールを統合し,ユーザが画像の可視化を生成,修正,評価できるインタラクティブなビジュアルインタフェースを開発する。
本ツールの有用性を実験的に実証し,テキストから画像への生成モデルとインタラクティブインタフェースを組み合わせた可視化設計の可能性について考察した。
関連論文リスト
- Prompt-Consistency Image Generation (PCIG): A Unified Framework Integrating LLMs, Knowledge Graphs, and Controllable Diffusion Models [20.19571676239579]
生成した画像と対応する記述とのアライメントを強化するための,拡散に基づく新しいフレームワークを提案する。
この枠組みは不整合現象の包括的解析に基づいて構築され,画像の表示に基づいて分類する。
次に、最先端の制御可能な画像生成モデルとビジュアルテキスト生成モジュールを統合し、元のプロンプトと整合した画像を生成する。
論文 参考訳(メタデータ) (2024-06-24T06:12:16Z) - Generated Contents Enrichment [11.196681396888536]
我々は、GCE(Generated Contents Enrichment)と呼ばれる新しい人工知能タスクを提案する。
提案したGCEは、視覚領域とテキスト領域の両方において、コンテンツ豊か化を明示的に行おうとしている。
GCEに対処するために,意味論と意味間関係を明確に探求するディープエンド・ツー・エンドの敵対手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T17:14:09Z) - Visual Analytics for Efficient Image Exploration and User-Guided Image
Captioning [35.47078178526536]
事前訓練された大規模言語画像モデルの最近の進歩は、視覚的理解の新しい時代を後押ししている。
本稿では,視覚分析の領域でよく知られた2つの問題に取り組み,(1)大規模画像データセットの効率的な探索と潜在的なデータバイアスの同定,(2)画像キャプションの評価と生成過程のステアリングを行う。
論文 参考訳(メタデータ) (2023-11-02T06:21:35Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Focus! Relevant and Sufficient Context Selection for News Image
Captioning [69.36678144800936]
News Image Captioningは、ニュース記事から追加のコンテキストを活用することで、画像を記述する必要がある。
本稿では,事前学習された視覚・言語検索モデルであるCLIPを用いて,ニュース記事中の視覚的根拠を持つエンティティをローカライズすることを提案する。
我々の実験は、記事からより良いコンテキストを選択するだけで、既存のモデルの性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2022-12-01T20:00:27Z) - Boosting Entity-aware Image Captioning with Multi-modal Knowledge Graph [96.95815946327079]
名前付きエンティティの長期分布により、名前付きエンティティと視覚的キューの関係を学習することは困難である。
本稿では、視覚オブジェクトと名前付きエンティティを関連付けるために、マルチモーダルな知識グラフを構築する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-07-26T05:50:41Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Learning to Represent Image and Text with Denotation Graph [32.417311523031195]
本稿では,画像とテキスト間の暗黙的・視覚的接地表現の集合から学習表現を提案する。
得られた構造的関係を利用して,最先端のマルチモーダル学習モデルをさらに改良できることを示す。
論文 参考訳(メタデータ) (2020-10-06T18:00:58Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。