Fugu-MT 論文翻訳(概要): FigGen: Text to Scientific Figure Generation

論文の概要: FigGen: Text to Scientific Figure Generation

arxiv url: http://arxiv.org/abs/2306.00800v3
Date: Sun, 17 Dec 2023 08:24:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-19 20:42:16.128587
Title: FigGen: Text to Scientific Figure Generation
Title（参考訳）: figgen: テキストから科学的な図形生成
Authors: Juan A Rodriguez, David Vazquez, Issam Laradji, Marco Pedersoli, Pau Rodriguez
Abstract要約: 本稿では,テキスト記述から論文の科学的数値を生成するテキスト・ツー・フィギュア生成の問題を紹介する。本稿では,テキスト・ツー・フィギュアの拡散に基づくアプローチであるFigGenについて紹介する。
参考スコア（独自算出の注目度）: 9.091505857494681
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The generative modeling landscape has experienced tremendous growth in recent years, particularly in generating natural images and art. Recent techniques have shown impressive potential in creating complex visual compositions while delivering impressive realism and quality. However, state-of-the-art methods have been focusing on the narrow domain of natural images, while other distributions remain unexplored. In this paper, we introduce the problem of text-to-figure generation, that is creating scientific figures of papers from text descriptions. We present FigGen, a diffusion-based approach for text-to-figure as well as the main challenges of the proposed task. Code and models are available at https://github.com/joanrod/figure-diffusion
Abstract（参考訳）: 生成的モデリングのランドスケープは近年、特に自然画像や芸術の創造において、大きな成長を遂げている。最近の技術は、印象的なリアリズムと品質を提供しながら、複雑な視覚的構成を作成する素晴らしい可能性を示している。しかし、最先端の手法は自然画像の狭い領域に焦点を当てているが、他の分布は未探索のままである。本稿では,テキスト記述から論文の科学的図形を作成するテキストから図形への生成の問題を紹介する。本稿では,テキストから図形への拡散に基づくアプローチであるfiggenについて述べる。コードとモデルはhttps://github.com/joanrod/graphic-diffusionで入手できる。

関連論文リスト

AnyArtisticGlyph: Multilingual Controllable Artistic Glyph Generation [19.2293398270178]
アートグリフ画像生成(AGIG)は、そのコンテンツを保存しながら、参照画像のスタイルをソースに転送する。拡散型多言語制御可能な芸術的グリフ生成モデルであるAnyArtisticGlyphを紹介する。
論文参考訳（メタデータ） (2025-04-07T05:37:39Z)
GenesisTex2: Stable, Consistent and High-Quality Text-to-Texture Generation [35.04723374116026]
大規模テキスト・トゥ・イメージ(T2I)モデルは、テキスト・トゥ・イメージ(T2I)生成において驚くべき結果を示している。これらのモデルを用いて3次元ジオメトリーのテクスチャを合成することは、2次元画像と3次元表面のテクスチャとの領域ギャップのために依然として困難である。本稿では,事前学習した拡散モデルを活用する新しいテキスト・テクスチャ合成フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-27T02:32:42Z)
Visual Text Generation in the Wild [67.37458807253064]
野生で高品質なテキスト画像を生成する視覚テキスト生成装置(SceneVTG)を提案する。提案したSceneVTGは、従来のレンダリングに基づく手法と最近の拡散に基づく手法を、忠実さと理性の観点から大きく上回っている。生成された画像は、テキスト検出とテキスト認識を含むタスクに優れたユーティリティを提供する。
論文参考訳（メタデータ） (2024-07-19T09:08:20Z)
State of the Art on Diffusion Models for Visual Computing [191.6168813012954]
本稿では,拡散モデルの基本数学的概念,実装の詳細,および一般的な安定拡散モデルの設計選択を紹介する。また,拡散に基づく生成と編集に関する文献の急速な発展を概観する。利用可能なデータセット、メトリクス、オープンな課題、社会的意味について議論する。
論文参考訳（メタデータ） (2023-10-11T05:32:29Z)
LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文参考訳（メタデータ） (2023-08-09T17:45:04Z)
Diffusion idea exploration for art generation [0.10152838128195467]
拡散モデルは最近、クロスモーダルデータを用いた画像生成タスクにおいて、他の生成モデルよりも優れています。このタスクの新たな画像生成の初期実験は、有望な質的結果を示した。
論文参考訳（メタデータ） (2023-07-11T02:35:26Z)
GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文参考訳（メタデータ） (2023-04-25T02:14:44Z)
Text-to-image Diffusion Models in Generative AI: A Survey [86.11421833017693]
本調査は,テキストから画像を生成する際の拡散モデルの進展を概観する。ビデオなどの様々なモダリティのためのテキスト誘導生成や、テキスト誘導画像編集など、画像生成以外の応用について論じる。
論文参考訳（メタデータ） (2023-03-14T13:49:54Z)
Zero-shot Generation of Coherent Storybook from Plain Text Story using Diffusion Models [43.32978092618245]
本稿では,ストーリーの平文からコヒーレントなストーリーブックを生成するためのニューラルパイプラインを提案する。我々は,事前学習された大規模言語モデルとテキスト誘導型潜在拡散モデルを組み合わせて,コヒーレントな画像を生成する。
論文参考訳（メタデータ） (2023-02-08T06:24:06Z)
Plug-and-Play Diffusion Features for Text-Driven Image-to-Image Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文参考訳（メタデータ） (2022-11-22T20:39:18Z)
Language Does More Than Describe: On The Lack Of Figurative Speech in Text-To-Image Models [63.545146807810305]
テキスト・ツー・イメージ拡散モデルでは、テキスト入力プロンプトから高品質な画像を生成することができる。これらのモデルは、コンテンツベースのラベル付けプロトコルから収集されたテキストデータを用いて訓練されている。本研究では,現在使用されているテキスト・画像拡散モデルのトレーニングに使用されている公開テキストデータの感情性,目的性,抽象化の程度を特徴付ける。
論文参考訳（メタデータ） (2022-10-19T14:20:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。