論文の概要: Text2Traffic: A Text-to-Image Generation and Editing Method for Traffic Scenes
- arxiv url: http://arxiv.org/abs/2511.12932v1
- Date: Mon, 17 Nov 2025 03:39:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.638435
- Title: Text2Traffic: A Text-to-Image Generation and Editing Method for Traffic Scenes
- Title(参考訳): Text2Traffic:交通シーンのテキスト生成と編集方法
- Authors: Feng Lv, Haoxuan Feng, Zilu Zhang, Chunlong Xia, Yanfeng Li,
- Abstract要約: 画像生成と編集の両方に統一されたテキスト駆動フレームワークを提案する。
交通シーンの幾何学的多様性を高めるために、車両側と道路側の両方のマルチビューデータを組み込んだ。
本手法は,トラフィックシーン内におけるテキストベースの画像生成と編集における先行的な性能を実現する。
- 参考スコア(独自算出の注目度): 8.255577550577899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid advancement of intelligent transportation systems, text-driven image generation and editing techniques have demonstrated significant potential in providing rich, controllable visual scene data for applications such as traffic monitoring and autonomous driving. However, several challenges remain, including insufficient semantic richness of generated traffic elements, limited camera viewpoints, low visual fidelity of synthesized images, and poor alignment between textual descriptions and generated content. To address these issues, we propose a unified text-driven framework for both image generation and editing, leveraging a controllable mask mechanism to seamlessly integrate the two tasks. Furthermore, we incorporate both vehicle-side and roadside multi-view data to enhance the geometric diversity of traffic scenes. Our training strategy follows a two-stage paradigm: first, we perform conceptual learning using large-scale coarse-grained text-image data; then, we fine-tune with fine-grained descriptive data to enhance text-image alignment and detail quality. Additionally, we introduce a mask-region-weighted loss that dynamically emphasizes small yet critical regions during training, thereby substantially enhancing the generation fidelity of small-scale traffic elements. Extensive experiments demonstrate that our method achieves leading performance in text-based image generation and editing within traffic scenes.
- Abstract(参考訳): インテリジェントトランスポートシステムの急速な進歩により、テキスト駆動の画像生成と編集技術は、交通監視や自律運転などのアプリケーションにリッチで制御可能な視覚的シーンデータを提供することにおいて、大きな可能性を秘めている。
しかし、生成したトラフィック要素のセマンティック・リッチネスの不足、カメラ視点の制限、合成画像の視覚的忠実度の低下、テキスト記述と生成されたコンテンツとの整合性の低下など、いくつかの課題が残っている。
これらの課題に対処するために,制御可能なマスク機構を利用して2つのタスクをシームレスに統合し,画像生成と編集の両方に統一されたテキスト駆動フレームワークを提案する。
さらに、交通シーンの幾何学的多様性を高めるために、車両側と道路側の両方のマルチビューデータを組み込んだ。
まず、大まかな粗いテキスト画像データを用いて概念学習を行い、次に、きめ細かい記述データを用いて微調整を行い、テキスト画像のアライメントと詳細品質を向上させる。
さらに,トレーニング中は小さいが重要な領域を動的に強調するマスク領域重み付き損失を導入し,小規模交通要素の生成精度を大幅に向上させる。
大規模な実験により,交通シーン内におけるテキストベースの画像生成と編集において,本手法が先行的な性能を発揮することが示された。
関連論文リスト
- Qwen-Image Technical Report [86.46471547116158]
Qwen-Imageは複雑なテキストのレンダリングと正確な画像編集において大きな進歩を遂げた画像生成基盤モデルである。
我々は、大規模なデータ収集、フィルタリング、アノテーション、合成、バランスを含む包括的なデータパイプラインを設計する。
Qwen-Imageは、英語のようなアルファベットの言語で非常によく機能し、中国語のようなより挑戦的なログラフ言語でも顕著な進歩を遂げている。
論文 参考訳(メタデータ) (2025-08-04T11:49:20Z) - Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
複数のテキストリッチな画像を含む視覚言語タスクを扱うためのMLLMであるLeopardを提案する。
まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。
第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを提案する。
論文 参考訳(メタデータ) (2024-10-02T16:55:01Z) - Visual Text Generation in the Wild [67.37458807253064]
野生で高品質なテキスト画像を生成する視覚テキスト生成装置(SceneVTG)を提案する。
提案したSceneVTGは、従来のレンダリングに基づく手法と最近の拡散に基づく手法を、忠実さと理性の観点から大きく上回っている。
生成された画像は、テキスト検出とテキスト認識を含むタスクに優れたユーティリティを提供する。
論文 参考訳(メタデータ) (2024-07-19T09:08:20Z) - Text2Street: Controllable Text-to-image Generation for Street Views [2.2284889035802036]
我々はtextbfText2Street という新しい制御可能なテキスト・ツー・イメージ・フレームワークを提案する。
提案手法は、制御可能なストリートビューのテキスト・ツー・イメージ生成を実現し、ストリートビューに対するText2Streetフレームワークの有効性を検証する。
論文 参考訳(メタデータ) (2024-02-07T01:18:49Z) - Plug-and-Play Diffusion Features for Text-Driven Image-to-Image
Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。
本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文 参考訳(メタデータ) (2022-11-22T20:39:18Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z) - Primitive Representation Learning for Scene Text Recognition [7.818765015637802]
本研究では,シーンテキスト画像の固有表現を活用した原始表現学習手法を提案する。
プリミティブ表現学習ネットワーク(PREN)は、並列デコードに視覚テキスト表現を使用するために構築される。
また,注意に基づく手法における不整合問題を軽減するために PREN2D というフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-10T11:54:49Z) - Multi-Modal Reasoning Graph for Scene-Text Based Fine-Grained Image
Classification and Retrieval [8.317191999275536]
本稿では,視覚的・テキスト的手がかりの形でマルチモーダルコンテンツを活用することで,微細な画像分類と検索の課題に取り組むことに焦点を当てる。
画像中の有意なオブジェクトとテキスト間の共通意味空間を学習することにより、マルチモーダル推論を行い、関係強化された特徴を得るためにグラフ畳み込みネットワークを用いる。
論文 参考訳(メタデータ) (2020-09-21T12:31:42Z) - Scene Text Synthesis for Efficient and Effective Deep Network Training [62.631176120557136]
我々は,背景画像に前景オブジェクトを埋め込むことで,注釈付き訓練画像を構成する革新的な画像合成技術を開発した。
提案手法は,ディープネットワークトレーニングにおける合成画像の有用性を高める2つの重要な要素から構成される。
複数の公開データセットに対する実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2019-01-26T10:15:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。