Fugu-MT 論文翻訳(概要): Coherent Zero-Shot Visual Instruction Generation

論文の概要: Coherent Zero-Shot Visual Instruction Generation

arxiv url: http://arxiv.org/abs/2406.04337v2
Date: Sat, 8 Jun 2024 12:07:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-11 12:14:33.645657
Title: Coherent Zero-Shot Visual Instruction Generation
Title（参考訳）: コヒーレントゼロショットビジュアルインストラクション生成
Authors: Quynh Phung, Songwei Ge, Jia-Bin Huang,
Abstract要約: 本稿では,視覚的指示を生成する際の課題に対処するための,簡単な学習不要のフレームワークを提案する。本手法は,視覚的指示が視覚的に魅力的であることを保証するために,テキスト理解と画像生成を体系的に統合する。実験の結果,コヒーレントで視覚的な指示を可視化できることがわかった。
参考スコア（独自算出の注目度）: 15.0521272616551
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the advances in text-to-image synthesis, particularly with diffusion models, generating visual instructions that require consistent representation and smooth state transitions of objects across sequential steps remains a formidable challenge. This paper introduces a simple, training-free framework to tackle the issues, capitalizing on the advancements in diffusion models and large language models (LLMs). Our approach systematically integrates text comprehension and image generation to ensure visual instructions are visually appealing and maintain consistency and accuracy throughout the instruction sequence. We validate the effectiveness by testing multi-step instructions and comparing the text alignment and consistency with several baselines. Our experiments show that our approach can visualize coherent and visually pleasing instructions
Abstract（参考訳）: テキストと画像の合成、特に拡散モデルでは進歩しているにもかかわらず、連続的なステップをまたいだオブジェクトの一貫性のある表現と滑らかな状態遷移を必要とする視覚的命令を生成することは、非常に難しい課題である。本稿では,拡散モデルと大規模言語モデル(LLM)の進歩に乗じて,この問題に対処するためのシンプルな学習自由フレームワークを提案する。提案手法はテキスト理解と画像生成を体系的に統合し,視覚的命令が命令シーケンスを通して視覚的にアピールし,一貫性と精度を維持する。複数ステップの命令をテストし、テキストアライメントと一貫性をいくつかのベースラインと比較することにより、有効性を検証する。我々の実験は、我々のアプローチがコヒーレントで視覚的に喜ばしい指示を可視化できることを示します。

関連論文リスト

All-in-One Conditioning for Text-to-Image Synthesis [45.22434803596108]
シーングラフ構造の枠組みの中で,テキストと画像の合成を基盤とする新しい手法を提案する。推論中にソフトな視覚誘導を生成するゼロショットシーングラフベースの条件付け機構を導入する。これにより、軽量でコヒーレントで多様な画像合成をサポートしながら、テキストイメージのアライメントを維持することができる。
論文参考訳（メタデータ） (2026-02-09T20:16:19Z)
UM-Text: A Unified Multimodal Model for Image Understanding [11.870303482927541]
自然言語による文脈理解と視覚テキスト編集のための統合型マルチモーダルモデルを提案する。命令と参照画像を処理するためのビジュアル言語モデル(VLM)を導入する。我々は,潜伏空間とRGB空間の両方において,グリフ生成をより効果的に管理するために,局所的な一貫性損失を提案する。
論文参考訳（メタデータ） (2026-01-13T08:18:49Z)
Sissi: Zero-shot Style-guided Image Synthesis via Semantic-style Integration [57.02757226679549]
本研究では,文脈内学習タスクとしてスタイル誘導合成を再構成する学習自由フレームワークを提案する。セマンティック・スタイル統合(DSSI)機構を提案する。実験により,本手法はセマンティックスタイルのバランスと視覚的品質に優れた高忠実度スタイリングを実現することが示された。
論文参考訳（メタデータ） (2026-01-10T16:01:14Z)
Geometric Disentanglement of Text Embeddings for Subject-Consistent Text-to-Image Generation using A Single Prompt [14.734857939203811]
主観的視点から意味的絡み合いに対処する学習自由アプローチを提案する。提案手法は既存のベースラインに対する主観的一貫性とテキストアライメントの両方を大幅に改善する。
論文参考訳（メタデータ） (2025-12-18T11:55:06Z)
Scale Your Instructions: Enhance the Instruction-Following Fidelity of Unified Image Generation Model by Self-Adaptive Attention Scaling [54.54513714247062]
OmniGenのような統合画像生成モデルの最近の進歩により、単一のフレームワーク内で多様な画像生成および編集タスクの処理が可能になった。テキスト命令が複数のサブインストラクションを含む場合,テキスト命令の無視に悩まされることがわかった。本稿では,サブインストラクション毎に注意力の活性化を動的にスケールするために,自己適応型注意スケーリングを提案する。
論文参考訳（メタデータ） (2025-07-22T05:25:38Z)
Vision as a Dialect: Unifying Visual Understanding and Generation via Text-Aligned Representations [33.11867433769496]
本稿では,共有意味表現における視覚的理解と生成を統一する枠組みを提案する。中心となるのはText-Aligned Tokenizer (TA-Tok) で、これは大きな言語モデル(LLM)の語彙から投影されたテキスト整列コードブックを用いて画像を個別のトークンに変換する。ベンチマークによる実験では、Tarは既存のマルチモーダルLLMメソッドと一致し、より高速な収束とトレーニング効率の向上を実現している。
論文参考訳（メタデータ） (2025-06-23T17:59:14Z)
Unified Autoregressive Visual Generation and Understanding with Continuous Tokens [52.21981295470491]
We present UniFluid, a unified autoregressive framework for joint visual generation and understanding。我々の統合自己回帰アーキテクチャはマルチモーダル画像とテキスト入力を処理し、テキストの離散トークンと画像の連続トークンを生成する。画像生成と理解タスクの間には本質的にトレードオフがあることに気付きましたが、注意深く調整されたトレーニングレシピによって互いに改善できるようになりました。
論文参考訳（メタデータ） (2025-03-17T17:58:30Z)
Context-aware Visual Storytelling with Visual Prefix Tuning and Contrastive Learning [2.401993998791928]
本稿では、モダリティを接続するための軽量な視覚言語マッピングネットワークを訓練するフレームワークを提案する。視覚的関連性やストーリー情報性も向上するマルチモーダルなコントラスト目標を提案する。
論文参考訳（メタデータ） (2024-08-12T16:15:32Z)
Prompt-Consistency Image Generation (PCIG): A Unified Framework Integrating LLMs, Knowledge Graphs, and Controllable Diffusion Models [20.19571676239579]
生成した画像と対応する記述とのアライメントを強化するための,拡散に基づく新しいフレームワークを提案する。この枠組みは不整合現象の包括的解析に基づいて構築され,画像の表示に基づいて分類する。次に、最先端の制御可能な画像生成モデルとビジュアルテキスト生成モジュールを統合し、元のプロンプトと整合した画像を生成する。
論文参考訳（メタデータ） (2024-06-24T06:12:16Z)
Analogist: Out-of-the-box Visual In-Context Learning with Image Diffusion Model [25.47573567479831]
本稿では,視覚とテキストの両方のプロンプト技術を利用した新しい推論に基づく視覚的ICL手法を提案する。提案手法はアウト・オブ・ボックスであり,微調整や最適化は不要である。
論文参考訳（メタデータ） (2024-05-16T17:59:21Z)
Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文参考訳（メタデータ） (2024-02-26T15:01:16Z)
Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文参考訳（メタデータ） (2024-02-05T18:42:34Z)
Seek for Incantations: Towards Accurate Text-to-Image Diffusion Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文参考訳（メタデータ） (2024-01-12T03:46:29Z)
Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image Diffusion Models [103.61066310897928]
最近のテキスト・ツー・イメージ生成モデルは、ターゲットのテキスト・プロンプトによって導かれる多様な創造的な画像を生成する非例外的な能力を実証している。革命的ではあるが、現在の最先端拡散モデルは、与えられたテキストプロンプトのセマンティクスを完全に伝達するイメージの生成に失敗する可能性がある。本研究では, 一般に公開されている安定拡散モデルを分析し, 破滅的無視の有無を評価し, そのモデルが入力プロンプトから1つ以上の被写体を生成するのに失敗した場合について検討する。提案するジェネレーティブ・セマンティック・ナーシング(GSN)の概念は、推論時間中にハエの生殖過程に介入し、忠実性を改善するものである。
論文参考訳（メタデータ） (2023-01-31T18:10:38Z)
More Control for Free! Image Synthesis with Semantic Diffusion Guidance [79.88929906247695]
制御可能な画像合成モデルは、サンプル画像からテキスト命令やガイダンスに基づいて多様な画像を作成することができる。セマンティックな拡散誘導のための新しい統合フレームワークを導入し、言語や画像の誘導、あるいはその両方を可能にした。 FFHQとLSUNのデータセットで実験を行い、微細なテキスト誘導画像合成結果を示す。
論文参考訳（メタデータ） (2021-12-10T18:55:50Z)
Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文参考訳（メタデータ） (2020-06-21T14:10:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。