論文の概要: Long-horizon Visual Instruction Generation with Logic and Attribute Self-reflection
- arxiv url: http://arxiv.org/abs/2503.13500v1
- Date: Wed, 12 Mar 2025 05:11:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:17:30.189142
- Title: Long-horizon Visual Instruction Generation with Logic and Attribute Self-reflection
- Title(参考訳): 論理と属性自己回帰による長軸視覚インストラクション生成
- Authors: Yucheng Suo, Fan Ma, Kaixin Shen, Linchao Zhu, Yi Yang,
- Abstract要約: LIGERはLong-Horizon Instruction GEnerationのための最初のフレームワークである。
前のステップの履歴的なプロンプトと視覚的記憶によって、各ステップのドラフトイメージを生成する。
LIGERは、さまざまな画像編集ツールを使用して、間違った属性、ロジックエラー、オブジェクトの冗長性、ドラフトイメージのアイデンティティの不整合などのエラーを修正している。
- 参考スコア(独自算出の注目度): 50.23511924009085
- License:
- Abstract: Visual instructions for long-horizon tasks are crucial as they intuitively clarify complex concepts and enhance retention across extended steps. Directly generating a series of images using text-to-image models without considering the context of previous steps results in inconsistent images, increasing cognitive load. Additionally, the generated images often miss objects or the attributes such as color, shape, and state of the objects are inaccurate. To address these challenges, we propose LIGER, the first training-free framework for Long-horizon Instruction GEneration with logic and attribute self-Reflection. LIGER first generates a draft image for each step with the historical prompt and visual memory of previous steps. This step-by-step generation approach maintains consistency between images in long-horizon tasks. Moreover, LIGER utilizes various image editing tools to rectify errors including wrong attributes, logic errors, object redundancy, and identity inconsistency in the draft images. Through this self-reflection mechanism, LIGER improves the logic and object attribute correctness of the images. To verify whether the generated images assist human understanding, we manually curated a new benchmark consisting of various long-horizon tasks. Human-annotated ground truth expressions reflect the human-defined criteria for how an image should appear to be illustrative. Experiments demonstrate the visual instructions generated by LIGER are more comprehensive compared with baseline methods.
- Abstract(参考訳): 長期的タスクの視覚的指示は、複雑な概念を直感的に明らかにし、拡張されたステップ間での保持を高めるために重要である。
従来のステップのコンテキストを考慮せずに、テキスト・ツー・イメージ・モデルを用いて一連の画像を直接生成することにより、一貫性のない画像が得られ、認知負荷が増大する。
さらに、生成された画像は、しばしばオブジェクトを見逃したり、色、形、そしてオブジェクトの状態が不正確であるといった属性を見逃す。
これらの課題に対処するために、Long-Horizon Instruction GEnerationのための最初のトレーニングフリーフレームワークであるLIGERを提案する。
LIGERは、まず、前のステップの履歴プロンプトと視覚記憶で各ステップのドラフト画像を生成する。
このステップバイステップ生成アプローチは、長期タスクにおける画像間の整合性を維持する。
さらに、LIGERは様々な画像編集ツールを使用して、間違った属性、ロジックエラー、オブジェクトの冗長性、およびドラフト画像におけるアイデンティティの不整合などのエラーを修正している。
この自己回帰機構により、LIGERは画像の論理とオブジェクト属性の正確性を改善する。
生成した画像が人間の理解を助けるかどうかを検証するために,様々な長期タスクからなる新しいベンチマークを手作業でキュレートした。
人間の注釈付き接地真理表現は、画像がどう説明されるべきかという人間の定義された基準を反映している。
LIGERが生成する視覚的指示は、ベースライン法と比較してより包括的であることを示す実験である。
関連論文リスト
- DisEnvisioner: Disentangled and Enriched Visual Prompt for Customized Image Generation [22.599542105037443]
DisEnvisionerは、非関連情報をフィルタリングしながら、主観的特徴を効果的に抽出し、強化するための新しいアプローチである。
具体的には、被写体と他の無関係なコンポーネントの特徴を視覚的トークンに効果的に分離し、より正確なカスタマイズを可能にする。
提案手法は,命令応答(予測可能性),ID整合性,推論速度,画像の全体的な品質において,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-02T22:29:14Z) - ImageFolder: Autoregressive Image Generation with Folded Tokens [51.815319504939396]
トークン長の増大は、画像再構成の品質を改善するための一般的なアプローチである。
トークン長に関する復元と生成品質の間にはトレードオフがある。
本稿では,自己回帰モデルにおいて折り畳み可能な空間整列型画像トークンを提供するセマンティック・トークンライザであるイメージを提案する。
論文 参考訳(メタデータ) (2024-10-02T17:06:39Z) - Revolutionizing Text-to-Image Retrieval as Autoregressive Token-to-Voken Generation [90.71613903956451]
テキスト・ツー・イメージ検索はマルチメディア処理における基本的な課題である。
本稿では,AVGという自己回帰ボウケン生成手法を提案する。
AVGは有効性と有効性の両方において優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-24T13:39:51Z) - Text Guided Image Editing with Automatic Concept Locating and Forgetting [27.70615803908037]
画像中の潜在的なターゲット概念を特定するために,Locate and Forget (LaF) と呼ばれる新しい手法を提案する。
本手法はベースラインと比較して,テキスト誘導画像編集作業において質的かつ定量的に優位性を示す。
論文 参考訳(メタデータ) (2024-05-30T05:36:32Z) - LLM Blueprint: Enabling Text-to-Image Generation with Complex and
Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。
本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。
複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文 参考訳(メタデータ) (2023-10-16T17:57:37Z) - PhotoVerse: Tuning-Free Image Customization with Text-to-Image Diffusion
Models [19.519789922033034]
PhotoVerseは、テキストドメインと画像ドメインの両方にデュアルブランチ条件設定機構を組み込んだ革新的な方法論である。
1つのトレーニングフェーズの後、我々の手法は数秒で高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-09-11T19:59:43Z) - Plug-and-Play Diffusion Features for Text-Driven Image-to-Image
Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。
本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文 参考訳(メタデータ) (2022-11-22T20:39:18Z) - IR-GAN: Image Manipulation with Linguistic Instruction by Increment
Reasoning [110.7118381246156]
Incrment Reasoning Generative Adversarial Network (IR-GAN)は、画像における視覚的インクリメントと命令における意味的インクリメントとの整合性を推論することを目的としている。
まず,単語レベルと命令レベルの命令エンコーダを導入し,履歴関連命令からユーザの意図を意味的インクリメントとして学習する。
第2に、対象画像を生成するために、意味的インクリメントの表現をソースイメージに組み込んで、ソースイメージが補助的参照の役割を担っている。
論文 参考訳(メタデータ) (2022-04-02T07:48:39Z) - Fine-grained Image-to-Image Transformation towards Visual Recognition [102.51124181873101]
我々は,入力画像の同一性を保った画像を生成するために,微細なカテゴリで画像を変換することを目的としている。
我々は、画像のアイデンティティと非関連要因をアンハングルするために、生成的敵ネットワークに基づくモデルを採用する。
CompCarsとMulti-PIEデータセットの実験では、我々のモデルが生成した画像のアイデンティティを、最先端の画像-画像変換モデルよりもはるかによく保存していることが示された。
論文 参考訳(メタデータ) (2020-01-12T05:26:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。