論文の概要: $I^2G$: Generating Instructional Illustrations via Text-Conditioned Diffusion
- arxiv url: http://arxiv.org/abs/2505.16425v1
- Date: Thu, 22 May 2025 09:10:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.182476
- Title: $I^2G$: Generating Instructional Illustrations via Text-Conditioned Diffusion
- Title(参考訳): $I^2G$: テキスト定義拡散によるインストラクショナルイラストの生成
- Authors: Jing Bi, Pinxin Liu, Ali Vosoughi, Jiarui Wu, Jinxi He, Chenliang Xu,
- Abstract要約: 手続き的テキストをコヒーレントな視覚的指示に分解する言語駆動型フレームワークを提案する。
提案手法は,学習内容の言語構造を目標文と逐次ステップにコヒーレンスすることでモデル化し,これらの言語要素を視覚的に生成する。
この研究は、教育、タスクガイダンス、マルチモーダル言語理解など、視覚コンテンツにおける手続き言語の基礎となる研究に寄与する。
- 参考スコア(独自算出の注目度): 31.2362624526101
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The effective communication of procedural knowledge remains a significant challenge in natural language processing (NLP), as purely textual instructions often fail to convey complex physical actions and spatial relationships. We address this limitation by proposing a language-driven framework that translates procedural text into coherent visual instructions. Our approach models the linguistic structure of instructional content by decomposing it into goal statements and sequential steps, then conditioning visual generation on these linguistic elements. We introduce three key innovations: (1) a constituency parser-based text encoding mechanism that preserves semantic completeness even with lengthy instructions, (2) a pairwise discourse coherence model that maintains consistency across instruction sequences, and (3) a novel evaluation protocol specifically designed for procedural language-to-image alignment. Our experiments across three instructional datasets (HTStep, CaptainCook4D, and WikiAll) demonstrate that our method significantly outperforms existing baselines in generating visuals that accurately reflect the linguistic content and sequential nature of instructions. This work contributes to the growing body of research on grounding procedural language in visual content, with applications spanning education, task guidance, and multimodal language understanding.
- Abstract(参考訳): 手続き的知識の効果的なコミュニケーションは、自然言語処理(NLP)において重要な課題であり、純粋にテキストによる指示は複雑な物理的行動や空間的関係を伝達できないことが多い。
我々は、手続き的なテキストをコヒーレントな視覚的指示に変換する言語駆動型フレームワークを提案することにより、この制限に対処する。
本手法は,目標文と逐次ステップに分解し,これらの要素を視覚的に生成することで,指導内容の言語構造をモデル化する。
本稿では,(1)長文の命令であっても意味的完全性を保ち,(2)命令列間の整合性を維持する一対の談話コヒーレンスモデル,(3)手続き言語と画像のアライメントに特化して設計された新しい評価プロトコルを提案する。
本研究では,HTStep,CaptainCook4D,WikiAllの3つの指導データセットを用いた実験により,言語内容と命令の逐次的性質を正確に反映した視覚生成において,既存のベースラインを著しく上回っていることを示す。
この研究は、教育、タスクガイダンス、マルチモーダル言語理解など、視覚コンテンツにおける手続き言語の基礎となる研究に寄与する。
関連論文リスト
- Learning Language Structures through Grounding [8.437466837766895]
言語構造を基礎として学習することを目的とした機械学習タスクのファミリーを考察する。
パートIでは,視覚的接地を通して構文解析を学習することを検討する。
第2部では文を対応する意味構造にマッピングする2つの実行対応手法を提案する。
パートIIIでは、他の言語のアノテーションから言語構造を学習する手法を提案する。
論文 参考訳(メタデータ) (2024-06-14T02:21:53Z) - Coherent Zero-Shot Visual Instruction Generation [15.0521272616551]
本稿では,視覚的指示を生成する際の課題に対処するための,簡単な学習不要のフレームワークを提案する。
本手法は,視覚的指示が視覚的に魅力的であることを保証するために,テキスト理解と画像生成を体系的に統合する。
実験の結果,コヒーレントで視覚的な指示を可視化できることがわかった。
論文 参考訳(メタデータ) (2024-06-06T17:59:44Z) - Instruct-SCTG: Guiding Sequential Controlled Text Generation through
Instructions [42.67608830386934]
Instruct-SCTGは、命令調整言語モデルを利用して構造的に一貫性のあるテキストを生成するシーケンシャルフレームワークである。
本フレームワークは,自然言語命令を用いて,所望の人体構造に整合して記事を生成する。
論文 参考訳(メタデータ) (2023-12-19T16:20:49Z) - Language-Oriented Communication with Semantic Coding and Knowledge
Distillation for Text-to-Image Generation [53.97155730116369]
我々は言語指向意味コミュニケーション(LSC)の新しい枠組みを提唱した。
LSCでは、機械は人間の言語メッセージを使って通信し、SC効率のために自然言語処理(NLP)技術を用いて解釈および操作することができる。
1) テキストプロンプトをキーヘッドワードに圧縮するセマンティック・ソース・コーディング(SSC)、2) セマンティック・チャネル・コーディング(SCC)、2) セマンティック・チャネル・コーディング(SCC)、3) セマンティック・ナレッジ・蒸留(SKD)、3) リスナーの言語学習を通じてリスナーに適応したプロンプトを生成するセマンティック・ナレッジ・蒸留(SKD)の3つの革新的なアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-09-20T08:19:05Z) - Benchmarking Language Models for Code Syntax Understanding [79.11525961219591]
事前学習された言語モデルは、自然言語処理とプログラム理解の両方において素晴らしい性能を示している。
本研究では,プログラムの構文構造を特定するための,最先端の事前訓練モデルの最初の徹底的なベンチマークを行う。
この結果から,既存のプログラミング言語の事前学習手法の限界が指摘され,構文構造をモデル化することの重要性が示唆された。
論文 参考訳(メタデータ) (2022-10-26T04:47:18Z) - The Whole Truth and Nothing But the Truth: Faithful and Controllable
Dialogue Response Generation with Dataflow Transduction and Constrained
Decoding [65.34601470417967]
本稿では,ニューラルネットワークモデリングとルールベース生成の強みを組み合わせた対話応答生成のためのハイブリッドアーキテクチャについて述べる。
本実験により, 本システムは, 流布性, 妥当性, 真理性の評価において, ルールベースおよび学習的アプローチの両方に優れることがわかった。
論文 参考訳(メタデータ) (2022-09-16T09:00:49Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Improving Disentangled Text Representation Learning with
Information-Theoretic Guidance [99.68851329919858]
自然言語の独特な性質は、テキスト表現の分離をより困難にする。
情報理論にインスパイアされた本研究では,テキストの不整合表現を効果的に表現する手法を提案する。
条件付きテキスト生成とテキストスタイル転送の両方の実験は、不整合表現の質を実証する。
論文 参考訳(メタデータ) (2020-06-01T03:36:01Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。