論文の概要: Real-Time Intuitive AI Drawing System for Collaboration: Enhancing Human Creativity through Formal and Contextual Intent Integration
- arxiv url: http://arxiv.org/abs/2508.19254v1
- Date: Tue, 12 Aug 2025 01:34:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-31 21:54:20.618323
- Title: Real-Time Intuitive AI Drawing System for Collaboration: Enhancing Human Creativity through Formal and Contextual Intent Integration
- Title(参考訳): 協調のためのリアルタイム直感的AI描画システム:形式的・文脈的インテント統合による人間の創造性向上
- Authors: Jookyung Song, Mookyoung Kang, Nojun Kwak,
- Abstract要約: 本稿では,形式的意図と文脈的意図の両方を解釈・統合するリアルタイム生成システムを提案する。
このシステムは,共有キャンバス上でのマルチユーザコラボレーションをサポートしながら,低レイテンシで2段階の変換を実現する。
- 参考スコア(独自算出の注目度): 26.920087528015205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a real-time generative drawing system that interprets and integrates both formal intent - the structural, compositional, and stylistic attributes of a sketch - and contextual intent - the semantic and thematic meaning inferred from its visual content - into a unified transformation process. Unlike conventional text-prompt-based generative systems, which primarily capture high-level contextual descriptions, our approach simultaneously analyzes ground-level intuitive geometric features such as line trajectories, proportions, and spatial arrangement, and high-level semantic cues extracted via vision-language models. These dual intent signals are jointly conditioned in a multi-stage generation pipeline that combines contour-preserving structural control with style- and content-aware image synthesis. Implemented with a touchscreen-based interface and distributed inference architecture, the system achieves low-latency, two-stage transformation while supporting multi-user collaboration on shared canvases. The resulting platform enables participants, regardless of artistic expertise, to engage in synchronous, co-authored visual creation, redefining human-AI interaction as a process of co-creation and mutual enhancement.
- Abstract(参考訳): 本稿では,視覚的内容から推定される意味的・意味的意味(意味的・意味的意味)を,形式的意図(スケッチの構造的・構成的・文体的特性)と文脈的意図(文脈的意図)の両方を解釈・統合するリアルタイム生成システムを提案する。
従来のテキストプロンプトに基づく生成システムとは違い,本手法では,線軌跡や比例,空間配置などの地上の直観的幾何学的特徴と,視覚言語モデルを用いて抽出した高レベルの意味的手がかりを同時に解析する。
これらの二重意図信号は、輪郭保存構造制御とスタイルおよびコンテンツ認識画像合成を組み合わせた多段生成パイプラインで共同条件付けされる。
タッチスクリーンベースのインタフェースと分散推論アーキテクチャによって実装され、共有キャンバス上でのマルチユーザコラボレーションをサポートしながら、低レイテンシで2段階の変換を実現する。
結果として得られたプラットフォームは、芸術的専門性にかかわらず、参加者が同期的で共著者による視覚的創造に従事し、共同創造と相互強化のプロセスとして人間とAIの相互作用を再定義することを可能にする。
関連論文リスト
- Cross-Modal Prototype Augmentation and Dual-Grained Prompt Learning for Social Media Popularity Prediction [16.452218354378452]
ソーシャルメディアの人気予測は、画像、テキスト、構造化情報の効果的な統合を必要とする複雑なタスクである。
視覚テキストアライメントを改善するために,構造強化とコントラスト学習のための階層型プロトタイプを導入する。
本稿では,2段階の突発学習とモーダル間注意機構を統合した機能強化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-22T07:16:47Z) - High Fidelity Text to Image Generation with Contrastive Alignment and Structural Guidance [0.0]
本稿では,既存のテキスト駆動画像生成手法の性能を,意味的アライメントの精度と構造的整合性の観点から考察する。
テキスト画像のコントラスト制約と構造誘導機構を統合することで,高忠実度画像生成手法を提案する。
本手法は,計算複雑性を増大させることなく,意味的アライメントと構造的忠実度とのギャップを効果的に埋めることを示す。
論文 参考訳(メタデータ) (2025-08-14T02:15:11Z) - Piece it Together: Part-Based Concepting with IP-Priors [52.01640707131325]
ユーザが提供するビジュアルコンポーネントの一部集合をシームレスにコヒーレントな構成に統合する生成フレームワークを導入する。
提案手法は,IP-Adapter+から抽出した,強力で過小評価された表現空間に基づいている。
また、与えられたタスクに対するIP-Adapter+のプロンプトアテンデンスを大幅に改善するLoRAベースの微調整戦略を提案する。
論文 参考訳(メタデータ) (2025-03-13T13:46:10Z) - Duplex: Dual Prototype Learning for Compositional Zero-Shot Learning [17.013498508426398]
合成ゼロショット学習(CZSL)は、学習中に欠落した視覚状態や物体の新たな構成をモデルが認識できるようにすることを目的としている。
そこで我々はDuplexを提案する。Duplexは、セマンティックとビジュアルのプロトタイプを、慎重に設計されたデュアルブランチアーキテクチャを通して統合する新しいデュアルプロトタイプ学習手法である。
論文 参考訳(メタデータ) (2025-01-13T08:04:32Z) - MetaDesigner: Advancing Artistic Typography Through AI-Driven, User-Centric, and Multilingual WordArt Synthesis [65.78359025027457]
MetaDesignerがLarge Language Models(LLM)を利用したアートタイポグラフィーのための変換フレームワークを導入
その基盤は、Pipeline、Glyph、Textureエージェントで構成されるマルチエージェントシステムであり、カスタマイズ可能なWordArtの作成をまとめてオーケストレーションしている。
論文 参考訳(メタデータ) (2024-06-28T11:58:26Z) - Person-in-Context Synthesiswith Compositional Structural Space [59.129960774988284]
本研究では,コンテキスト合成におけるtextbfPersons という新たな問題を提案する。
コンテキストは、形状情報を欠いたバウンディングボックスオブジェクトレイアウトで指定され、キーポイントによる人物のポーズは、わずかに注釈付けされている。
入力構造におけるスターク差に対処するため、各(コンテキスト/人物)入力を「共有構成構造空間」に意図的に合成する2つの別個の神経枝を提案した。
この構造空間は多レベル特徴変調戦略を用いて画像空間にデコードされ、自己学習される
論文 参考訳(メタデータ) (2020-08-28T14:33:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。