論文の概要: ThematicPlane: Bridging Tacit User Intent and Latent Spaces for Image Generation
- arxiv url: http://arxiv.org/abs/2508.06065v1
- Date: Fri, 08 Aug 2025 06:57:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.109123
- Title: ThematicPlane: Bridging Tacit User Intent and Latent Spaces for Image Generation
- Title(参考訳): ThematicPlane: 画像生成のための暗黙のユーザインテントとラテントスペースをブリッジする
- Authors: Daniel Lee, Nikhil Sharma, Donghoon Shin, DaEun Choi, Harsh Sharma, Jeonghwan Kim, Heng Ji,
- Abstract要約: ThematicPlaneは,ユーザが高レベルのセマンティック概念をナビゲートし操作できるシステムである。
このインターフェースは、暗黙の創造意図とシステム制御のギャップを埋める。
- 参考スコア(独自算出の注目度): 49.805992099208595
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generative AI has made image creation more accessible, yet aligning outputs with nuanced creative intent remains challenging, particularly for non-experts. Existing tools often require users to externalize ideas through prompts or references, limiting fluid exploration. We introduce ThematicPlane, a system that enables users to navigate and manipulate high-level semantic concepts (e.g., mood, style, or narrative tone) within an interactive thematic design plane. This interface bridges the gap between tacit creative intent and system control. In our exploratory study (N=6), participants engaged in divergent and convergent creative modes, often embracing unexpected results as inspiration or iteration cues. While they grounded their exploration in familiar themes, differing expectations of how themes mapped to outputs revealed a need for more explainable controls. Overall, ThematicPlane fosters expressive, iterative workflows and highlights new directions for intuitive, semantics-driven interaction in generative design tools.
- Abstract(参考訳): 生成AIは、画像の作成をよりアクセスしやすくするが、アウトプットと微妙な創造的意図を整合させることは、特に専門家以外の人にとっては、依然として困難である。
既存のツールでは、ユーザはプロンプトや参照を通じてアイデアを外部化する必要があり、流体探索が制限される。
ThematicPlaneは,対話型セマンティックデザインプレーン内で,高レベルのセマンティック概念(ムード,スタイル,ナラティブトーンなど)をナビゲートし,操作することを可能にするシステムである。
このインターフェースは、暗黙の創造意図とシステム制御のギャップを埋める。
探索的研究 (N=6) では, 多様な創造的モードに携わる参加者が, インスピレーションやイテレーションの手がかりとして予期せぬ結果を受け入れることが多かった。
彼らは精通したテーマで探索を行ったが、アウトプットにどのようにマッピングされたかという期待の相違により、より説明可能なコントロールの必要性が明らかになった。
全体として、ThematicPlaneは表現的で反復的なワークフローを育み、ジェネレーティブデザインツールにおける直感的でセマンティクス駆動のインタラクションのための新しい方向性を強調している。
関連論文リスト
- Dynamic Scoring with Enhanced Semantics for Training-Free Human-Object Interaction Detection [51.52749744031413]
人間オブジェクトインタラクション(HOI)検出は、画像内の人間と物体を識別し、その相互作用を解釈することを目的としている。
既存のHOIメソッドは、視覚的手がかりからインタラクションを学ぶために手動アノテーションを備えた大規模なデータセットに大きく依存している。
本稿では,強化意味論を用いた動的スコーリングのための新しいトレーニング不要なHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-23T12:30:19Z) - Expanding the Generative AI Design Space through Structured Prompting and Multimodal Interfaces [1.051328497890725]
ACAI(AI Co-Creation for Advertising and Inspiration)は、初心者デザイナを支援するために設計された、従来のプロンプトインターフェースを超えた多モード生成AIツールである。
この研究は、構造化インターフェイスがユーザ定義コンテキストをフォアグラウンドし、アライメントを改善し、初歩的な創造性において共創造的制御を強化する方法を示すことによって、生成システムに関するHCI研究に寄与する。
論文 参考訳(メタデータ) (2025-04-19T14:57:32Z) - POET: Supporting Prompting Creativity and Personalization with Automated Expansion of Text-to-Image Generation [31.886910258606875]
最先端のビジュアル生成AIツールは、クリエイティブなタスクの初期のアイデア段階において、ユーザーを支援する大きな可能性を秘めている。
多くの大規模テキスト・ツー・イメージシステムは幅広い適用性のために設計されており、創造的な探索を制限するような従来の出力が得られる。
テキストから画像への生成モデルにおいて,同質性の次元を自動的に検出するリアルタイム対話型ツールPOETを紹介する。
論文 参考訳(メタデータ) (2025-04-18T00:54:36Z) - Survey of User Interface Design and Interaction Techniques in Generative AI Applications [79.55963742878684]
我々は,デザイナやディベロッパの参照として使用できる,さまざまなユーザインタラクションパターンのコンペレーションを作ることを目指している。
また、生成AIアプリケーションの設計についてもっと学ぼうとする人たちの参入障壁を低くしようと努力しています。
論文 参考訳(メタデータ) (2024-10-28T23:10:06Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - The role of interface design on prompt-mediated creativity in Generative
AI [0.0]
2つのジェネレーティブAIプラットフォームから145,000以上のプロンプトを分析します。
その結果,利用者は以前訪れた概念の活用よりも,新たなトピックを探求する傾向にあることがわかった。
論文 参考訳(メタデータ) (2023-11-30T22:33:34Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - InstructDiffusion: A Generalist Modeling Interface for Vision Tasks [52.981128371910266]
InstructDiffusionはコンピュータビジョンタスクを人間の指示に合わせるためのフレームワークである。
InstructDiffusionは、タスクの理解や生成タスクなど、さまざまなビジョンタスクを処理できる。
目に見えないタスクを処理し、新しいデータセットで前のメソッドより優れていることも示しています。
論文 参考訳(メタデータ) (2023-09-07T17:56:57Z) - Knowledge-enriched Attention Network with Group-wise Semantic for Visual
Storytelling [39.59158974352266]
視覚的なストーリーテリングは、関連した画像のグループから物語の多文を含む想像的で一貫性のあるストーリーを生成することを目的としている。
既存の手法では、画像以外の暗黙的な情報を探索することができないため、画像に基づくコンテンツの直接的および厳密な記述を生成することが多い。
これらの問題に対処するために,グループワイド・セマンティック・モデルを用いた新しい知識強化型アテンション・ネットワークを提案する。
論文 参考訳(メタデータ) (2022-03-10T12:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。