論文の概要: Structured Generation and Exploration of Design Space with Large
Language Models for Human-AI Co-Creation
- arxiv url: http://arxiv.org/abs/2310.12953v1
- Date: Thu, 19 Oct 2023 17:53:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 13:56:54.980692
- Title: Structured Generation and Exploration of Design Space with Large
Language Models for Human-AI Co-Creation
- Title(参考訳): 人間-ai共創のための大規模言語モデルによる設計空間の構造化と探索
- Authors: Sangho Suh, Meng Chen, Bryan Min, Toby Jia-Jun Li, and Haijun Xia
- Abstract要約: 現在のインタラクションパラダイムは不足しており、限られたアイデアの集合に対して、ユーザを迅速なコンバージェンスへと導くものだ、と私たちは主張する。
本研究では,ユーザがシームレスに探索し,評価し,多数の応答を合成できる設計空間の構造化を促進するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 19.62178304006683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Thanks to their generative capabilities, large language models (LLMs) have
become an invaluable tool for creative processes. These models have the
capacity to produce hundreds and thousands of visual and textual outputs,
offering abundant inspiration for creative endeavors. But are we harnessing
their full potential? We argue that current interaction paradigms fall short,
guiding users towards rapid convergence on a limited set of ideas, rather than
empowering them to explore the vast latent design space in generative models.
To address this limitation, we propose a framework that facilitates the
structured generation of design space in which users can seamlessly explore,
evaluate, and synthesize a multitude of responses. We demonstrate the
feasibility and usefulness of this framework through the design and development
of an interactive system, Luminate, and a user study with 8 professional
writers. Our work advances how we interact with LLMs for creative tasks,
introducing a way to harness the creative potential of LLMs.
- Abstract(参考訳): 彼らの生成能力のおかげで、大きな言語モデル(LLM)は創造的プロセスにとって貴重なツールになっている。
これらのモデルは、数百、何千もの視覚およびテキストのアウトプットを生成する能力を持ち、創造的な取り組みに豊富なインスピレーションを与えます。
しかし、その潜在能力を活用できるだろうか?
我々は、現在のインタラクションパラダイムは不足しており、ユーザーが膨大な潜在的なデザイン空間を生成モデルで探究する権限を与えるのではなく、限られたアイデアセットで迅速に収束する方向に導くと論じている。
そこで本研究では,ユーザがシームレスに多数の応答を探索し,評価し,合成できる設計空間の構造的生成を容易にするフレームワークを提案する。
本稿では,対話型システムLuminateの設計と開発,および8人のプロライターによるユーザスタディを通じて,このフレームワークの有効性と有用性を示す。
我々の研究は、LLMの創造的な可能性を活用する方法を導入し、創造的なタスクのためにLLMと対話する方法を前進させます。
関連論文リスト
- LVLM-Intrepret: An Interpretability Tool for Large Vision-Language Models [50.259006481656094]
本稿では,大規模視覚言語モデルの内部メカニズムの理解を目的とした対話型アプリケーションを提案する。
このインタフェースは, 画像パッチの解釈可能性を高めるために設計されており, 応答の生成に有効である。
本稿では,一般的な大規模マルチモーダルモデルであるLLaVAにおける障害機構の理解に,アプリケーションがどのように役立つかのケーススタディを示す。
論文 参考訳(メタデータ) (2024-04-03T23:57:34Z) - I-Design: Personalized LLM Interior Designer [57.00412237555167]
I-Designはパーソナライズされたインテリアデザイナで、自然言語によるコミュニケーションを通じて設計目標の生成と視覚化を可能にする。
I-Designは、対話や論理的推論に従事する大きな言語モデルエージェントのチームから始まる。
最終的な設計は、既存のオブジェクトデータベースから資産を取り出し、統合することで、3Dで構築されます。
論文 参考訳(メタデータ) (2024-04-03T16:17:53Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Creative Agents: Empowering Agents with Imagination for Creative Tasks [31.920963353890393]
本稿では,言語命令に基づくタスク結果の詳細な想像力を生成するイマジネータを用いて,制御器を拡張したクリエイティブエージェントのためのソリューションのクラスを提案する。
私たちは創造的なタスクを、オープンワールドの挑戦的なゲームMinecraftでベンチマークします。
我々は、創造的エージェントの詳細な実験分析を行い、創造的エージェントがMinecraftの生存モードにおける多様な建築創造を達成する最初のAIエージェントであることを示した。
論文 参考訳(メタデータ) (2023-12-05T06:00:52Z) - Human Machine Co-Creation. A Complementary Cognitive Approach to
Creative Character Design Process Using GANs [0.0]
2つのニューラルネットワークが競合し、元のデータセットと区別できない新しい視覚コンテンツを生成する。
提案するアプローチは、知覚、理解、作成のプロセスを伝えることを目的としている。
マシンが生成した概念は、キャラクターデザイナーが新しいキャラクターを概念化するためのローンチプラットフォームとして使用される。
論文 参考訳(メタデータ) (2023-11-23T12:18:39Z) - ConceptLab: Creative Concept Generation using VLM-Guided Diffusion Prior
Constraints [56.824187892204314]
我々は創造的なテキスト・画像生成の課題を提示し、幅広いカテゴリの新しいメンバーを創り出そうとする。
本稿では, 先行拡散の出力空間上での最適化プロセスとして, 創造的生成問題を定式化できることを示す。
我々は、最適化問題に新たな制約を適応的に付加する質問応答型視覚言語モデル(VLM)を導入し、よりユニークな生成物を発見するようモデルに促す。
論文 参考訳(メタデータ) (2023-08-03T17:04:41Z) - Conceptual Design Generation Using Large Language Models [0.34998703934432673]
大規模言語モデル(LLM)は、テキストプロンプトから一見創造的な出力を生成することができる。
本稿では LLM を利用して,12 個の設計問題の集合に対するソリューションを生成し,それらをクラウドソーシングされたソリューションのベースラインと比較する。
専門家による評価から, LLM生成ソリューションは平均実現可能性と有用性が高いことが示唆された。
我々は、素早いエンジニアリングで実験を行い、数発の学習を利用することで、クラウドソースのソリューションとよりよく似たソリューションを生み出すことができることを発見した。
論文 参考訳(メタデータ) (2023-05-30T19:32:39Z) - MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。
これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。
我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-29T16:42:30Z) - Challenges in creative generative models for music: a divergence
maximization perspective [3.655021726150369]
創造的な実践における生成機械学習モデルの開発は、芸術家、実践家、パフォーマーの間でより多くの関心を集めている。
ほとんどのモデルは、トレーニングデータセットで定義されたドメインの外にあるコンテンツを生成することができない。
本稿では,ML目的の新しい汎用的な定式化から始まる,新たな予測フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-16T12:02:43Z) - How to Prompt? Opportunities and Challenges of Zero- and Few-Shot
Learning for Human-AI Interaction in Creative Applications of Generative
Models [29.420160518026496]
我々は,人間-AIインタラクションの新しいパラダイムとしてプロンプトを利用するインタラクティブなクリエイティブアプリケーションのための機会と課題について論じる。
本分析に基づき,プロンプトをサポートするユーザインタフェースの設計目標を4つ提案する。
これらは、クリエイティブな記述のユースケースに焦点を当てた、具体的なUIデザインスケッチで説明します。
論文 参考訳(メタデータ) (2022-09-03T10:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。