論文の概要: Luminate: Structured Generation and Exploration of Design Space with Large Language Models for Human-AI Co-Creation
- arxiv url: http://arxiv.org/abs/2310.12953v3
- Date: Wed, 13 Mar 2024 19:50:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-16 02:22:46.603981
- Title: Luminate: Structured Generation and Exploration of Design Space with Large Language Models for Human-AI Co-Creation
- Title(参考訳): ルミネート:人間とAIの共起のための大規模言語モデルによる設計空間の構造化と探索
- Authors: Sangho Suh, Meng Chen, Bryan Min, Toby Jia-Jun Li, Haijun Xia,
- Abstract要約: 現在のインタラクションパラダイムは不足しており、限られたアイデアの集合に対して、ユーザを迅速なコンバージェンスへと導くものだ、と私たちは主張する。
本研究では,ユーザがシームレスに探索し,評価し,多数の応答を合成できる設計空間の構造化を促進するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 19.62178304006683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Thanks to their generative capabilities, large language models (LLMs) have become an invaluable tool for creative processes. These models have the capacity to produce hundreds and thousands of visual and textual outputs, offering abundant inspiration for creative endeavors. But are we harnessing their full potential? We argue that current interaction paradigms fall short, guiding users towards rapid convergence on a limited set of ideas, rather than empowering them to explore the vast latent design space in generative models. To address this limitation, we propose a framework that facilitates the structured generation of design space in which users can seamlessly explore, evaluate, and synthesize a multitude of responses. We demonstrate the feasibility and usefulness of this framework through the design and development of an interactive system, Luminate, and a user study with 14 professional writers. Our work advances how we interact with LLMs for creative tasks, introducing a way to harness the creative potential of LLMs.
- Abstract(参考訳): 彼らの生成能力のおかげで、大きな言語モデル(LLM)は創造的プロセスにとって貴重なツールになっている。
これらのモデルには、数百、何千もの視覚的およびテキスト的アウトプットを生成する能力があり、創造的な努力に十分なインスピレーションを与える。
しかし、私たちは彼らの潜在能力を最大限活用するのか?
現在の相互作用パラダイムは不足しており、生成モデルにおいて巨大な潜在設計空間を探索する権限をユーザに与えるのではなく、限られたアイデアセットに対する迅速な収束に向けてユーザを導くものだ、と我々は主張する。
この制限に対処するために,ユーザがシームレスに探索し,評価し,多数の応答を合成できる設計空間の構造化を促進するフレームワークを提案する。
本稿では,対話型システムLuminateの設計と開発,14名のプロフェッショナルライターによるユーザスタディを通じて,このフレームワークの有効性と有用性を実証する。
我々の研究は、LLMの創造的な可能性を活用する方法を導入し、創造的なタスクのためにLLMと対話する方法を前進させます。
関連論文リスト
- Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Towards More Unified In-context Visual Understanding [77.03395229184238]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Creative Agents: Empowering Agents with Imagination for Creative Tasks [31.920963353890393]
本稿では,言語命令に基づくタスク結果の詳細な想像力を生成するイマジネータを用いて,制御器を拡張したクリエイティブエージェントのためのソリューションのクラスを提案する。
私たちは創造的なタスクを、オープンワールドの挑戦的なゲームMinecraftでベンチマークします。
我々は、創造的エージェントの詳細な実験分析を行い、創造的エージェントがMinecraftの生存モードにおける多様な建築創造を達成する最初のAIエージェントであることを示した。
論文 参考訳(メタデータ) (2023-12-05T06:00:52Z) - Human Machine Co-Creation. A Complementary Cognitive Approach to
Creative Character Design Process Using GANs [0.0]
2つのニューラルネットワークが競合し、元のデータセットと区別できない新しい視覚コンテンツを生成する。
提案するアプローチは、知覚、理解、作成のプロセスを伝えることを目的としている。
マシンが生成した概念は、キャラクターデザイナーが新しいキャラクターを概念化するためのローンチプラットフォームとして使用される。
論文 参考訳(メタデータ) (2023-11-23T12:18:39Z) - ConceptLab: Creative Concept Generation using VLM-Guided Diffusion Prior
Constraints [56.824187892204314]
我々は創造的なテキスト・画像生成の課題を提示し、幅広いカテゴリの新しいメンバーを創り出そうとする。
本稿では, 先行拡散の出力空間上での最適化プロセスとして, 創造的生成問題を定式化できることを示す。
我々は、最適化問題に新たな制約を適応的に付加する質問応答型視覚言語モデル(VLM)を導入し、よりユニークな生成物を発見するようモデルに促す。
論文 参考訳(メタデータ) (2023-08-03T17:04:41Z) - Conceptual Design Generation Using Large Language Models [0.34998703934432673]
大規模言語モデル(LLM)は、テキストプロンプトから一見創造的な出力を生成することができる。
本稿では LLM を利用して,12 個の設計問題の集合に対するソリューションを生成し,それらをクラウドソーシングされたソリューションのベースラインと比較する。
専門家による評価から, LLM生成ソリューションは平均実現可能性と有用性が高いことが示唆された。
我々は、素早いエンジニアリングで実験を行い、数発の学習を利用することで、クラウドソースのソリューションとよりよく似たソリューションを生み出すことができることを発見した。
論文 参考訳(メタデータ) (2023-05-30T19:32:39Z) - CREATOR: Tool Creation for Disentangling Abstract and Concrete Reasoning
of Large Language Models [78.65241926912663]
大規模言語モデル(LLM)はツールの利用において大きな進歩を遂げているが、その能力はAPIの可用性によって制限されている。
我々は、LCMがドキュメンテーションとコード実現を使って独自のツールを作成できる新しいフレームワークCREATORを提案する。
我々は,MATH と TabMWP のベンチマークで CREATOR を評価する。
論文 参考訳(メタデータ) (2023-05-23T17:51:52Z) - mPLUG-Owl: Modularization Empowers Large Language Models with
Multimodality [55.698502221911944]
mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。
トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。
実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-04-27T13:27:01Z) - MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。
これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。
我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-29T16:42:30Z) - Challenges in creative generative models for music: a divergence
maximization perspective [3.655021726150369]
創造的な実践における生成機械学習モデルの開発は、芸術家、実践家、パフォーマーの間でより多くの関心を集めている。
ほとんどのモデルは、トレーニングデータセットで定義されたドメインの外にあるコンテンツを生成することができない。
本稿では,ML目的の新しい汎用的な定式化から始まる,新たな予測フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-16T12:02:43Z) - How to Prompt? Opportunities and Challenges of Zero- and Few-Shot
Learning for Human-AI Interaction in Creative Applications of Generative
Models [29.420160518026496]
我々は,人間-AIインタラクションの新しいパラダイムとしてプロンプトを利用するインタラクティブなクリエイティブアプリケーションのための機会と課題について論じる。
本分析に基づき,プロンプトをサポートするユーザインタフェースの設計目標を4つ提案する。
これらは、クリエイティブな記述のユースケースに焦点を当てた、具体的なUIデザインスケッチで説明します。
論文 参考訳(メタデータ) (2022-09-03T10:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。