論文の概要: Patchview: LLM-Powered Worldbuilding with Generative Dust and Magnet Visualization
- arxiv url: http://arxiv.org/abs/2408.04112v1
- Date: Wed, 7 Aug 2024 22:27:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 17:10:20.223114
- Title: Patchview: LLM-Powered Worldbuilding with Generative Dust and Magnet Visualization
- Title(参考訳): Patchview:ジェネレーションダストと磁石を可視化したLLMによるワールドビルディング
- Authors: John Joon Young Chung, Max Kreminski,
- Abstract要約: 大きな言語モデル(LLM)は、著者が派閥、文字、場所などの世界要素を生成することで物語の世界を構築するのに役立つ。
Patchviewは、ユーザがストーリーの概念や要素と対話できるようにすることで、世界構築を視覚的に支援する、カスタマイズ可能なLCMベースのシステムである。
我々は,Patchviewが世界要素のセンスメイキングと要素生成のステアリングをサポートし,世界構築過程における探索を容易にすることを示す。
- 参考スコア(独自算出の注目度): 9.567192687081489
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) can help writers build story worlds by generating world elements, such as factions, characters, and locations. However, making sense of many generated elements can be overwhelming. Moreover, if the user wants to precisely control aspects of generated elements that are difficult to specify verbally, prompting alone may be insufficient. We introduce Patchview, a customizable LLM-powered system that visually aids worldbuilding by allowing users to interact with story concepts and elements through the physical metaphor of magnets and dust. Elements in Patchview are visually dragged closer to concepts with high relevance, facilitating sensemaking. The user can also steer the generation with verbally elusive concepts by indicating the desired position of the element between concepts. When the user disagrees with the LLM's visualization and generation, they can correct those by repositioning the element. These corrections can be used to align the LLM's future behaviors to the user's perception. With a user study, we show that Patchview supports the sensemaking of world elements and steering of element generation, facilitating exploration during the worldbuilding process. Patchview provides insights on how customizable visual representation can help sensemake, steer, and align generative AI model behaviors with the user's intentions.
- Abstract(参考訳): 大きな言語モデル(LLM)は、著者が派閥、文字、場所などの世界要素を生成することで物語の世界を構築するのに役立つ。
しかし、多くの生成元を理解することは圧倒的である。
さらに、ユーザが言語的に指定が難しい生成要素のアスペクトを正確に制御したい場合、プロンプトだけでは不十分である可能性がある。
我々は,マグネットとダストの物理的比喩を通じて,ユーザが物語の概念や要素と対話できるようにすることで,世界構築を支援するカスタマイズ可能なLLMシステムであるPatchviewを紹介する。
Patchviewの要素は、高い関連性を持つ概念に視覚的に引きずられ、センスメイキングを促進する。
また、利用者は、概念間の要素の所望の位置を示すことにより、言葉で解脱的な概念で生成を操ることもできる。
ユーザがLCMの可視化と生成に異を唱えると、要素を再配置して修正することができる。
これらの補正は、LCMの将来の振る舞いをユーザの知覚に合わせるために使用できる。
ユーザスタディでは、Patchviewが世界要素のセンスメイキングと要素生成のステアリングをサポートし、世界構築過程における探索を容易にすることが示されている。
Patchviewは、カスタマイズ可能な視覚表現が、生成的AIモデルの振る舞いをユーザの意図と一致させるのにどのように役立つか、洞察を提供する。
関連論文リスト
- Learning to Ground VLMs without Forgetting [54.033346088090674]
我々は、既存の画像や言語理解スキルを忘れずに、事前訓練されたビジュアル言語モデルに視覚的接地能力を持たせるフレームワークであるLynXを紹介する。
モデルを効果的に訓練するために、私たちはSCouTと呼ばれる高品質な合成データセットを生成します。
我々はLynXを複数のオブジェクト検出および視覚的グラウンド化データセット上で評価し、オブジェクト検出、ゼロショットローカライゼーション、グラウンドド推論において強い性能を示す。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - AltCanvas: A Tile-Based Image Editor with Generative AI for Blind or Visually Impaired People [4.41462357579624]
視覚障害のある人は、しばしば視覚要素に大きく依存するコンテンツを作成するのに苦労する。
イメージを並べて構築する既存の描画ツールは、数学のような単純なタスクには適しているが、表現力のあるアートワークには向いていない。
我々の研究は、ジェネレーティブAIと建設的なアプローチを統合し、ユーザーが制御と編集能力を増強する。
論文 参考訳(メタデータ) (2024-08-05T01:47:36Z) - PartCraft: Crafting Creative Objects by Parts [128.30514851911218]
本稿では、ユーザが「選択」できることによって、生成的視覚AIにおける創造的制御を促進する。
私たちは初めて、創造的な努力のために、視覚的概念をパーツごとに選択できるようにしました。
選択された視覚概念を正確にキャプチャするきめ細かい生成。
論文 参考訳(メタデータ) (2024-07-05T15:53:04Z) - OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding [112.87441334765693]
OMG-LLaVAは、強力なピクセルレベルの視覚理解と推論能力を組み合わせた新しいフレームワークである。
フレキシブルなユーザインタラクションのために、さまざまな視覚的およびテキストプロンプトを受け入れることができる。
OMG-LLaVAは1つのモデルで画像レベル、オブジェクトレベル、ピクセルレベルの推論と理解を実現する。
論文 参考訳(メタデータ) (2024-06-27T17:59:01Z) - Re-Thinking Inverse Graphics With Large Language Models [51.333105116400205]
逆グラフィックス -- イメージを物理変数に反転させ、レンダリングすると観察されたシーンの再現を可能にする -- は、コンピュータビジョンとグラフィックスにおいて根本的な課題である。
LLMを中心とした逆グラフフレームワークである逆グラフ大言語モデル(IG-LLM)を提案する。
我々は、凍結した事前学習されたビジュアルエンコーダと連続的な数値ヘッドを組み込んで、エンドツーエンドのトレーニングを可能にする。
論文 参考訳(メタデータ) (2024-04-23T16:59:02Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs [101.50522135049198]
BuboGPTはマルチモーダルなLLMで、視覚、音声、言語間の相互対話を行うことができる。
1)文中のエンティティを抽出し、画像中の対応するマスクを見つけるSAMに基づく、市販のビジュアルグラウンドモジュール。
実験の結果,BuboGPTは人間との相互作用において,印象的なマルチモーダル理解と視覚的接地能力を実現することがわかった。
論文 参考訳(メタデータ) (2023-07-17T15:51:47Z) - Large Language Models for User Interest Journeys [14.219969535206861]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。
本稿は,LLMがユーザ活動を通じて理屈を定め,その興味を,人間と同じようなニュアンスで興味深い方法で表現することができることを論じる。
本稿では,まず関心旅行の個別抽出を行い,抽出した旅をLLMで要約する枠組みを提案する。
論文 参考訳(メタデータ) (2023-05-24T18:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。