論文の概要: SHAPE-IT: Exploring Text-to-Shape-Display for Generative Shape-Changing Behaviors with LLMs
- arxiv url: http://arxiv.org/abs/2409.06205v1
- Date: Tue, 10 Sep 2024 04:18:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 19:10:55.543850
- Title: SHAPE-IT: Exploring Text-to-Shape-Display for Generative Shape-Changing Behaviors with LLMs
- Title(参考訳): SHAPE-IT: LLMを用いた形状変化行動生成のためのテキスト・トゥ・シェイプ・ディプレイの探索
- Authors: Wanli Qian, Chenfeng Gao, Anup Sathya, Ryo Suzuki, Ken Nakagaki,
- Abstract要約: 本稿では,自然言語コマンドによるピン型形状変化を動的に生成する新しい手法であるテキスト・トゥ・シェイプ・ディスプレイを提案する。
大規模言語モデル(LLM)とAIチェーンを利用することで、ユーザはプログラミングなしでテキストプロンプトを通じて、要求に応じて形状を変える動作を記述できる。
- 参考スコア(独自算出の注目度): 12.235304780960142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces text-to-shape-display, a novel approach to generating dynamic shape changes in pin-based shape displays through natural language commands. By leveraging large language models (LLMs) and AI-chaining, our approach allows users to author shape-changing behaviors on demand through text prompts without programming. We describe the foundational aspects necessary for such a system, including the identification of key generative elements (primitive, animation, and interaction) and design requirements to enhance user interaction, based on formative exploration and iterative design processes. Based on these insights, we develop SHAPE-IT, an LLM-based authoring tool for a 24 x 24 shape display, which translates the user's textual command into executable code and allows for quick exploration through a web-based control interface. We evaluate the effectiveness of SHAPE-IT in two ways: 1) performance evaluation and 2) user evaluation (N= 10). The study conclusions highlight the ability to facilitate rapid ideation of a wide range of shape-changing behaviors with AI. However, the findings also expose accuracy-related challenges and limitations, prompting further exploration into refining the framework for leveraging AI to better suit the unique requirements of shape-changing systems.
- Abstract(参考訳): 本稿では,自然言語コマンドによるピン型形状変化を動的に生成する新しい手法であるテキスト・トゥ・シェイプ・ディスプレイを提案する。
大規模言語モデル(LLM)とAIチェーンを利用することで、ユーザはプログラミングなしでテキストプロンプトを通じて、要求に応じて形状を変える動作を記述できる。
本稿では,このようなシステムに必要な基本的側面として,重要な生成要素(原始的,アニメーション,インタラクション)の同定と,形式的探索と反復的設計プロセスに基づくユーザインタラクション向上のための設計要件について述べる。
これらの知見に基づいて、ユーザによるテキストコマンドを実行可能なコードに変換し、Webベースの制御インターフェースによる迅速な探索を可能にするLLMベースの24×24形状ディスプレイ用オーサリングツールであるSHAPE-ITを開発した。
SHAPE-ITの有効性を2つの方法で評価する。
1【業績評価】
2) ユーザ評価 (N=10。
この研究の結論は、AIによる幅広い形状変化行動の迅速な発想を促進する能力を強調している。
しかし、この発見は精度に関する課題や限界も明らかにしており、形状変化システムのユニークな要件に合うようにAIを活用するためのフレームワークの洗練をさらに進めている。
関連論文リスト
- From Pixels to Words: Leveraging Explainability in Face Recognition through Interactive Natural Language Processing [2.7568948557193287]
顔認識(FR)は深層学習の発展とともに大きく進歩し、いくつかの応用において高い精度を実現している。
これらのシステムの解釈可能性の欠如は、説明責任、公平性、信頼性に関する懸念を引き起こす。
モデルに依存しない説明可能な人工知能(XAI)と自然言語処理(NLP)技術を組み合わせることにより、FRモデルの説明可能性を高めるインタラクティブなフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T13:40:39Z) - Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。
同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。
提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文 参考訳(メタデータ) (2024-08-28T17:59:05Z) - VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。
第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - Successor Features for Efficient Multisubject Controlled Text Generation [48.37713738712319]
本稿では,後継機能 (SF) と言語モデル修正の2つの基本概念を基礎とするSF-GENを紹介する。
SF-GENはこの2つをシームレスに統合し、LCMのパラメータを変更することなくテキスト生成の動的ステアリングを可能にする。
我々の知る限り、本研究はテキスト生成における後継機能の最初の応用である。
論文 参考訳(メタデータ) (2023-11-03T00:17:08Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Exploring Effective Factors for Improving Visual In-Context Learning [56.14208975380607]
In-Context Learning(ICL)は、いくつかのデモ(別名プロンプト)を通じて新しいタスクを理解し、モデルをチューニングせずに新しい入力を予測することである。
本稿では,視覚的文脈学習の推論性能に直接的な影響を及ぼす要因として,迅速な選択と迅速な融合があげられる。
視覚的インコンテキスト学習のためのシンプルなフレームワークプロンプトSelFを提案する。
論文 参考訳(メタデータ) (2023-04-10T17:59:04Z) - LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of
Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。
LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。
LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文 参考訳(メタデータ) (2022-10-03T17:56:35Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。