論文の概要: Analyzing Multimodal Interaction Strategies for LLM-Assisted Manipulation of 3D Scenes
- arxiv url: http://arxiv.org/abs/2410.22177v1
- Date: Tue, 29 Oct 2024 16:15:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:39:40.307571
- Title: Analyzing Multimodal Interaction Strategies for LLM-Assisted Manipulation of 3D Scenes
- Title(参考訳): LLMによる3次元シーンの操作のためのマルチモーダルインタラクション戦略の解析
- Authors: Junlong Chen, Jens Grubert, Per Ola Kristensson,
- Abstract要約: LLM支援3Dシーン編集システムにおいて,定量的使用データと経験後アンケートフィードバックを併用し,共通のインタラクションパターンとキーバリアを明らかにする。
今後のLCM統合3Dコンテンツ作成システムの設計勧告を提案する。
- 参考スコア(独自算出の注目度): 20.669785157017486
- License:
- Abstract: As more applications of large language models (LLMs) for 3D content for immersive environments emerge, it is crucial to study user behaviour to identify interaction patterns and potential barriers to guide the future design of immersive content creation and editing systems which involve LLMs. In an empirical user study with 12 participants, we combine quantitative usage data with post-experience questionnaire feedback to reveal common interaction patterns and key barriers in LLM-assisted 3D scene editing systems. We identify opportunities for improving natural language interfaces in 3D design tools and propose design recommendations for future LLM-integrated 3D content creation systems. Through an empirical study, we demonstrate that LLM-assisted interactive systems can be used productively in immersive environments.
- Abstract(参考訳): 没入型環境のための3次元コンテンツのための大規模言語モデル(LLM)のさらなる応用が出現するにつれて、LCMを含む没入型コンテンツ作成・編集システムの将来の設計を導くために、対話パターンや潜在的な障壁を特定するためのユーザ行動の研究が不可欠である。
被験者12名の経験的ユーザスタディにおいて, LLMを用いた3Dシーン編集システムにおいて, 定量的使用データと経験後アンケートフィードバックを併用し, 共通のインタラクションパターンとキーバリアを明らかにする。
我々は、3Dデザインツールにおける自然言語インタフェースを改善する機会を特定し、将来のLLM統合3Dコンテンツ作成システムの設計推奨を提案する。
実証実験により, LLMを用いた対話型システムは, 没入型環境下で生産的に利用できることが実証された。
関連論文リスト
- RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - LLM-Assisted Visual Analytics: Opportunities and Challenges [4.851427485686741]
本稿では,大規模言語モデル (LLM) を視覚分析システム (VA) に統合することを検討する。
LLMがVAにもたらす新たな可能性、特に通常のユースケースを超えてVAプロセスを変更する方法について強調する。
VAタスクで現在のLLMを使用する際の顕著な課題を慎重に検討する。
論文 参考訳(メタデータ) (2024-09-04T13:24:03Z) - SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs [40.74693126923826]
MLLM(Multimodal Large Language Models)は近年,知覚能力や推論能力が著しく向上している。
イメージレベルの監督を施したトレーニングアダプタは、しばしば重大なミスアライメントをもたらす。
本稿では,視覚言語による事前学習モデルを活用したトークンレベルのアライメント手法であるSupervised Embedding Alignment (SEA)を紹介する。
論文 参考訳(メタデータ) (2024-08-21T17:58:02Z) - Coarse Correspondence Elicit 3D Spacetime Understanding in Multimodal Language Model [52.27297680947337]
マルチモーダル言語モデル(MLLM)は、現実の環境でますます実装されている。
その可能性にもかかわらず、現在のコミュニティ内のトップモデルは、空間的次元と時間的次元を十分に理解できないままです。
本稿では,3次元・時間的理解を喚起するための訓練不要,効果的,汎用的な視覚刺激法である粗対応について紹介する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models [113.18524940863841]
本調査では,大規模言語モデルによる3Dデータの処理,理解,生成を可能にする方法論の概要について概説する。
我々の研究は、点雲からニューラル放射場(NeRF)まで、様々な3次元データ表現にまたがっている。
3Dシーン理解、キャプション、質問応答、対話などのタスクにおいて、LLMとの統合を検討する。
論文 参考訳(メタデータ) (2024-05-16T16:59:58Z) - Towards Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage
and Sharing in LLMs [72.49064988035126]
マルチモーダル大規模言語モデル(MLLM)の強化を目的としたMKS2という手法を提案する。
具体的には、LLMの内部ブロックに組み込まれたコンポーネントであるModular Visual Memoryを導入し、オープンワールドの視覚情報を効率的に保存するように設計されている。
実験により,MKS2は物理的・常識的な知識を必要とする文脈において,LLMの推論能力を大幅に増強することが示された。
論文 参考訳(メタデータ) (2023-11-27T12:29:20Z) - LLMR: Real-time Prompting of Interactive Worlds using Large Language Models [45.87888748442536]
Large Language Model for Mixed Reality (LLMR)は、インタラクティブなMixed Reality体験のリアルタイム作成と修正のためのフレームワークである。
私たちのフレームワークはテキストインタラクションとUnityゲームエンジンに依存しています。
LLMRは標準のGPT-4を平均誤差率で4倍に上回る。
論文 参考訳(メタデータ) (2023-09-21T17:37:01Z) - Towards Language-guided Interactive 3D Generation: LLMs as Layout
Interpreter with Generative Feedback [20.151147653552155]
大きな言語モデル(LLM)は、印象的な推論、会話、ゼロショット生成能力を示している。
本稿では,LLMを3次元レイアウトインタプリタとして統合した言語誘導型対話型3D生成システムLI3Dを提案する。
また,大規模言語と視覚アシスタントのLLaVAを導入し,視覚的側面から生成的なフィードバックを提供することにより,生成したコンテンツの視覚的品質を向上させる。
論文 参考訳(メタデータ) (2023-05-25T07:43:39Z) - Low-code LLM: Graphical User Interface over Large Language Models [115.08718239772107]
本稿では,人間-LLMインタラクションフレームワークであるLow-code LLMを紹介する。
より制御可能で安定した応答を実現するために、6種類のシンプルなローコードビジュアルプログラミングインタラクションを組み込んでいる。
ユーザフレンドリなインタラクション,制御可能な生成,広い適用性という,低コード LLM の3つの利点を強調した。
論文 参考訳(メタデータ) (2023-04-17T09:27:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。