Fugu-MT 論文翻訳(概要): Visualization in the Era of Artificial Intelligence: Experiments for Creating Structural Visualizations by Prompting Large Language Models

論文の概要: Visualization in the Era of Artificial Intelligence: Experiments for Creating Structural Visualizations by Prompting Large Language Models

arxiv url: http://arxiv.org/abs/2305.03380v2
Date: Thu, 11 May 2023 09:21:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-24 12:14:09.852707
Title: Visualization in the Era of Artificial Intelligence: Experiments for Creating Structural Visualizations by Prompting Large Language Models
Title（参考訳）: 人工知能時代の可視化:大規模言語モデルによる構造的可視化のための実験
Authors: Hans-Georg Fill, Fabian Muff
Abstract要約: 大規模言語モデル(LLM)は、テキスト入力から人間に似たテキストや画像を生成することによって、自然言語処理に革命をもたらした。 LLMが2D/3Dビジュアライゼーションを生成できることを示す最初の実験を報告した。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have revolutionized natural language processing by generating human-like text and images from textual input. However, their potential to generate complex 2D/3D visualizations has been largely unexplored. We report initial experiments showing that LLMs can generate 2D/3D visualizations that may be used for legal visualization. Further research is needed for complex 2D visualizations and 3D scenes. LLMs can become a powerful tool for many industries and applications, generating complex visualizations with minimal training.
Abstract（参考訳）: 大規模言語モデル(LLM)は、テキスト入力から人間に似たテキストや画像を生成することによって自然言語処理に革命をもたらした。しかし、複雑な2D/3Dビジュアライゼーションを生成する可能性はほとんど解明されていない。 LLMが2D/3Dビジュアライゼーションを生成できることを示す最初の実験を報告した。複雑な2Dビジュアライゼーションと3Dシーンにはさらなる研究が必要である。 LLMは、多くの産業やアプリケーションにとって強力なツールとなり、最小限のトレーニングで複雑な視覚化を生成する。

関連論文リスト

ShapeCraft: LLM Agents for Structured, Textured and Interactive 3D Modeling [45.20958044544727]
ShapeCraftはテキストから3D生成のための新しいマルチエージェントフレームワークである。 ShapeCraftは複雑な自然言語をサブタスクの構造化グラフに分解する。エージェントはユーザの入力をGPSに解析し、手続き的モデリングと絵を反復的に洗練して3Dアセットを生成する。
論文参考訳（メタデータ） (2025-10-20T14:51:14Z)
Visual Jigsaw Post-Training Improves MLLMs [58.29961336087896]
大規模言語モデル(MLLM)における視覚的理解を強化するために設計された,汎用的な自己教師型ポストトレーニングフレームワークであるVisual Jigsawを紹介する。視覚的な入力は分割され、シャッフルされ、モデルは自然言語で正しい置換を生成することで視覚情報を再構築する必要がある。広範囲な実験により、微粒な知覚、時間的推論、空間的理解が大幅に改善された。
論文参考訳（メタデータ） (2025-09-29T17:59:57Z)
Video Perception Models for 3D Scene Synthesis [109.5543506037003]
VIPSceneは、ビデオ生成モデルにおける3D物理世界のエンコードされたコモンセンス知識を利用する新しいフレームワークである。 VIPSceneはビデオ生成、フィードフォワード3D再構成、オープン語彙認識モデルをシームレスに統合し、シーン内の各オブジェクトを意味的かつ幾何学的に分析する。
論文参考訳（メタデータ） (2025-06-25T16:40:17Z)
LLaMA-Mesh: Unifying 3D Mesh Generation with Language Models [62.85566496673856]
この研究は、テキストで事前訓練された大規模言語モデル(LLM)の機能を拡張して、統一モデル内で3Dメッシュを生成することを検討する。主な課題は、3DメッシュデータをLLMがシームレスに処理できる離散トークンに効果的にトークン化することだ。我々の研究は、LLMがテキストベースのフォーマットで3Dメッシュ生成のための複雑な空間知識を得るために微調整できることを示す最初のものである。
論文参考訳（メタデータ） (2024-11-14T17:08:23Z)
Story3D-Agent: Exploring 3D Storytelling Visualization with Large Language Models [57.30913211264333]
提案するStory3D-Agentは、提供された物語を3Dレンダリングの可視化に変換する先駆的なアプローチである。プロシージャモデリングを統合することで,複数文字の動作や動きを正確に制御できるだけでなく,多様な装飾的要素も利用できる。我々は,ストーリー3D-Agentを徹底的に評価し,その有効性を検証し,3Dストーリー表現を前進させるための基本的な枠組みを提供した。
論文参考訳（メタデータ） (2024-08-21T17:43:15Z)
Unlocking Textual and Visual Wisdom: Open-Vocabulary 3D Object Detection Enhanced by Comprehensive Guidance from Text and Image [70.02187124865627]
Open-vocabulary 3D object detection (OV-3DDet) は、新しい3Dシーン内において、目に見えないものの両方をローカライズし、認識することを目的としている。視覚基盤モデルを利用して、3Dシーンにおける新しいクラスを発見するための画像的ガイダンスを提供する。オープン語彙の3Dオブジェクト検出における基礎モデルの可能性を明らかにするとともに,精度と一般化の大幅な向上を示す。
論文参考訳（メタデータ） (2024-07-07T04:50:04Z)
When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models [113.18524940863841]
本調査では,大規模言語モデルによる3Dデータの処理,理解,生成を可能にする方法論の概要について概説する。我々の研究は、点雲からニューラル放射場(NeRF)まで、様々な3次元データ表現にまたがっている。 3Dシーン理解、キャプション、質問応答、対話などのタスクにおいて、LLMとの統合を検討する。
論文参考訳（メタデータ） (2024-05-16T16:59:58Z)
Re-Thinking Inverse Graphics With Large Language Models [51.333105116400205]
逆グラフィックス -- イメージを物理変数に反転させ、レンダリングすると観察されたシーンの再現を可能にする -- は、コンピュータビジョンとグラフィックスにおいて根本的な課題である。 LLMを中心とした逆グラフフレームワークである逆グラフ大言語モデル(IG-LLM)を提案する。我々は、凍結した事前学習されたビジュアルエンコーダと連続的な数値ヘッドを組み込んで、エンドツーエンドのトレーニングを可能にする。
論文参考訳（メタデータ） (2024-04-23T16:59:02Z)
A Vision Check-up for Language Models [61.852026871772914]
テキストのモデルを用いて、予備的な視覚表現学習システムをどのように訓練するかを示す。自己教師付き視覚表現学習の実験は、自然画像のセマンティックアセスメントを行うことができる視覚モデルを訓練する可能性を強調している。
論文参考訳（メタデータ） (2024-01-03T18:09:33Z)
Towards Language-guided Interactive 3D Generation: LLMs as Layout Interpreter with Generative Feedback [20.151147653552155]
大きな言語モデル(LLM)は、印象的な推論、会話、ゼロショット生成能力を示している。本稿では,LLMを3次元レイアウトインタプリタとして統合した言語誘導型対話型3D生成システムLI3Dを提案する。また,大規模言語と視覚アシスタントのLLaVAを導入し,視覚的側面から生成的なフィードバックを提供することにより,生成したコンテンツの視覚的品質を向上させる。
論文参考訳（メタデータ） (2023-05-25T07:43:39Z)
WildRefer: 3D Object Localization in Large-scale Dynamic Scenes with Multi-modal Visual Data and Natural Language [31.691159120136064]
本稿では,自然言語記述とオンラインキャプチャによるマルチモーダル視覚データに基づく大規模動的シーンにおける3次元視覚接地作業について紹介する。本研究では,画像中のリッチな外観情報,位置,および点雲中の幾何学的手がかりをフル活用して,WildReferという新しい手法を提案する。われわれのデータセットは、野生の3Dビジュアルグラウンドの研究にとって重要なものであり、自動運転とサービスロボットの開発を促進する大きな可能性を秘めている。
論文参考訳（メタデータ） (2023-04-12T06:48:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。