論文の概要: What You Think Is What You Get: Bridge User Intent and Transfer Function Design through Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2506.18407v1
- Date: Mon, 23 Jun 2025 08:42:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.912488
- Title: What You Think Is What You Get: Bridge User Intent and Transfer Function Design through Multimodal Large Language Models
- Title(参考訳): ユーザインテントをブリッジして,マルチモーダルな大規模言語モデルによる伝達関数設計
- Authors: Yiyao Wang, Bo Pan, Ke Wang, Han Liu, Jinyuan Mao, Yuxin Liu, Minfeng Zhu, Bo Zhang, Weifeng Chen, Xiuqi Huang, Wei Chen,
- Abstract要約: 直接ボリュームレンダリング(DVR)は、意味のある構造を抽出する上で重要な役割を果たす転送関数(TF)を用いて、ボリュームデータを可視化する基本的な技術である。
しかし、ユーザ意図とTFパラメータ空間のセマンティックなギャップがあるため、効果的なTFを設計するのは直感的ではない。
本稿では、MLLM(Multi-model Large Language Models)を活用して、ユーザ意図に基づいたTF最適化を導出するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 18.00535456362378
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direct volume rendering (DVR) is a fundamental technique for visualizing volumetric data, with transfer functions (TFs) playing a crucial role in extracting meaningful structures. However, designing effective TFs remains unintuitive due to the semantic gap between user intent and TF parameter space. Researchers have developed numerous TF optimization methods to bridge this gap. However, existing methods still face two challenges: large exploration space and weak generalizability. To address these issues, we propose What You Think is What You Get (WYTWYG) framework, which leveraging Multi-model Large Language Models (MLLMs) to guide the TF optimization based on user intent. Specifically, we first introduce a novel TF optimization approach comprising two core components: (1) an evolution-based explorer for effective exploration of the TF space, and (2) a volume rendering quality evaluator based on MLLMs to provide generalizable visual guidance. We further propose a TF interactive design system based on this approach. We demonstrate the general applicability of our framework through three case studies, and validate the effectiveness of each component through extensive experiments. Our code is available at: https://github.com/wyysteelhead/TFevolve.
- Abstract(参考訳): 直接ボリュームレンダリング(DVR)は、意味のある構造を抽出する上で重要な役割を果たす転送関数(TF)を用いて、ボリュームデータを可視化する基本的な技術である。
しかし、ユーザ意図とTFパラメータ空間のセマンティックなギャップがあるため、効果的なTFを設計するのは直感的ではない。
研究者はこのギャップを埋めるために多くのTF最適化手法を開発した。
しかし、既存の手法は大きな探索空間と弱い一般化可能性という2つの課題に直面している。
これらの問題に対処するために,多モデル大言語モデル(MLLM)を活用してユーザ意図に基づいたTF最適化を導く,What You Think is What You Get (WYTWYG)フレームワークを提案する。
具体的には,(1)TF空間を効果的に探索する進化型エクスプローラー,(2)MLLMに基づくボリュームレンダリング品質評価器の2つのコア成分からなる新しいTF最適化手法を提案する。
さらに,本手法に基づくTFインタラクティブデザインシステムを提案する。
3つのケーススタディを通してフレームワークの汎用性を実証し、広範囲な実験により各コンポーネントの有効性を検証した。
私たちのコードは、https://github.com/wyysteelhead/TFevolve.comで利用可能です。
関連論文リスト
- MLLM-Enhanced Face Forgery Detection: A Vision-Language Fusion Solution [36.79921476565535]
VLF-FFDはMLLM強化顔偽造検出のための新しいビジョン・ランゲージ・フュージョン・ソリューションである。
EFF++は、広く使用されているFaceForensics++データセットのフレームレベル、説明可能性駆動拡張である。
VLF-FFDは、クロスデータセットおよびイントラデータセット評価の両方において、最先端(SOTA)性能を達成する。
論文 参考訳(メタデータ) (2025-05-04T06:58:21Z) - ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation [61.392147185793476]
統一的で汎用的な基礎モデル、すなわちSEED-Xを提案する。
SEED-Xは、理解および生成タスクのための多粒度視覚意味論をモデル化することができる。
我々の研究が、現実世界のアプリケーションで多目的なマルチモーダル基盤モデルによって達成できるものについて、将来の研究に刺激を与えることを期待しています。
論文 参考訳(メタデータ) (2024-04-22T17:56:09Z) - Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。
本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-04-17T09:39:07Z) - Multi-modal Semantic Understanding with Contrastive Cross-modal Feature
Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。
我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文 参考訳(メタデータ) (2024-03-11T01:07:36Z) - Compositional Generative Inverse Design [69.22782875567547]
入力変数を設計して目的関数を最適化する逆設計は重要な問題である。
拡散モデルにより得られた学習エネルギー関数を最適化することにより、そのような逆例を避けることができることを示す。
N-body 相互作用タスクと2次元多面体設計タスクにおいて,実験時に学習した拡散モデルを構成することにより,初期状態と境界形状を設計できることを示す。
論文 参考訳(メタデータ) (2024-01-24T01:33:39Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。