論文の概要: Handle-based Mesh Deformation Guided By Vision Language Model
- arxiv url: http://arxiv.org/abs/2506.04562v1
- Date: Thu, 05 Jun 2025 02:29:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.492872
- Title: Handle-based Mesh Deformation Guided By Vision Language Model
- Title(参考訳): 視覚言語モデルによる手動メッシュ変形のガイド
- Authors: Xingpeng Sun, Shiyang Jia, Zherong Pan, Kui Wu, Aniket Bera,
- Abstract要約: トレーニング不要なハンドベースメッシュ変形法を提案する。
我々は、視覚言語モデルを利用してハンドルベースのインタフェースを解釈し、操作する。
私たちのアプローチは、高品質なメッシュ変形を一貫して提供します。
- 参考スコア(独自算出の注目度): 26.556578259890806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mesh deformation is a fundamental tool in 3D content manipulation. Despite extensive prior research, existing approaches often suffer from low output quality, require significant manual tuning, or depend on data-intensive training. To address these limitations, we introduce a training-free, handle-based mesh deformation method. % Our core idea is to leverage a Vision-Language Model (VLM) to interpret and manipulate a handle-based interface through prompt engineering. We begin by applying cone singularity detection to identify a sparse set of potential handles. The VLM is then prompted to select both the deformable sub-parts of the mesh and the handles that best align with user instructions. Subsequently, we query the desired deformed positions of the selected handles in screen space. To reduce uncertainty inherent in VLM predictions, we aggregate the results from multiple camera views using a novel multi-view voting scheme. % Across a suite of benchmarks, our method produces deformations that align more closely with user intent, as measured by CLIP and GPTEval3D scores, while introducing low distortion -- quantified via membrane energy. In summary, our approach is training-free, highly automated, and consistently delivers high-quality mesh deformations.
- Abstract(参考訳): メッシュ変形は3Dコンテンツ操作の基本的なツールである。
大規模な先行研究にもかかわらず、既存のアプローチは出力品質が低いこと、手動のチューニングがかなり必要であること、あるいはデータ集約的なトレーニングに依存することがよくある。
これらの制約に対処するために、トレーニング不要のハンドルベースのメッシュ変形法を導入する。
% 私たちの中核となる考え方は、VLM(Vision-Language Model)を活用して、迅速なエンジニアリングを通じてハンドルベースのインターフェースを解釈し、操作することです。
まずコーン特異点検出を適用して、ポテンシャルハンドルのスパース集合を同定する。
次にVLMは、メッシュの変形可能なサブパーツと、ユーザ指示に最も適したハンドルの両方を選択するように促される。
その後、選択したハンドルの所望の変形位置を画面空間に問い合わせる。
VLM予測に固有の不確実性を低減するため、新しい多視点投票方式を用いて複数のカメラビューから結果を集約する。
CLIP と GPTEval3D のスコアが測定したように,我々の手法は,一連のベンチマークにおいて,ユーザの意図とより密に一致した変形を生成する一方,低歪みは膜エネルギーによって定量化される。
要約すると、我々のアプローチはトレーニングなしで、高度に自動化され、常に高品質なメッシュ変形を提供する。
関連論文リスト
- Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation [105.23631749213729]
低データ体制における教師なし事前学習のための新しい手法を提案する。
最近成功したプロンプト技術に触発されて,言語ビジョンプロンプトを用いた教師なし事前学習法を導入した。
提案手法は,低データ方式のCNNモデルよりも高速に収束し,性能がよいことを示す。
論文 参考訳(メタデータ) (2024-05-22T06:48:43Z) - HandMIM: Pose-Aware Self-Supervised Learning for 3D Hand Mesh Estimation [5.888156950854715]
本稿では,3次元ハンドメッシュパラメータの回帰のための自己教師付き事前学習戦略を提案する。
提案手法はHandMIMと呼ばれ,様々なハンドメッシュ推定タスクにおいて高い性能を実現する。
論文 参考訳(メタデータ) (2023-07-29T19:46:06Z) - Black Box Few-Shot Adaptation for Vision-Language models [41.49584259596654]
ヴィジュアル・ランゲージ(V-L)モデルは、視覚的・言語的モダリティを整合させるために、対照的な学習で訓練された。
本稿では,プリコンパイルされた画像とテキストの特徴に基づいて,V-L小ショット適応のためのブラックボックス手法について述べる。
対象領域におけるV-L再アライメントに対する単純な線形アプローチである線形特徴アライメント(LFA)を提案する。
論文 参考訳(メタデータ) (2023-04-04T12:42:29Z) - Boosting Low-Data Instance Segmentation by Unsupervised Pre-training
with Saliency Prompt [103.58323875748427]
この研究は、低データ体制のための新しい教師なし事前学習ソリューションを提供する。
近年のPrompting技術の成功に触発されて,QEISモデルを強化した新しい事前学習手法を導入する。
実験結果から,本手法は3つのデータセット上でのいくつかのQEISモデルを大幅に向上させることが示された。
論文 参考訳(メタデータ) (2023-02-02T15:49:03Z) - EVEREST: Efficient Masked Video Autoencoder by Removing Redundant Spatiotemporal Tokens [57.354304637367555]
ビデオ表現学習のための驚くほど効率的なMVAアプローチであるEVERESTを提案する。
リッチなモーション特徴を含むトークンを発見し、事前トレーニングと微調整の両方の間、非形式的なトークンを破棄する。
提案手法は,MVAの計算とメモリ要求を大幅に低減する。
論文 参考訳(メタデータ) (2022-11-19T09:57:01Z) - Beyond Simple Meta-Learning: Multi-Purpose Models for Multi-Domain,
Active and Continual Few-Shot Learning [41.07029317930986]
低ラベル方式で動作するモデルの分散感応クラスを提案する。
最初の手法であるSimple CNAPSは階層的に正規化されたマハラノビス距離に基づく分類器を用いる。
我々はさらに、このアプローチをトランスダクティブ学習環境に拡張し、トランスダクティブCNAPSを提案する。
論文 参考訳(メタデータ) (2022-01-13T18:59:02Z) - Shape My Face: Registering 3D Face Scans by Surface-to-Surface
Translation [75.59415852802958]
Shape-My-Face (SMF) は、改良されたポイントクラウドエンコーダ、新しい視覚的注意機構、スキップ接続付きグラフ畳み込みデコーダ、特殊口モデルに基づく強力なエンコーダデコーダアーキテクチャである。
私たちのモデルは、トポロジカルにサウンドメッシュを最小限の監視で提供し、より高速なトレーニング時間を提供し、訓練可能なパラメータを桁違いに減らし、ノイズに強く、以前は見られないデータセットに一般化することができます。
論文 参考訳(メタデータ) (2020-12-16T20:02:36Z) - Auto-Rectify Network for Unsupervised Indoor Depth Estimation [119.82412041164372]
ハンドヘルド環境に現れる複雑な自我運動が,学習深度にとって重要な障害であることが確認された。
本稿では,相対回転を除去してトレーニング画像の修正を効果的に行うデータ前処理手法を提案する。
その結果、従来の教師なしSOTA法よりも、難易度の高いNYUv2データセットよりも優れていた。
論文 参考訳(メタデータ) (2020-06-04T08:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。