論文の概要: MAOAM: Unified Object and Material Selection with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2606.04880v1
- Date: Tue, 02 Jun 2026 17:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.785822
- Title: MAOAM: Unified Object and Material Selection with Vision-Language Models
- Title(参考訳): MAOAM:視覚言語モデルを用いた統一物体と材料選択
- Authors: Jaden Park, Valentin Deschaintre, Jason Kuen, Kangning Liu, Iliyan Georgiev, Krishna Kumar Singh, Yong Jae Lee, Michael Fischer,
- Abstract要約: Mask Any Object And Material (MAOAM) はインタラクティブな画像編集のための統合された選択フレームワークである。
テキストベースのインタラクションとクリックベースのインタラクションの両方で、正確なオブジェクトとマテリアルレベルの選択を可能にする。
重要な課題は、テキストアノテーションによるマテリアルセレクションデータセットの欠如である。
- 参考スコア(独自算出の注目度): 51.308025632008366
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Selection is a core operation in interactive image editing. To be practical, a user should be able to specify and disambiguate the desired selection region through either text or click-based interactions, and the system should support selecting not only objects but also other criteria, such as materials. Material-based selection is valuable for tasks like re-texturing surfaces or editing instances of a specific material. However, existing vision-language-model (VLM) based selection methods are object-centric and typically support a single interaction modality, limiting their applicability. In this work, we thus present Mask Any Object And Material (MAOAM), a unified selection framework that enables precise object and material-level selection across both text- and click-based interactions. MAOAM leverages a VLM with a segmentation head to produce pixel-accurate masks from user prompts: the VLM interprets the user's selection intent (object or material-level) and encodes visual entities, attributes, and spatial relations, while the segmentation head decodes the output token into a mask. A key challenge is the lack of material selection datasets with text annotations. We propose a scalable data generation pipeline: we collect real and synthetic images with material masks, and leverage VLMs to generate material descriptions with rich visual-semantics. We train MAOAM with a multi-task objective over click and text-based selection, along with an auxiliary VQA task derived from the material descriptions to facilitate deeper material understanding. Despite being trained with uni-modal prompts, our model exhibits an emergent improvement in selection when combining text and clicks at inference, enabling flexible image editing workflows. Experiments demonstrate accurate and coherent selections across diverse objects, materials, and interaction scenarios, highlighting robustness in practice.
- Abstract(参考訳): 選択はインタラクティブな画像編集における中核的な操作である。
実用上は、ユーザーはテキストまたはクリックベースのインタラクションを通じて、所望の選択領域を指定・曖昧化できなければならない。
素材ベースの選択は、表面の再テクスチャや特定の素材の編集インスタンスといったタスクに有用である。
しかしながら、既存の視覚言語モデル (VLM) ベースの選択法はオブジェクト指向であり、通常は単一の相互作用モダリティをサポートし、適用性を制限する。
そこで本研究では,テキストベースとクリックベースの両方のインタラクションに対して,正確なオブジェクトとマテリアルレベルの選択を可能にする統一的な選択フレームワークであるMask Any Object And Materials(MAOAM)を提案する。
MAOAMはセグメンテーションヘッドを持つVLMを利用してユーザプロンプトから画素精度のマスクを生成する: VLMはユーザの選択意図(オブジェクトまたは素材レベル)を解釈し、視覚的実体、属性、空間的関係を符号化し、セグメンテーションヘッドは出力トークンをマスクにデコードする。
重要な課題は、テキストアノテーションによるマテリアルセレクションデータセットの欠如である。
我々は,物質マスクを用いた実画像と合成画像を収集し,VLMを利用してリッチなビジュアル・セマンティックスによる資料記述を生成する,スケーラブルなデータ生成パイプラインを提案する。
教材記述から得られた補助的なVQAタスクとともに、クリックやテキストベースの選択よりも多タスクでMAOAMを訓練し、より深い資料理解を容易にする。
ユニモーダルなプロンプトでトレーニングされているにもかかわらず、本モデルでは、テキストと推論時のクリックの組み合わせにおいて、選択が即時改善され、フレキシブルな画像編集ワークフローが実現されている。
実験では、様々な物体、材料、相互作用シナリオにわたる正確で一貫性のある選択が示され、実際は堅牢性を強調している。
関連論文リスト
- Text4Seg++: Advancing Image Segmentation via Generative Language Modeling [52.07442359419673]
画像分割をテキスト生成問題として用いた新しいテキスト・アズ・マスクパラダイムを提案する。
鍵となる革新はセグメンテーションマスクの新しいテキスト表現であるセグメンテーション記述子である。
自然およびリモートセンシングデータセットの実験は、Text4Seg++が最先端モデルよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2025-09-08T04:07:14Z) - MLLM-Guided VLM Fine-Tuning with Joint Inference for Zero-Shot Composed Image Retrieval [50.062817677022586]
Zero-Shot Image Retrieval (ZS-CIR) メソッドは通常、参照イメージを擬似テキストトークンに変換するアダプタを訓練する。
MLLM-Guided VLM Fine-Tuning with Joint Inference (MVFT-JI) を提案する。
論文 参考訳(メタデータ) (2025-05-26T08:56:59Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - VP-MEL: Visual Prompts Guided Multimodal Entity Linking [16.463229055333407]
MEL(Multimodal entity Linking)は、知識ベース(KB)において、マルチモーダルコンテキスト内の参照を対応するエンティティにリンクすることを目的としたタスクである。
既存のMEL手法は、しばしば検索手段として言及された単語を頼りにしており、画像とテキストの両方からの情報を効果的に活用する能力を制限する。
我々は,視覚的プロンプトを用いた視覚的特徴抽出を強化し,事前学習されたディレクティブ-VLMモデルを用いて潜時情報をキャプチャするIIERというフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-09T18:06:39Z) - LLM-Optic: Unveiling the Capabilities of Large Language Models for Universal Visual Grounding [26.888343140449948]
ビジュアルグラウンドティングは、ユーザが提供するテキストクエリと、画像内のクエリ固有の領域を結びつける重要なツールである。
LLM-Opticは,Large Language Models (LLMs) を光学レンズとして利用し,既存の視覚的接地モデルを強化する革新的な手法である。
提案手法は,任意の言語入力によって指定された任意のオブジェクトを検出可能な,普遍的な視覚的接地を実現する。
論文 参考訳(メタデータ) (2024-05-27T12:23:08Z) - Segment Everything Everywhere All at Once [124.90835636901096]
画像中のすべてのものを同時にセグメント化するための,迅速かつインタラクティブなモデルであるSEEMを提案する。
そこで本研究では,あらゆるタイプのセグメンテーションタスクに対して,多様なプロンプトを可能にする新しい復号化機構を提案する。
多様なセグメンテーションタスクにおけるSEEMの有効性を検証するための総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2023-04-13T17:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。