論文の概要: FOCUS: Unified Vision-Language Modeling for Interactive Editing Driven by Referential Segmentation
- arxiv url: http://arxiv.org/abs/2506.16806v1
- Date: Fri, 20 Jun 2025 07:46:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.374215
- Title: FOCUS: Unified Vision-Language Modeling for Interactive Editing Driven by Referential Segmentation
- Title(参考訳): FOCUS:参照セグメンテーションによるインタラクティブ編集のための統合視覚言語モデリング
- Authors: Fan Yang, Yousong Zhu, Xin Li, Yufei Zhan, Hongyin Zhao, Shurong Zheng, Yaowei Wang, Ming Tang, Jinqiao Wang,
- Abstract要約: 最近のLVLM(Large Vision Language Models)は、視覚的理解と生成的モデリングを統一する有望な能力を示している。
本稿では,分割認識と制御可能なオブジェクト中心生成をエンドツーエンドフレームワークに統合した統合LVLMであるFOCUSを紹介する。
- 参考スコア(独自算出の注目度): 47.8417810406568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent Large Vision Language Models (LVLMs) demonstrate promising capabilities in unifying visual understanding and generative modeling, enabling both accurate content understanding and flexible editing. However, current approaches treat "what to see" and "how to edit" separately: they either perform isolated object segmentation or utilize segmentation masks merely as conditional prompts for local edit generation tasks, often relying on multiple disjointed models. To bridge these gaps, we introduce FOCUS, a unified LVLM that integrates segmentation-aware perception and controllable object-centric generation within an end-to-end framework. FOCUS employs a dual-branch visual encoder to simultaneously capture global semantic context and fine-grained spatial details. In addition, we leverage a MoVQGAN-based visual tokenizer to produce discrete visual tokens that enhance generation quality. To enable accurate and controllable image editing, we propose a progressive multi-stage training pipeline, where segmentation masks are jointly optimized and used as spatial condition prompts to guide the diffusion decoder. This strategy aligns visual encoding, segmentation, and generation modules, effectively bridging segmentation-aware perception with fine-grained visual synthesis. Extensive experiments across three core tasks, including multimodal understanding, referring segmentation accuracy, and controllable image generation, demonstrate that FOCUS achieves strong performance by jointly optimizing visual perception and generative capabilities.
- Abstract(参考訳): 最近のLVLM(Large Vision Language Models)は、視覚的理解と生成的モデリングを統合し、正確なコンテンツ理解と柔軟な編集を可能にする有望な能力を示している。
しかし、現在のアプローチでは、分離されたオブジェクトセグメンテーションを実行するか、単にローカル編集生成タスクの条件付きプロンプトとしてセグメンテーションマスクを利用するか、しばしば複数の非結合モデルに依存する。
これらのギャップを埋めるために,分割認識と制御可能なオブジェクト中心生成をエンドツーエンドフレームワークに統合した統合LVLMであるFOCUSを導入する。
FOCUSは、グローバルセマンティックコンテキストと細粒度空間の詳細を同時にキャプチャするために、デュアルブランチビジュアルエンコーダを使用している。
さらに、MoVQGANベースの視覚トークン化器を利用して、生成品質を高める離散的な視覚トークンを生成する。
高精度かつ制御可能な画像編集を実現するために,分割マスクを共同最適化し,空間条件のプロンプトとして利用して拡散デコーダを誘導する,プログレッシブ多段階訓練パイプラインを提案する。
この戦略は、視覚的エンコーディング、セグメンテーション、生成モジュールを調整し、セグメンテーションを意識した知覚をきめ細かな視覚合成で効果的にブリッジする。
マルチモーダル理解、セグメンテーション精度の参照、制御可能な画像生成を含む3つのコアタスクにわたる広範囲な実験は、FOCUSが視覚知覚と生成能力を協調的に最適化することで、強いパフォーマンスを達成することを示した。
関連論文リスト
- Kernel-based Unsupervised Embedding Alignment for Enhanced Visual Representation in Vision-language Models [18.02840698188587]
本稿では,CLIPの視覚表現とDINOv2の表現を一致させるカーネルベースの新しい手法を提案する。
画像のみのアライメント微調整は、ゼロショット物体認識、きめ細かい空間的推論において著しく改善されている。
論文 参考訳(メタデータ) (2025-06-03T07:44:43Z) - Deformable Attentive Visual Enhancement for Referring Segmentation Using Vision-Language Model [0.8747606955991707]
本稿では,セグメンテーションの精度とモーダル間のアライメントを向上させるために,アーキテクチャの改善を取り入れた視覚言語モデルを提案する。
SegVLMは多様なデータセットをまたいだ強力な一般化と表現シナリオの参照を示す。
論文 参考訳(メタデータ) (2025-05-25T17:42:53Z) - Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。
MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。
本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文 参考訳(メタデータ) (2024-11-26T09:36:02Z) - More Pictures Say More: Visual Intersection Network for Open Set Object Detection [4.206612461069489]
オープンセットオブジェクト検出(VINO)のための強力なDETRモデルであるVisual Intersection Networkを導入する。
VINOは、すべての時間ステップにまたがるカテゴリのセマンティックな交差を保存するために、マルチイメージのビジュアルバンクを構築する。
提案手法は,対象カテゴリ意味論と領域意味論のより正確な一致を保証するとともに,事前学習時間とリソース要求を著しく低減する。
論文 参考訳(メタデータ) (2024-08-26T05:52:35Z) - PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model [49.80313655590392]
PSALMは、セグメント化タスクの課題に対処するため、LMM(Large Multi-modal Model)の強力な拡張である。
マスクデコーダとよく設計された入力スキーマを組み込んで,さまざまなセグメンテーションタスクを処理する。
PSALMの柔軟な設計は、複数のデータセットとタスクのジョイントトレーニングをサポートし、パフォーマンスとタスクの一般化を改善している。
論文 参考訳(メタデータ) (2024-03-21T17:50:47Z) - Generalizable Entity Grounding via Assistance of Large Language Model [77.07759442298666]
本稿では,長いキャプションから密接な視覚的実体を抽出する手法を提案する。
本研究では,意味代名詞の抽出に大規模なマルチモーダルモデル,エンティティレベルのセグメンテーションを生成するクラス-aセグメンテーションモデル,および各セグメンテーション名詞と対応するセグメンテーションマスクを関連付けるマルチモーダル特徴融合モジュールを利用する。
論文 参考訳(メタデータ) (2024-02-04T16:06:05Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。