論文の概要: Decoupling the Image Perception and Multimodal Reasoning for Reasoning Segmentation with Digital Twin Representations
- arxiv url: http://arxiv.org/abs/2506.07943v1
- Date: Mon, 09 Jun 2025 17:05:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:11.069648
- Title: Decoupling the Image Perception and Multimodal Reasoning for Reasoning Segmentation with Digital Twin Representations
- Title(参考訳): ディジタル双対表現を用いたセグメンテーションのための画像認識とマルチモーダル推論の分離
- Authors: Yizhen Li, Dell Zhang, Xuelong Li, Yiqing Shen,
- Abstract要約: Reasoning(RS)は、暗黙のテキストクエリに基づいてオブジェクトをセグメント化する必要があるマルチモーダル視覚テキストタスクである。
現在のRSアプローチは、知覚と推論の両方に微調整の視覚言語モデル(VLM)に依存している。
本稿では、Digital Twin表現を中間層として活用し、認識を推論から切り離す新しいRS手法DTwinSegerを紹介する。
- 参考スコア(独自算出の注目度): 48.98219448782818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning Segmentation (RS) is a multimodal vision-text task that requires segmenting objects based on implicit text queries, demanding both precise visual perception and vision-text reasoning capabilities. Current RS approaches rely on fine-tuning vision-language models (VLMs) for both perception and reasoning, but their tokenization of images fundamentally disrupts continuous spatial relationships between objects. We introduce DTwinSeger, a novel RS approach that leverages Digital Twin (DT) representation as an intermediate layer to decouple perception from reasoning. Innovatively, DTwinSeger reformulates RS as a two-stage process, where the first transforms the image into a structured DT representation that preserves spatial relationships and semantic properties and then employs a Large Language Model (LLM) to perform explicit reasoning over this representation to identify target objects. We propose a supervised fine-tuning method specifically for LLM with DT representation, together with a corresponding fine-tuning dataset Seg-DT, to enhance the LLM's reasoning capabilities with DT representations. Experiments show that our method can achieve state-of-the-art performance on two image RS benchmarks and three image referring segmentation benchmarks. It yields that DT representation functions as an effective bridge between vision and text, enabling complex multimodal reasoning tasks to be accomplished solely with an LLM.
- Abstract(参考訳): 推論セグメンテーション(Reasoning Segmentation、RS)は、暗黙のテキストクエリに基づいてオブジェクトをセグメント化する必要があるマルチモーダル視覚テキストタスクである。
現在のRSアプローチは、知覚と推論の両方に微調整視覚言語モデル(VLM)に依存しているが、画像のトークン化は、オブジェクト間の連続的な空間的関係を根本的に破壊する。
DTwinSegerは、デジタルツイン表現を中間層として活用し、認識を推論から切り離す新しいRS手法である。
Innovatively, DTwinSegerはRSを2段階のプロセスとして再構成し、まずイメージを空間的関係と意味的特性を保存する構造化DT表現に変換し、次にLarge Language Model(LLM)を使用して、この表現に対して明示的な推論を行い、ターゲットオブジェクトを識別する。
本研究では,DT表現を用いたLDMの推論能力を高めるために,DT表現付きLDM用の教師付き微調整手法と,それに対応する微調整データセットSeg-DTを提案する。
実験の結果,2つの画像RSベンチマークと3つの画像参照セグメンテーションベンチマークで,最先端の性能を実現することができることがわかった。
これにより、DT表現は視覚とテキストの間の効果的なブリッジとして機能し、複雑なマルチモーダル推論タスクをLLMでのみ達成できる。
関連論文リスト
- RSVP: Reasoning Segmentation via Visual Prompting and Multi-modal Chain-of-Thought [6.037123011622866]
RSVPは、多段階のマルチモーダル推論を基盤的な視覚的理解と統合するフレームワークである。
RSVPはMLLM固有のローカライゼーション機能を利用して、モデルがオブジェクトを推論するだけでなく、構造化された視覚表現を生成することができる。
実験では,ReasonSegの最先端性能を最大6.5 gIoUで上回り,ゼロショット設定でSegInW上で49.7 mAPを達成した。
論文 参考訳(メタデータ) (2025-06-04T02:07:40Z) - A Multi-Task Semantic Decomposition Framework with Task-specific
Pre-training for Few-Shot NER [26.008350261239617]
マルチタスク・セマンティック・デコンストラクション・フレームワークを提案する。
本稿では,MLM(Demonstration-based Masked Language Modeling)とクラスコントラスト識別(Class Contrastive Discrimination)の2つの新しい事前学習タスクを紹介する。
下流のメインタスクでは,エンティティ分類のための2つの異なるセマンティック情報の統合を容易にするセマンティックデコンポーザリング手法を用いたマルチタスク共同最適化フレームワークを導入する。
論文 参考訳(メタデータ) (2023-08-28T12:46:21Z) - Planting a SEED of Vision in Large Language Model [73.17530130368053]
このSEEDは,大規模言語モデル(LLM)とSEEとDrawを同時に実現する,精巧な画像トークンである。
このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。
論文 参考訳(メタデータ) (2023-07-16T13:41:39Z) - Revisiting Multimodal Representation in Contrastive Learning: From Patch
and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。
提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文 参考訳(メタデータ) (2023-03-27T00:58:39Z) - Dialogue Meaning Representation for Task-Oriented Dialogue Systems [51.91615150842267]
タスク指向対話のための柔軟かつ容易に拡張可能な表現である対話意味表現(DMR)を提案する。
我々の表現は、合成意味論とタスク固有の概念のためのリッチな意味論を表現するために、継承階層を持つノードとエッジのセットを含んでいる。
異なる機械学習ベースの対話モデルを評価するための2つの評価タスクを提案し、さらにグラフベースのコア参照解決タスクのための新しいコア参照解決モデルGNNCorefを提案する。
論文 参考訳(メタデータ) (2022-04-23T04:17:55Z) - Exploring Multi-Modal Representations for Ambiguity Detection &
Coreference Resolution in the SIMMC 2.0 Challenge [60.616313552585645]
会話型AIにおける効果的なあいまいさ検出と参照解決のためのモデルを提案する。
具体的には,TOD-BERTとLXMERTをベースとしたモデルを用いて,多数のベースラインと比較し,アブレーション実験を行う。
以上の結果から,(1)言語モデルでは曖昧さを検出するためにデータの相関を活用でき,(2)言語モデルではビジョンコンポーネントの必要性を回避できることがわかった。
論文 参考訳(メタデータ) (2022-02-25T12:10:02Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。