論文の概要: ColLab: A Collaborative Spatial Progressive Data Engine for Referring Expression Comprehension and Generation
- arxiv url: http://arxiv.org/abs/2509.23955v1
- Date: Sun, 28 Sep 2025 16:21:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.551564
- Title: ColLab: A Collaborative Spatial Progressive Data Engine for Referring Expression Comprehension and Generation
- Title(参考訳): ColLab: 表現理解と生成の参照のための協調的空間進行型データエンジン
- Authors: Shilan Zhang, Jirui Huang, Ruilin Yao, Cong Wang, Yaxiong Chen, Peng Xu, Shengwu Xiong,
- Abstract要約: ColLabは、人間の監督なしに完全に自動化されたRECとREGデータ生成を可能にする、協調的な空間的プログレッシブデータエンジンである。
ColLab は REC と REG のアノテーション処理を著しく促進し,生成した表現の質と識別性を改善した。
ICCV 2025 MARS2 Challenge on Multimodal Reasoningにおいて,本フレームワークを部分的に採用した。
- 参考スコア(独自算出の注目度): 22.83728319715156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Referring Expression Comprehension (REC) and Referring Expression Generation (REG) are fundamental tasks in multimodal understanding, supporting precise object localization through natural language. However, existing REC and REG datasets rely heavily on manual annotation, which is labor-intensive and difficult to scale. In this paper, we propose ColLab, a collaborative spatial progressive data engine that enables fully automated REC and REG data generation without human supervision. Specifically, our method introduces a Collaborative Multimodal Model Interaction (CMMI) strategy, which leverages the semantic understanding of multimodal large language models (MLLMs) and large language models (LLMs) to generate descriptions. Furthermore, we design a module termed Spatial Progressive Augmentation (SPA) to enhance spatial expressiveness among duplicate instances. Experiments demonstrate that ColLab significantly accelerates the annotation process of REC and REG while improving the quality and discriminability of the generated expressions. In addition to the core methodological contribution, our framework was partially adopted in the data generation pipeline of the ICCV 2025 MARS2 Challenge on Multimodal Reasoning, enriching the dataset with diverse and challenging samples that better reflect real-world reasoning demands.
- Abstract(参考訳): Referring Expression Comprehension (REC) と Referring Expression Generation (REG) はマルチモーダル理解における基本的なタスクであり、自然言語による正確なオブジェクトローカライゼーションをサポートする。
しかし、既存のRECとREGデータセットは、労働集約的でスケールが難しい手動アノテーションに大きく依存している。
本論文では,人間の監督なしに完全自動化されたRECとREGデータ生成を可能にする協調的空間進行型データエンジンであるColLabを提案する。
具体的には,MLLM(Multimodal Large Language Model)とLLM(Big Language Model)のセマンティック理解を活用して記述を生成するCMMI(Collaborative Multimodal Model Interaction)戦略を提案する。
さらに、重複インスタンス間の空間表現性を高めるために、SPA(Spatial Progressive Augmentation)と呼ばれるモジュールを設計する。
実験により、ColLabはRECとREGのアノテーションプロセスを大幅に加速し、生成した表現の品質と識別性を改善した。
ICCV 2025 MARS2 Challenge on Multimodal Reasoningでは,本フレームワークを部分的に採用し,実世界の推論要求を反映した多種多様で困難なサンプルでデータセットを充実させた。
関連論文リスト
- ReMeREC: Relation-aware and Multi-entity Referring Expression Comprehension [29.50623143244436]
ReMeRECは、自然言語の記述に基づいて、イメージ内の特定のエンティティやリージョンをローカライズすることを目的としている。
まず、ReMeXと呼ばれる関係認識型マルチエンタリティRECデータセットを構築した。
次に,複数のエンティティのローカライズに視覚的およびテキスト的手がかりを併用した新しいフレームワークReMeRECを提案する。
論文 参考訳(メタデータ) (2025-07-22T11:23:48Z) - Learning Beyond Limits: Multitask Learning and Synthetic Data for Low-Resource Canonical Morpheme Segmentation [7.766518675734386]
低リソースのトレーニング信号を増強する変圧器を用いた形態素セグメンテーションシステムを提案する。
本フレームワークは, 形態的セグメントとグルースを図形入力から共同で予測する。
我々は,大規模言語モデル(LLM)によって生成された合成学習データを,文脈内学習を用いて統合する。
論文 参考訳(メタデータ) (2025-05-22T15:40:09Z) - SemCORE: A Semantic-Enhanced Generative Cross-Modal Retrieval Framework with MLLMs [70.79124435220695]
セマンティック強化型Cross-mOdal Retrievalフレームワーク(SemCORE)を提案する。
まず,自然言語の理解と生成に最適化された生成モデルとターゲット識別子を効果的に整合させる構造化自然言語識別器(SID)を構築した。
次に、粒度の細かいターゲット識別を可能にするジェネレーティブ・セマンティック・検証(GSV)戦略を導入する。
論文 参考訳(メタデータ) (2025-04-17T17:59:27Z) - Unseen from Seen: Rewriting Observation-Instruction Using Foundation Models for Augmenting Vision-Language Navigation [67.31811007549489]
視覚言語ナビゲーション(VLN)のためのリライト駆動型AugMentation(RAM)パラダイムを提案する。
書き換え機構を応用して, シミュレータフリー, 省力化の両面で新たな観察指導が可能となり, 一般化が促進される。
離散環境 (R2R, REVERIE, R4R) と連続環境 (R2R-CE) の両方における実験により, 本手法の優れた性能と優れた一般化能力が示された。
論文 参考訳(メタデータ) (2025-03-23T13:18:17Z) - New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。
MLLM(Multimodal Large Language Models)の試験場として機能する。
論文 参考訳(メタデータ) (2025-02-27T13:58:44Z) - CART: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
クロスモーダル検索は、異なるモーダルデータの相互作用を通じて、クエリと意味的に関連するインスタンスを検索することを目的としている。
従来のソリューションでは、クエリと候補の間のスコアを明示的に計算するために、シングルトウワーまたはデュアルトウワーのフレームワークを使用している。
粗大なセマンティックモデリングに基づく生成的クロスモーダル検索フレームワーク(CART)を提案する。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。