論文の概要: ResAgent: Entropy-based Prior Point Discovery and Visual Reasoning for Referring Expression Segmentation
- arxiv url: http://arxiv.org/abs/2601.16394v1
- Date: Fri, 23 Jan 2026 01:56:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.50461
- Title: ResAgent: Entropy-based Prior Point Discovery and Visual Reasoning for Referring Expression Segmentation
- Title(参考訳): ResAgent: 表現セグメンテーションの参照のためのエントロピーに基づく事前点発見と視覚的推論
- Authors: Yihao Wang, Jusheng Zhang, Ziyi Tang, Keze Wang, Meng Yang,
- Abstract要約: Referring Expression(RES)は、自由形式の言語表現によるターゲットのピクセルレベルの理解を可能にする、コアビジョン言語セグメンテーションタスクである。
textbfmodelは textbfEntropy-textbfBased Point textbfDiscovery (textbfEBD) と textbfVision-textbfBased textbfReasoning (textbfVBR) を統合する新しいRESフレームワークである。
model は coarse-to を実装します
- 参考スコア(独自算出の注目度): 21.87321809019825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Referring Expression Segmentation (RES) is a core vision-language segmentation task that enables pixel-level understanding of targets via free-form linguistic expressions, supporting critical applications such as human-robot interaction and augmented reality. Despite the progress of Multimodal Large Language Model (MLLM)-based approaches, existing RES methods still suffer from two key limitations: first, the coarse bounding boxes from MLLMs lead to redundant or non-discriminative point prompts; second, the prevalent reliance on textual coordinate reasoning is unreliable, as it fails to distinguish targets from visually similar distractors. To address these issues, we propose \textbf{\model}, a novel RES framework integrating \textbf{E}ntropy-\textbf{B}ased Point \textbf{D}iscovery (\textbf{EBD}) and \textbf{V}ision-\textbf{B}ased \textbf{R}easoning (\textbf{VBR}). Specifically, EBD identifies high-information candidate points by modeling spatial uncertainty within coarse bounding boxes, treating point selection as an information maximization process. VBR verifies point correctness through joint visual-semantic alignment, abandoning text-only coordinate inference for more robust validation. Built on these components, \model implements a coarse-to-fine workflow: bounding box initialization, entropy-guided point discovery, vision-based validation, and mask decoding. Extensive evaluations on four benchmark datasets (RefCOCO, RefCOCO+, RefCOCOg, and ReasonSeg) demonstrate that \model achieves new state-of-the-art performance across all four benchmarks, highlighting its effectiveness in generating accurate and semantically grounded segmentation masks with minimal prompts.
- Abstract(参考訳): Referring Expression Segmentation (RES)は、人間のロボットインタラクションや拡張現実といった重要な応用をサポートする、自由形式の言語表現によるターゲットのピクセルレベルの理解を可能にする、コアビジョン言語セグメンテーションタスクである。
MLLM(Multimodal Large Language Model)ベースのアプローチの進展にもかかわらず、既存のRESメソッドには、MLLMからの粗いバウンディングボックスが冗長または非差別的なポイントプロンプトにつながるという2つの重要な制限がある。
これらの問題に対処するため、新しいRESフレームワークである \textbf{E}ntropy-\textbf{B}ased Point \textbf{D}iscovery (\textbf{EBD}) と \textbf{V}ision-\textbf{B}ased \textbf{R}easoning (\textbf{VBR}) を統合する。
具体的には、粗い境界ボックス内の空間不確実性をモデル化し、ポイント選択を情報最大化プロセスとして扱うことにより、高情報候補点を特定する。
VBRは、より堅牢な検証のために、テキストのみの座標推論を放棄し、共同的な視覚・セマンティックアライメントを通して点の正当性を検証する。
これらのコンポーネント上に構築されたShamodelは、バウンディングボックスの初期化、エントロピー誘導ポイント発見、視覚ベースのバリデーション、マスク復号といった粗いワークフローを実装している。
4つのベンチマークデータセット(RefCOCO、RefCOCO+、RefCOCOg、ReasonSeg)の大規模な評価では、 \modelは4つのベンチマークすべてで新しい最先端のパフォーマンスを実現し、最小限のプロンプトで正確でセグメンテーションマスクを生成する効果を強調している。
関連論文リスト
- SPARTA: Evaluating Reasoning Segmentation Robustness through Black-Box Adversarial Paraphrasing in Text Autoencoder Latent Space [11.534994345027362]
MLLM(Multimodal large language model)は、推論セグメンテーションなどの視覚言語タスクにおいて顕著な機能を示す。
そこで本研究では,従来の問合せの意味を保ちつつ,セグメンテーション性能を劣化させつつ,文法的に正しい言い回しを生成する,新しい逆の言い回しタスクを提案する。
テキストオートエンコーダの低次元意味潜在空間で動作するブラックボックスであるSPARTAを導入する。
論文 参考訳(メタデータ) (2025-10-28T14:09:05Z) - A Multimodal Depth-Aware Method For Embodied Reference Understanding [56.30142869506262]
Embodied Reference Understandingでは、言語命令とポインティングキューの両方に基づいて、視覚的なシーンで対象のオブジェクトを識別する必要がある。
本稿では,データ拡張,深度マップのモダリティ,深度認識決定モジュールを共同で活用する新しいERUフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-09T14:32:21Z) - GRASP: Geospatial pixel Reasoning viA Structured Policy learning [16.023628299873494]
GRASPは、マルチモーダルな大規模言語モデルと事前訓練されたセグメンテーションモデルを統合する、構造化されたポリシー学習フレームワークである。
PRIMEは、教師付き微調整を強化学習に置き換える訓練パラダイムであり、推論や接地行動とタスク目標との整合性を改善する。
GRASP-1kは、推論集約的なクエリ、推論トレース、きめ細かいマスクを備えた、完全にドメイン外ベンチマークである。
論文 参考訳(メタデータ) (2025-08-23T18:05:06Z) - LIRA: Inferring Segmentation in Large Multi-modal Models with Local Interleaved Region Assistance [54.683384204063934]
大規模マルチモーダルモデル(LMM)は不正確なセグメンテーションと幻覚的理解に苦しむ。
視覚的理解とセグメンテーションの相補的関係を生かしたフレームワークであるLIRAを提案する。
LIRAはセグメンテーションと理解タスクの両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-08T07:46:26Z) - IteRPrimE: Zero-shot Referring Image Segmentation with Iterative Grad-CAM Refinement and Primary Word Emphasis [46.502962768034166]
Zero-shot Referring Imageは、トレーニングや微調整なしで参照式に最も適したインスタンスマスクを特定する。
従来のCLIPモデルでは、物体の相対的な空間的関係を識別する能力が顕著に低下していた。
IteRPrimEは従来の最先端のゼロショットメソッドよりも優れており、特にドメイン外のシナリオでは優れている。
論文 参考訳(メタデータ) (2025-03-02T15:19:37Z) - Multi-task Visual Grounding with Coarse-to-Fine Consistency Constraints [15.541287957548771]
本稿では,粗大な一貫性制約を持つビジュアルグラウンドアーキテクチャを提案する。
暗黙的かつ明示的なモデリングアプローチを2段階のフレームワークに統合する。
最先端のREC法とRIS法を実質的なマージンで大幅に上回っている。
論文 参考訳(メタデータ) (2025-01-12T04:30:13Z) - Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。