論文の概要: IBISAgent: Reinforcing Pixel-Level Visual Reasoning in MLLMs for Universal Biomedical Object Referring and Segmentation
- arxiv url: http://arxiv.org/abs/2601.03054v1
- Date: Tue, 06 Jan 2026 14:37:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.977244
- Title: IBISAgent: Reinforcing Pixel-Level Visual Reasoning in MLLMs for Universal Biomedical Object Referring and Segmentation
- Title(参考訳): IBISAgent:ユニバーサルバイオメディカルオブジェクト参照とセグメンテーションのためのMLLMにおけるPixel-Level Visual Reasoningの強化
- Authors: Yankai Jiang, Qiaoru Li, Binlu Xu, Haoran Sun, Chao Ding, Junting Dong, Yuxiang Cai, Xuhong Zhang, Jianwei Yin,
- Abstract要約: IBISAgentはビジョン中心の多段階意思決定プロセスとしてセグメンテーションを再構築する。
IBISAgentは、クローズドソースとオープンソース両方のSOTAメソッドを一貫して上回っている。
すべてのデータセット、コード、トレーニングされたモデルが公開されます。
- 参考スコア(独自算出の注目度): 44.89730606641666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research on medical MLLMs has gradually shifted its focus from image-level understanding to fine-grained, pixel-level comprehension. Although segmentation serves as the foundation for pixel-level understanding, existing approaches face two major challenges. First, they introduce implicit segmentation tokens and require simultaneous fine-tuning of both the MLLM and external pixel decoders, which increases the risk of catastrophic forgetting and limits generalization to out-of-domain scenarios. Second, most methods rely on single-pass reasoning and lack the capability to iteratively refine segmentation results, leading to suboptimal performance. To overcome these limitations, we propose a novel agentic MLLM, named IBISAgent, that reformulates segmentation as a vision-centric, multi-step decision-making process. IBISAgent enables MLLMs to generate interleaved reasoning and text-based click actions, invoke segmentation tools, and produce high-quality masks without architectural modifications. By iteratively performing multi-step visual reasoning on masked image features, IBISAgent naturally supports mask refinement and promotes the development of pixel-level visual reasoning capabilities. We further design a two-stage training framework consisting of cold-start supervised fine-tuning and agentic reinforcement learning with tailored, fine-grained rewards, enhancing the model's robustness in complex medical referring and reasoning segmentation tasks. Extensive experiments demonstrate that IBISAgent consistently outperforms both closed-source and open-source SOTA methods. All datasets, code, and trained models will be released publicly.
- Abstract(参考訳): 近年の医療MLLMの研究は、画像レベルの理解から細粒度のピクセルレベルの理解へと焦点を移している。
セグメンテーションはピクセルレベルの理解の基礎となっているが、既存のアプローチは2つの大きな課題に直面している。
まず、暗黙のセグメンテーショントークンを導入し、MLLMと外部画素デコーダの両方を同時に微調整する必要がある。
第二に、ほとんどのメソッドはシングルパス推論に依存しており、セグメンテーション結果を反復的に洗練する能力が欠けているため、最適化性能が低下する。
これらの制約を克服するために,視覚中心の多段階意思決定プロセスとしてセグメンテーションを再構成する新しいエージェントMLLM IBISAgentを提案する。
IBISAgentは、MLLMがインターリーブされた推論とテキストベースのクリックアクションを生成し、セグメンテーションツールを起動し、アーキテクチャの変更なしに高品質なマスクを生成することを可能にする。
IBISAgentはマスク画像の特徴に対して複数段階の視覚的推論を反復的に行うことにより、マスクの精細化を自然にサポートし、ピクセルレベルの視覚的推論機能の開発を促進する。
さらに,冷間開始指導による微調整とエージェント強化学習による2段階のトレーニングフレームワークを設計し,複雑な医療参照と推論のセグメンテーションタスクにおけるモデルの堅牢性を高めた。
大規模な実験により、IBISAgentはクローズドソースとオープンソース両方のSOTAメソッドを一貫して上回っていることが示された。
すべてのデータセット、コード、トレーニングされたモデルが公開されます。
関連論文リスト
- FineRS: Fine-grained Reasoning and Segmentation of Small Objects with Reinforcement Learning [62.11389260206383]
textscFineRSは、非常に小さなオブジェクトをセグメント化するための2段階のMLLMベースの強化学習フレームワークである。
textscFineRS-4kは,属性レベルの推論に基づくMLLMの評価と,微妙で小規模なターゲットに対する画素レベルのセグメンテーションのための新しいデータセットである。
論文 参考訳(メタデータ) (2025-10-24T10:14:17Z) - ARGenSeg: Image Segmentation with Autoregressive Image Generation Model [46.837184955843355]
本稿では,ARGenSeg(AutoRegressive Generation-based paradigm for image)を提案する。
提案手法は,複数のセグメンテーションデータセットに対する従来手法を超越し,推論速度を著しく向上させる。
論文 参考訳(メタデータ) (2025-10-23T17:58:26Z) - UniPixel: Unified Object Referring and Segmentation for Pixel-Level Visual Reasoning [83.68366772745689]
視覚的なプロンプト入力を柔軟に解釈し,マスクによる応答を生成できる大規模マルチモーダルモデルUniPixelを提案する。
具体的には、UniPixelは、要求に応じて視覚的なプロンプトを処理し、関連するマスクを生成し、推論中にこれらの中間ポインタに対してその後の推論条件を実行する。
提案手法の有効性は,画素レベルの参照/セグメンテーションや画像・ビデオにおけるオブジェクト中心の理解など,多種多様なタスクを対象とした10のベンチマークで検証されている。
論文 参考訳(メタデータ) (2025-09-22T17:59:40Z) - MLLM-Enhanced Face Forgery Detection: A Vision-Language Fusion Solution [36.79921476565535]
VLF-FFDはMLLM強化顔偽造検出のための新しいビジョン・ランゲージ・フュージョン・ソリューションである。
EFF++は、広く使用されているFaceForensics++データセットのフレームレベル、説明可能性駆動拡張である。
VLF-FFDは、クロスデータセットおよびイントラデータセット評価の両方において、最先端(SOTA)性能を達成する。
論文 参考訳(メタデータ) (2025-05-04T06:58:21Z) - SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories [52.57696897619189]
MLLMが対話型セグメンテーションツールを用いた人間のアノテーションを模倣する新しいパラダイムであるHLMAT(Human-Like Mask Modeling Task)を紹介する。
HLMATにより、MLLMはテキストベースのクリックポイントを反復的に生成し、アーキテクチャの変更や暗黙のトークンなしで高品質なマスクを実現することができる。
HLMATは、MLLMの微細なピクセル理解を評価するためのプロトコルを提供し、視覚中心の多段階意思決定タスクを導入している。
論文 参考訳(メタデータ) (2025-03-11T17:08:54Z) - Adapting Vision-Language Model with Fine-grained Semantics for Open-Vocabulary Segmentation [42.020470627552136]
オープン語彙のセグメンテーションは、主にマスク生成ではなく、マスク分類によってボトルネックとなる。
本稿では,この制限に対処するためのFISA法を提案する。
FISAは、視覚符号化プロセスの初期に、この重要な意味情報を明示的に統合することにより、抽出した視覚的特徴をきめ細かな意味認識で強化する。
論文 参考訳(メタデータ) (2024-09-24T17:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。