論文の概要: Seg-ReSearch: Segmentation with Interleaved Reasoning and External Search
- arxiv url: http://arxiv.org/abs/2602.04454v1
- Date: Wed, 04 Feb 2026 11:33:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.506471
- Title: Seg-ReSearch: Segmentation with Interleaved Reasoning and External Search
- Title(参考訳): Seg-ReSearch: インターリーブ推論と外部検索を備えたセグメンテーション
- Authors: Tianming Liang, Qirui Du, Jian-Fang Hu, Haichao Jiang, Zicheng Lin, Wei-Shi Zheng,
- Abstract要約: Seg-ReSearchは、既存のアプローチの知識ボトルネックを克服する、新しいセグメンテーションパラダイムである。
インターリーブされた推論と外部検索を有効にすることで、Seg-ReSearchはセグメントシステムに動的でオープンなクエリを処理する権限を与える。
OK-VOSと既存の2つの推論セグメンテーションベンチマークの実験は、Seg-ReSearchが最先端のアプローチを実質的なマージンで改善していることを示している。
- 参考スコア(独自算出の注目度): 45.79431884815933
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Segmentation based on language has been a popular topic in computer vision. While recent advances in multimodal large language models (MLLMs) have endowed segmentation systems with reasoning capabilities, these efforts remain confined by the frozen internal knowledge of MLLMs, which limits their potential for real-world scenarios that involve up-to-date information or domain-specific concepts. In this work, we propose \textbf{Seg-ReSearch}, a novel segmentation paradigm that overcomes the knowledge bottleneck of existing approaches. By enabling interleaved reasoning and external search, Seg-ReSearch empowers segmentation systems to handle dynamic, open-world queries that extend beyond the frozen knowledge of MLLMs. To effectively train this capability, we introduce a hierarchical reward design that harmonizes initial guidance with progressive incentives, mitigating the dilemma between sparse outcome signals and rigid step-wise supervision. For evaluation, we construct OK-VOS, a challenging benchmark that explicitly requires outside knowledge for video object segmentation. Experiments on OK-VOS and two existing reasoning segmentation benchmarks demonstrate that our Seg-ReSearch improves state-of-the-art approaches by a substantial margin. Code and data will be released at https://github.com/iSEE-Laboratory/Seg-ReSearch.
- Abstract(参考訳): 言語に基づくセグメンテーションはコンピュータビジョンにおいて一般的なトピックである。
MLLM(Multimodal large language model)の最近の進歩は、推論能力を持つセグメンテーションシステムを提供してきたが、これらの取り組みは、最新の情報やドメイン固有の概念を含む現実のシナリオに対する可能性を制限するMLLMの内部知識によって制限されている。
本研究では,既存のアプローチの知識ボトルネックを克服する新しいセグメンテーションパラダイムであるtextbf{Seg-ReSearch}を提案する。
インターリーブされた推論と外部検索を有効にすることで、Seg-ReSearchはセグメンテーションシステムに、MLLMの凍結した知識を超えて広がる動的でオープンなクエリを処理する権限を与える。
この能力を効果的に訓練するために,先進的なインセンティブと初期指導を調和させる階層的な報酬設計を導入し,スパース信号と厳格なステップワイド・インスペクションのジレンマを緩和する。
評価のために、ビデオオブジェクトセグメンテーションの外部知識を明示的に要求する挑戦的なベンチマークであるOK-VOSを構築した。
OK-VOSと既存の2つの推論セグメンテーションベンチマークの実験は、Seg-ReSearchが最先端のアプローチを実質的なマージンで改善していることを示している。
コードとデータはhttps://github.com/iSEE-Laboratory/Seg-ReSearchで公開される。
関連論文リスト
- Contrastive Concept-Tree Search for LLM-Assisted Algorithm Discovery [10.823958143531685]
大規模言語モデル (LLM) によるアルゴリズム発見は、プログラムに対する反復的、ブラックボックス最適化プロセスである。
本稿では、生成したプログラムから階層的な概念表現を抽出するContrastive Concept-Tree Search(CCTS)を紹介する。
CCTSは、フィットネスベースのベースラインよりも検索効率を向上し、解釈可能なタスク固有の概念ツリーを生成する。
論文 参考訳(メタデータ) (2026-02-03T05:41:35Z) - FineRS: Fine-grained Reasoning and Segmentation of Small Objects with Reinforcement Learning [62.11389260206383]
textscFineRSは、非常に小さなオブジェクトをセグメント化するための2段階のMLLMベースの強化学習フレームワークである。
textscFineRS-4kは,属性レベルの推論に基づくMLLMの評価と,微妙で小規模なターゲットに対する画素レベルのセグメンテーションのための新しいデータセットである。
論文 参考訳(メタデータ) (2025-10-24T10:14:17Z) - Cross-Domain Semantic Segmentation with Large Language Model-Assisted Descriptor Generation [0.0]
LangSegはコンテキストに敏感できめ細かいサブクラス記述子を利用する新しいセマンティックセマンティックセマンティクス手法である。
我々はLangSegをADE20KとCOCO-Stuffという2つの挑戦的なデータセットで評価し、最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2025-01-27T20:02:12Z) - Towards Boosting LLMs-driven Relevance Modeling with Progressive Retrieved Behavior-augmented Prompting [23.61061000692023]
本研究では,検索ログに記録されたユーザインタラクションを活用して,ユーザの暗黙の検索意図に対する洞察を得ることを提案する。
ProRBPは,探索シナリオ指向の知識を大規模言語モデルと統合するための,プログレッシブ検索行動拡張型プロンプトフレームワークである。
論文 参考訳(メタデータ) (2024-08-18T11:07:38Z) - Frequency-based Matcher for Long-tailed Semantic Segmentation [22.199174076366003]
我々は、比較的未探索なタスク設定、長い尾のセマンティックセマンティックセグメンテーション(LTSS)に焦点を当てる。
本稿では,セマンティックセグメンテーション手法と長鎖解の性能を示すために,二値評価システムを提案し,LTSSベンチマークを構築した。
また,1対1のマッチングによって過剰な圧縮問題を解決する周波数ベースのマーカであるLTSSを改善するトランスフォーマーベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-06T09:57:56Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - LISA: Reasoning Segmentation via Large Language Model [68.24075852136761]
そこで我々は,新たなセグメンテーションタスク,すなわち推論セグメンテーションを提案する。
このタスクは、複雑で暗黙的なクエリテキストを与えられたセグメンテーションマスクを出力するように設計されている。
提案するLISA: Large Language Instructed Assistantは,マルチモーダル大規模言語モデルの言語生成能力を継承する。
論文 参考訳(メタデータ) (2023-08-01T17:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。