Fugu-MT 論文翻訳(概要): Don't Guess, Just Ask: Resolving Ambiguity in Referring Segmentation via Multi-turn Clarification

論文の概要: Don't Guess, Just Ask: Resolving Ambiguity in Referring Segmentation via Multi-turn Clarification

arxiv url: http://arxiv.org/abs/2605.17531v2
Date: Sun, 24 May 2026 12:33:07 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-26 16:32:37.642157
Title: Don't Guess, Just Ask: Resolving Ambiguity in Referring Segmentation via Multi-turn Clarification
Title（参考訳）: Don't Guess, just Ask: Resolving Ambiguity in Refering Segmentation via Multi-turn Clarification
Authors: Yuting Yang, Haichao Jiang, Tianming Liang, Quan Zhang, Jian-Fang Hu,
Abstract要約: セグメンテーションの参照は、対象のオブジェクトをテキストクエリに基づいて画像やビデオに分割することを目的としている。マルチターン会話を通じてユーザの意図を積極的に解明する新しいエージェントフレームワークであるIC-Segを提案する。また、階層的な新しい最適化戦略であるHi-GRPOを導入し、軌道、旋回、ステップレベルにおいて、密集した情報的な監視信号を注入する。
参考スコア（独自算出の注目度）: 21.7465671470498
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Referring segmentation aims to segment the target objects in images or videos based on the textual query. Despite remarkable progress over the past years, existing works always assume that the user-provided queries are already precise and clear. However, this assumption is impractical. In real-world scenarios, it is unrealistic to expect all users to thoroughly review their visual content and carefully ensure their queries are unique and unambiguous. When encountering such cases, existing segmentation models tend to arbitrarily guess the user preferences, often resulting in undesired outcomes. To address this limitation, we propose IC-Seg, a novel agentic framework that proactively clarifies user intent through multi-turn conversation before segmentation. To effectively incentivize this capability, we further introduce Hi-GRPO, a new hierarchical optimization strategy that injects dense and informative supervision signals at the trajectory, turn, and step levels. This strategy encourages efficient intent clarification, effectively eliminating redundant interactions and improving overall dialogue quality. For evaluation, we establish Ambi-RVOS, a referring video object segmentation benchmark with ambiguous user queries. Extensive experiments demonstrate that IC-Seg not only outperforms existing methods by a large margin in resolving ambiguous queries, but also maintains state-of-the-art performance on standard reasoning segmentation benchmarks. Code and data will be released at https://github.com/iSEE-Laboratory/IC-Seg.
Abstract（参考訳）: セグメンテーションの参照は、対象のオブジェクトをテキストクエリに基づいて画像やビデオに分割することを目的としている。過去数年間の顕著な進歩にもかかわらず、既存の作業では、ユーザが提供するクエリは、常に正確で明確なものであると仮定している。しかし、この仮定は現実的ではない。現実のシナリオでは、すべてのユーザが視覚的コンテンツを徹底的にレビューし、クエリがユニークで曖昧であることを注意深く確認することは現実的ではありません。このような場合、既存のセグメンテーションモデルは、ユーザーの好みを任意に推測する傾向があり、しばしば望ましくない結果をもたらす。この制限に対処するため,IC-Segを提案する。IC-Segは,セグメンテーション前のマルチターン会話を通じて,ユーザの意図を積極的に明確化する新しいエージェントフレームワークである。この機能を効果的にインセンティブ化するために、我々はさらに、階層的な新しい最適化戦略であるHi-GRPOを導入し、軌道、ターン、ステップレベルにおいて、密度の高い情報的監視信号を注入する。この戦略は効率的な意図の明確化を促進し、冗長な相互作用を効果的に排除し、全体的な対話品質を改善する。評価のために,不明瞭なユーザクエリを持つ参照ビデオオブジェクトセグメンテーションベンチマークであるAmbi-RVOSを確立する。大規模な実験により、IC-Segは、曖昧なクエリの解決において、既存のメソッドよりも大きなマージンで優れているだけでなく、標準的な推論セグメンテーションベンチマークにおける最先端のパフォーマンスも維持していることが示された。コードとデータはhttps://github.com/iSEE-Laboratory/IC-Seg.comで公開される。

関連論文リスト

Beyond Referring Expressions: Scenario Comprehension Visual Grounding [18.49037321302958]
既存のベンチマークは、主に画像領域とリテラル参照表現のアライメントを評価する。シナリオベースの視覚的グラウンドの補完的かつより困難な設定について検討し、明確な命名ではなく、ターゲットを役割、意図、文脈から推論する必要がある。この設定のために設計されたベンチマークであるReferring Scenario(RSC)を紹介する。RCCには、約31kのトレーニング例、4kのドメイン内テスト例と、見えないオブジェクトカテゴリで分割された3kのアウト・オブ・ディストリビューションが含まれている。
論文参考訳（メタデータ） (2026-04-02T17:59:08Z)
Seg-ReSearch: Segmentation with Interleaved Reasoning and External Search [45.79431884815933]
Seg-ReSearchは、既存のアプローチの知識ボトルネックを克服する、新しいセグメンテーションパラダイムである。インターリーブされた推論と外部検索を有効にすることで、Seg-ReSearchはセグメントシステムに動的でオープンなクエリを処理する権限を与える。 OK-VOSと既存の2つの推論セグメンテーションベンチマークの実験は、Seg-ReSearchが最先端のアプローチを実質的なマージンで改善していることを示している。
論文参考訳（メタデータ） (2026-02-04T11:33:16Z)
Segment Any Events with Language [68.05185562243356]
これは、Open-Vocabulary Event Instance (OV-EIS)に対処する最初のセマンティック対応のAny Eventsフレームワークです。視覚的プロンプトを前提として,本モデルでは,セグメンテーションイベントとオープンボキャブラリマスクの分類を,複数レベルの粒度でサポートする統一フレームワークを提案する。我々のSEALは、パラメータ効率のよいアーキテクチャで性能と推論速度の点で提案されたベースラインよりも大きく優れています。
論文参考訳（メタデータ） (2026-01-30T16:42:56Z)
SPARTA: Evaluating Reasoning Segmentation Robustness through Black-Box Adversarial Paraphrasing in Text Autoencoder Latent Space [11.534994345027362]
MLLM(Multimodal large language model)は、推論セグメンテーションなどの視覚言語タスクにおいて顕著な機能を示す。そこで本研究では,従来の問合せの意味を保ちつつ,セグメンテーション性能を劣化させつつ,文法的に正しい言い回しを生成する,新しい逆の言い回しタスクを提案する。テキストオートエンコーダの低次元意味潜在空間で動作するブラックボックスであるSPARTAを導入する。
論文参考訳（メタデータ） (2025-10-28T14:09:05Z)
SaFiRe: Saccade-Fixation Reiteration with Mamba for Referring Image Segmentation [58.80001825332851]
Referring Image (RIS) は、自然言語で表現された画像に対象のオブジェクトを分割することを目的としている。最近の手法は主に「赤い車」や「左少女」のような単純な表現に焦点を当てている
論文参考訳（メタデータ） (2025-10-11T10:50:58Z)
ConText: Driving In-context Learning for Text Removal and Segmentation [59.6299939669307]
本稿では,視覚的インコンテキスト学習パラダイムを光学的文字認識タスクに適用する最初の研究について述べる。画像除去・分離方式のタスクチェイン・コンポジトリを提案する。また、連鎖したプロンプトパターンを潜在クエリ表現に統合するコンテキスト認識アグリゲーションも導入する。
論文参考訳（メタデータ） (2025-06-04T10:06:32Z)
Cross-Domain Semantic Segmentation with Large Language Model-Assisted Descriptor Generation [0.0]
LangSegはコンテキストに敏感できめ細かいサブクラス記述子を利用する新しいセマンティックセマンティックセマンティクス手法である。我々はLangSegをADE20KとCOCO-Stuffという2つの挑戦的なデータセットで評価し、最先端のモデルよりも優れています。
論文参考訳（メタデータ） (2025-01-27T20:02:12Z)
Learning Spatial-Semantic Features for Robust Video Object Segmentation [108.045326229865]
本稿では,空間意味的特徴と識別的オブジェクトクエリを学習する,ロバストなビデオオブジェクトセグメンテーションフレームワークを提案する。 DAVIS 2017 test (textbf87.8%)、YoutubeVOS 2019 (textbf88.1%)、MOSE val (textbf74.0%)、LVOS test (textbf73.0%)を含むベンチマークデータセットの最先端性能を実現する。
論文参考訳（メタデータ） (2024-07-10T15:36:00Z)
Target-Aware Object Discovery and Association for Unsupervised Video Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。より正確で効率的な時間区分のための新しいアプローチを紹介します。 DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文参考訳（メタデータ） (2021-04-10T14:39:44Z)
Improving Semantic Segmentation via Decoupled Body and Edge Supervision [89.57847958016981]
既存のセグメンテーションアプローチは、グローバルコンテキストをモデル化することでオブジェクトの内部の一貫性を改善すること、あるいはマルチスケールの特徴融合によって境界に沿ったオブジェクトの詳細を洗練することを目的としている。本稿では,セマンティックセグメンテーションのための新しいパラダイムを提案する。我々の洞察は、セマンティックセグメンテーションの魅力ある性能には、画像の高頻度と低頻度に対応するオブジェクトのテキストボディとテキストエッジを具体的にモデル化する必要があるということである。さまざまなベースラインやバックボーンネットワークを備えた提案したフレームワークが,オブジェクト内部の一貫性とオブジェクト境界を向上させることを示す。
論文参考訳（メタデータ） (2020-07-20T12:11:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。