論文の概要: FlowSeg: Dynamic Semantic Guidance for LLM-Conditioned Segmentation
- arxiv url: http://arxiv.org/abs/2605.29461v1
- Date: Thu, 28 May 2026 06:55:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.872363
- Title: FlowSeg: Dynamic Semantic Guidance for LLM-Conditioned Segmentation
- Title(参考訳): FlowSeg: LLM-conditioned Segmentationのための動的セマンティックガイダンス
- Authors: Zekang Zhang, Guangyu Gao, Youyun Tang, ChengJing Wu, Xiaochao Qu, Chi Harold Liu, Jianbo Jiao, Yunchao Wei, Luoqi Liu, Ting Liu,
- Abstract要約: FlowSegは、中間復号状態と条件埋め込みの間の双方向のセマンティックフローを通じてセマンティックガイダンスを導入する。
この設計は意味的に接地されたマスク表現と視覚的に整合した言語条件をもたらし、より信頼性の高いマッチングを可能にする。
- 参考スコア(独自算出の注目度): 76.08991871243333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-conditioned segmentation has recently advanced rapidly by coupling large language models with iterative mask generation frameworks. However, we identify a persistent failure mode in current propose-then-select pipelines. Although high-quality mask candidates are often generated, the final prediction may fail to match the given linguistic condition. This failure arises because language semantics are typically used as static prompts or post-hoc matching signals, rather than participating in the iterative mask generation process. Through systematic analysis, we show that many errors stem from semantic misalignment rather than poor mask quality. To address this issue, we propose FlowSeg, which introduces dynamic semantic guidance via a bidirectional semantic flow between intermediate decoding states and LLM-derived condition embeddings throughout the generation process. Language conditions actively guide mask refinement at each stage, while condition embeddings are progressively updated by emerging visual evidence. This design yields semantically grounded mask representations and visually aligned language conditions, enabling more reliable matching. We further incorporate a lightweight boundary-aware refinement to selectively enhance uncertain regions without perturbing confident interiors. Extensive experiments on referring expression segmentation and reasoning segmentation tasks demonstrate that FlowSeg consistently improves language-mask alignment and achieves state-of-the-art performance. Project page: https://zkzhang98.github.io/FlowSeg_page
- Abstract(参考訳): LLM条件付きセグメンテーションは、大規模言語モデルと反復マスク生成フレームワークを結合することで、最近急速に進歩している。
しかし,現在の提案列選択パイプラインにおいて,永続的な障害モードを特定する。
高品質なマスク候補がしばしば生成されるが、最終的な予測は与えられた言語条件と一致しないかもしれない。
この失敗は、言語意味論が通常、反復マスク生成プロセスに参加するのではなく、静的なプロンプトやポストホックマッチング信号として使用されるためである。
体系的な分析により、多くの誤りは、マスクの品質が劣るよりも、意味的不整合に起因していることが分かる。
この問題を解決するために、中間復号状態とLCM由来の条件埋め込みの間の双方向な意味の流れを通して動的意味指導を導入するFlowSegを提案する。
言語条件は、各段階におけるマスクの洗練を積極的に導く一方、状況埋め込みは、新たな視覚的証拠によって徐々に更新される。
この設計は意味的に接地されたマスク表現と視覚的に整合した言語条件をもたらし、より信頼性の高いマッチングを可能にする。
さらに、信頼性の高い内部を乱すことなく、不確実な領域を選択的に拡張するために、軽量な境界対応改良を組み込んだ。
表現セグメンテーションと推論セグメンテーションタスクの参照に関する大規模な実験は、FlowSegが一貫して言語とマスクのアライメントを改善し、最先端のパフォーマンスを達成することを示す。
プロジェクトページ: https://zkzhang98.github.io/FlowSeg_page
関連論文リスト
- See What I Mean: Aligning Vision and Language Representations for Video Fine-grained Object Understanding [41.70825455674463]
SWIM(See What I Mean)は、視覚と言語表現を調整し、テキストのプロンプトからのみ、きめ細かいオブジェクト理解を可能にする訓練戦略である。
SWIMはテキスト・ビジュアル・アライメントを大幅に改善し,細粒度オブジェクト理解ベンチマークにおける視覚プロンプトに基づく手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2026-05-18T08:09:37Z) - Seg-Agent: Test-Time Multimodal Reasoning for Training-Free Language-Guided Segmentation [52.8308168727975]
Seg-Agentは完全にトレーニング不要のフレームワークで、Explicit Multimodal Chain-of-Reasoningの先駆者です。
提案手法は, 生成, 選択, 洗練の3段階からなる対話型視覚推論ループを構築する。
various-LangSegは、明示的なセマンティック、ジェネリックオブジェクト、推論誘導セグメンテーションタスクをカバーする新しいベンチマークである。
論文 参考訳(メタデータ) (2026-05-13T03:36:44Z) - DOS: Dependency-Oriented Sampler for Masked Diffusion Language Models [2.3863052459868297]
本稿では、トークンの更新を世代毎に通知するために、トークン間の依存関係を活用する、トレーニング不要なデコード戦略を提案する。
経験的結果は、DOSはコード生成と数学的推論の両方において、常に優れた性能を達成していることを示している。
論文 参考訳(メタデータ) (2026-03-16T14:28:39Z) - DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention [2.7422645382944935]
そこで我々はDyLLMを提案する。DyLLMは正規トークンのみを選択的に計算することでデコーディングを高速化する学習自由推論フレームワークである。
DyLLMは様々な推論とコード生成ベンチマークで最大9.6倍のスループットを実現している。
論文 参考訳(メタデータ) (2026-03-09T07:02:01Z) - Test-Time Computing for Referring Multimodal Large Language Models [143.49848714354698]
そこで我々は,新しいテスト時間適応フレームワークである ControlMLLM++ を提案する。
学習可能な視覚的プロンプトを凍ったマルチモーダルな大言語モデルに注入する。
論文 参考訳(メタデータ) (2026-02-23T04:42:10Z) - Better, Stronger, Faster: Tackling the Trilemma in MLLM-based Segmentation with Simultaneous Textual Mask Prediction [10.813064862132379]
本稿では、このパラダイムを具現化したMLLMである、同時テキスト全マスク予測について述べる。
テキスト応答を生成した後、STAMPは、イメージパッチに対して並列な "fill-in-the-blank"タスクとして扱うことにより、単一のフォワードパス内のセグメンテーションマスク全体を予測する。
この設計は、対立する目的を避けることでMLLMの対話能力を維持し、マスクトークンにリッチで双方向な空間コンテキストを活用することで高いセグメンテーション性能を実現し、例外的な速度を達成する。
論文 参考訳(メタデータ) (2025-11-29T08:52:41Z) - Text4Seg++: Advancing Image Segmentation via Generative Language Modeling [52.07442359419673]
画像分割をテキスト生成問題として用いた新しいテキスト・アズ・マスクパラダイムを提案する。
鍵となる革新はセグメンテーションマスクの新しいテキスト表現であるセグメンテーション記述子である。
自然およびリモートセンシングデータセットの実験は、Text4Seg++が最先端モデルよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2025-09-08T04:07:14Z) - Decoupled Seg Tokens Make Stronger Reasoning Video Segmenter and Grounder [5.57393627015653]
Sa2VAで実証されたビデオセグメンタとグライダーアプローチは、セグメンテーションモデル内で機能を直接フューズする。
これはしばしば、動的視覚情報と静的意味論の好ましくない絡み合いが生じ、セグメント化の精度が低下する。
SAM-2に固有の情報処理制限に対処するため,テキスト事前学習と線形デカップリングモジュールを統合したデカップリング強化プロンプト方式であるDeSa2VAを提案する。
論文 参考訳(メタデータ) (2025-06-28T13:30:36Z) - GLOS: Sign Language Generation with Temporally Aligned Gloss-Level Conditioning [60.86278956347739]
GLOSは手話生成フレームワークであり、時間的に並んだ光沢レベル条件付けを備えている。
本手法は,CSL-Daily と Phoenix-2014T の先行手法よりも高い精度で,正しい語彙順と高い意味精度の符号を生成する。
論文 参考訳(メタデータ) (2025-06-09T06:09:03Z) - UniLMv2: Pseudo-Masked Language Models for Unified Language Model
Pre-Training [152.63467944568094]
本稿では,自動エンコーディングと部分的自己回帰型言語モデリングタスクの両方に対して,統一言語モデルを事前学習することを提案する。
実験の結果,PMLMを用いて事前学習した統一言語モデルは,多種多様な自然言語理解・生成タスクにおいて,新たな最先端の成果が得られることがわかった。
論文 参考訳(メタデータ) (2020-02-28T15:28:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。