論文の概要: SegCompass: Exploring Interpretable Alignment with Sparse Autoencoders for Enhanced Reasoning Segmentation
- arxiv url: http://arxiv.org/abs/2605.22658v1
- Date: Thu, 21 May 2026 15:59:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.337578
- Title: SegCompass: Exploring Interpretable Alignment with Sparse Autoencoders for Enhanced Reasoning Segmentation
- Title(参考訳): SegCompass: 推論セグメンテーションを強化するスパースオートエンコーダによる解釈可能なアライメントの探索
- Authors: Zhenyu Lu, Liupeng Li, Jinpeng Wang, Haoqian Kang, Yan Feng, Ke Chen, Yaowei Wang,
- Abstract要約: Segは、Sparse Autoencoderを活用して、明示的で解釈可能で微分可能なアライメントパスをフォージするエンドツーエンドモデルである。
この"ホワイトボックス"接続は、潜在クエリよりもかなりトレース可能で、テキストの読み出しよりも一貫性がある。
- 参考スコア(独自算出の注目度): 46.07708619404428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large language models provide strong compositional reasoning, existing reasoning segmentation pipelines fail to transparently connect this reasoning to visual perception. Current methods, such as latent query alignment, are end-to-end yet opaque "black boxes". Conversely, textual localization readout is merely readable, not truly interpretable, often functioning as an unconstrained post-hoc step. To bridge this interpretability gap, we propose SegCompass, an end-to-end model that leverages a Sparse Autoencoder (SAE) to forge an explicit, interpretable, and differentiable alignment pathway. Given an image-instruction pair, SegCompass first generates a chain-of-thought (CoT) trace. The core of our method is an SAE that maps both the CoT and visual tokens into a shared, high-dimensional sparse concept space. A query codebook selects salient concepts from this space, which are then spatially grounded by a slot mapper into a multi-slot heatmap that guides the final mask decoder. The entire model is trained jointly, unifying reinforcement learning for the reasoning path with standard segmentation supervision. This SAE-driven interface provides a "white-box" connection that is significantly more traceable than latent queries and more coherent than textual readouts. Extensive experiments on five challenging benchmarks demonstrate that SegCompass matches or surpasses state-of-the-art performance. Crucially, our visual and quantitative analyses show a strong correlation between the quality of the learned sparse concepts and final mask accuracy, confirming that SegCompass achieves superior results through its enhanced and inspectable alignment. Code is available at https://github.com/ZhenyuLU-Heliodore/SegCompass.
- Abstract(参考訳): 大きな言語モデルは強い構成的推論を提供するが、既存の推論セグメンテーションパイプラインは、この推論を視覚的知覚に透過的に接続することができない。
遅延クエリアライメントのような現在のメソッドは、エンドツーエンドだが不透明な"ブラックボックス"である。
逆に、テキストローカライゼーションの読み出しは単に読みやすく、真に解釈可能ではなく、しばしば制約のないポストホックステップとして機能する。
この解釈可能性ギャップを埋めるために,SegCompassを提案する。これはSparse Autoencoder(SAE)を利用して,明示的で解釈可能なアライメントパスをフォージするエンド・ツー・エンドのモデルである。
イメージインストラクションペアが与えられた後、SegCompassはまずチェーン・オブ・ソート(CoT)トレースを生成する。
我々の手法のコアは、CoTとビジュアルトークンの両方を共有された高次元のスパースな概念空間にマッピングするSAEである。
クエリコードブックは、この空間から有能な概念を選択し、スロットマッパーによって空間的に接地され、最終マスクデコーダを案内するマルチスロットヒートマップに変換される。
モデル全体が共同で訓練され、標準セグメンテーション監督による推論パスのための強化学習が統合される。
このSAE駆動インタフェースは"ホワイトボックス"接続を提供しており、遅延クエリよりも大幅にトレース可能であり、テキストの読み出しよりも一貫性がある。
5つの挑戦的なベンチマークに関する大規模な実験は、SegCompassが最先端のパフォーマンスにマッチするか、上回っていることを示している。
我々の視覚的および定量的分析は、学習されたスパースの概念の質と最終的なマスクの精度との間に強い相関関係を示し、SegCompassが強化され、検査可能なアライメントによって優れた結果を得ることを確認した。
コードはhttps://github.com/ZhenyuLU-Heliodore/SegCompassで入手できる。
関連論文リスト
- PairAlign: A Framework for Sequence Tokenization via Self-Alignment with Applications to Audio Tokenization [8.126475706520063]
PairAlignは、シーケンスレベルの自己アライメントによるコンパクトなオーディオトークン化のためのフレームワークである。
広義の語彙を用いたコンパクトで非退化配列を学習する。
編集距離検索を保存し、アーカイブトークン数を55%削減する。
論文 参考訳(メタデータ) (2026-05-07T17:11:22Z) - AlignSAE: Concept-Aligned Sparse Autoencoders [47.18866175760984]
本稿では,SAE の機能と定義オントロジーを"pre-train, then-train" カリキュラムで整合させる手法である AlignSAE を紹介する。
初期教師なしトレーニングフェーズの後、特定の概念を専用潜在スロットにバインドするために教師付きポストトレーニングを適用する。
この分離により、非関係な特徴から干渉することなく、特定の関係を検査・制御できる解釈可能なインターフェースが生成される。
論文 参考訳(メタデータ) (2025-12-01T18:58:22Z) - CoPRS: Learning Positional Prior from Chain-of-Thought for Reasoning Segmentation [51.25997439181537]
CoPRSは、ヘアマップとしてインスタンス化された、微分可能で解釈可能な位置推定を通じて、セグメンテーションへの言語推論をブリッジする。
学習可能な集中トークンは、画像の特徴と推論テキストを集約して、この位置先を生成する。
論文 参考訳(メタデータ) (2025-10-13T09:07:54Z) - Reasoning to Attend: Try to Understand How <SEG> Token Works [44.33848900059659]
我々は、$texttSEG>$トークンが、画像とテキストのペア内のセマンティックな類似性に寄与していることを示す。
本稿では,高活性点の誘導の下で,LMMの高強度な$textbfREA$soning機能を実現するREADを提案する。
論文 参考訳(メタデータ) (2024-12-23T17:44:05Z) - LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - Uncovering Prototypical Knowledge for Weakly Open-Vocabulary Semantic
Segmentation [59.37587762543934]
本稿では,弱開語彙セマンティックセマンティックセグメンテーション(WOVSS)の問題点について検討する。
既存の方法は、グループトークンの使用に関する粒度の矛盾に悩まされる。
マルチモーダル正規化を組み込んだプロトタイプ誘導ネットワーク(PGSeg)を提案する。
論文 参考訳(メタデータ) (2023-10-29T13:18:00Z) - What Are You Token About? Dense Retrieval as Distributions Over the
Vocabulary [68.77983831618685]
本稿では,2つのエンコーダが生成するベクトル表現を,モデルの語彙空間に投影することで解釈する。
得られたプロジェクションは、リッチな意味情報を含み、それらの間の接続を描画し、スパース検索を行う。
論文 参考訳(メタデータ) (2022-12-20T16:03:25Z) - Measuring the Interpretability of Unsupervised Representations via
Quantized Reverse Probing [97.70862116338554]
本稿では,自己教師付き表現の解釈可能性の測定問題について検討する。
我々は、後者を、表現と手動でラベル付けされた概念の空間の間の相互情報を推定するものとして定式化する。
提案手法は,多人数の自己教師付き表現の評価に利用し,解釈可能性による評価を行う。
論文 参考訳(メタデータ) (2022-09-07T16:18:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。