論文の概要: Fast Reasoning Segmentation for Images and Videos
- arxiv url: http://arxiv.org/abs/2511.12368v1
- Date: Sat, 15 Nov 2025 22:06:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.995393
- Title: Fast Reasoning Segmentation for Images and Videos
- Title(参考訳): 画像と映像の高速推論セグメンテーション
- Authors: Yiqing Shen, Mathias Unberath,
- Abstract要約: 本稿では,知覚を推論から切り離すデジタル双対表現を用いたFastReasonSegを提案する。
FastReasonSegは最先端の推論セグメンテーションのパフォーマンスを達成する。
この効率性により、リソース制約のある環境へのデプロイが可能になり、リアルタイムな推論セグメンテーションが可能になる。
- 参考スコア(独自算出の注目度): 9.529907786822115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning segmentation enables open-set object segmentation via implicit text queries, therefore serving as a foundation for embodied agents that should operate autonomously in real-world environments. However, existing methods for reasoning segmentation require multimodal large language models with billions of parameters that exceed the computational capabilities of edge devices that typically deploy the embodied AI systems. Distillation offers a pathway to compress these models while preserving their capabilities. Yet, existing distillation approaches fail to transfer the multi-step reasoning capabilities that reasoning segmentation demands, as they focus on matching output predictions and intermediate features rather than preserving reasoning chains. The emerging paradigm of reasoning over digital twin representations presents an opportunity for more effective distillation by re-framing the problem. Consequently, we propose FastReasonSeg, which employs digital twin representations that decouple perception from reasoning to enable more effective distillation. Our distillation scheme first relies on supervised fine-tuning on teacher-generated reasoning chains. Then it is followed by reinforcement fine-tuning with joint rewards evaluating both segmentation accuracy and reasoning quality alignment. Experiments on two video (JiTBench, RVTBench) and two image benchmarks (ReasonSeg, LLM-Seg40K) demonstrate that our FastReasonSeg achieves state-of-the-art reasoning segmentation performance. Moreover, the distilled 0.6B variant outperforms models with 20 times more parameters while achieving 7.79 FPS throughput with only 2.1GB memory consumption. This efficiency enables deployment in resource-constrained environments to enable real-time reasoning segmentation.
- Abstract(参考訳): 推論セグメンテーションは、暗黙のテキストクエリによるオープンセットオブジェクトセグメンテーションを可能にする。
しかし、セグメント化を推論する既存の手法では、数十億のパラメータを持つマルチモーダルな大規模言語モデルが必要であり、通常は具体化されたAIシステムをデプロイするエッジデバイスの計算能力を超えている。
蒸留は、それらの能力を保ちながらこれらのモデルを圧縮する経路を提供する。
しかし、既存の蒸留手法では、セグメンテーション要求を推論する多段階の推論能力の伝達に失敗し、推論連鎖を保存するのではなく、出力予測と中間特徴の一致に重点を置いている。
デジタル双対表現に対する推論の新たなパラダイムは、問題を再フレーミングすることによってより効果的な蒸留の機会を提供する。
その結果、より効果的な蒸留を可能にするために、認識を推論から切り離すデジタル双対表現を用いたFastReasonSegを提案する。
蒸留方式はまず教師が生成する推論チェーンの微調整に依存する。
次に、セグメンテーション精度と推論品質アライメントの両方を評価するジョイント報酬付き強化微調整を行う。
2つのビデオ(JiTBench, RVTBench)と2つの画像ベンチマーク(ReasonSeg, LLM-Seg40K)での実験により、FastReasonSegが最先端の推論セグメンテーション性能を達成することが示された。
さらに、蒸留した0.6Bは20倍のパラメータを持つモデルより優れており、わずか2.1GBのメモリ消費で7.79 FPSのスループットを実現している。
この効率性により、リソース制約のある環境へのデプロイが可能になり、リアルタイムな推論セグメンテーションが可能になる。
関連論文リスト
- Efficient Thought Space Exploration through Strategic Intervention [54.35208611253168]
本稿では,この知見を2つの相乗的コンポーネントを通して操作するHint-Practice Reasoning(HPR)フレームワークを提案する。
フレームワークの中核となる革新は、動的に介入点を識別する分散不整合低減(DIR)である。
算術的および常識的推論ベンチマークによる実験は、HPRの最先端の効率-精度トレードオフを実証している。
論文 参考訳(メタデータ) (2025-11-13T07:26:01Z) - RaCoT: Plug-and-Play Contrastive Example Generation Mechanism for Enhanced LLM Reasoning Reliability [12.67288560758937]
本稿では,RaCoT(Retrieval-aware Contrastive-of-Thought)を提案する。
RaCoTは、解答の発散を決定する重要な詳細に積極的に焦点を合わせるようモデルに誘導する。
論文 参考訳(メタデータ) (2025-10-26T15:06:44Z) - Reinforcing Video Reasoning Segmentation to Think Before It Segments [67.5703457389657]
本稿では,ビデオ推論セグメンテーションのためのLVLMであるVeason-R1を紹介する。
Veason-R1 は、Chain-of-Thought trajectories を付加した Group Relative Policy Optimization (O) を通じて訓練される。
空間的アライメントと時間的整合性を高める包括的報酬機構を組み込んだ。
Veason-R1は、複数のベンチマークで最先端のパフォーマンスを達成し、先行技術を上回っている。
論文 参考訳(メタデータ) (2025-08-15T15:34:56Z) - ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [74.37307916314407]
提案するフレームワークはConciseHintと呼ばれ,推論モデルが簡潔に話すことを継続的に奨励する。
DeepSeek-R1 および Qwen-3 シリーズを含む最先端の LRM 実験により,本手法が簡潔な推論を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2025-06-23T16:20:44Z) - Comb, Prune, Distill: Towards Unified Pruning for Vision Model Compression [24.119415458653616]
我々はモデル非依存とタスク非依存の両方に同時に対処する新しい統一型刈取フレームワークComb, Prune, Distill (CPD)を提案する。
当社のフレームワークは階層的な階層的な依存性問題を解決するための統合的なステップを採用しており、アーキテクチャの独立性を実現しています。
画像分類では、精度が1.8%、セマンティックセグメンテーションがx1.89、mIoUが5.1%のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-08-06T09:02:31Z) - SlimSeg: Slimmable Semantic Segmentation with Boundary Supervision [54.16430358203348]
本稿では,単純なスリム化可能なセマンティックセマンティックセマンティクス(SlimSeg)法を提案する。
提案するSlimSegは,様々な主流ネットワークを用いて,計算コストの動的調整と性能向上を実現するフレキシブルなモデルを生成することができることを示す。
論文 参考訳(メタデータ) (2022-07-13T14:41:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。