論文の概要: Discriminative Perception via Anchored Description for Reasoning Segmentation
- arxiv url: http://arxiv.org/abs/2603.04002v1
- Date: Wed, 04 Mar 2026 12:46:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.305876
- Title: Discriminative Perception via Anchored Description for Reasoning Segmentation
- Title(参考訳): 調音文による分節の弁別的知覚
- Authors: Tao Yang, Qing Zhou, Yanliang Li, Qi Wang,
- Abstract要約: 本稿では、参照対象の記述的なキャプションを生成するためにモデルを強制するDPADを提案する。
このキャプションは、キャプションの意味的関連性を、参照対象とより広い文脈との対比によって明確に識別するために使用される。
実験は、我々のアプローチの有効性を確認し、かなりの性能向上をもたらす。
- 参考スコア(独自算出の注目度): 13.79246986089629
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning segmentation increasingly employs reinforcement learning to generate explanatory reasoning chains that guide Multimodal Large Language Models. While these geometric rewards are primarily confined to guiding the final localization, they are incapable of discriminating whether the reasoning process remains anchored on the referred region or strays into irrelevant context. Lacking this discriminative guidance, the model's reasoning often devolves into unfocused and verbose chains that ultimately fail to disambiguate and perceive the target in complex scenes. This suggests a need to complement the RL objective with Discriminative Perception, an ability to actively distinguish a target from its context. To realize this, we propose DPAD to compel the model to generate a descriptive caption of the referred object, which is then used to explicitly discriminate by contrasting the caption's semantic relevance to the referred object against the wider context. By optimizing for this discriminative capability, the model is forced to focus on the unique attributes of the target, leading to a more converged and efficient reasoning chain. The descriptive caption also serves as an interpretability rationale that aligns with the segmentation. Experiments on the benchmarks confirm the validity of our approach, delivering substantial performance gains, with the cIoU on ReasonSeg increasing by 3.09% and the reasoning chain length decreasing by approximately 42%. Code is available at https://github.com/mrazhou/DPAD
- Abstract(参考訳): 推論セグメンテーションは、多モーダル大言語モデルを導く説明的推論チェーンを生成するために、強化学習をますます採用している。
これらの幾何学的報酬は、主に最終ローカライゼーションの導出に限られるが、推論過程が参照された領域に固定されているか、あるいは無関係な文脈への迷路であるかを区別することができない。
この差別的なガイダンスが欠如しているため、モデルの推論はしばしば、焦点を絞らない、冗長な連鎖へと発展し、最終的には複雑な場面でターゲットを曖昧にし、知覚することができない。
これは、RLの目的と差別的知覚を補完する必要性を示唆している。
そこで本研究では,参照対象の記述的キャプションを生成するためにモデルを強制するDPADを提案する。
この識別能力を最適化することで、モデルはターゲットのユニークな属性に焦点を絞らざるを得なくなり、より収束し、より効率的な推論連鎖へと繋がる。
説明文のキャプションは、セグメンテーションと整合する解釈可能性の根拠としても機能する。
ReasonSegのcIoUは3.09%増加し,推論チェーン長は約42%減少している。
コードはhttps://github.com/mrazhou/DPADで入手できる。
関連論文リスト
- LaSER: Internalizing Explicit Reasoning into Latent Space for Dense Retrieval [74.72139580745511]
LaSERは、レトリバーの潜在空間に明示的な推論を内部化する、新しい自己蒸留フレームワークである。
提案手法は, 明示的なCoTパイプラインの推論深度と, 標準的な高密度検索器の推論効率をうまく組み合わせる。
論文 参考訳(メタデータ) (2026-03-02T04:11:18Z) - Structured Reasoning for Large Language Models [59.215789462977206]
本研究では、推論を明示的、評価可能、トレーニング可能なコンポーネントに分解するフレームワークであるStructured Reasoning(SCR)を提案する。
SCRは推論効率と自己検証を大幅に改善する。
既存の推論パラダイムと比較して、出力トークンの長さを最大50%削減する。
論文 参考訳(メタデータ) (2026-01-12T04:04:01Z) - Reinforced Efficient Reasoning via Semantically Diverse Exploration [73.41112984160992]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論の強化に有効であることが証明された。
本研究では,LLMのための意味的多様性探索,すなわちROSEによる効率的な推論手法を提案する。
本手法は,意味エントロピーに基づく分岐戦略と$varepsilon$-exploration機構を組み込んだものである。
論文 参考訳(メタデータ) (2026-01-08T15:56:44Z) - In-Token Rationality Optimization: Towards Accurate and Concise LLM Reasoning via Self-Feedback [38.915062716409686]
InTROはトークンレベルの探索と,正確かつ簡潔な推論のための自己フィードバックを可能にする,新たなフレームワークである。
InTROは他のベースラインを一貫して上回り、ベースモデルと比較して解の精度を最大20%向上させる。
その思考の連鎖は明らかに簡潔であり、冗長性が低下している。
論文 参考訳(メタデータ) (2025-11-13T01:47:06Z) - Towards Transparent Stance Detection: A Zero-Shot Approach Using Implicit and Explicit Interpretability [12.794773087413256]
Zero-Shot Stance Detection (ZSSD) は、見当たらないターゲットに対するポストの姿勢を特定する。
IRISは、姿勢検出を情報検索ランキングタスクとみなしている。
コミュニケーション的特徴に基づく明確な合理性は、姿勢の感情的・認知的次元を解読するのに役立つ。
論文 参考訳(メタデータ) (2025-11-05T16:54:10Z) - Implicit Reasoning in Large Language Models: A Comprehensive Survey [67.53966514728383]
大規模言語モデル(LLM)は、幅広いタスクにまたがる強力な一般化を実証している。
最近の研究は、暗黙の推論に拍車をかけた、明示的な思考の連鎖から注意を向けている。
本調査では,表現形式から計算戦略へ焦点を移し,実行パラダイムを中心とした分類を紹介した。
論文 参考訳(メタデータ) (2025-09-02T14:16:02Z) - Think Clearly: Improving Reasoning via Redundant Token Pruning [57.01254508252785]
推論過程における冗長性を意図的に除去することで、性能が大幅に向上することを示す。
本手法は, 推論集約型ベンチマークにおいて, トレーニングを伴わずに, 全体的な精度を著しく向上することを示した。
論文 参考訳(メタデータ) (2025-06-17T06:04:01Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - Guiding Computational Stance Detection with Expanded Stance Triangle
Framework [25.2980607215715]
スタンス検出は、テキストの著者が指定されたターゲットに対して有利か、反対か、中立かを決定する。
本稿では,言語的観点からスタンス検出タスクを分解し,このタスクにおける重要な構成要素と推論経路について検討する。
論文 参考訳(メタデータ) (2023-05-31T13:33:29Z) - Iterative Shrinking for Referring Expression Grounding Using Deep
Reinforcement Learning [20.23920009396818]
我々は,問合せ文に従って対象オブジェクトをローカライズすることを目的とした,提案なし参照表現基底化タスクに取り組んでいる。
既存のプロポーザルフリー手法では、クエリ画像マッチングブランチを使用して、画像特徴マップの最高スコアをターゲットボックスセンターとして選択する。
対象を局所化するための反復的縮小機構を提案し,強化学習エージェントによって縮小方向が決定される。
論文 参考訳(メタデータ) (2021-03-09T02:36:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。