論文の概要: StAR: Segment Anything Reasoner
- arxiv url: http://arxiv.org/abs/2603.14382v1
- Date: Sun, 15 Mar 2026 13:43:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.784509
- Title: StAR: Segment Anything Reasoner
- Title(参考訳): StAR:Segment Anything Reasoner
- Authors: Seokju Yun, Dongheon Lee, Noori Bae, Jaesung Jun, Chanseul Cho, Youngmin Ro,
- Abstract要約: Segment Anything Reasoner (StAR)は、複数の視点からデザイン空間を洗練する包括的なフレームワークである。
StARは、広範囲なベンチマークでベースモデルよりも大幅に向上している。
- 参考スコア(独自算出の注目度): 11.958150552719296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As AI systems are being integrated more rapidly into diverse and complex real-world environments, the ability to perform holistic reasoning over an implicit query and an image to localize a target is becoming increasingly important. However, recent reasoning segmentation methods fail to sufficiently elicit the visual reasoning capabilities of the base mode. In this work, we present Segment Anything Reasoner (StAR), a comprehensive framework that refines the design space from multiple perspectives-including parameter-tuning scheme, reward functions, learning strategies and answer format-and achieves substantial improvements over recent baselines. In addition, for the first time, we successfully introduce parallel test-time scaling to the segmentation task, pushing the performance boundary even further. To extend the scope and depth of reasoning covered by existing benchmark, we also construct the ReasonSeg-X, which compactly defines reasoning types and includes samples that require deeper reasoning. Leveraging this dataset, we train StAR with a rollout-expanded selective-tuning approach to activate the base model's latent reasoning capabilities, and establish a rigorous benchmark for systematic, fine-grained evaluation of advanced methods. With only 5k training samples, StAR achieves significant gains over its base counterparts across extensive benchmarks, demonstrating that our method effectively brings dormant reasoning competence to the surface.
- Abstract(参考訳): AIシステムがより急速に、多様で複雑な現実世界環境に統合されるにつれて、暗黙のクエリとターゲットをローカライズするイメージに対して、全体的な推論を行う能力がますます重要になっている。
しかし、近年の推論分割法は、ベースモードの視覚的推論能力を十分に引き出すことができない。
本稿では、パラメータチューニングスキーム、報酬関数、学習戦略、解答形式など、デザイン空間を多面的に洗練する総合的なフレームワークであるSegment Anything Reasoner(StAR)について述べる。
さらに,セグメンテーションタスクに並列テストタイムスケーリングを導入し,パフォーマンス境界をさらに推し進めることに成功した。
既存のベンチマークでカバーされている推論の範囲と深さを拡張するために、推論タイプをコンパクトに定義し、より深い推論を必要とするサンプルを含むReasonSeg-Xを構築する。
このデータセットを活用して、StARをロールアウト拡張選択チューニングアプローチでトレーニングし、ベースモデルの潜在推論能力を活性化し、高度なメソッドの体系的できめ細かい評価のための厳密なベンチマークを確立する。
5kのトレーニングサンプルだけで、StARは広範囲なベンチマークでベースよりも大幅に向上し、我々の手法が効果的に地表に休息的推論能力をもたらすことを示した。
関連論文リスト
- DiffuReason: Bridging Latent Reasoning and Generative Refinement for Sequential Recommendation [20.756497463882763]
逐次レコメンデーションのための統合された「シンク・テン・ディフューズ」フレームワークであるDiffuReasonを提案する。
潜時推論のための多段階思考トークン、中間表現をデノナイズするための拡散ベースの洗練、およびエンドツーエンドのグループ相対ポリシー最適化を統合している。
4つのベンチマークの実験では、DiffuReasonはさまざまなバックボーンアーキテクチャを一貫して改善している。
論文 参考訳(メタデータ) (2026-02-10T12:55:30Z) - RegionReasoner: Region-Grounded Multi-Round Visual Reasoning [69.75509909581133]
RegionReasonerは視覚的推論のための強化学習フレームワークである。
これは、それぞれの推論トレースに対応する参照境界ボックスを明示的に引用することを要求することによって、根拠付き推論を強制する。
RegionReasonerは、基礎となる忠実さとグローバルなセマンティックアライメントを組み合わせた構造化された報酬で最適化されている。
論文 参考訳(メタデータ) (2026-02-03T16:52:16Z) - Multi-hop Reasoning via Early Knowledge Alignment [68.28168992785896]
アーリー・ナレッジ・アライメント(EKA)は、大規模言語モデルと文脈的に関連づけられた知識を整合させることを目的としている。
EKAは検索精度を大幅に改善し、カスケードエラーを低減し、性能と効率を向上する。
EKAは、大規模モデルにシームレスにスケールする、多目的でトレーニング不要な推論戦略として有効である。
論文 参考訳(メタデータ) (2025-12-23T08:14:44Z) - Step-Aware Policy Optimization for Reasoning in Diffusion Large Language Models [57.42778606399764]
拡散言語モデル(dLLM)は、テキスト生成に有望で非自己回帰的なパラダイムを提供する。
現在の強化学習アプローチは、しばしばスパースで結果に基づく報酬に頼っている。
これは推論の自然な構造との根本的なミスマッチに由来すると我々は主張する。
論文 参考訳(メタデータ) (2025-10-02T00:34:15Z) - Implicit Reasoning in Large Language Models: A Comprehensive Survey [67.53966514728383]
大規模言語モデル(LLM)は、幅広いタスクにまたがる強力な一般化を実証している。
最近の研究は、暗黙の推論に拍車をかけた、明示的な思考の連鎖から注意を向けている。
本調査では,表現形式から計算戦略へ焦点を移し,実行パラダイムを中心とした分類を紹介した。
論文 参考訳(メタデータ) (2025-09-02T14:16:02Z) - AURORA: Augmented Understanding via Structured Reasoning and Reinforcement Learning for Reference Audio-Visual Segmentation [113.75682363364004]
AURORAは、参照音声視覚セグメント化における真の推論と言語理解を強化するために設計されたフレームワークである。
AURORAはRef-AVSベンチマークの最先端性能を達成し、非参照セグメンテーションに効果的に一般化する。
論文 参考訳(メタデータ) (2025-08-04T07:47:38Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - AirRAG: Autonomous Strategic Planning and Reasoning Steer Retrieval Augmented Generation [5.92279459782447]
本稿では、自律的戦略計画と効率的な推論行動を統合したRAGにおける新しい思考パターンを提案する。
具体的には,本手法は5つの基本的な推論動作を設計し,より広い木に基づく推論空間に拡張する。
実験により,複雑な質問応答データセットに対して,AirRAGの有効性を示す。
論文 参考訳(メタデータ) (2025-01-17T09:16:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。