論文の概要: PixelThink: Towards Efficient Chain-of-Pixel Reasoning
- arxiv url: http://arxiv.org/abs/2505.23727v1
- Date: Thu, 29 May 2025 17:55:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:08.063027
- Title: PixelThink: Towards Efficient Chain-of-Pixel Reasoning
- Title(参考訳): PixelThink: 効率的な連鎖型推論を目指して
- Authors: Song Wang, Gongfan Fang, Lingdong Kong, Xiangtai Li, Jianyun Xu, Sheng Yang, Qiang Li, Jianke Zhu, Xinchao Wang,
- Abstract要約: PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
- 参考スコア(独自算出の注目度): 70.32510083790069
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing reasoning segmentation approaches typically fine-tune multimodal large language models (MLLMs) using image-text pairs and corresponding mask labels. However, they exhibit limited generalization to out-of-distribution scenarios without an explicit reasoning process. Although recent efforts leverage reinforcement learning through group-relative policy optimization (GRPO) to enhance reasoning ability, they often suffer from overthinking - producing uniformly verbose reasoning chains irrespective of task complexity. This results in elevated computational costs and limited control over reasoning quality. To address this problem, we propose PixelThink, a simple yet effective scheme that integrates externally estimated task difficulty and internally measured model uncertainty to regulate reasoning generation within a reinforcement learning paradigm. The model learns to compress reasoning length in accordance with scene complexity and predictive confidence. To support comprehensive evaluation, we introduce ReasonSeg-Diff, an extended benchmark with annotated reasoning references and difficulty scores, along with a suite of metrics designed to assess segmentation accuracy, reasoning quality, and efficiency jointly. Experimental results demonstrate that the proposed approach improves both reasoning efficiency and overall segmentation performance. Our work contributes novel perspectives towards efficient and interpretable multimodal understanding. The code and model will be publicly available.
- Abstract(参考訳): 既存の推論セグメンテーションアプローチは、画像テキストペアと対応するマスクラベルを使用して、ファインチューンなマルチモーダル言語モデル(MLLM)を使用するのが一般的である。
しかし、それらは明示的な推論プロセスなしに、配布外シナリオへの限定的な一般化を示す。
最近の取り組みでは、グループ相対的政策最適化(GRPO)による強化学習を活用して推論能力を高めるが、多くの場合、タスクの複雑さに関わらず、一様に冗長な推論連鎖を生成するという過度な思考に悩まされる。
この結果、計算コストが上昇し、推論品質の制御が制限される。
この問題を解決するために,PixelThinkを提案する。PixelThinkは,外部から推定されるタスクの難易度と内部で測定されたモデルの不確かさを統合し,強化学習パラダイム内での推論生成を制御する。
モデルは、シーンの複雑さと予測信頼度に応じて推論長を圧縮することを学ぶ。
包括的な評価を支援するために,注釈付き推論基準と難易度スコアを備えた拡張ベンチマークであるReasonSeg-Diffと,セグメンテーション精度,推論品質,効率を共同で評価する指標セットを紹介する。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
我々の研究は、効率的かつ解釈可能なマルチモーダル理解に向けた新しい視点に寄与する。
コードとモデルは公開されます。
関連論文リスト
- When Thinking Fails: The Pitfalls of Reasoning for Instruction-Following in LLMs [16.659986373052217]
連鎖推論は命令追従精度を著しく低下させる。
これは、推論によって引き起こされる命令追従の失敗を体系的に公開する最初の作業である。
論文 参考訳(メタデータ) (2025-05-16T16:36:00Z) - Efficient Inference for Large Reasoning Models: A Survey [42.61170621552432]
LRM(Large Reasoning Models)は、Large Language Models(LLM)の推論能力を大幅に向上させる。
しかし、それらの熟考的推論プロセスはトークンの使用、メモリ消費、推論時間に非効率をもたらす。
本調査では, LRMに特化して設計された効率的な推論手法を概説し, 推論品質を維持しつつトークンの非効率を緩和することに着目した。
論文 参考訳(メタデータ) (2025-03-29T13:27:46Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [60.04718679054704]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大78%削減し、15の推論データセットで最小限の精度損失を発生させる。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - Efficient Reasoning with Hidden Thinking [48.96945580741641]
CoT(Chain-of-Thought)推論は、複雑な問題解決能力を改善するための強力なフレームワークになっています。
我々は,隠された潜在空間におけるCoTの推論を利用した効率的な推論フレームワークであるtextbfHeima$(隠されたラマとして)を提案する。
ハイマモデルは、ゼロショットタスクの精度を維持しつつ、より高い生成効率を達成する。
論文 参考訳(メタデータ) (2025-01-31T15:10:29Z) - Think Beyond Size: Adaptive Prompting for More Effective Reasoning [0.0]
本稿では,動的かつ反復的なフレームワークであるAdaptive Promptingを紹介する。
その結果、Adaptive Promptingは、算術的推論(GSM8K、MultiArithm)、論理的推論、コモンセンスタスクなど、様々な推論ベンチマークのパフォーマンスを著しく向上させることを示した。
提案手法は,計算効率を維持しつつ,GPT-4などの大規模モデルと競合する性能を実現する。
論文 参考訳(メタデータ) (2024-10-10T17:14:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。