論文の概要: Can Textual Reasoning Improve the Performance of MLLMs on Fine-grained Visual Classification?
- arxiv url: http://arxiv.org/abs/2601.06993v1
- Date: Sun, 11 Jan 2026 17:07:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.104814
- Title: Can Textual Reasoning Improve the Performance of MLLMs on Fine-grained Visual Classification?
- Title(参考訳): テキスト推論は細粒度視覚分類におけるMLLMの性能を向上させるか?
- Authors: Jie Zhu, Yiyang Su, Xiaoming Liu,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は、強力な汎用能力を示すが、細粒度視覚分類(FGVC)に苦戦している。
ReFine-RFTは、高精度なフィードバックを提供しながら、アンサンブル報酬をalgと組み合わせて推論長を制約するフレームワークである。
- 参考スコア(独自算出の注目度): 18.16727716373833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal large language models (MLLMs) exhibit strong general-purpose capabilities, yet still struggle on Fine-Grained Visual Classification (FGVC), a core perception task that requires subtle visual discrimination and is crucial for many real-world applications. A widely adopted strategy for boosting performance on challenging tasks such as math and coding is Chain-of-Thought (CoT) reasoning. However, several prior works have reported that CoT can actually harm performance on visual perception tasks. These studies, though, examine the issue from relatively narrow angles and leave open why CoT degrades perception-heavy performance. We systematically re-examine the role of CoT in FGVC through the lenses of zero-shot evaluation and multiple training paradigms. Across these settings, we uncover a central paradox: the degradation induced by CoT is largely driven by the reasoning length, in which longer textual reasoning consistently lowers classification accuracy. We term this phenomenon the ``Cost of Thinking''. Building on this finding, we make two key contributions: (1) \alg, a simple and general plug-and-play normalization method for multi-reward optimization that balances heterogeneous reward signals, and (2) ReFine-RFT, a framework that combines ensemble rewards with \alg to constrain reasoning length while providing dense accuracy-oriented feedback. Extensive experiments demonstrate the effectiveness of our findings and the proposed ReFine-RFT, achieving state-of-the-art performance across FGVC benchmarks. Code and models are available at \href{https://github.com/jiezhu23/ReFine-RFT}{Project Link}.
- Abstract(参考訳): MLLM(Multi-modal large language model)は、強力な汎用能力を示すが、微妙な視覚的識別を必要とするコア認識タスクであるFGVC(Fine-Grained Visual Classification)に苦戦している。
数学やコーディングといった困難なタスクのパフォーマンス向上戦略として広く採用されているのが、Chain-of-Thought (CoT)推論である。
しかし、いくつかの先行研究では、CoTは視覚知覚タスクのパフォーマンスを実際に損なう可能性があると報告されている。
しかし、これらの研究は比較的狭い角度から問題を検証し、CoTが知覚重度のパフォーマンスを低下させる理由を未然に残している。
ゼロショット評価と複数の訓練パラダイムのレンズを用いて,FGVCにおけるCoTの役割を体系的に再検討した。
CoTによって引き起こされる劣化は主に推論長によって引き起こされ、長いテキストによる推論によって分類精度が一貫して低下する。
この現象を『思考の悪行』と呼ぶ。
そこで本研究では,(1)不均一な報酬信号のバランスをとるマルチリワード最適化のための,シンプルで汎用的なプラグアンドプレイ正規化手法である \alg と,(2) アンサンブル報酬と \alg を組み合わせたフレームワークである ReFine-RFT の2つの重要なコントリビューションについて述べる。
この結果と提案したReFine-RFTの有効性を実証し,FGVCベンチマークにおける最先端性能を実現した。
コードとモデルは \href{https://github.com/jiezhu23/ReFine-RFT}{Project Link} で公開されている。
関連論文リスト
- Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning Generalization [55.6995787502694]
本研究では,異なる言語パターン(CoT)設計が,一般化可能な視覚的推論能力の獲得にどのように影響するかを検討する。
代表的なCoTフォーマットであるLanguage CoT, Grounding CoT, Visual CoTを比較した。
実験の結果,視覚的および長時間のCoTは収束を主に加速するが,最終的な性能天井は持ち上げないことがわかった。
論文 参考訳(メタデータ) (2025-11-27T16:19:34Z) - Start Small, Think Big: Curriculum-based Relative Policy Optimization for Visual Grounding [23.138205646078536]
CoT(Chain-of-Thought)プロンプトは、最近、様々なNLPおよびコンピュータビジョンタスクで大きな可能性を示している。
強化学習(RL)に基づく微調整CoT推論は,視覚グラウンディングタスクの性能をパラドックス的に劣化させる可能性がある。
我々は,CoT長と一般化されたインターセクションを用いた新たなトレーニング戦略であるCuRPOを提案する。
論文 参考訳(メタデータ) (2025-11-17T21:22:50Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - Reason-RFT: Reinforcement Fine-Tuning for Visual Reasoning of Vision Language Models [42.75418134743927]
Reason-RFTは視覚的推論のための2段階強化微調整フレームワークである。
第一に、CoTデータをキュレートしたスーパービジョンファインチューニング(SFT)は、ビジョンランゲージモデル(VLM)の推論ポテンシャルを活性化する
第2に、グループ相対政策最適化(GRPO)に基づく強化学習は、複数の推論応答対を生成し、ドメインシフトへの適応性を高める。
論文 参考訳(メタデータ) (2025-03-26T17:38:06Z) - Visual-RFT: Visual Reinforcement Fine-Tuning [75.20572976629646]
OpenAI o1のような大規模推論モデルにおける強化ファインチューニング(RFT)は、回答に対するフィードバックから学ぶ。
Visual-RFTはさらに、視覚タスクにおけるRTTの適用領域を拡張している。
論文 参考訳(メタデータ) (2025-03-03T18:16:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。