論文の概要: Fine-R1: Make Multi-modal LLMs Excel in Fine-Grained Visual Recognition by Chain-of-Thought Reasoning
- arxiv url: http://arxiv.org/abs/2602.07605v1
- Date: Sat, 07 Feb 2026 16:16:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.719598
- Title: Fine-R1: Make Multi-modal LLMs Excel in Fine-Grained Visual Recognition by Chain-of-Thought Reasoning
- Title(参考訳): Fine-R1:Chain-of-Thought Reasoningによる細粒度視覚認識におけるマルチモーダルLCMのExcel化
- Authors: Hulingxiao He, Zijun Geng, Yuxin Peng,
- Abstract要約: Fine-R1は、ファイングラインド視覚認識用に設計されたR1スタイルのMLLMである。
4ショットのトレーニングだけで、Fine-R1は既存のMLLMよりも優れており、MLLMの推論や、対照的なCLIPモデルも優れている。
- 参考スコア(独自算出の注目度): 47.868429337792314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Any entity in the visual world can be hierarchically grouped based on shared characteristics and mapped to fine-grained sub-categories. While Multi-modal Large Language Models (MLLMs) achieve strong performance on coarse-grained visual tasks, they often struggle with Fine-Grained Visual Recognition (FGVR). Adapting general-purpose MLLMs to FGVR typically requires large amounts of annotated data, which is costly to obtain, leaving a substantial performance gap compared to contrastive CLIP models dedicated for discriminative tasks. Moreover, MLLMs tend to overfit to seen sub-categories and generalize poorly to unseen ones. To address these challenges, we propose Fine-R1, an MLLM tailored for FGVR through an R1-style training framework: (1) Chain-of-Thought Supervised Fine-tuning, where we construct a high-quality FGVR CoT dataset with rationales of "visual analysis, candidate sub-categories, comparison, and prediction", transition the model into a strong open-world classifier; and (2) Triplet Augmented Policy Optimization, where Intra-class Augmentation mixes trajectories from anchor and positive images within the same category to improve robustness to intra-class variance, while Inter-class Augmentation maximizes the response distinction conditioned on images across sub-categories to enhance discriminative ability. With only 4-shot training, Fine-R1 outperforms existing general MLLMs, reasoning MLLMs, and even contrastive CLIP models in identifying both seen and unseen sub-categories, showing promise in working in knowledge-intensive domains where gathering expert annotations for all sub-categories is arduous. Code is available at https://github.com/PKU-ICST-MIPL/FineR1_ICLR2026.
- Abstract(参考訳): 視覚世界のあらゆる実体は、共有特性に基づいて階層的にグループ化され、きめ細かいサブカテゴリにマッピングされる。
MLLM(Multi-modal Large Language Models)は粗い視覚タスクにおいて高い性能を達成するが、細粒度視覚認識(FGVR)ではしばしば苦労する。
汎用MLLMをFGVRに適応させるには、典型的には大量のアノテートデータを必要とする。
さらに、MLLMはサブカテゴリに過度に適合し、見当たらないカテゴリを一般化する傾向にある。
これらの課題に対処するために,(1)FGVR用にR1スタイルのトレーニングフレームワークを用いて,FGVR用に調整されたFine-R1を提案する。(1) 階層間監視(Chain-of-Thought Supervised Fine-tuning)により,高品質なFGVR CoTデータセットを構築し,そのモデルに「視覚分析,候補サブカテゴリ,比較,予測」の理論的根拠を付与し,(2) クラス内拡張(Triplet Augmented Policy Optimization)により,同カテゴリ内のアンカーイメージと正のイメージからトラジェクトリを混合し,クラス内分散に対する堅牢性を向上させる一方で,クラス間拡張(Inter-class Augmentation)は,サブカテゴリ間での対応性を最大化し,識別能力を高める。
たった4ショットのトレーニングで、Fine-R1は既存のMLLMよりも優れており、MLLMを推論し、また、見えないサブカテゴリと見えないサブカテゴリの両方を識別する対照的なCLIPモデルも優れている。
コードはhttps://github.com/PKU-ICST-MIPL/FineR1_ICLR2026で公開されている。
関連論文リスト
- Analyzing and Boosting the Power of Fine-Grained Visual Recognition for Multi-modal Large Language Models [31.34575955517015]
Finedeficsは、トレーニングフェーズにオブジェクトの情報属性記述を組み込むことで、モデルのFGVR能力を向上するMLLMである。
我々は、オブジェクト-属性対と属性-カテゴリ対を同時に比較学習し、類似しているが誤ったカテゴリの例をハードネガティブとして利用する。
複数の人気のあるFGVRデータセットに対する広範囲な評価は、Finedeficsが既存のMLLMを同等のパラメータサイズで上回っていることを示している。
論文 参考訳(メタデータ) (2025-01-25T08:52:43Z) - Category-Adaptive Cross-Modal Semantic Refinement and Transfer for Open-Vocabulary Multi-Label Recognition [59.203152078315235]
本稿では,カテゴリ適応型クロスモーダル・セマンティック・リファインメント・アンド・トランスファー(C$2$SRT)フレームワークを提案する。
提案するフレームワークは,2つの相補的モジュール,すなわち,カテゴリ内セマンティックリファインメント(ISR)モジュールと,カテゴリ間セマンティックトランスファー(IST)モジュールから構成される。
OV-MLRベンチマークの実験は、提案されたC$2$SRTフレームワークが現在の最先端アルゴリズムより優れていることを明らかに示している。
論文 参考訳(メタデータ) (2024-12-09T04:00:18Z) - How to Make LLMs Strong Node Classifiers? [70.14063765424012]
言語モデル(LM)は、グラフニューラルネットワーク(GNN)やグラフトランスフォーマー(GT)など、ドメイン固有のモデルの優位性に挑戦している。
本稿では,ノード分類タスクにおける最先端(SOTA)GNNに匹敵する性能を実現するために,既製のLMを有効活用する手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T08:27:54Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。
我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文 参考訳(メタデータ) (2023-12-04T05:13:59Z) - LLMs as Visual Explainers: Advancing Image Classification with Evolving
Visual Descriptions [13.546494268784757]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) を統合し,最適なクラス記述子を求めるフレームワークを提案する。
我々の学習自由アプローチは、反復的にクラス記述子を洗練するための進化的最適化戦略を備えたLLMベースのエージェントを開発する。
論文 参考訳(メタデータ) (2023-11-20T16:37:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。