論文の概要: Thinking Beyond Labels: Vocabulary-Free Fine-Grained Recognition using Reasoning-Augmented LMMs
- arxiv url: http://arxiv.org/abs/2512.18897v1
- Date: Sun, 21 Dec 2025 22:01:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.545946
- Title: Thinking Beyond Labels: Vocabulary-Free Fine-Grained Recognition using Reasoning-Augmented LMMs
- Title(参考訳): ラベルを超えて考える:推論付きLMMを用いた語彙自由ファイングラインド認識
- Authors: Dmitry Demidov, Zaigham Zaheer, Zongyan Han, Omkar Thawakar, Rao Anwer,
- Abstract要約: FiNDR (Fine-fine Name Discovery via Reasoning) は語彙なしの粒度認識のためのフレームワークである。
i)推論可能なLMMは、各画像の記述可能な候補ラベルを生成し、(ii)視覚言語モデルフィルタを作成し、これらの候補をコヒーレントなクラスセットにランク付けし、(iii)検証された名前は、推論時に使用される軽量なマルチモーダル分類器をインスタンス化する。
一般的なきめ細かい分類ベンチマークの実験では、語彙なしの条件下での最先端のパフォーマンスが示され、その差は最大で18.8%である。
- 参考スコア(独自算出の注目度): 6.790758328248708
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vocabulary-free fine-grained image recognition aims to distinguish visually similar categories within a meta-class without a fixed, human-defined label set. Existing solutions for this problem are limited by either the usage of a large and rigid list of vocabularies or by the dependency on complex pipelines with fragile heuristics where errors propagate across stages. Meanwhile, the ability of recent large multi-modal models (LMMs) equipped with explicit or implicit reasoning to comprehend visual-language data, decompose problems, retrieve latent knowledge, and self-correct suggests a more principled and effective alternative. Building on these capabilities, we propose FiNDR (Fine-grained Name Discovery via Reasoning), the first reasoning-augmented LMM-based framework for vocabulary-free fine-grained recognition. The system operates in three automated steps: (i) a reasoning-enabled LMM generates descriptive candidate labels for each image; (ii) a vision-language model filters and ranks these candidates to form a coherent class set; and (iii) the verified names instantiate a lightweight multi-modal classifier used at inference time. Extensive experiments on popular fine-grained classification benchmarks demonstrate state-of-the-art performance under the vocabulary-free setting, with a significant relative margin of up to 18.8% over previous approaches. Remarkably, the proposed method surpasses zero-shot baselines that exploit pre-defined ground-truth names, challenging the assumption that human-curated vocabularies define an upper bound. Additionally, we show that carefully curated prompts enable open-source LMMs to match proprietary counterparts. These findings establish reasoning-augmented LMMs as an effective foundation for scalable, fully automated, open-world fine-grained visual recognition. The source code is available on github.com/demidovd98/FiNDR.
- Abstract(参考訳): 語彙のないきめ細かい画像認識は、人間の定義したラベルセットなしで、メタクラス内の視覚的に類似したカテゴリを識別することを目的としている。
この問題の既存の解決策は、大規模な厳格な語彙のリストの使用や、エラーがステージ間で伝播する脆弱なヒューリスティックを持つ複雑なパイプラインへの依存によって制限される。
一方、近年の大規模マルチモーダルモデル(LMM)では、視覚言語データを理解し、問題を分解し、潜伏した知識を抽出し、より原理的で効果的な代替手段を提案できる。
これらの特徴を生かしたFiNDR(Fine-fine Name Discovery via Reasoning)を提案する。
システムは3つの自動ステップで動作します。
i) 推論可能なLMMは,各画像の記述的候補ラベルを生成する。
(ii)視覚言語モデルフィルタを作成し、これらの候補をコヒーレントなクラスセットとしてランク付けし、
三 検証された名称は、推論時に使用する軽量のマルチモーダル分類器をインスタンス化する。
一般的なきめ細かい分類ベンチマークに関する大規模な実験は、語彙なしの条件下での最先端のパフォーマンスを示し、以前のアプローチに比べて18.8%の差がある。
また, 提案手法は, 既定の接地木名を利用したゼロショットベースラインを超越し, 人為的な語彙が上界を定義するという仮定に挑戦する。
さらに、慎重にキュレートされたプロンプトにより、オープンソースのLMMがプロプライエタリなプロンプトにマッチできることを示す。
これらの知見は、スケーラブルで完全に自動化された、オープンワールドのきめ細かい視覚認識のための効果的な基盤として、推論強化LMMを確立した。
ソースコードはgithub.com/demidovd98/FiNDRで入手できる。
関連論文リスト
- Divide, Cache, Conquer: Dichotomic Prompting for Efficient Multi-Label LLM-Based Classification [0.2799896314754614]
大規模言語モデル(LLM)を用いた効率的な多言語テキスト分類手法を提案する。
単一の構造化された応答で全てのラベルを生成する代わりに、各ターゲット次元は独立してクエリされる。
この結果から,マルチラベル分類をダイコトミッククエリに分解することで,スケーラブルで効率的なフレームワークが提供されることが示唆された。
論文 参考訳(メタデータ) (2025-11-05T19:53:51Z) - Vocabulary-free Fine-grained Visual Recognition via Enriched Contextually Grounded Vision-Language Model [52.01031460230826]
伝統的なアプローチは固定語彙と閉集合分類パラダイムに大きく依存している。
近年の研究では、大規模言語モデルと視覚言語モデル(VLM)を組み合わせることで、オープンセット認識が可能であることが実証されている。
そこで本研究では,精密な視覚認識のための最先端の手法であるEnriched-FineRを提案する。
論文 参考訳(メタデータ) (2025-07-30T20:06:01Z) - On Large Multimodal Models as Open-World Image Classifiers [77.51330631977955]
大規模マルチモーダルモデル(LMM)は、自然言語を使って画像を分類することができる。
原型,非原型,きめ細かな粒度,そして非常にきめ細かいクラスを含む10のベンチマークで13のモデルを評価した。
論文 参考訳(メタデータ) (2025-03-27T17:03:18Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - Towards Open-Ended Visual Recognition with Large Language Model [27.56182473356992]
我々は,新しいLarge Language Model (LLM) ベースのマスク分類器であるOmniScient Model (OSM)を紹介する。
OSMは、クラスラベルを生成的に予測し、トレーニングとテストの両方でクラス名の供給を除去する。
また、人間の干渉なしにデータセット間のトレーニングを可能にする。
論文 参考訳(メタデータ) (2023-11-14T18:59:01Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for
Open-world Detection [118.36746273425354]
本稿では,デザインされた概念辞書から知識の豊かさを生かして,オープンワールド検出のための並列視覚概念事前学習手法を提案する。
概念をそれらの記述で豊かにすることにより、オープンドメイン学習を促進するために、さまざまな概念間の関係を明確に構築する。
提案フレームワークは、例えばLVISデータセット上で、強力なゼロショット検出性能を示し、私たちのDetCLIP-TはGLIP-Tを9.9%向上させ、レアカテゴリで13.5%改善した。
論文 参考訳(メタデータ) (2022-09-20T02:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。