論文の概要: Specificity-aware reinforcement learning for fine-grained open-world classification
- arxiv url: http://arxiv.org/abs/2603.03197v2
- Date: Wed, 04 Mar 2026 10:48:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 14:47:28.991155
- Title: Specificity-aware reinforcement learning for fine-grained open-world classification
- Title(参考訳): きめ細かいオープンワールド分類のための特異性を考慮した強化学習
- Authors: Samuele Angheben, Davide Berasi, Alessandro Conti, Elisa Ricci, Yiming Wang,
- Abstract要約: オープンワールド設定下でのきめ細かい視覚概念の分類は、モデルが正確かつ具体的であることを要求します。
細粒度画像分類に基づく細粒度推論LMMのための特異性認識型強化学習フレームワークSpeciaRLを提案する。
- 参考スコア(独自算出の注目度): 54.85385270439992
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Classifying fine-grained visual concepts under open-world settings, i.e., without a predefined label set, demands models to be both accurate and specific. Recent reasoning Large Multimodal Models (LMMs) exhibit strong visual understanding capability but tend to produce overly generic predictions when performing fine-grained image classification. Our preliminary analysis reveals that models do possess the intrinsic fine-grained domain knowledge. However, promoting more specific predictions (specificity) without compromising correct ones (correctness) remains a non-trivial and understudied challenge. In this work, we investigate how to steer reasoning LMMs toward predictions that are both correct and specific. We propose a novel specificity-aware reinforcement learning framework, SpeciaRL, to fine-tune reasoning LMMs on fine-grained image classification under the open-world setting. SpeciaRL introduces a dynamic, verifier-based reward signal anchored to the best predictions within online rollouts, promoting specificity while respecting the model's capabilities to prevent incorrect predictions. Our out-of-domain experiments show that SpeciaRL delivers the best trade-off between correctness and specificity across extensive fine-grained benchmarks, surpassing existing methods and advancing open-world fine-grained image classification. Code and model are publicly available at https://github.com/s-angheben/SpeciaRL.
- Abstract(参考訳): オープンワールド設定の下できめ細かい視覚概念を分類する、すなわち、事前に定義されたラベルセットなしでは、モデルが正確かつ具体的であることを要求する。
近年のLMM(Large Multimodal Models)は、視覚的理解能力が高いが、きめ細かい画像分類を行うと、過度に一般的な予測が生じる傾向にある。
予備的な分析により、モデルは固有のきめ細かいドメイン知識を持っていることが明らかとなった。
しかし、正しいもの(正確性)を損なうことなく、より具体的な予測(特異性)を促進することは、非自明で未検討の課題である。
本研究では,LMMを正確かつ特異的な予測へ向けた推論手法について検討する。
オープンワールド環境下でのきめ細かい画像分類に基づくLMMの微調整推論のための,新たな特異性を考慮した強化学習フレームワークSpeciaRLを提案する。
SpeciaRLは、オンラインロールアウトにおける最高の予測に固定された動的検証ベースの報酬信号を導入し、誤った予測を防ぐためのモデルの能力を尊重しながら、特異性を促進する。
ドメイン外実験により、SpeciaRLは、広範囲のきめ細かいベンチマークにおいて、正確性と特異性の間の最良のトレードオフを提供し、既存の手法を超越し、オープンワールドのきめ細かい画像分類を進めています。
コードとモデルはhttps://github.com/s-angheben/SpeciaRL.comで公開されている。
関連論文リスト
- From Attribution to Action: Jointly ALIGNing Predictions and Explanations [7.1383591932321115]
分類器とマスカを反復的に訓練する新しいフレームワークであるALIGNを提案する。
高品質マスクをガイダンスとして活用することにより、ALIGNは解釈可能性と一般化性の両方を改善し、様々な設定でその優位性を示す。
論文 参考訳(メタデータ) (2025-11-10T10:52:17Z) - On Large Multimodal Models as Open-World Image Classifiers [77.51330631977955]
大規模マルチモーダルモデル(LMM)は、自然言語を使って画像を分類することができる。
原型,非原型,きめ細かな粒度,そして非常にきめ細かいクラスを含む10のベンチマークで13のモデルを評価した。
論文 参考訳(メタデータ) (2025-03-27T17:03:18Z) - Enhancing Cognition and Explainability of Multimodal Foundation Models with Self-Synthesized Data [35.229595049396245]
LMMの認識と説明性を改善するための新しい視覚的拒絶サンプリングフレームワークを提案する。
私たちのアプローチは、人間の検証可能な視覚的特徴を含む解釈可能な答えを合成することから始まります。
各ラウンドの微調整の後、最高品質の解答を選択するために報酬モデルのないフィルタリング機構を適用する。
論文 参考訳(メタデータ) (2025-02-19T19:05:45Z) - ROSE: Revolutionizing Open-Set Dense Segmentation with Patch-Wise Perceptual Large Multimodal Model [75.750699619993]
本稿では,高密度マスク予測とオープンカテゴリ生成が可能な,革命的オープンセット高密度セグメンテーションLMMであるROSEを提案する。
本手法は,各画像パッチを関心領域の独立領域として扱い,密集マスクとスパースマスクを同時に予測する。
論文 参考訳(メタデータ) (2024-11-29T07:00:18Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Adaptive Prediction Ensemble: Improving Out-of-Distribution Generalization of Motion Forecasting [15.916325272109454]
本稿では,ディープラーニングとルールに基づく予測専門家を統合した新しいフレームワーク,Adaptive Prediction Ensemble (APE)を提案する。
ディープラーニングモデルと並行して訓練された学習ルーティング関数は、入力シナリオに基づいて、最も信頼性の高い予測を動的に選択する。
提案手法は,OODデータの割合が高い長期予測やシナリオにおいて,個々の予測モデルや他の変種よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-07-12T17:57:00Z) - Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection [86.24898024621008]
産業異常検出に視覚専門家を適用した新しい大規模マルチモーダルモデルを提案する(略してMyriad)。
我々は,視覚専門家が生成する異常マップをLMMのガイダンスとして利用し,視覚モデルが異常領域により多くの注意を払うように誘導する。
提案手法は最先端の手法に対して良好に機能するだけでなく,IAD分野におけるLMMの柔軟性や命令追従性を継承する。
論文 参考訳(メタデータ) (2023-10-29T16:49:45Z) - Multiclass Alignment of Confidence and Certainty for Network Calibration [10.15706847741555]
最近の研究では、ディープニューラルネットワーク(DNN)が過信的な予測を行う傾向があることが示されている。
予測平均信頼度と予測確実性(MACC)の多クラスアライメントとして知られる簡易なプラグアンドプレイ補助損失を特徴とする列車時キャリブレーション法を提案する。
本手法は,領域内および領域外両方のキャリブレーション性能を実現する。
論文 参考訳(メタデータ) (2023-09-06T00:56:24Z) - Learning for Counterfactual Fairness from Observational Data [62.43249746968616]
公正な機械学習は、人種、性別、年齢などの特定の保護された(感受性のある)属性によって記述されるある種のサブグループに対して、学習モデルのバイアスを取り除くことを目的としている。
カウンターファクトフェアネスを達成するための既存の手法の前提条件は、データに対する因果モデルの事前の人間の知識である。
本研究では,新しいフレームワークCLAIREを提案することにより,因果関係を付与せずに観測データから対実的に公正な予測を行う問題に対処する。
論文 参考訳(メタデータ) (2023-07-17T04:08:29Z) - An Additive Instance-Wise Approach to Multi-class Model Interpretation [53.87578024052922]
解釈可能な機械学習は、ブラックボックスシステムの特定の予測を駆動する要因に関する洞察を提供する。
既存の手法は主に、局所的な加法的あるいはインスタンス的なアプローチに従う説明的入力特徴の選択に重点を置いている。
本研究は,両手法の長所を生かし,複数の対象クラスに対する局所的な説明を同時に学習するためのグローバルフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-07T06:50:27Z) - Predicting is not Understanding: Recognizing and Addressing
Underspecification in Machine Learning [47.651130958272155]
下位仕様とは、ドメイン内の精度で区別できない複数のモデルの存在を指す。
我々は、不特定概念を形式化し、それを特定し、部分的に対処する方法を提案する。
論文 参考訳(メタデータ) (2022-07-06T11:20:40Z) - Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。
GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。
本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文 参考訳(メタデータ) (2021-01-06T17:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。