論文の概要: TaxonRL: Reinforcement Learning with Intermediate Rewards for Interpretable Fine-Grained Visual Reasoning
- arxiv url: http://arxiv.org/abs/2603.04380v1
- Date: Wed, 04 Mar 2026 18:45:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.459785
- Title: TaxonRL: Reinforcement Learning with Intermediate Rewards for Interpretable Fine-Grained Visual Reasoning
- Title(参考訳): TaxonRL:理解可能な微視的推論のための中間的リワードを用いた強化学習
- Authors: Maximilian von Klinski, Maximilian Schall,
- Abstract要約: TaxonRLは、推論プロセスを階層的な分類学的予測に分解する強化学習アプローチである。
挑戦的なBirds-to-Wordsデータセットでは、TaxonRLの平均精度は91.7%で、人間のパフォーマンス(77.3%)を超え、解釈可能な推論トレースを生成する。
構造化された階層的推論を強制することは、きめ細かい視覚的識別のための強力かつ伝達可能なフレームワークを提供する。
- 参考スコア(独自算出の注目度): 1.0742675209112622
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Traditional vision-language models struggle with contrastive fine-grained taxonomic reasoning, particularly when distinguishing between visually similar species within the same genus or family. We introduce TaxonRL, a reinforcement learning approach using Group Relative Policy Optimization with intermediate rewards that decomposes the reasoning process into hierarchical taxonomic predictions. Our method incentivizes models to explicitly reason about species-level, genus-level, and family-level features before making final classifications. This structured approach is designed not only to boost accuracy but also to yield a transparent, verifiable decision-making process. On the challenging Birds-to-Words dataset, TaxonRL achieves 91.7\% average accuracy, exceeding human performance (77.3\%) while generating interpretable reasoning traces. We demonstrate strong cross-domain generalization, showing substantial gains in primate and marine species verification. Our results establish that enforcing structured, hierarchical reasoning provides a powerful and transferable framework for fine-grained visual discrimination.
- Abstract(参考訳): 伝統的な視覚言語モデルは、特に同じ属または家族内で視覚的に類似した種を区別する際に、対照的にきめ細かな分類学的推論に苦しむ。
本稿では,グループ相対的政策最適化を用いた強化学習手法であるTaxonRLを紹介し,推論過程を階層的な分類学的予測に分解する中間報酬について述べる。
本手法は, 最終分類に先立って, 種レベル, 属レベルおよび家族レベルの特徴を明示的に推論するために, モデルにインセンティブを与える。
この構造化されたアプローチは、精度を高めるだけでなく、透明で検証可能な意思決定プロセスをもたらすように設計されている。
挑戦的なBirds-to-Wordsデータセットでは、TaxonRLは平均精度91.7\%に達し、人間のパフォーマンス(77.3\%)を超え、解釈可能な推論トレースを生成する。
本研究は,本種と海洋生物種の検証において,強いクロスドメインの一般化を示すものである。
構造化された階層的推論を強制することは、きめ細かい視覚的識別のための強力かつ伝達可能なフレームワークを提供する。
関連論文リスト
- Learning a Dense Reasoning Reward Model from Expert Demonstration via Inverse Reinforcement Learning [50.20267980386502]
我々は、専門家によるデモンストレーションから直接、プロセスの監督のための密集したトークンレベルの報酬モデルを学びます。
学習された推論報酬は、2つの補完的な役割を果たす: (i)訓練中の推論ポリシーを最適化するためのステップレベルのフィードバックを提供する。
論文 参考訳(メタデータ) (2025-10-02T09:55:26Z) - Unveiling Chain of Step Reasoning for Vision-Language Models with Fine-grained Rewards [48.55501117313608]
本稿では,視覚言語モデルにおけるステップ推論の連鎖について述べる。
ステップレベルの推論データ、プロセス報酬モデル(PRM)、強化学習トレーニングを含む、シンプルで効果的で完全に透明なフレームワークを提案する。
本稿では、視覚言語モデルのベースラインとして機能し、より複雑なマルチモーダル推論に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-09-23T13:47:32Z) - TaxaDiffusion: Progressively Trained Diffusion Model for Fine-Grained Species Generation [27.543784765817513]
TaxaDiffusionは、拡散モデルのための分類学的インフォームドトレーニングフレームワークである。
動物像の微細化を図り、形態的・身元的精度の高い画像を生成する。
論文 参考訳(メタデータ) (2025-06-02T17:43:55Z) - A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [58.32070787537946]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-05-29T18:55:05Z) - Enforcing Consistency and Fairness in Multi-level Hierarchical Classification with a Mask-based Output Layer [25.819440955594736]
分類を強制し、一貫性、公正性、正確な一致を含む目的を最適化するために設計された公正でモデルに依存しないレイヤを導入します。
評価の結果,提案した層は予測の公平性を向上するだけでなく,分類を強制し,一貫した予測と優れた性能をもたらすことが示された。
論文 参考訳(メタデータ) (2025-03-19T06:30:04Z) - RATIONALYST: Mining Implicit Rationales for Process Supervision of Reasoning [41.9992614617405]
本稿では,事前学習に基づく推論のプロセス・スーパービジョンのモデルであるRATIONALYSTを紹介する。
We extract 79k rationales from web-scale unlabelled dataset (the Pile) and a combination of reasoning datasets with minimal human intervention。
LLaMa-3-8Bの微調整により、RATIONALYSTは7つの代表的な推論ベンチマークで平均3.9%の推論精度を向上させる。
論文 参考訳(メタデータ) (2024-10-01T20:05:51Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - A density estimation perspective on learning from pairwise human
preferences [32.64330423345252]
選好行動分布方程式を用いて定義された生成過程の族に対して、ペアの選好に対して報酬関数を訓練することにより、アノテータの暗黙の選好分布を効果的にモデル化できることが示される。
アノテーションの誤用(annotator misspecification) - アノテーションの振る舞いに関する誤ったモデリング仮定が作成され、不適応なモデルが生じる、失敗事例について議論し、提示する。
論文 参考訳(メタデータ) (2023-11-23T17:20:36Z) - Semantic Clustering based Deduction Learning for Image Recognition and
Classification [19.757743366620613]
本稿では,人間の脳の学習・思考過程を模倣した意味的クラスタリングに基づく推論学習を提案する。
提案手法は広範な実験を通じて理論的,実証的に支持される。
論文 参考訳(メタデータ) (2021-12-25T01:31:21Z) - Why do you think that? Exploring Faithful Sentence-Level Rationales
Without Supervision [60.62434362997016]
文レベルで忠実な論理を出力するモデルを作成するために,異なる訓練枠組みを提案する。
本モデルでは,各理性に基づいて各課題を個別に解決し,その課題を最もよく解決した者に高いスコアを割り当てることを学ぶ。
論文 参考訳(メタデータ) (2020-10-07T12:54:28Z) - Solving Long-tailed Recognition with Deep Realistic Taxonomic Classifier [68.38233199030908]
ロングテール認識は、現実世界のシナリオにおける自然な非一様分散データに取り組む。
モダンは人口密度の高いクラスではうまく機能するが、そのパフォーマンスはテールクラスでは著しく低下する。
Deep-RTCは、リアリズムと階層的予測を組み合わせたロングテール問題の新しい解法として提案されている。
論文 参考訳(メタデータ) (2020-07-20T05:57:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。