論文の概要: SARE: Sample-wise Adaptive Reasoning for Training-free Fine-grained Visual Recognition
- arxiv url: http://arxiv.org/abs/2603.17729v1
- Date: Wed, 18 Mar 2026 13:49:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.732058
- Title: SARE: Sample-wise Adaptive Reasoning for Training-free Fine-grained Visual Recognition
- Title(参考訳): SARE:訓練不要なきめ細かい視覚認識のためのサンプルワイド適応推論
- Authors: Jingxiao Yang, DaLin He, Miao Pan, Ge Su, Wenqi Zhang, Yifeng Hu, Tangwei Li, Yuke Li, Xuhong Zhang,
- Abstract要約: 学習不要なファイングラインド視覚認識のためのサンプルワイド適応型textbfREasoning フレームワーク SARE を提案する。
SAREは高速な候補検索ときめ細かい推論を組み合わせ、必要なときにのみ後者を呼び出す。
推論プロセスでは、SAREは、過去の失敗を活用して、転送可能な差別的ガイダンスを提供する自己反射的な体験メカニズムを取り入れている。
- 参考スコア(独自算出の注目度): 24.02308757219308
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Large Vision-Language Models (LVLMs) have enabled training-free Fine-Grained Visual Recognition (FGVR). However, effectively exploiting LVLMs for FGVR remains challenging due to the inherent visual ambiguity of subordinate-level categories. Existing methods predominantly adopt either retrieval-oriented or reasoning-oriented paradigms to tackle this challenge, but both are constrained by two fundamental limitations:(1) They apply the same inference pipeline to all samples without accounting for uneven recognition difficulty, thereby leading to suboptimal accuracy and efficiency; (2) The lack of mechanisms to consolidate and reuse error-specific experience causes repeated failures on similar challenging cases. To address these limitations, we propose SARE, a Sample-wise Adaptive textbfREasoning framework for training-free FGVR. Specifically, SARE adopts a cascaded design that combines fast candidate retrieval with fine-grained reasoning, invoking the latter only when necessary. In the reasoning process, SARE incorporates a self-reflective experience mechanism that leverages past failures to provide transferable discriminative guidance during inference, without any parameter updates. Extensive experiments across 14 datasets substantiate that SARE achieves state-of-the-art performance while substantially reducing computational overhead.
- Abstract(参考訳): 近年,LVLM(Large Vision-Language Models)の進歩により,FGVR(Funture-Grained Visual Recognition)が実現されている。
しかし,FGVRのLVLMを効果的に活用することは,下位階層の視覚的曖昧さが原因で依然として困難である。
既存の手法では、この課題に対処するために、検索指向あるいは推論指向のパラダイムを主に採用しているが、いずれも2つの基本的な制限により制約されている。(1) 認識困難を考慮せずに、同一の推論パイプラインを全てのサンプルに適用し、その結果、最適な精度と効率をもたらす。
これらの制約に対処するため,Sample-wise Adaptive textbfREasoning framework for training-free FGVRを提案する。
特に、SAREは、高速な候補検索ときめ細かい推論を組み合わせたカスケード設計を採用し、必要な時にのみ後者を呼び出します。
推論プロセスでは、SAREは、過去の障害を活用し、パラメータを更新することなく、推論中に転送可能な差別的ガイダンスを提供する、自己反射的なエクスペリエンスメカニズムを組み込んでいる。
14のデータセットにわたる大規模な実験により、SAREは最先端のパフォーマンスを実現し、計算オーバーヘッドを大幅に削減する。
関連論文リスト
- Fine-tuning MLLMs Without Forgetting Is Easier Than You Think [72.59321247529975]
分布内および分布外画像およびテキスト入力のモデル性能を評価するための2x2実験フレームワークを設計する。
その結果、トレーニング可能なパラメータの数を制限したり、低学習率を採用するなど、適切な正規化が、アウト・オブ・ディストリビューション・イメージを扱う際の忘れを効果的に防止できることが示唆された。
我々は、このことをタスク固有のオーバーフィッティングとみなし、データハイブリッドトレーニング戦略を導入することでこの問題に対処する。
論文 参考訳(メタデータ) (2026-03-15T17:16:19Z) - Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models [7.802379200026965]
認識状態の複雑さに基づいてVLA実行を動的にルーティングする適応型フレームワークを提案する。
我々のアプローチは、VLAの視覚言語バックボーンを、パラメトリックおよび非パラメトリック推定器のアンサンブルに潜伏埋め込みを投影することにより、アクティブな検出ツールに変換する。
論文 参考訳(メタデータ) (2026-03-05T13:14:41Z) - Observationally Informed Adaptive Causal Experimental Design [55.998153710215654]
本稿では,観測モデルを基礎的先行として活用する新たなパラダイムであるアクティブ残留学習を提案する。
このアプローチは、実験的な焦点を、目標因果量の学習から、観察バイアスの補正に必要な残差を効率的に推定するへとシフトさせる。
合成および半合成ベンチマークの実験は、R-Designがベースラインを大幅に上回ることを示した。
論文 参考訳(メタデータ) (2026-03-04T06:52:37Z) - Adaptive Residual-Update Steering for Low-Overhead Hallucination Mitigation in Large Vision Language Models [13.32858759983739]
LVLM(Large Vision-Language Models)は、しばしばオブジェクト幻覚に悩まされ、視覚入力と矛盾するテキストを生成する。
この問題を緩和するための既存の推論時間の介入は、難しいトレードオフをもたらします。
本稿では,LVLMを視覚的に生成するフレームワークであるResidual-Update Directed Decoding Regulation(RUDDER)を提案する。
論文 参考訳(メタデータ) (2025-11-13T13:29:38Z) - OFMU: Optimization-Driven Framework for Machine Unlearning [5.100622189286672]
大規模言語モデルは、ユーザ要求、著作権のある資料、時代遅れの情報など、特定の知識を解放する能力を必要としている。
我々は,保留期間を保ちながら忘れを明示的に優先順位付けするペナルティベースの二段階最適化フレームワークOFMUを提案する。
OFMUは既存のアンラーニング手法を有効性と有効性の両方で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-09-26T15:31:32Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - Zero-Shot Anomaly Detection with Dual-Branch Prompt Selection [17.263625932911534]
Zero-shot Anomaly Detection (ZSAD) は、見えないカテゴリの欠陥を識別し、ローカライズする。
既存のZSADメソッドは、固定または学習プロンプトを使用しても、トレーニングデータが限られたトレーニングドメインから導出されるため、ドメインシフトの下で苦労する。
PILOTは2つの重要なイノベーションを通じてこれらの課題を克服するために設計されたフレームワークです。
論文 参考訳(メタデータ) (2025-08-01T17:00:12Z) - ONLY: One-Layer Intervention Sufficiently Mitigates Hallucinations in Large Vision-Language Models [67.75439511654078]
LVLM(Large Vision-Language Models)は、テキスト応答による画像入力の理解と推論のための新しいパラダイムを導入している。
彼らは幻覚という永続的な課題に直面しており、現実のアプリケーションに信頼性のあるデプロイを行うことについて懸念を抱き、実践的な弱点をもたらしている。
OnLYは,1つのクエリと1層の介入しか必要とせず,効率的なリアルタイムデプロイメントを実現するためのトレーニング不要なデコーディング手法である。
論文 参考訳(メタデータ) (2025-07-01T16:01:08Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - GRAIT: Gradient-Driven Refusal-Aware Instruction Tuning for Effective Hallucination Mitigation [62.63014905981601]
Refusal-Aware Instruction Tuning (RAIT) は、Large Language Models (LLM) を強化することを目的としている。
効果的なRAITは、幻覚を最小化するために、未知の質問を効果的に拒否すること、正しく答えられる質問が拒否されないように過度に拒否すること、の2つの主要な課題に対処しなければならない。
GraITは幻覚を効果的に最小化するために勾配駆動型サンプル選択を採用し、(2)微調整中に適応的な重み付け機構を導入し、過剰な拒絶のリスクを低減する。
論文 参考訳(メタデータ) (2025-02-09T14:11:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。