論文の概要: ToolFG: Towards Well-Grounded Fine-Grained Image Classification
- arxiv url: http://arxiv.org/abs/2606.02518v1
- Date: Mon, 01 Jun 2026 17:27:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.535128
- Title: ToolFG: Towards Well-Grounded Fine-Grained Image Classification
- Title(参考訳): ToolFG: きめ細かい画像分類を目指して
- Authors: Yu Xue, Haoxuan Qu, Zhuoling Li, Yihang Lou, Yan Bai, Hossein Rahmani, Jun Liu,
- Abstract要約: 画像のきめ細かい分類に適したMLLMベースの最初のツール統合フレームワークである textbfToolFG を提案する。
ToolFGはMLLMが推論プロセス中に外部ツールを自律的かつ柔軟に使用できるようにする。
- 参考スコア(独自算出の注目度): 35.58965837460018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-grained image classification (FGIC) has broad applications and has attracted significant research attention. In this paper, we explore a novel paradigm for solving FGIC by proposing \textbf{ToolFG}, the first tool-integrated MLLM-based framework tailored to FGIC. ToolFG enables MLLMs to autonomously and flexibly use external tools during the reasoning process, actively interact with images, and collect verifiable visual cues for distinguishing highly similar categories in a more \textit{reliable} and \textit{well-grounded} manner. To equip the model with such tool-use ability, we design a novel \textbf{MCTS-guided tool-use knowledge distillation mechanism}, which effectively mines tool-use- and FGIC-relevant knowledge from advanced proprietary MLLMs for model training. Furthermore, we propose a \textbf{model-tool co-evolution mechanism} that jointly refines the toolset and the model's tool-use policy, driving them toward a mutually adapted and FGIC-specialized state. Extensive experiments demonstrate the effectiveness of our framework.
- Abstract(参考訳): きめ細かい画像分類(FGIC)は広く応用されており、研究の注目を集めている。
本稿では,FGICに適したMLLMベースのフレームワークであるtextbf{ToolFG}を提案することで,FGICを解くための新しいパラダイムを探求する。
ToolFGにより、MLLMは推論プロセス中に外部ツールを自律的かつ柔軟に使用し、画像と積極的に対話し、検証可能な視覚的手がかりを収集して、より高レベルの類似したカテゴリを、より \textit{reliable} と \textit{well-grounded} の方法で識別することができる。
このようなツール使用能力を備えたモデルを構築するために,モデルトレーニングのための高度プロプライエタリMLLMからのツール使用およびFGIC関連知識を効果的に掘り下げる,新しいツール使用知識蒸留機構を設計する。
さらに、ツールセットとモデルのツール使用ポリシーを共同で洗練し、相互に適応しFGIC化された状態へと誘導する「textbf{model-tool co-evolution mechanism」を提案する。
大規模な実験により、我々のフレームワークの有効性が実証された。
関連論文リスト
- From Intuition to Investigation: A Tool-Augmented Reasoning MLLM Framework for Generalizable Face Anti-Spoofing [47.26568822352609]
ツール拡張型推論FAS(TAR-FAS)フレームワークを提案する。このフレームワークは、Face Anti-Spoofingタスクを、CoT-VT(Chain-of-Thought with Visual Tools)パラダイムとして再構成する。
TAR-FASは、信頼性の高いスプーフ検出のためのきめ細かな視覚的調査を行い、SOTA性能を実現する。
論文 参考訳(メタデータ) (2026-03-01T10:28:35Z) - ForgeryVCR: Visual-Centric Reasoning via Efficient Forensic Tools in MLLMs for Image Forgery Detection and Localization [62.03035862528452]
ForgeryVCRは、視覚中心推論(Visual-Centric Reasoning)を通じて、知覚できないトレースを明示的な視覚中間体に物質化するフレームワークである。
ForgeryVCRは、検出タスクとローカライゼーションタスクの両方において、最先端(SOTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-15T11:14:47Z) - Evolving from Tool User to Creator via Training-Free Experience Reuse in Multimodal Reasoning [16.12114923351562]
エージェントをツールユーザからツールクリエータに変換する,トレーニング不要のフレームワークを提案する。
このアプローチは推論の経験を抽出し、再利用可能な資産に蒸留する。
ツールライブラリをメンテナンスするためのメモリ統合機構も導入する。
論文 参考訳(メタデータ) (2026-02-02T11:37:45Z) - Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments [70.42705564227548]
大規模言語モデル(LLM)のための環境自動構築パイプラインを提案する。
これにより、外部ツールに頼ることなく、詳細な測定可能なフィードバックを提供する高品質なトレーニング環境の作成が可能になる。
また、ツール使用の精度とタスク実行の完全性の両方を評価する検証可能な報酬機構も導入する。
論文 参考訳(メタデータ) (2025-08-12T09:45:19Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - LLM With Tools: A Survey [0.0]
本稿では,LCMに外部ツールの使用を教える領域における方法論,問題点,展開について述べる。
ユーザ命令を実行可能なプランにマッピングする一連の関数によってガイドされるツール統合のための標準化パラダイムを導入する。
調査の結果,ツール起動タイミング,選択精度,堅牢な推論プロセスの必要性など,さまざまな課題が明らかになった。
論文 参考訳(メタデータ) (2024-09-24T14:08:11Z) - Structural Embeddings of Tools for Large Language Models [0.0]
LLM(Large Language Models)の現在の状況は、外部ツールの組み入れを必要とすることは明らかである。
特定のタスクに対するツール利用のオントロジ的性質は、DAG(Directed Acyclic Graph)でうまく定式化できる。
LLMによる指数関数的に増加する外部ツールのオーケストレーションを導くための模範的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:46:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。