論文の概要: Decomposing Visual Classification: Assessing Tree-Based Reasoning in VLMs
- arxiv url: http://arxiv.org/abs/2509.09732v1
- Date: Wed, 10 Sep 2025 13:08:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.866561
- Title: Decomposing Visual Classification: Assessing Tree-Based Reasoning in VLMs
- Title(参考訳): 視覚分類の分解:VLMにおける木に基づく推論の評価
- Authors: Sary Elmansoury, Islam Mesabah, Gerrit Großmann, Peter Neigel, Raj Bhalwankar, Daniel Kondermann, Sebastian J. Vollmer,
- Abstract要約: 視覚言語モデル(VLM)は、ゼロショット視覚分類において優れるが、細粒度タスクや大きな階層的ラベル空間でのそれらの性能は検討されていない。
本稿では,木構造に基づく推論によってVLM性能が向上するかどうかを考察する。
- 参考スコア(独自算出の注目度): 1.4231678631753704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision language models (VLMs) excel at zero-shot visual classification, but their performance on fine-grained tasks and large hierarchical label spaces is understudied. This paper investigates whether structured, tree-based reasoning can enhance VLM performance. We introduce a framework that decomposes classification into interpretable decisions using decision trees and evaluates it on fine-grained (GTSRB) and coarse-grained (CIFAR-10) datasets. Although the model achieves 98.2% accuracy in understanding the tree knowledge, tree-based reasoning consistently underperforms standard zero-shot prompting. We also explore enhancing the tree prompts with LLM-generated classes and image descriptions to improve alignment. The added description enhances the performance of the tree-based and zero-shot methods. Our findings highlight limitations of structured reasoning in visual classification and offer insights for designing more interpretable VLM systems.
- Abstract(参考訳): 視覚言語モデル(VLM)は、ゼロショット視覚分類において優れるが、細粒度タスクや大きな階層的ラベル空間でのそれらの性能は検討されていない。
本稿では,木構造に基づく推論によってVLM性能が向上するかどうかを考察する。
本稿では,決定木を用いて分類を解釈可能な決定に分解し,それを細粒度(GTSRB)と粗粒度(CIFAR-10)データセットで評価するフレームワークを提案する。
このモデルは木知識の理解において98.2%の精度を達成するが、木に基づく推論は標準のゼロショットプロンプトを一貫して上回っている。
また、LLM生成クラスと画像記述によるツリープロンプトの強化について検討し、アライメントを改善する。
追加された記述により、ツリーベースおよびゼロショットメソッドのパフォーマンスが向上する。
本研究は,視覚分類における構造化推論の限界を強調し,より解釈可能なVLMシステムを設計するための洞察を提供する。
関連論文リスト
- ReTreever: Tree-based Coarse-to-Fine Representations for Retrieval [64.44265315244579]
そこで本研究では,様々なレベルで参照文書を整理し,表現するためのツリーベース手法を提案する。
我々の手法はReTreeverと呼ばれ、クエリと参照ドキュメントが同様のツリーブランチに割り当てられるように、バイナリツリーの内部ノード毎のルーティング関数を共同で学習する。
我々の評価では、ReTreeverは一般的に完全な表現精度を保っている。
論文 参考訳(メタデータ) (2025-02-11T21:35:13Z) - Zero-Shot Decision Tree Construction via Large Language Models [2.005837558796176]
本稿では,大言語モデル(LLM)を用いた決定木構築アルゴリズムについて,分類・回帰木(CART)の原理に基づくゼロショット方式で紹介する。
提案手法では, 属性の離散化, 確率計算, Giniインデックス計算など, 決定木構築に必要な演算を行う。
論文 参考訳(メタデータ) (2025-01-27T17:48:48Z) - GPT-HTree: A Decision Tree Framework Integrating Hierarchical Clustering and Large Language Models for Explainable Classification [0.0]
GPT-HTreeは階層的クラスタリング、決定木、大規模言語モデル(LLM)を組み合わせたフレームワークである。
LLMは、人間可読なクラスタ記述を生成し、実用的な洞察で定量的分析をブリッジすることで、フレームワークを強化します。
論文 参考訳(メタデータ) (2025-01-23T15:18:22Z) - Language Model as Visual Explainer [72.88137795439407]
本稿では,木構造言語学的説明を用いた視覚モデル解釈のための体系的アプローチを提案する。
提案手法は,属性を付与した木の形で人間に理解可能な説明を提供する。
提案手法の有効性を確認するため,新しいベンチマークを導入し,厳密な評価を行う。
論文 参考訳(メタデータ) (2024-12-08T20:46:23Z) - Optimized Feature Generation for Tabular Data via LLMs with Decision Tree Reasoning [53.241569810013836]
本稿では,大規模言語モデル(LLM)を用いて,効率的な特徴生成ルールを同定するフレームワークを提案する。
我々は、自然言語で容易に表現できるため、この推論情報を伝達するために決定木を使用します。
OCTreeは様々なベンチマークで様々な予測モデルの性能を継続的に向上させる。
論文 参考訳(メタデータ) (2024-06-12T08:31:34Z) - 3VL: Using Trees to Improve Vision-Language Models' Interpretability [40.678288227161936]
VLM(Vision-Language Model)は、画像とテキストの表現の整列に有効であることが証明されており、多くの下流タスクに転送すると、より優れたゼロショット結果が得られる。
これらの表現は、オブジェクトの属性、状態、異なるオブジェクト間の関係を認識するなど、構成言語概念(CLC)を理解する際のいくつかの重要な欠点に悩まされる。
本稿では,木拡張ビジョンランゲージ(3VL)モデルのアーキテクチャとトレーニング手法を紹介する。
論文 参考訳(メタデータ) (2023-12-28T20:26:03Z) - Waffling around for Performance: Visual Classification with Random Words
and Broad Concepts [121.60918966567657]
WaffleCLIPはゼロショット視覚分類のためのフレームワークで、LLM生成した記述子をランダムな文字と単語記述子に置き換える。
LLM生成記述子で導入された追加意味論の影響と欠点について、広範囲にわたる実験的研究を行う。
論文 参考訳(メタデータ) (2023-06-12T17:59:48Z) - Linguistically Driven Graph Capsule Network for Visual Question
Reasoning [153.76012414126643]
我々は「言語的に駆動されるグラフカプセルネットワーク」と呼ばれる階層的構成推論モデルを提案する。
具体的には,各カプセルを最下層に結合させ,元の質問に1つの単語を埋め込んだ言語的埋め込みを視覚的証拠で橋渡しする。
CLEVRデータセット、CLEVR合成生成テスト、およびFinalQAデータセットの実験は、我々のエンドツーエンドモデルの有効性と構成一般化能力を示す。
論文 参考訳(メタデータ) (2020-03-23T03:34:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。