論文の概要: Self-Empowering VLMs: Achieving Hierarchical Consistency via Self-Elicited Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2511.18415v1
- Date: Sun, 23 Nov 2025 12:03:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.82998
- Title: Self-Empowering VLMs: Achieving Hierarchical Consistency via Self-Elicited Knowledge Distillation
- Title(参考訳): 自己励磁型VLM:自己励磁型知識蒸留による階層的一貫性の実現
- Authors: Wei Yang, Yiran Zhu, Zilin Li, Xunjia Zhang, Hongtao Wang,
- Abstract要約: 視覚言語モデル(VLM)は豊富な知識を持っているが、階層的理解タスクでは失敗することが多い。
人間のラベルや外部ツールを必要としないSEKD(Self-Elicited Knowledge Distillation)を提案する。
ドメイン内の経路整合性(HCA)を最大+29.50ポイント改善し、目に見えない分類でゼロショットHCAを4.15%から42.26%に引き上げる。
- 参考スコア(独自算出の注目度): 4.76286455386851
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) possess rich knowledge but often fail on hierarchical understanding tasks, where the goal is to predict a coarse-to-fine taxonomy path that remains consistent across all levels. We compare three inference paradigms for hierarchical VQA and find that stepwise reasoning, when conditioned on prior answers, significantly outperforms single-pass prompting. Further analysis indicates that the main limitation of current VLMs is their inability to maintain cross-level state, rather than a lack of taxonomic knowledge. Motivated by this diagnosis, we propose Self-Elicited Knowledge Distillation (SEKD), which requires no human labels or external tools: the same VLM is prompted to reason step by step and act as a teacher by exposing its hard labels, soft distributions, and decoder hidden states, while a single-pass student distills these signals. The student VLM remains efficient while approaching the accuracy of its multi-step teacher. It improves in-domain path consistency (HCA) by up to +29.50 percentage points, raises zero-shot HCA on an unseen taxonomy from 4.15% to 42.26%, and yields gains on challenging mathematical benchmarks. Because all supervision is self-elicited, SEKD scales to new taxonomies and datasets without annotation cost, providing a practical route to imbue compact VLMs with dependency-aware multi-step reasoning.
- Abstract(参考訳): 視覚言語モデル(VLM)は豊富な知識を持っているが、階層的な理解タスクでは失敗することが多い。
階層型VQAの推論パラダイムを3つ比較し,先行回答に条件付けされた段階的推論がシングルパスプロンプトよりも有意に優れていることを示す。
さらなる分析は、現在のVLMの主な制限は、分類学的な知識の欠如よりも、クロスレベルな状態を維持することができないことであることを示している。
この診断に触発されて,人間のラベルや外部ツールを必要としないSEKD (Self-Elicited Knowledge Distillation) を提案する。
学生のVLMは、多段階の教師の精度に近づきながら、効率的である。
ドメイン内の経路整合性(HCA)を+29.50ポイントまで改善し、目に見えない分類でゼロショットのHCAを4.15%から42.26%に引き上げ、挑戦的な数学的ベンチマークで利益を得る。
全ての監督は自己完結しているため、SEKDはアノテーションのコストを伴わずに新しい分類学やデータセットにスケールし、依存関係を意識したマルチステップ推論を備えたコンパクトなVLMを実現するための実践的なルートを提供する。
関連論文リスト
- An Empirical Study of Reasoning Steps in Thinking Code LLMs [8.653365851909745]
大規模言語モデルを考えると、最終回答の前に明確な中間推論トレースを生成する。
本研究では,コード生成のためのLLMの推論過程と品質について検討する。
論文 参考訳(メタデータ) (2025-11-08T06:18:48Z) - LLM Unlearning Under the Microscope: A Full-Stack View on Methods and Metrics [10.638045151201084]
本稿では,近年のステートフル・アンラーニング法12の原則的分類について述べる。
未学習効果(UE)、実用性維持(UT)、堅牢性(Rob)の評価を再考する。
分析の結果,Multiple-choice question (MCQ) の精度に支配される現在の評価は,狭い視点しか示さないことがわかった。
論文 参考訳(メタデータ) (2025-10-08T23:47:05Z) - Knowledge Homophily in Large Language Models [75.12297135039776]
大規模言語モデル(LLM)における類似知識のホモフィリパターンについて検討する。
我々は LLM の知識を三重項レベルと実体レベルの両方の知識チェックを通じてグラフ表現にマッピングする。
このホモフィリ原理により、三重項の実体レベルの知識度スコアを推定するグラフニューラルネットワーク(GNN)回帰モデルを提案する。
論文 参考訳(メタデータ) (2025-09-28T09:40:27Z) - When Big Models Train Small Ones: Label-Free Model Parity Alignment for Efficient Visual Question Answering using Small VLMs [4.296395082987112]
L-VLM(Large Vision-Language Models)は、様々な視覚や言語タスクにおいて顕著な性能を示す。
小型ビジョンランゲージモデル (Small Vision-Language Models, S-VLM) は効率性を提供するが、より大きなモデルに比べて大きな性能差がある。
本稿では,S-VLM を体系的に改善する新しいフレームワークである Model Parity Aligner (MPA) を紹介する。
論文 参考訳(メタデータ) (2025-09-20T11:12:23Z) - The LLM Already Knows: Estimating LLM-Perceived Question Difficulty via Hidden Representations [33.65540900920885]
大規模言語モデル(LLM)によって知覚される入力質問の難しさを推定することは、正確な性能評価と適応推論に不可欠である。
本稿では,LLMが生成する隠れ表現のみを利用する難易度推定手法を提案する。
論文 参考訳(メタデータ) (2025-09-16T09:38:41Z) - BLUR: A Bi-Level Optimization Approach for LLM Unlearning [100.90394814817965]
未学習問題の階層構造をモデル化することが重要であると論じる。
本稿では,より優れた性能を実現する新しいアルゴリズムであるBi-Level UnleaRning(textttBLUR)を提案する。
論文 参考訳(メタデータ) (2025-06-09T19:23:05Z) - VLM-Assisted Continual learning for Visual Question Answering in Self-Driving [26.413685340816436]
本稿では,自律運転における視覚質問応答(VQA)課題を解決するための新しい手法を提案する。
自動運転において、VQAはシステムが周囲について理解し、推論できるようにする上で重要な役割を担っている。
本稿では,視覚言語モデルと選択的記憶再生と知識蒸留を組み合わせた新しい連続学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-02T16:27:44Z) - Benchmarking Vision Language Model Unlearning via Fictitious Facial Identity Dataset [92.99416966226724]
我々は、未学習アルゴリズムの有効性を頑健に評価するために設計された新しいVLMアンラーニングベンチマークであるFacial Identity Unlearning Benchmark (FIUBench)を紹介する。
情報ソースとその露出レベルを正確に制御する2段階評価パイプラインを適用した。
FIUBench 内の 4 つのベースライン VLM アンラーニングアルゴリズムの評価により,すべての手法がアンラーニング性能に制限されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-11-05T23:26:10Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。