論文の概要: Model Specific Task Similarity for Vision Language Model Selection via Layer Conductance
- arxiv url: http://arxiv.org/abs/2602.01346v1
- Date: Sun, 01 Feb 2026 17:29:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.72801
- Title: Model Specific Task Similarity for Vision Language Model Selection via Layer Conductance
- Title(参考訳): 層伝導による視覚言語モデル選択のためのモデル固有タスク類似性
- Authors: Wei Yang, Hong Xie, Tao Tan, Xin Li, Defu Lian, Enhong Chen,
- Abstract要約: 本稿では,視覚エンコーダの内部関数力学におけるモデル選択の基盤となるフレームワークを提案する。
提案手法は,各タスクをレイヤワイドコンダクタンスにより表現し,エントロピー正規化アライメントによる目標条件付きブロック重要度分布を導出する。
そこで本研究では,DCD(Directional Conductance Divergence)という,ソースタスクが対象の機能ブロックをいかに効果的にカバーするかを定量化する非対称な指標を提案する。
- 参考スコア(独自算出の注目度): 92.72779885657373
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While open sourced Vision-Language Models (VLMs) have proliferated, selecting the optimal pretrained model for a specific downstream task remains challenging. Exhaustive evaluation is often infeasible due to computational constraints and data limitations in few shot scenarios. Existing selection methods fail to fully address this: they either rely on data-intensive proxies or use symmetric textual descriptors that neglect the inherently directional and model-specific nature of transferability. To address this problem, we propose a framework that grounds model selection in the internal functional dynamics of the visual encoder. Our approach represents each task via layer wise conductance and derives a target-conditioned block importance distribution through entropy regularized alignment. Building on this, we introduce Directional Conductance Divergence (DCD), an asymmetric metric that quantifies how effectively a source task covers the target's salient functional blocks. This allows for predicting target model rankings by aggregating source task ranks without direct inference. Experimental results on 48 VLMs across 21 datasets demonstrate that our method outperforms state-of-the-art baselines, achieving a 14.7% improvement in NDCG@5 over SWAB.
- Abstract(参考訳): オープンソースのVLM(Vision-Language Models)が普及しているが、特定の下流タスクに対して最適な事前学習モデルを選択することは依然として困難である。
被曝評価は、少数のショットシナリオにおいて、計算上の制約とデータ制限のため、しばしば実現不可能である。
既存の選択方法は、データ集約的なプロキシに依存するか、あるいは対称的なテキスト記述子を使用して、転送可能性の本質的に指向性とモデル固有の性質を無視している。
この問題に対処するために,視覚エンコーダの内部関数力学におけるモデル選択の基盤となるフレームワークを提案する。
提案手法は,各タスクをレイヤワイドコンダクタンスにより表現し,エントロピー正規化アライメントによる目標条件付きブロック重要度分布を導出する。
そこで本研究では,DCD(Directional Conductance Divergence)という,ソースタスクが対象の機能ブロックをいかに効果的にカバーするかを定量化する非対称な指標を提案する。
これにより、直接推論せずにソースタスクのランクを集約することで、ターゲットモデルランキングを予測することができる。
21個のデータセットにまたがる48個のVLM実験の結果、我々の手法は最先端のベースラインよりも優れており、SWABよりも14.7%改善されている。
関連論文リスト
- Neural Coherence : Find higher performance to out-of-distribution tasks from few samples [22.92306176087978]
本研究は,対象タスクからラベル付けされていないいくつかの例で確実に動作するモデル選択のための新しいアプローチを提案する。
我々は、ImageNet1K上でモデルが事前トレーニングされる実験を行い、Food-101、PlandNet-300K、iNaturalistからなるターゲットドメインを調べる。
提案手法は, 確立されたベースラインに比べて, これらの異なる対象領域間の一般化を著しく改善する。
論文 参考訳(メタデータ) (2025-12-05T16:55:41Z) - Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - Task-Specific Data Selection for Instruction Tuning via Monosemantic Neuronal Activations [19.25205110583291]
重要なボトルネックは、タスク固有のパフォーマンスを最大化するために、最も関連性の高いデータを選択することです。
既存のデータ選択アプローチには、不安定な影響に基づく方法や、より安定した分布アライメント方法が含まれる。
タスク関連データをよりよく識別するために、この分野に専用の類似度指標を導入します。
論文 参考訳(メタデータ) (2025-03-19T11:35:57Z) - Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models [79.2162092822111]
我々は,一連のナビゲーションタスクにおいて,強化学習(RL)と制御に基づく手法を体系的に評価する。
我々は、JEPA(Joint Embedding Predictive Architecture)を使用して、潜在ダイナミクスモデルを使用し、それを計画に使用します。
その結果,モデルベースプランニングではレイアウトが不明瞭になるのに対して,モデルフリーのRLは高品質なデータから恩恵を受けることがわかった。
論文 参考訳(メタデータ) (2025-02-20T18:39:41Z) - AgentOhana: Design Unified Data and Training Pipeline for Effective Agent Learning [98.26836657967162]
textbfAgentOhanaは、さまざまなシナリオにまたがって、異なる環境からエージェントのトラジェクトリを集約する。
AIエージェント用に調整された大規模なアクションモデルである textbfxLAM-v0.1 は、さまざまなベンチマークで例外的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-23T18:56:26Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Building a Winning Team: Selecting Source Model Ensembles using a
Submodular Transferability Estimation Approach [20.86345962679122]
公開されている事前訓練されたモデルの目標タスクへの転送可能性の推定は、伝達学習タスクにとって重要な場所となっている。
本稿では, モデルアンサンブルの下流タスクへの転送可能性を評価するために, 最適なtranSportベースのsuBmOdular tRaNsferability Metrics(OSBORN)を提案する。
論文 参考訳(メタデータ) (2023-09-05T17:57:31Z) - Towards Estimating Transferability using Hard Subsets [25.86053764521497]
HASTEは、ターゲットデータのより厳しいサブセットのみを用いて、ソースモデルの特定のターゲットタスクへの転送可能性を推定する新しい戦略である。
HASTEは既存の転送可能性測定値と組み合わせて信頼性を向上させることができることを示す。
複数のソースモデルアーキテクチャ、ターゲットデータセット、トランスファー学習タスクにまたがる実験結果から、HASTEの修正されたメトリクスは、一貫して、あるいは、アートトランスファービリティーメトリクスの状態と同等であることが示された。
論文 参考訳(メタデータ) (2023-01-17T14:50:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。