論文の概要: Attention Lattice Adapter: Visual Explanation Generation for Visual Foundation Model
- arxiv url: http://arxiv.org/abs/2509.14664v1
- Date: Thu, 18 Sep 2025 06:45:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.098905
- Title: Attention Lattice Adapter: Visual Explanation Generation for Visual Foundation Model
- Title(参考訳): Attention Lattice Adapter: Visual Foundation Modelのためのビジュアル説明生成
- Authors: Shinnosuke Hirano, Yuiga Wada, Tsumugi Iida, Komei Sugiura,
- Abstract要約: 本稿では,視覚基盤モデルにおける新しい説明生成手法を提案する。
説明を生成することと、解釈可能性を高めるために部分的にモデルパラメータを更新することの両方を目的としている。
CUB-200-2011 と ImageNet-S の2つのベンチマーク・データセットを用いて評価を行った。
- 参考スコア(独自算出の注目度): 3.869856692178699
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we consider the problem of generating visual explanations in visual foundation models. Numerous methods have been proposed for this purpose; however, they often cannot be applied to complex models due to their lack of adaptability. To overcome these limitations, we propose a novel explanation generation method in visual foundation models that is aimed at both generating explanations and partially updating model parameters to enhance interpretability. Our approach introduces two novel mechanisms: Attention Lattice Adapter (ALA) and Alternating Epoch Architect (AEA). ALA mechanism simplifies the process by eliminating the need for manual layer selection, thus enhancing the model's adaptability and interpretability. Moreover, the AEA mechanism, which updates ALA's parameters every other epoch, effectively addresses the common issue of overly small attention regions. We evaluated our method on two benchmark datasets, CUB-200-2011 and ImageNet-S. Our results showed that our method outperformed the baseline methods in terms of mean intersection over union (IoU), insertion score, deletion score, and insertion-deletion score on both the CUB-200-2011 and ImageNet-S datasets. Notably, our best model achieved a 53.2-point improvement in mean IoU on the CUB-200-2011 dataset compared with the baselines.
- Abstract(参考訳): 本研究では,視覚基盤モデルにおける視覚的説明生成の問題について考察する。
この目的のために多くの手法が提案されているが、適応性の欠如により複雑なモデルには適用できないことが多い。
これらの制約を克服するために,説明生成と部分的にモデルパラメータを更新して解釈可能性を高めることを目的とした,視覚基盤モデルにおける新しい説明生成手法を提案する。
このアプローチでは,Attention Lattice Adapter(ALA)とAlternating Epoch Architect(AEA)の2つの新しいメカニズムを導入している。
ALAメカニズムは、手動層選択の必要性を排除し、モデルの適応性と解釈性を高めることにより、プロセスを単純化する。
さらに、ALAのパラメータを更新するAEAメカニズムは、過度に小さな注意領域の共通問題に効果的に対処する。
CUB-200-2011 と ImageNet-S の2つのベンチマーク・データセットを用いて評価を行った。
提案手法は,CUB-200-2011 と ImageNet-S の両データセットにおいて,平均和和和(IoU),挿入スコア,削除スコア,挿入削除スコアにおいて,ベースライン法よりも優れていた。
特に,CUB-200-2011データセットの平均IoUは,ベースラインに比べて53.2ポイント向上した。
関連論文リスト
- Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution [88.20464308588889]
効率的な画像SRのための構造類似インスパイアド・アンフォールディング(SSIU)法を提案する。
この方法は、構造的類似性に制約されたSR最適化関数の展開によって設計される。
我々のモデルは現在の最先端モデルより優れており、パラメータ数が低く、メモリ消費が減少している。
論文 参考訳(メタデータ) (2025-06-13T14:29:40Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Towards interpretable-by-design deep learning algorithms [11.154826546951414]
I という名前のフレームワークは、標準教師付き分類問題をトレーニングデータから派生したプロトタイプのセットに類似した関数に再キャストする。
本稿では,そのようなDLモデルを概念的にシンプルで説明可能なプロトタイプモデルにすることができることを示す。
論文 参考訳(メタデータ) (2023-11-19T18:40:49Z) - Studying How to Efficiently and Effectively Guide Models with Explanations [52.498055901649025]
「モデルガイダンス」とは「正しい理由のために正しい」ことを保証するためにモデルの説明を規則化する考え方である。
PASCAL VOC 2007 および MS COCO 2014 データセット上で, 各種損失関数, 帰属方法, モデル, 誘導深度について詳細な評価を行う。
具体的には、一般的に使用されるセグメンテーションマスクよりもはるかに安価で入手可能なバウンディングボックスアノテーションを用いてモデルをガイドする。
論文 参考訳(メタデータ) (2023-03-21T15:34:50Z) - How to train your draGAN: A task oriented solution to imbalanced
classification [15.893327571516016]
本稿では,新しいアーキテクチャであるdraGANを用いた,ユニークでパフォーマンスを重視したデータ生成戦略を提案する。
サンプルは、実際のデータと類似性ではなく、分類モデルの性能を最適化する目的で生成される。
経験的に、draGANの優位性を示すと同時に、いくつかの欠点も強調する。
論文 参考訳(メタデータ) (2022-11-18T07:37:34Z) - Causal Incremental Graph Convolution for Recommender System Retraining [89.25922726558875]
実世界のレコメンデーションシステムは、新しいデータを維持するために定期的に再トレーニングする必要がある。
本研究では,GCNに基づくレコメンデータモデルを用いて,グラフ畳み込みネットワーク(GCN)を効率的に再学習する方法を検討する。
論文 参考訳(メタデータ) (2021-08-16T04:20:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。