論文の概要: A Novel Framework for Automated Explain Vision Model Using Vision-Language Models
- arxiv url: http://arxiv.org/abs/2508.20227v1
- Date: Wed, 27 Aug 2025 19:16:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:01.740896
- Title: A Novel Framework for Automated Explain Vision Model Using Vision-Language Models
- Title(参考訳): 視覚言語モデルを用いた視覚モデル自動記述のための新しいフレームワーク
- Authors: Phu-Vinh Nguyen, Tan-Hanh Pham, Chris Ngo, Truong Son Hy,
- Abstract要約: 本稿では,サンプルレベルとデータセットレベルの両方で視覚モデルを説明するパイプラインを提案する。
提案されたパイプラインは、障害ケースを発見し、最小限の労力でビジョンモデルに関する洞察を得るために使用することができる。
- 参考スコア(独自算出の注目度): 8.771508508443459
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of many vision models mainly focuses on improving their performance using metrics such as accuracy, IoU, and mAP, with less attention to explainability due to the complexity of applying xAI methods to provide a meaningful explanation of trained models. Although many existing xAI methods aim to explain vision models sample-by-sample, methods explaining the general behavior of vision models, which can only be captured after running on a large dataset, are still underexplored. Furthermore, understanding the behavior of vision models on general images can be very important to prevent biased judgments and help identify the model's trends and patterns. With the application of Vision-Language Models, this paper proposes a pipeline to explain vision models at both the sample and dataset levels. The proposed pipeline can be used to discover failure cases and gain insights into vision models with minimal effort, thereby integrating vision model development with xAI analysis to advance image analysis.
- Abstract(参考訳): 多くのビジョンモデルの開発は、主に精度、IoU、mAPといったメトリクスを使用したパフォーマンス向上に重点を置いている。
既存のxAI手法の多くは、サンプル・バイ・サンプルの視覚モデルを説明することを目的としているが、大規模なデータセット上で実行した後にのみ取得できる視覚モデルの一般的な振る舞いを説明する手法はまだ未定である。
さらに、一般的な画像上での視覚モデルの振る舞いを理解することは、偏りのある判断を防ぎ、モデルの傾向やパターンを特定するのに非常に重要である。
本稿では、ビジョン・ランゲージモデルの適用により、サンプルレベルとデータセットレベルの両方でビジョンモデルを説明するパイプラインを提案する。
提案したパイプラインは、最小限の労力で、障害事例を発見し、視覚モデルに対する洞察を得るために使用することができ、それによって、視覚モデル開発とxAI分析を統合することで、画像解析を前進させることができる。
関連論文リスト
- Toward universal steering and monitoring of AI models [16.303681959333883]
大規模AIモデルにおける一般概念の線形表現を抽出するためのスケーラブルなアプローチを開発する。
これらの表現がモデルステアリングを実現する方法を示します。
論文 参考訳(メタデータ) (2025-02-06T01:41:48Z) - A Survey on Vision Autoregressive Model [15.042485771127346]
自然言語処理(NLP)における自己回帰モデルの性能を実証した
NLP分野での顕著な成功にインスパイアされた自己回帰モデルは、近年コンピュータビジョンにおいて集中的に研究されている。
本稿では,既存の手法の分類学の発展を含む,視覚自己回帰モデルに関する体系的なレビューを行う。
論文 参考訳(メタデータ) (2024-11-13T14:59:41Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Sequential Modeling Enables Scalable Learning for Large Vision Models [120.91839619284431]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。
我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文 参考訳(メタデータ) (2023-12-01T18:59:57Z) - GPT4Image: Large Pre-trained Models Help Vision Models Learn Better on Perception Task [47.1857510710807]
我々はGPT4Imageと呼ばれる新しい学習フレームワークを提案し、CNNやViTがより良い表現を学ぶのに役立つ大規模な事前学習モデルの知識を抽出する。
本研究では,様々な視覚認知タスクにおける提案アルゴリズムの有効性を検証するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。