論文の概要: Interpreting Object-level Foundation Models via Visual Precision Search
- arxiv url: http://arxiv.org/abs/2411.16198v1
- Date: Mon, 25 Nov 2024 08:54:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:20:28.759501
- Title: Interpreting Object-level Foundation Models via Visual Precision Search
- Title(参考訳): 視覚的精度探索によるオブジェクトレベル基礎モデルの解釈
- Authors: Ruoyu Chen, Siyuan Liang, Jingzhi Li, Shiming Liu, Maosen Li, Zheng Huang, Hua Zhang, Xiaochun Cao,
- Abstract要約: より少ない領域で正確な属性マップを生成する視覚的精度探索法を提案する。
本手法は,マルチモーダル融合による帰属問題を克服するために,内部モデルパラメータをバイパスする。
提案手法は,複数の評価指標にまたがる既存の手法を超越して,視覚的接地や物体検出タスクにおける障害を解釈することができる。
- 参考スコア(独自算出の注目度): 53.807678972967224
- License:
- Abstract: Advances in multimodal pre-training have propelled object-level foundation models, such as Grounding DINO and Florence-2, in tasks like visual grounding and object detection. However, interpreting these models\' decisions has grown increasingly challenging. Existing interpretable attribution methods for object-level task interpretation have notable limitations: (1) gradient-based methods lack precise localization due to visual-textual fusion in foundation models, and (2) perturbation-based methods produce noisy saliency maps, limiting fine-grained interpretability. To address these, we propose a Visual Precision Search method that generates accurate attribution maps with fewer regions. Our method bypasses internal model parameters to overcome attribution issues from multimodal fusion, dividing inputs into sparse sub-regions and using consistency and collaboration scores to accurately identify critical decision-making regions. We also conducted a theoretical analysis of the boundary guarantees and scope of applicability of our method. Experiments on RefCOCO, MS COCO, and LVIS show our approach enhances object-level task interpretability over SOTA for Grounding DINO and Florence-2 across various evaluation metrics, with faithfulness gains of 23.7\%, 31.6\%, and 20.1\% on MS COCO, LVIS, and RefCOCO for Grounding DINO, and 102.9\% and 66.9\% on MS COCO and RefCOCO for Florence-2. Additionally, our method can interpret failures in visual grounding and object detection tasks, surpassing existing methods across multiple evaluation metrics. The code will be released at \url{https://github.com/RuoyuChen10/VPS}.
- Abstract(参考訳): マルチモーダル・プレトレーニングの進歩は、視覚的な接地や物体検出といったタスクにおいて、グラウンディング・ディノやフローレンス-2のようなオブジェクトレベルの基礎モデルを推進してきた。
しかし、これらのモデルの解釈はますます困難になっている。
1)基礎モデルにおける視覚的テキスト融合による正確な局所化の欠如,(2)摂動に基づく手法はノイズの多い塩分マップを生成し,粒度の細かい解釈可能性を制限する。
そこで本研究では,より少ない領域で正確な属性マップを生成するビジュアル精度検索手法を提案する。
提案手法は,マルチモーダル融合による帰属問題を克服するために内部モデルパラメータをバイパスし,入力を疎部分領域に分割し,一貫性と協調スコアを用いて重要な意思決定領域を正確に同定する。
また,本手法の適用可能性に関する境界保証と適用範囲に関する理論的解析を行った。
RefCOCO, MS COCO, および LVIS に対する実験により, 各種評価指標のSOTA に対するオブジェクトレベルのタスク解釈可能性の向上が図られ, 忠実度は MS COCO, LVIS, RefCOCO において 23.7 %, 31.6 %, 20.1 %, グラウンディング DINO では 102.9 %, 66.9 %, Florence-2 では 102.9 % である。
さらに,複数の評価指標にまたがる既存の手法を超越して,視覚的接地や物体検出タスクにおける障害を解釈することができる。
コードは \url{https://github.com/RuoyuChen10/VPS} でリリースされる。
関連論文リスト
- Assessing and improving reliability of neighbor embedding methods: a map-continuity perspective [2.969441406380581]
隣接する t-SNE, UMAP, LargeVis などの埋め込み手法は、一般的な可視化手法のファミリーである。
近年の研究では、これらの手法がしばしば視覚的な人工物を生み出し、誤った科学的結論につながる可能性が示唆されている。
本稿では,古典的な統計的概念に基づいて埋め込みマップを学習する,新しい概念的・計算的枠組み LOO-map を紹介する。
論文 参考訳(メタデータ) (2024-10-22T01:40:43Z) - Less is More: Fewer Interpretable Region via Submodular Subset Selection [54.07758302264416]
本稿では,上述の画像帰属問題を部分モジュラ部分選択問題として再モデル化する。
我々は、より正確な小さな解釈領域を発見するために、新しい部分モジュラー関数を構築する。
正しく予測されたサンプルに対しては,HSIC-Attributionに対する平均4.9%と2.5%の利得で,Deletion and Insertionスコアを改善した。
論文 参考訳(メタデータ) (2024-02-14T13:30:02Z) - Background Activation Suppression for Weakly Supervised Object
Localization and Semantic Segmentation [84.62067728093358]
弱教師付きオブジェクトローカライゼーションとセマンティックセグメンテーションは、画像レベルのラベルのみを使用してオブジェクトをローカライズすることを目的としている。
画素レベルのローカライゼーションを実現するために,フォアグラウンド予測マップを生成することで,新たなパラダイムが誕生した。
本稿では,物体の局在化学習過程に関する2つの驚くべき実験結果を示す。
論文 参考訳(メタデータ) (2023-09-22T15:44:10Z) - For A More Comprehensive Evaluation of 6DoF Object Pose Tracking [22.696375341994035]
上記の問題に対処するために、統一されたベンチマークに貢献する。
YCBVのより正確なアノテーションとして,多視点多目的グローバルポーズ改善法を提案する。
実験では,リアルな半合成データセットを用いて,提案手法の精度と信頼性を検証した。
論文 参考訳(メタデータ) (2023-09-14T15:35:08Z) - View Consistent Purification for Accurate Cross-View Localization [59.48131378244399]
本稿では,屋外ロボットのための微細な自己局在化手法を提案する。
提案手法は,既存のクロスビューローカライゼーション手法の限界に対処する。
これは、動的環境における知覚を増強する初めての疎視のみの手法である。
論文 参考訳(メタデータ) (2023-08-16T02:51:52Z) - Boosting Few-shot Fine-grained Recognition with Background Suppression
and Foreground Alignment [53.401889855278704]
FS-FGR (Few-shot Fine-fine Recognition) は、限られたサンプルの助けを借りて、新しいきめ細かなカテゴリを認識することを目的としている。
本研究では,背景アクティベーション抑制 (BAS) モジュール,フォアグラウンドオブジェクトアライメント (FOA) モジュール,および局所的局所的(L2L) 類似度測定器からなる2段階の背景アライメントとフォアグラウンドアライメントフレームワークを提案する。
複数のベンチマークで行った実験により,提案手法は既存の最先端技術よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2022-10-04T07:54:40Z) - Tackling Long-Tailed Category Distribution Under Domain Shifts [50.21255304847395]
既存のアプローチでは、両方の問題が存在するシナリオに対処できません。
本研究では,分散校正型分類損失,視覚意味マッピング,セマンティック類似性誘導拡張の3つの新しい機能ブロックを設計した。
AWA2-LTSとImageNet-LTSという2つの新しいデータセットが提案された。
論文 参考訳(メタデータ) (2022-07-20T19:07:46Z) - Occlusion-Robust Object Pose Estimation with Holistic Representation [42.27081423489484]
State-of-the-art(SOTA)オブジェクトのポーズ推定器は2段階のアプローチを取る。
我々は,新しいブロック・アンド・ブラックアウトバッチ拡張技術を開発した。
また,総合的なポーズ表現学習を促進するためのマルチ精度監視アーキテクチャも開発している。
論文 参考訳(メタデータ) (2021-10-22T08:00:26Z) - Learning Crisp Boundaries Using Deep Refinement Network and Adaptive
Weighting Loss [15.867750740607864]
最近の境界検出モデルは、(物体の輪郭に沿って正確に位置付けられた)「クリップ」境界に焦点を当てている
本稿では,よりリッチな特徴表現と新たな損失関数を実現するために,複数の改良モジュールを積み重ねたDep refinement Network(DRNet)を提案する。
実験の結果,いくつかの利用可能なデータセットの最先端性能が得られた。
論文 参考訳(メタデータ) (2021-02-02T04:22:35Z) - Learning Robust Representation for Clustering through Locality
Preserving Variational Discriminative Network [16.259673823482665]
Variational Deep Embeddingは、さまざまなクラスタリングタスクで大きな成功を収めます。
VaDEは,1)入力ノイズに弱い,2)隣接するデータポイント間の局所性情報を無視する,という2つの問題に悩まされている。
強固な埋め込み判別器と局所構造制約によりvadeを改善する共同学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-25T02:31:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。