Fugu-MT 論文翻訳(概要): Language Model as Visual Explainer

論文の概要: Language Model as Visual Explainer

arxiv url: http://arxiv.org/abs/2412.07802v1
Date: Sun, 08 Dec 2024 20:46:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-12 23:20:26.415572
Title: Language Model as Visual Explainer
Title（参考訳）: Visual Explainerとしての言語モデル
Authors: Xingyi Yang, Xinchao Wang,
Abstract要約: 本稿では,木構造言語学的説明を用いた視覚モデル解釈のための体系的アプローチを提案する。提案手法は,属性を付与した木の形で人間に理解可能な説明を提供する。提案手法の有効性を確認するため,新しいベンチマークを導入し,厳密な評価を行う。
参考スコア（独自算出の注目度）: 72.88137795439407
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we present Language Model as Visual Explainer LVX, a systematic approach for interpreting the internal workings of vision models using a tree-structured linguistic explanation, without the need for model training. Central to our strategy is the collaboration between vision models and LLM to craft explanations. On one hand, the LLM is harnessed to delineate hierarchical visual attributes, while concurrently, a text-to-image API retrieves images that are most aligned with these textual concepts. By mapping the collected texts and images to the vision model's embedding space, we construct a hierarchy-structured visual embedding tree. This tree is dynamically pruned and grown by querying the LLM using language templates, tailoring the explanation to the model. Such a scheme allows us to seamlessly incorporate new attributes while eliminating undesired concepts based on the model's representations. When applied to testing samples, our method provides human-understandable explanations in the form of attribute-laden trees. Beyond explanation, we retrained the vision model by calibrating it on the generated concept hierarchy, allowing the model to incorporate the refined knowledge of visual attributes. To access the effectiveness of our approach, we introduce new benchmarks and conduct rigorous evaluations, demonstrating its plausibility, faithfulness, and stability.
Abstract（参考訳）: 本稿では,木構造言語説明を用いた視覚モデルの内部動作を,モデルトレーニングを必要とせずに解釈するための体系的アプローチとして,言語モデルをVisual Explainer LVXとして提示する。私たちの戦略の中心は、視覚モデルとLCMによる説明作成のコラボレーションです。一方、LLMは階層的な視覚属性を記述し、同時にテキスト・ツー・イメージAPIはこれらのテキスト概念に最も適合したイメージを検索する。収集したテキストや画像を視覚モデルの埋め込み空間にマッピングすることにより、階層構造を持つ視覚埋め込みツリーを構築する。この木は動的に刈り取られ、言語テンプレートを使用してLLMに問い合わせ、モデルの説明を調整することで成長する。このようなスキームにより、モデル表現に基づいた望ましくない概念を排除しながら、新しい属性をシームレスに組み込むことができる。本手法は, 試験試料に適用した場合, 属性を付与した木の形で人間に理解可能な説明を与える。説明以外にも、生成した概念階層を校正することで、視覚モデルを再訓練し、視覚特性の洗練された知識を組み込むことを可能にした。提案手法の有効性を明らかにするため,新しいベンチマークを導入し,厳密な評価を行い,その妥当性,忠実性,安定性を実証する。

関連論文リスト

Global and Local Entailment Learning for Natural World Imagery [7.874291189886743]
Radial Cross-Modal Embeddings (RCME) は、推移性強化エンテーメントの明示的なモデリングを可能にするフレームワークである。生活樹の階層を表現できる階層的視覚言語基盤モデルを構築した。
論文参考訳（メタデータ） (2025-06-26T17:05:06Z)
Decoupled Visual Interpretation and Linguistic Reasoning for Math Problem Solving [57.22004912994658]
現在の大型視覚言語モデル(LVLM)は、通常、大型言語モデル(LLM)のテキスト埋め込みと視覚的特徴をリンクするためのコネクタモジュールを使用する。本稿では,エンド・ツー・エンドの視覚言語推論モデルをトレーニングする代わりに,分離された推論フレームワークの開発を提唱する。
論文参考訳（メタデータ） (2025-05-23T08:18:00Z)
Emergent Visual-Semantic Hierarchies in Image-Text Representations [13.300199242824934]
既存の基盤モデルの知識について検討し、視覚・意味的階層の創発的な理解を示すことを明らかにする。本稿では,階層的理解の探索と最適化を目的としたRadial Embedding (RE)フレームワークを提案する。
論文参考訳（メタデータ） (2024-07-11T14:09:42Z)
Concept-based Analysis of Neural Networks via Vision-Language Models [17.406352568156542]
我々は、視覚モデルについて推論できるレンズとして、新しいマルチモーダル、ヴィジュアル言語、ファンデーションモデル(VLM)を活用することを提案する。これらの概念の観点から仕様の記述を容易にするために設計された論理仕様言語 $textttCon_textttspec について説明する。我々は、与えられた視覚モデルの内部表現とVLMの間のマップを構築し、視覚モデルに対する自然言語特性の効率的な検証手順を導出する。
論文参考訳（メタデータ） (2024-03-28T21:15:38Z)
Advancing Ante-Hoc Explainable Models through Generative Adversarial Networks [24.45212348373868]
本稿では,視覚的分類タスクにおけるモデル解釈可能性と性能を向上させるための新しい概念学習フレームワークを提案する。本手法では, 教師なし説明生成器を一次分類器ネットワークに付加し, 対角訓練を利用する。この研究は、タスク整合概念表現を用いた本質的に解釈可能なディープビジョンモデルを構築するための重要なステップを示す。
論文参考訳（メタデータ） (2024-01-09T16:16:16Z)
A Vision Check-up for Language Models [61.852026871772914]
テキストのモデルを用いて、予備的な視覚表現学習システムをどのように訓練するかを示す。自己教師付き視覚表現学習の実験は、自然画像のセマンティックアセスメントを行うことができる視覚モデルを訓練する可能性を強調している。
論文参考訳（メタデータ） (2024-01-03T18:09:33Z)
3VL: using Trees to teach Vision & Language models compositional concepts [45.718319397947056]
本稿では,Tree-augmented Vision-Language (3VL)モデルアーキテクチャとトレーニング手法を紹介する。テキスト統一のための単純な手法であるAnchorが、ニュアンス要素をフィルタするためにどのように使用できるかを示す。また、VLMマップ間の差分関連性比較を行うDiReにより、モデルの成功や失敗の説得力のある可視化を生成できることを示す。
論文参考訳（メタデータ） (2023-12-28T20:26:03Z)
Interpreting and Controlling Vision Foundation Models via Text Explanations [45.30541722925515]
本稿では,視覚変換器の潜在トークンを自然言語で解釈するフレームワークを提案する。我々のアプローチは、追加のモデルトレーニングやデータ収集を必要とせずに、モデルの視覚的推論手順の理解を可能にする。
論文参考訳（メタデータ） (2023-10-16T17:12:06Z)
DeViL: Decoding Vision features into Language [53.88202366696955]
ポストホックな説明法は、ディープニューラルネットワークの意思決定プロセスを抽象化するためにしばしば批判されてきた。この研究では、ビジョンバックボーンの異なるレイヤが学んだことについて、自然言語で記述したいと考えています。我々は、トランスフォーマーネットワークをトレーニングし、任意の視覚層の個々の画像特徴を、分離した既製の言語モデルが自然言語に復号するプロンプトに変換する。
論文参考訳（メタデータ） (2023-09-04T13:59:55Z)
Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文参考訳（メタデータ） (2023-09-02T22:14:26Z)
Visually-Situated Natural Language Understanding with Contrastive Reading Model and Frozen Large Language Models [24.456117679941816]
Contrastive Reading Model (Cream)は、Large Language Models (LLM)の言語画像理解能力を高めるために設計された、新しいニューラルネットワークである。我々のアプローチは、視覚と言語理解のギャップを埋め、より洗練されたドキュメントインテリジェンスアシスタントの開発の道を開く。
論文参考訳（メタデータ） (2023-05-24T11:59:13Z)
Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文参考訳（メタデータ） (2022-10-18T17:01:35Z)
K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文参考訳（メタデータ） (2022-04-20T04:47:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。