Fugu-MT 論文翻訳(概要): On the Explainability of Vision-Language Models in Art History

論文の概要: On the Explainability of Vision-Language Models in Art History

arxiv url: http://arxiv.org/abs/2602.20853v1
Date: Tue, 24 Feb 2026 12:53:28 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.750943
Title: On the Explainability of Vision-Language Models in Art History
Title（参考訳）: 美術史における視覚言語モデルの説明可能性について
Authors: Stefanie Schneider,
Abstract要約: 本稿では,視覚言語モデル (VLM) の視覚的推論を美術史的文脈で検証し,XAI(Explainable Artificial Intelligence) 手法によってどのように表現できるかを検討する。以上の結果から,これらの手法は人間の解釈のいくつかの側面を捉えつつも,その効果は概念的安定性とカテゴリの表現可能性に左右されることが示唆された。
参考スコア（独自算出の注目度）: 0.5499453986105878
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-Language Models (VLMs) transfer visual and textual data into a shared embedding space. In so doing, they enable a wide range of multimodal tasks, while also raising critical questions about the nature of machine 'understanding.' In this paper, we examine how Explainable Artificial Intelligence (XAI) methods can render the visual reasoning of a VLM - namely, CLIP - legible in art-historical contexts. To this end, we evaluate seven methods, combining zero-shot localization experiments with human interpretability studies. Our results indicate that, while these methods capture some aspects of human interpretation, their effectiveness hinges on the conceptual stability and representational availability of the examined categories.
Abstract（参考訳）: VLM(Vision-Language Models)は、視覚的およびテキスト的データを共有埋め込み空間に転送する。このようにして、幅広いマルチモーダルタスクを可能にし、マシンの「理解」の性質について批判的な疑問を提起する。本稿では,記述可能な人工知能(XAI)手法がVLMの視覚的推論(すなわちCLIP)をどのように表現できるかを検討する。そこで我々は,ゼロショットローカライゼーション実験と人間の解釈可能性研究を組み合わせた7つの手法の評価を行った。以上の結果から,これらの手法は人間の解釈のいくつかの側面を捉えつつも,その効果は概念的安定性とカテゴリの表現可能性に左右されることが示唆された。

関連論文リスト

Explainable artificial intelligence (XAI): from inherent explainability to large language models [0.0]
説明可能なAI(XAI)技術は、機械学習モデルの説明可能性や解釈可能性を促進する。本稿では、本質的に解釈可能なモデルから現代的なアプローチまで、説明可能なAI手法の進歩について詳述する。我々は、視覚言語モデル(VLM)フレームワークを利用して、他の機械学習モデルの説明可能性を自動化または改善する説明可能なAI技術についてレビューする。
論文参考訳（メタデータ） (2025-01-17T06:16:57Z)
Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文参考訳（メタデータ） (2025-01-08T18:31:16Z)
Unveiling Visual Perception in Language Models: An Attention Head Analysis Approach [33.20992355312175]
MLLM(Multimodal Large Language Models)の最近の進歩は、視覚的理解の著しい進歩を示している。本稿では,4つのモデルファミリーと4つのモデルスケールにまたがる系統的な調査により,この問題に対処することを目的とする。分析の結果,これらの注意ヘッドの挙動,注意重みの分布,および入力中の視覚的トークンへの集中との間には強い相関関係が認められた。
論文参考訳（メタデータ） (2024-12-24T02:31:24Z)
Visual In-Context Learning for Large Vision-Language Models [62.5507897575317]
大規模視覚言語モデル(LVLM)では、言語間相互作用や表現格差の課題により、ICL(In-Context Learning)の有効性が制限されている。本稿では,視覚的記述型検索,意図的画像要約,意図的記述型合成を含む新しい視覚的記述型学習(VICL)手法を提案する。提案手法は'Retrieval & Rerank'パラダイムを用いて画像を検索し,タスク意図とタスク固有の視覚的パーシングで画像を要約し,言語による実演を構成する。
論文参考訳（メタデータ） (2024-02-18T12:43:38Z)
A Survey to Recent Progress Towards Understanding In-Context Learning [37.933016939520684]
In-Context Learning (ICL) は、プロンプトで提供されるいくつかの例から学ぶことができる大規模言語モデル(LLM)を強化する。実証的な成功にもかかわらず、ICLの根底にあるメカニズムはいまだ不明である。
論文参考訳（メタデータ） (2024-02-03T17:13:03Z)
Can Large Language Models Understand Context? [17.196362853457412]
本稿では,生成モデルの評価に適合する既存のデータセットを適応させることにより,文脈理解ベンチマークを提案する。実験結果から, 事前学習された高密度モデルでは, 最先端の微調整モデルと比較して, よりニュアンスな文脈特徴の理解に苦慮していることが明らかとなった。 LLM圧縮は研究と実世界のアプリケーションの両方において重要度が高くなっているため、文脈学習環境下での量子化モデルの文脈理解を評価する。
論文参考訳（メタデータ） (2024-02-01T18:55:29Z)
Revisiting Self-supervised Learning of Speech Representation from a Mutual Information Perspective [68.20531518525273]
我々は、情報理論の観点から、既存の自己教師型音声の手法を詳しく検討する。我々は線形プローブを用いて、対象情報と学習された表現の間の相互情報を推定する。我々は、ラベルを使わずに、データの異なる部分間の相互情報を見積もる自己教師型の表現を評価する可能性を探る。
論文参考訳（メタデータ） (2024-01-16T21:13:22Z)
Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文参考訳（メタデータ） (2023-07-25T17:59:18Z)
SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文参考訳（メタデータ） (2023-07-15T08:33:08Z)
Localization vs. Semantics: Visual Representations in Unimodal and Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文参考訳（メタデータ） (2022-12-01T05:00:18Z)
Causal Reasoning Meets Visual Representation Learning: A Prospective Study [117.08431221482638]
解釈可能性の欠如、堅牢性、分布外一般化が、既存の視覚モデルの課題となっている。人間レベルのエージェントの強い推論能力にインスパイアされた近年では、因果推論パラダイムの開発に多大な努力が注がれている。本稿では,この新興分野を包括的に概観し,注目し,議論を奨励し,新たな因果推論手法の開発の急激さを先導することを目的とする。
論文参考訳（メタデータ） (2022-04-26T02:22:28Z)
Visual Probing: Cognitive Framework for Explaining Self-Supervised Image Representations [12.485001250777248]
近年,画像表現学習のための自己教師付き手法が,完全教師付き競技者に対して,同等以上の結果を提供するようになった。そこで本研究では,自己教師型モデルを説明するための新しい視覚探索フレームワークを提案する。自己指導型表現の文脈において,これらのアナログの有効性と適用性を示す。
論文参考訳（メタデータ） (2021-06-21T12:40:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。