論文の概要: On the Explainability of Vision-Language Models in Art History
- arxiv url: http://arxiv.org/abs/2602.20853v1
- Date: Tue, 24 Feb 2026 12:53:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.750943
- Title: On the Explainability of Vision-Language Models in Art History
- Title(参考訳): 美術史における視覚言語モデルの説明可能性について
- Authors: Stefanie Schneider,
- Abstract要約: 本稿では,視覚言語モデル (VLM) の視覚的推論を美術史的文脈で検証し,XAI(Explainable Artificial Intelligence) 手法によってどのように表現できるかを検討する。
以上の結果から,これらの手法は人間の解釈のいくつかの側面を捉えつつも,その効果は概念的安定性とカテゴリの表現可能性に左右されることが示唆された。
- 参考スコア(独自算出の注目度): 0.5499453986105878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) transfer visual and textual data into a shared embedding space. In so doing, they enable a wide range of multimodal tasks, while also raising critical questions about the nature of machine 'understanding.' In this paper, we examine how Explainable Artificial Intelligence (XAI) methods can render the visual reasoning of a VLM - namely, CLIP - legible in art-historical contexts. To this end, we evaluate seven methods, combining zero-shot localization experiments with human interpretability studies. Our results indicate that, while these methods capture some aspects of human interpretation, their effectiveness hinges on the conceptual stability and representational availability of the examined categories.
- Abstract(参考訳): VLM(Vision-Language Models)は、視覚的およびテキスト的データを共有埋め込み空間に転送する。
このようにして、幅広いマルチモーダルタスクを可能にし、マシンの「理解」の性質について批判的な疑問を提起する。
本稿では,記述可能な人工知能(XAI)手法がVLMの視覚的推論(すなわちCLIP)をどのように表現できるかを検討する。
そこで我々は,ゼロショットローカライゼーション実験と人間の解釈可能性研究を組み合わせた7つの手法の評価を行った。
以上の結果から,これらの手法は人間の解釈のいくつかの側面を捉えつつも,その効果は概念的安定性とカテゴリの表現可能性に左右されることが示唆された。
関連論文リスト
- Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - Visual In-Context Learning for Large Vision-Language Models [62.5507897575317]
大規模視覚言語モデル(LVLM)では、言語間相互作用や表現格差の課題により、ICL(In-Context Learning)の有効性が制限されている。
本稿では,視覚的記述型検索,意図的画像要約,意図的記述型合成を含む新しい視覚的記述型学習(VICL)手法を提案する。
提案手法は'Retrieval & Rerank'パラダイムを用いて画像を検索し,タスク意図とタスク固有の視覚的パーシングで画像を要約し,言語による実演を構成する。
論文 参考訳(メタデータ) (2024-02-18T12:43:38Z) - A Survey to Recent Progress Towards Understanding In-Context Learning [37.933016939520684]
In-Context Learning (ICL) は、プロンプトで提供されるいくつかの例から学ぶことができる大規模言語モデル(LLM)を強化する。
実証的な成功にもかかわらず、ICLの根底にあるメカニズムはいまだ不明である。
論文 参考訳(メタデータ) (2024-02-03T17:13:03Z) - Can Large Language Models Understand Context? [17.196362853457412]
本稿では,生成モデルの評価に適合する既存のデータセットを適応させることにより,文脈理解ベンチマークを提案する。
実験結果から, 事前学習された高密度モデルでは, 最先端の微調整モデルと比較して, よりニュアンスな文脈特徴の理解に苦慮していることが明らかとなった。
LLM圧縮は研究と実世界のアプリケーションの両方において重要度が高くなっているため、文脈学習環境下での量子化モデルの文脈理解を評価する。
論文 参考訳(メタデータ) (2024-02-01T18:55:29Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Causal Reasoning Meets Visual Representation Learning: A Prospective
Study [117.08431221482638]
解釈可能性の欠如、堅牢性、分布外一般化が、既存の視覚モデルの課題となっている。
人間レベルのエージェントの強い推論能力にインスパイアされた近年では、因果推論パラダイムの開発に多大な努力が注がれている。
本稿では,この新興分野を包括的に概観し,注目し,議論を奨励し,新たな因果推論手法の開発の急激さを先導することを目的とする。
論文 参考訳(メタデータ) (2022-04-26T02:22:28Z) - Visual Probing: Cognitive Framework for Explaining Self-Supervised Image
Representations [12.485001250777248]
近年,画像表現学習のための自己教師付き手法が,完全教師付き競技者に対して,同等以上の結果を提供するようになった。
そこで本研究では,自己教師型モデルを説明するための新しい視覚探索フレームワークを提案する。
自己指導型表現の文脈において,これらのアナログの有効性と適用性を示す。
論文 参考訳(メタデータ) (2021-06-21T12:40:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。