論文の概要: Explaining CLIP through Co-Creative Drawings and Interaction
- arxiv url: http://arxiv.org/abs/2306.07429v1
- Date: Mon, 12 Jun 2023 21:15:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 15:37:01.043245
- Title: Explaining CLIP through Co-Creative Drawings and Interaction
- Title(参考訳): コクレーティブドローイングとインタラクションによるCLIPの解説
- Authors: Varvara Guljajeva and Mar Canet Sol\`a and Isaac Joseph Clarke
- Abstract要約: 本稿では,CLIPdraw Deep Learning(DL)モデルを用いたシステムに観客が夢を語りかけるインタラクティブなロボットアートインスタレーションによって作成された図面の視覚的アーカイブを解析する。
その結果,概念表現の精度に基づいて,プロンプトイメージペアのアーカイブを検証,クラスタ化した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper analyses a visual archive of drawings produced by an interactive
robotic art installation where audience members narrated their dreams into a
system powered by CLIPdraw deep learning (DL) model that interpreted and
transformed their dreams into images. The resulting archive of prompt-image
pairs were examined and clustered based on concept representation accuracy. As
a result of the analysis, the paper proposes four groupings for describing and
explaining CLIP-generated results: clear concept, text-to-text as image,
indeterminacy and confusion, and lost in translation. This article offers a
glimpse into a collection of dreams interpreted, mediated and given form by
Artificial Intelligence (AI), showcasing oftentimes unexpected, visually
compelling or, indeed, the dream-like output of the system, with the emphasis
on processes and results of translations between languages, sign-systems and
various modules of the installation. In the end, the paper argues that proposed
clusters support better understanding of the neural model.
- Abstract(参考訳): 本稿では,CLIPdraw Deep Learning(DL)モデルを用いたシステムに観客が夢を語り、その夢をイメージに解釈し変換する,インタラクティブなロボットアートインスタレーションによる図面の視覚的アーカイブを解析する。
その結果,概念表現精度に基づいて,プロンプトイメージペアのアーカイブを調べ,クラスタリングした。
分析の結果,CLIP生成結果の明確な概念,画像としてのテキスト・トゥ・テキスト,不確定性と混乱,翻訳における損失の4つのグルーピングが提案された。
この記事では、人工知能(AI)が解釈し、仲介し、与えられた形のドリームの集合を垣間見るとともに、しばしば予期せぬ、視覚的に説得力のある、あるいは実際は、システムの夢のような出力を示し、言語、手話システム、インストールの様々なモジュール間の翻訳のプロセスと結果に重点を置いている。
論文は最終的に、提案されたクラスタがニューラルネットワークモデルの理解を深めていると論じている。
関連論文リスト
- Language Model as Visual Explainer [72.88137795439407]
本稿では,木構造言語学的説明を用いた視覚モデル解釈のための体系的アプローチを提案する。
提案手法は,属性を付与した木の形で人間に理解可能な説明を提供する。
提案手法の有効性を確認するため,新しいベンチマークを導入し,厳密な評価を行う。
論文 参考訳(メタデータ) (2024-12-08T20:46:23Z) - Towards Interpreting Visual Information Processing in Vision-Language Models [24.51408101801313]
VLM(Vision-Language Models)は、テキストや画像の処理と理解のための強力なツールである。
著名なVLMであるLLaVAの言語モデルコンポーネントにおける視覚トークンの処理について検討する。
論文 参考訳(メタデータ) (2024-10-09T17:55:02Z) - Compositional Entailment Learning for Hyperbolic Vision-Language Models [54.41927525264365]
画像とテキストのペアを超えて、双曲的埋め込みの自然的階層性を完全に活用する方法を示す。
双曲型視覚言語モデルのための構成的包摂学習を提案する。
数百万の画像テキストペアで訓練された双曲型視覚言語モデルに対する経験的評価は、提案手法が従来のユークリッドCLIP学習より優れていることを示している。
論文 参考訳(メタデータ) (2024-10-09T14:12:50Z) - What Makes a Maze Look Like a Maze? [92.80800000328277]
本稿では,Deep Grounding(DSG)という,視覚的抽象化の明示的な構造化表現を活用してグラウンド化と推論を行うフレームワークを紹介する。
DSGの中核はスキーマ-依存性グラフによる抽象概念の記述で、より原始的なシンボルに分解される。
DSGは視覚言語モデルの抽象的視覚的推論性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-09-12T16:41:47Z) - Explaining Multi-modal Large Language Models by Analyzing their Vision Perception [4.597864989500202]
本研究では,画像埋め込み成分に着目し,MLLMの解釈可能性を高める新しい手法を提案する。
オープンワールドのローカライゼーションモデルとMLLMを組み合わせることで、同じビジョンの埋め込みからテキストとオブジェクトのローカライゼーション出力を同時に生成できる新しいアーキテクチャを構築する。
論文 参考訳(メタデータ) (2024-05-23T14:24:23Z) - Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。
その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-03-21T17:58:56Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Visually-Situated Natural Language Understanding with Contrastive
Reading Model and Frozen Large Language Models [24.456117679941816]
Contrastive Reading Model (Cream)は、Large Language Models (LLM)の言語画像理解能力を高めるために設計された、新しいニューラルネットワークである。
我々のアプローチは、視覚と言語理解のギャップを埋め、より洗練されたドキュメントインテリジェンスアシスタントの開発の道を開く。
論文 参考訳(メタデータ) (2023-05-24T11:59:13Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Compositional Mixture Representations for Vision and Text [43.2292923754127]
視覚と言語の間の共通表現空間により、ディープネットワークは画像内のオブジェクトと対応する意味の意味を関連付けることができる。
本稿では,テキストの合成性を視覚領域に含ませる共有ガウス混合表現を,明示的な位置監督を伴わずに学習するモデルを提案する。
論文 参考訳(メタデータ) (2022-06-13T18:16:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。