論文の概要: Relative Drawing Identification Complexity is Invariant to Modality in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.10583v1
- Date: Wed, 14 May 2025 09:41:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:13.174957
- Title: Relative Drawing Identification Complexity is Invariant to Modality in Vision-Language Models
- Title(参考訳): 相対描画同定複雑性は視覚言語モデルにおけるモダリティに不変である
- Authors: Diogo Freitas, Brigt Håvardstun, Cèsar Ferri, Darío Garigliotti, Jan Arne Telle, José Hernández-Orallo,
- Abstract要約: 我々は、生画像をビットマップとし、TikZフォーマットのトレース座標とする2つのプレゼンテーションを用いて、視覚言語モデルを教える複雑さを評価する。
その結果、画像ベースの表現は一般に、より少ないセグメントを必要とし、座標ベースの表現よりも高い精度を達成することが示唆された。
しかし、驚くべきことに、教育の規模は通常、前もって(人間の代理)概念を制御しても、両方のモダリティにまたがる概念をランク付けする。
- 参考スコア(独自算出の注目度): 12.127373862889176
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models have become multimodal, and many of them are said to integrate their modalities using common representations. If this were true, a drawing of a car as an image, for instance, should map to the similar area in the latent space as a textual description of the strokes that conform the drawing. To explore this in a black-box access regime to these models, we propose the use of machine teaching, a theory that studies the minimal set of examples a teacher needs to choose so that the learner captures the concept. In this paper we evaluate the complexity of teaching visual-language models a subset of objects in the Quick, Draw! dataset using two presentations: raw images as bitmaps and trace coordinates in TikZ format. The results indicate that image-based representations generally require fewer segments and achieve higher accuracy than coordinate-based representations. But, surprisingly, the teaching size usually ranks concepts similarly across both modalities, even when controlling for (a human proxy of) concept priors, suggesting that the simplicity of concepts may be an inherent property that transcends modality representations.
- Abstract(参考訳): 大規模言語モデルはマルチモーダルとなり、それらの多くは共通表現を用いてそれらのモダリティを統合すると言われている。
もしこれが真実なら、例えば、画像としての車の描画は、描画に適合するストロークのテキスト記述として、潜伏空間の類似した領域にマッピングすべきである。
これらのモデルに対するブラックボックスアクセス方式でこれを探索するために,教師が選択すべき最小限の事例群を学習者が捉えるために研究する機械教育法を提案する。
本稿では、ビットマップとしての生画像とTikZ形式のトレース座標の2つのプレゼンテーションを用いて、Quick, Draw!データセット内のオブジェクトのサブセットを視覚言語モデルに教えることの複雑さを評価する。
その結果、画像ベースの表現は一般に、より少ないセグメントを必要とし、座標ベースの表現よりも高い精度を達成することが示唆された。
しかし、驚くべきことに、教育の規模は、たとえ(人間のプロキシの)概念を前も、両方のモダリティにまたがって概念をランク付けし、概念の単純さがモダリティ表現を超越する固有の性質である可能性を示唆している。
関連論文リスト
- SketchYourSeg: Mask-Free Subjective Image Segmentation via Freehand Sketches [116.1810651297801]
SketchYourSegは、主観的なイメージセグメンテーションのための強力なクエリモダリティとして、フリーハンドスケッチを確立している。
我々の評価は、様々なベンチマークで既存のアプローチよりも優れた性能を示している。
論文 参考訳(メタデータ) (2025-01-27T13:07:51Z) - Compositional Entailment Learning for Hyperbolic Vision-Language Models [54.41927525264365]
画像とテキストのペアを超えて、双曲的埋め込みの自然的階層性を完全に活用する方法を示す。
双曲型視覚言語モデルのための構成的包摂学習を提案する。
数百万の画像テキストペアで訓練された双曲型視覚言語モデルに対する経験的評価は、提案手法が従来のユークリッドCLIP学習より優れていることを示している。
論文 参考訳(メタデータ) (2024-10-09T14:12:50Z) - Subobject-level Image Tokenization [60.80949852899857]
パッチベースの画像トークン化は、視覚世界の形態を無視する。
サブワードトークン化にヒントを得て,サブオブジェクトレベルの適応トークンセグメンテーションを導入する。
サブオブジェクトのトークン化は、より少ない視覚トークンを使用しながら、より高速な収束とより優れた一般化を可能にすることを示す。
論文 参考訳(メタデータ) (2024-02-22T06:47:44Z) - Keyword Spotting Simplified: A Segmentation-Free Approach using
Character Counting and CTC re-scoring [8.6134769826665]
セグメンテーションフリーなキーワードスポッティングの最近の進歩は、この問題をオブジェクト検出パラダイムとして扱う。
本稿では,クエリ情報を含む長方形領域を見つけるために,文書画像を効率的にスキャンするセグメンテーションフリーシステムを提案する。
論文 参考訳(メタデータ) (2023-08-07T12:11:04Z) - Towards Few-shot Entity Recognition in Document Images: A Graph Neural
Network Approach Robust to Image Manipulation [38.09501948846373]
トークン間のトポロジ的隣接関係を導入し、相対的な位置情報を強調する。
言語モデル埋め込みの上にグラフニューラルネットワーク層を追加することにより、これらのグラフを事前訓練された言語モデルに組み込む。
2つのベンチマークデータセットの実験によると、LAGERは異なる数ショット設定で強いベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2023-05-24T07:34:33Z) - Revisiting Multimodal Representation in Contrastive Learning: From Patch
and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。
提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文 参考訳(メタデータ) (2023-03-27T00:58:39Z) - Dense Semantic Contrast for Self-Supervised Visual Representation
Learning [12.636783522731392]
意味圏決定境界を密度の高いレベルでモデル化するためのDense Semantic Contrast(DSC)を提案する。
本稿では,多粒度表現学習のためのクロスイメージ・セマンティック・コントラッシブ・ラーニング・フレームワークを提案する。
実験結果から,DSCモデルは下流の高密度予測タスクに転送する場合に,最先端の手法よりも優れることがわかった。
論文 参考訳(メタデータ) (2021-09-16T07:04:05Z) - Seed the Views: Hierarchical Semantic Alignment for Contrastive
Representation Learning [116.91819311885166]
一つの画像から生成されたビューをtextbfCross-samples や Multi-level representation に拡張することで,階層的なセマンティックアライメント戦略を提案する。
提案手法はCsMlと呼ばれ,サンプル間の多層視覚表現を堅牢な方法で統合する機能を備えている。
論文 参考訳(メタデータ) (2020-12-04T17:26:24Z) - Learning to Represent Image and Text with Denotation Graph [32.417311523031195]
本稿では,画像とテキスト間の暗黙的・視覚的接地表現の集合から学習表現を提案する。
得られた構造的関係を利用して,最先端のマルチモーダル学習モデルをさらに改良できることを示す。
論文 参考訳(メタデータ) (2020-10-06T18:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。