論文の概要: Seeing the Abstract: Translating the Abstract Language for Vision Language Models
- arxiv url: http://arxiv.org/abs/2505.03242v1
- Date: Tue, 06 May 2025 07:14:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.24061
- Title: Seeing the Abstract: Translating the Abstract Language for Vision Language Models
- Title(参考訳): 抽象言語を見る:視覚言語モデルのための抽象言語を翻訳する
- Authors: Davide Talon, Federico Girella, Ziyue Liu, Marco Cristani, Yiming Wang,
- Abstract要約: 本研究は,抽象表現を持つ高表現領域であるファッション領域に焦点をあてる。
最近の大規模マルチモーダルファッションデータセットを分析することで、抽象用語が支配的な存在であることが分かる。
本稿では, 抽象表現をよく表現されたコンクリートにシフトさせるための, 学習不要でモデルに依存しない ACT (Abstract-to-Concrete Translator) を提案する。
- 参考スコア(独自算出の注目度): 13.065703240655973
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Natural language goes beyond dryly describing visual content. It contains rich abstract concepts to express feeling, creativity and properties that cannot be directly perceived. Yet, current research in Vision Language Models (VLMs) has not shed light on abstract-oriented language. Our research breaks new ground by uncovering its wide presence and under-estimated value, with extensive analysis. Particularly, we focus our investigation on the fashion domain, a highly-representative field with abstract expressions. By analyzing recent large-scale multimodal fashion datasets, we find that abstract terms have a dominant presence, rivaling the concrete ones, providing novel information, and being useful in the retrieval task. However, a critical challenge emerges: current general-purpose or fashion-specific VLMs are pre-trained with databases that lack sufficient abstract words in their text corpora, thus hindering their ability to effectively represent abstract-oriented language. We propose a training-free and model-agnostic method, Abstract-to-Concrete Translator (ACT), to shift abstract representations towards well-represented concrete ones in the VLM latent space, using pre-trained models and existing multimodal databases. On the text-to-image retrieval task, despite being training-free, ACT outperforms the fine-tuned VLMs in both same- and cross-dataset settings, exhibiting its effectiveness with a strong generalization capability. Moreover, the improvement introduced by ACT is consistent with various VLMs, making it a plug-and-play solution.
- Abstract(参考訳): 自然言語は、視覚的内容の描写を辛うじて行うものではない。
それは、直接認識できない感覚、創造性、特性を表現するための豊富な抽象概念を含んでいる。
しかし、現在のビジョン言語モデル(VLM)の研究は、抽象言語に光を当てていない。
我々の研究は、その広い存在と過小評価された価値を明らかにすることによって、広範囲な分析によって、新しい地盤を破る。
特に、抽象表現を持つ高度に表現的な分野であるファッション領域について、本研究の焦点をあてる。
近年の大規模マルチモーダル・ファッション・データセットを解析した結果,抽象用語が支配的な存在であり,具体的用語と競合し,新たな情報を提供し,検索作業に有用であることが判明した。
しかし、現在の汎用またはファッション固有のVLMは、テキストコーパスに十分な抽象語が欠けているデータベースで事前訓練されているため、抽象指向言語を効果的に表現する能力を妨げる。
本稿では, 事前学習モデルと既存のマルチモーダルデータベースを用いて, VLMラテント空間において, 抽象表現をよく表現された具体的な表現へとシフトさせる, 学習自由かつモデルに依存しない ACT (Abstract-to-Concrete Translator) を提案する。
テキスト・ツー・イメージ検索タスクでは、トレーニング不要でありながら、ACTは、同じおよび横断的な設定で微調整されたVLMよりも優れ、強力な一般化能力でその効果を示す。
さらに、ACTによって導入された改善は様々なVLMと一致しており、プラグイン・アンド・プレイのソリューションとなっている。
関連論文リスト
- Emergence and Function of Abstract Representations in Self-Supervised
Transformers [0.0]
本研究では,部分的にマスキングされた視覚シーンを再構築するために訓練された小型トランスフォーマーの内部動作について検討する。
ネットワークは、データセットのすべての意味的特徴をエンコードする中間抽象表現(抽象表現)を開発する。
正確な操作実験を用いて、抽象化がネットワークの意思決定プロセスの中心であることを実証する。
論文 参考訳(メタデータ) (2023-12-08T20:47:15Z) - AbsPyramid: Benchmarking the Abstraction Ability of Language Models with a Unified Entailment Graph [62.685920585838616]
抽象能力は人間の知性において必須であり、言語モデルでは未探索のままである。
本稿では、抽象知識の221Kテキスト記述を統一したエンテーメントグラフであるAbsPyramidを提案する。
論文 参考訳(メタデータ) (2023-11-15T18:11:23Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Semantic Exploration from Language Abstractions and Pretrained
Representations [23.02024937564099]
効果的な探究は強化学習(RL)の課題である
意味論的に意味のある状態抽象化を用いて新規性を定義する。
自然画像キャプションデータセットに基づく視覚言語表現の評価を行った。
論文 参考訳(メタデータ) (2022-04-08T17:08:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。