Fugu-MT 論文翻訳(概要): CLoVe: Encoding Compositional Language in Contrastive Vision-Language Models

論文の概要: CLoVe: Encoding Compositional Language in Contrastive Vision-Language Models

arxiv url: http://arxiv.org/abs/2402.15021v2
Date: Fri, 1 Mar 2024 01:52:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-04 13:42:56.014630
Title: CLoVe: Encoding Compositional Language in Contrastive Vision-Language Models
Title（参考訳）: clove:コントラスト視覚言語モデルにおける構成言語エンコーディング
Authors: Santiago Castro, Amir Ziai, Avneesh Saluja, Zhuoning Yuan, Rada Mihalcea
Abstract要約: VLM(Foundational Vision-Language Models)は、オブジェクト中心認識において優れているが、単語順に不変と思われるテキスト表現を学習する。 GPT-4Vのような大規模単一ストリームモデルを含む任意のVLMが、組成を正常に識別する証拠は存在しない。本稿では,既存のモデルが構成言語をエンコードする能力を大幅に向上するフレームワークを提案する。
参考スコア（独自算出の注目度）: 33.80107512462935
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent years have witnessed a significant increase in the performance of Vision and Language tasks. Foundational Vision-Language Models (VLMs), such as CLIP, have been leveraged in multiple settings and demonstrated remarkable performance across several tasks. Such models excel at object-centric recognition yet learn text representations that seem invariant to word order, failing to compose known concepts in novel ways. However, no evidence exists that any VLM, including large-scale single-stream models such as GPT-4V, identifies compositions successfully. In this paper, we introduce a framework to significantly improve the ability of existing models to encode compositional language, with over 10% absolute improvement on compositionality benchmarks, while maintaining or improving the performance on standard object-recognition and retrieval benchmarks. Our code and pre-trained models are publicly available at https://github.com/netflix/clove.
Abstract（参考訳）: 近年では、視覚と言語タスクのパフォーマンスが大幅に向上している。クリップなどの基本視覚言語モデル(vlms)は、複数の設定で活用され、複数のタスクで顕著なパフォーマンスを示している。このようなモデルはオブジェクト中心の認識に優れているが、単語順に不変に見えるテキスト表現を学習し、新しい方法で既知の概念を構成することができない。しかしながら、GPT-4Vのような大規模単一ストリームモデルを含むVLMが、うまく構成を識別する証拠は存在しない。本稿では,既存のモデルが構成言語を符号化し,10%以上の絶対的な構成性ベンチマークの改善を実現しつつ,標準オブジェクト認識・検索ベンチマークの性能を維持・改善するフレームワークを提案する。私たちのコードと事前トレーニングされたモデルはhttps://github.com/netflix/clove.comで公開されています。

関連論文リスト

Understanding the Fine-Grained Knowledge Capabilities of Vision-Language Models [42.79282247484499]
視覚言語モデル(VLM)は、視覚的推論、文書理解、マルチモーダル対話など、幅広い視覚的質問応答ベンチマークで大きく進歩している。最近の研究では、これらのモデルが、きめ細かい視覚的知識をテストする従来の画像分類ベンチマークに後れを取っていることが示されている。我々は、細粒度分類ベンチマークにおいて、多数の最近のVLMをテストし、細粒度知識と他のビジョンベンチマークとの切り離しにおける潜在的な要因を特定した。
論文参考訳（メタデータ） (2026-02-19T22:07:29Z)
CARPE: Context-Aware Image Representation Prioritization via Ensemble for Large Vision-Language Models [7.442802086966249]
CARPE(Context-Aware Image Representation Prioritization via Ensemble)は、視覚統合レイヤとコンテキスト認識アンサンブル戦略を導入した、モデルに依存しないフレームワークである。 CARPEは、視覚エンコーダと言語モデルで構成されるほとんどのオープンソースのLVLMと効果的に統合されるように設計されている。
論文参考訳（メタデータ） (2026-01-20T05:44:33Z)
TowerVision: Understanding and Improving Multilinguality in Vision-Language Models [56.775118098058506]
TowerVisionは、画像テキストとビデオテキストの両方のためのオープンな多言語視覚言語モデルである。微調整中に視覚的、文化的コンテキストを取り入れることで、私たちのモデルは既存のアプローチを超えます。さらなる研究を支援するため、すべてのモデル、データ、トレーニングレシピを公開しています。
論文参考訳（メタデータ） (2025-10-22T17:02:48Z)
TULIP: Towards Unified Language-Image Pretraining [60.99500935831526]
既存のCLIPライクなモデルの代替として,オープンソースでドロップイン可能なTを導入する。提案手法は, 生成データの拡張, 画像画像の強化, テキストコントラスト学習, 画像/テキスト再構成正規化を利用して, きめ細かい視覚的特徴を学習する。当社のアプローチでは、ベンチマーク全体で既存の最先端(SOTA)モデルを上回っています。
論文参考訳（メタデータ） (2025-03-19T17:58:57Z)
EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。 EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文参考訳（メタデータ） (2024-10-02T23:00:31Z)
A Progressive Framework of Vision-language Knowledge Distillation and Alignment for Multilingual Scene [11.265838907079196]
概念的にシンプルだが効果的なCLIP圧縮フレームワークを提案し、中国語と英語の両方の文脈で、DC-CLIPと呼ばれる軽量な多言語視覚言語モデルを訓練する。本研究では,高品質な中国語と英語のテキストイメージを収集し,多言語視覚言語の特徴蒸留とアライメントを含む2つの訓練段階を設計する。 ELEVATERベンチマークに基づくゼロショット画像分類における総合的な実験により、DC-CLIPは英語の文脈において優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-04-17T10:56:06Z)
Towards Multimodal In-Context Learning for Vision & Language Models [21.69457980865084]
VLM(State-of-the-the-art Vision-Language Models)は、ビジョンと言語のモダリティを基盤としている。本稿では, 効果的なデータ混合を用いた, 単純かつ驚くほど効果的なマルチターンカリキュラムベースの学習手法を提案する。
論文参考訳（メタデータ） (2024-03-19T13:53:37Z)
CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文参考訳（メタデータ） (2024-02-21T08:21:12Z)
Expedited Training of Visual Conditioned Language Generation via Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文参考訳（メタデータ） (2023-10-05T03:40:06Z)
Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文参考訳（メタデータ） (2023-09-09T03:01:38Z)
Scalable Performance Analysis for Vision-Language Models [26.45624201546282]
統合視覚言語モデルは、様々なタスクセットに対して優れたパフォーマンスを示している。本稿では、すでにアノテーション付きベンチマークに依存する、よりスケーラブルなソリューションを紹介します。従来,CLIPは単語の袋のように振る舞い,名詞や動詞でより良く振る舞うことが確認された。
論文参考訳（メタデータ） (2023-05-30T06:40:08Z)
Prompting Language-Informed Distribution for Compositional Zero-Shot Learning [73.49852821602057]
合成ゼロショット学習(CZSL)タスクは、目に見えない合成視覚概念を認識することを目的としている。本稿では,タスクに対して言語インフォームド分布(PLID)を指示するモデルを提案する。 MIT-States、UT-Zappos、C-GQAデータセットの実験結果は、PLIDの先行技術よりも優れた性能を示している。
論文参考訳（メタデータ） (2023-05-23T18:00:22Z)
Improving Massively Multilingual ASR With Auxiliary CTC Objectives [40.10307386370194]
FLEURSは102言語によるオープンASRベンチマークである。我々は,最近のコネクショニスト時間分類(CTC)研究から着想を得た手法を考察し,モデルが多数の言語を扱えるようにした。コンバータアーキテクチャを用いた自己教師型モデルを用いた最先端システムでは,相対28.4%CERによるFLEURSの先行研究よりも改善されている。
論文参考訳（メタデータ） (2023-02-24T18:59:51Z)
SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。 SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。 13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文参考訳（メタデータ） (2022-11-28T14:58:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。