Fugu-MT 論文翻訳(概要): ViLLA: Fine-Grained Vision-Language Representation Learning from Real-World Data

論文の概要: ViLLA: Fine-Grained Vision-Language Representation Learning from Real-World Data

arxiv url: http://arxiv.org/abs/2308.11194v1
Date: Tue, 22 Aug 2023 05:03:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-23 19:04:24.715283
Title: ViLLA: Fine-Grained Vision-Language Representation Learning from Real-World Data
Title（参考訳）: ViLLA: 実世界データによる細粒度視覚言語表現学習
Authors: Maya Varma, Jean-Benoit Delbrouck, Sarah Hooper, Akshay Chaudhari, Curtis Langlotz
Abstract要約: 視覚言語モデル(VLM)は一般的に、Webから取得した画像キャプチャペアからなるデータセットに基づいて訓練される。医療データなどの実世界のマルチモーダルデータセットは、はるかに複雑です。 ViLLAは、複雑なデータセットからきめ細かい領域属性関係をキャプチャするために訓練されている。
参考スコア（独自算出の注目度）: 8.905439446173503
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-language models (VLMs), such as CLIP and ALIGN, are generally trained on datasets consisting of image-caption pairs obtained from the web. However, real-world multimodal datasets, such as healthcare data, are significantly more complex: each image (e.g. X-ray) is often paired with text (e.g. physician report) that describes many distinct attributes occurring in fine-grained regions of the image. We refer to these samples as exhibiting high pairwise complexity, since each image-text pair can be decomposed into a large number of region-attribute pairings. The extent to which VLMs can capture fine-grained relationships between image regions and textual attributes when trained on such data has not been previously evaluated. The first key contribution of this work is to demonstrate through systematic evaluations that as the pairwise complexity of the training dataset increases, standard VLMs struggle to learn region-attribute relationships, exhibiting performance degradations of up to 37% on retrieval tasks. In order to address this issue, we introduce ViLLA as our second key contribution. ViLLA, which is trained to capture fine-grained region-attribute relationships from complex datasets, involves two components: (a) a lightweight, self-supervised mapping model to decompose image-text samples into region-attribute pairs, and (b) a contrastive VLM to learn representations from generated region-attribute pairs. We demonstrate with experiments across four domains (synthetic, product, medical, and natural images) that ViLLA outperforms comparable VLMs on fine-grained reasoning tasks, such as zero-shot object detection (up to 3.6 AP50 points on COCO and 0.6 mAP points on LVIS) and retrieval (up to 14.2 R-Precision points).
Abstract（参考訳）: CLIPやALIGNのような視覚言語モデル(VLM)は一般的に、Webから取得した画像キャプチャペアからなるデータセットに基づいて訓練される。しかしながら、医療データのような現実のマルチモーダルデータセットは、より複雑である: 各画像(例えば、X線)は、画像のきめ細かい領域で発生する多くの異なる属性を記述するテキスト(例えば、医師レポート)とペアリングされることが多い。各画像とテキストのペアを多数の領域属性のペアに分解できるため、これらのサンプルは高いペアワイズ複雑度を示す。 VLMが画像領域とテキスト属性の微細な関係を捉えることができる範囲については、これまでは評価されていない。この研究の最初の重要な貢献は、トレーニングデータセットのペアワイズ複雑性が増加するにつれて、標準vlmが地域属性関係の学習に苦慮し、検索タスクで最大37%のパフォーマンス低下を示すという系統的評価を通じて実証することである。この問題に対処するため、第2のキーコントリビューションとしてViLLAを紹介します。 ViLLAは、複雑なデータセットからきめ細かい領域属性関係をキャプチャするために訓練されている。 (a)画像テキストサンプルを地域属性対に分解する軽量で自己監督型マッピングモデル b) 生成された領域属性対から表現を学習する対照的なVLM。 VLLAは、ゼロショットオブジェクト検出(COCO3.6 AP50点、LVIS0.6 mAP点)や検索(14.2 R-Precision点)など、細粒度推論タスクにおいて、VLMよりも優れていることを4つの領域(合成、製品、医療、自然画像)で実証した。

関連論文リスト

Adding simple structure at inference improves Vision-Language Compositionality [15.785274903236663]
本稿では,イメージとキャプションが与えられた場合,イメージを小さな作物に分割する,推論時に単純な構造を加えることを提案する。提案手法は,評価された視覚言語モデルの性能をトレーニングなしで継続的に改善する。
論文参考訳（メタデータ） (2025-06-11T13:06:25Z)
Beyond the Visible: Multispectral Vision-Language Learning for Earth Observation [3.4719449211802456]
Llama3-MS-CLIPは、大規模なマルチスペクトルデータセット上で、コントラスト学習で事前訓練された最初の視覚言語モデルである。我々は,100万個のSentinel-2サンプルからなるマルチスペクトルデータに対して,これまでで最大の画像キャプチャーデータセットを提案する。 Llama3-MS-CLIPを多スペクトルゼロショット画像分類と3つの複雑さのデータセットを用いた検索で評価した。
論文参考訳（メタデータ） (2025-03-20T09:13:31Z)
A Recipe for Improving Remote Sensing VLM Zero Shot Generalization [0.4427533728730559]
本稿では,リモートセンシング基礎モデルのトレーニングのための2つの新しい画像キャプチャーデータセットを提案する。最初のデータセットは、Google Mapsから抽出されたランドマークを使用して、Geminiによって生成されたキャプションと航空画像と衛星画像のペアである。第2のデータセットは、リモートセンシングドメインのためにフィルタリングされたパブリックWebイメージとそれに対応するalt-textを利用する。
論文参考訳（メタデータ） (2025-03-10T21:09:02Z)
RaVL: Discovering and Mitigating Spurious Correlations in Fine-Tuned Vision-Language Models [18.984025219051404]
微調整された視覚言語モデル(VLM)は、画像の特徴とテキスト属性の間に急激な相関関係を捉え、テスト時にゼロショット性能が劣化する。本稿では,局所像特徴を用いた突発的相関の発見と緩和により,VLMの微細な視点を捉えたRaVLを提案する。
論文参考訳（メタデータ） (2024-11-06T18:25:00Z)
ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。 ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文参考訳（メタデータ） (2024-08-19T15:27:25Z)
Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [49.439311430360284]
コントラスト学習と画像差分キャプションにインスパイアされた新しいデータ合成手法を提案する。私たちのキーとなるアイデアは、マッチングと異なる要素の両方を識別するためにモデルに挑戦することです。我々は、この生成されたデータセットを利用して、最先端(SOTA)MLLMを微調整する。
論文参考訳（メタデータ） (2024-08-08T17:10:16Z)
Learning Visual Grounding from Generative Vision and Language Model [29.2712567454021]
ビジュアルグラウンドタスクは、自然言語参照に基づいて画像領域をローカライズすることを目的としている。生成的VLMには基底知識がすでに存在しており、適切なプロンプトによって引き起こすことができる。本研究は,実世界における視覚的接地を拡大するための生成型VLMの可能性を実証するものである。
論文参考訳（メタデータ） (2024-07-18T20:29:49Z)
Visual-Text Cross Alignment: Refining the Similarity Score in Vision-Language Models [21.17975741743583]
近年、CLIP(CLIP)のような事前訓練された視覚言語モデル(VLM)を用いて、クエリイメージ全体をより細かいテキスト記述と整合させることで、ゼロショットのパフォーマンスを著しく向上させることが発見されている。本稿では, より詳細な記述は, 画像全体よりも, クエリ画像の局所的な領域とより効果的に整合する傾向があることを実証的に見出した。
論文参考訳（メタデータ） (2024-06-05T04:08:41Z)
RSGPT: A Remote Sensing Vision Language Model and Benchmark [7.279747655485913]
高品質なリモートセンシング画像キャプチャーデータセット(RSICap)を構築する。このデータセットは、リッチで高品質な情報を備えた2,585の人称注釈付きキャプションからなる。また、RSIEvalと呼ばれるベンチマーク評価データセットも提供します。
論文参考訳（メタデータ） (2023-07-28T02:23:35Z)
JourneyDB: A Benchmark for Generative Image Understanding [89.02046606392382]
生成画像の領域に適合する包括的データセットであるJourneyDBを導入する。精巧にキュレートされたデータセットは、400万の異なる高品質な画像で構成されています。本データセットでは,生成した画像の理解性能を評価するための4つのベンチマークを考案した。
論文参考訳（メタデータ） (2023-07-03T02:39:08Z)
DetCLIPv2: Scalable Open-Vocabulary Object Detection Pre-training via Word-Region Alignment [104.54362490182335]
DetCLIPv2は、大規模な画像テキストペアを組み込んでオープン語彙オブジェクト検出を実現する、効率的なトレーニングフレームワークである。 DetCLIPv2は、大量の画像テキスト対から端から端まで、粒度の細かい単語領域アライメントを直接学習する。 DetCLIPv2は1300万のイメージテキストペアを事前トレーニングすることで、より優れたオープン語彙検出性能を示す。
論文参考訳（メタデータ） (2023-04-10T11:08:15Z)
Vision-Language Modelling For Radiological Imaging and Reports In The Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文参考訳（メタデータ） (2023-03-30T18:20:00Z)
RegionCLIP: Region-based Language-Image Pretraining [94.29924084715316]
画像テキストペアを用いたコントラスト言語画像事前学習(CLIP)は,画像分類において顕著な結果を得た。そこで我々は,CLIPを拡張して領域レベルの視覚表現を学習するRegionalCLIPという手法を提案する。提案手法は,COCOデータセットとLVISデータセットの新たなカテゴリに対して,3.8 AP50と2.2 APの精度を著しく向上させる。
論文参考訳（メタデータ） (2021-12-16T18:39:36Z)
Campus3D: A Photogrammetry Point Cloud Benchmark for Hierarchical Understanding of Outdoor Scene [76.4183572058063]
複数の屋外シーン理解タスクに対して,リッチな注釈付き3Dポイントクラウドデータセットを提案する。データセットは階層型ラベルとインスタンスベースのラベルの両方でポイントワイズアノテートされている。本稿では,3次元点雲分割のための階層的学習問題を定式化し,様々な階層間の整合性を評価することを提案する。
論文参考訳（メタデータ） (2020-08-11T19:10:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。