論文の概要: Discovering Meaningful Units with Visually Grounded Semantics from Image Captions
- arxiv url: http://arxiv.org/abs/2511.11262v1
- Date: Fri, 14 Nov 2025 12:56:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.610395
- Title: Discovering Meaningful Units with Visually Grounded Semantics from Image Captions
- Title(参考訳): 画像キャプションから視覚的に接地した意味のある単位を発見する
- Authors: Melika Behjati, James Henderson,
- Abstract要約: 視覚言語モデルにとって、現実世界をより深く理解するためには、きめ細かい知識が不可欠である。
トークンをグループ化することで、視覚言語モデルは、視覚と言語をより細かく理解できることが示される。
- 参考スコア(独自算出の注目度): 5.607062592001981
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-grained knowledge is crucial for vision-language models to obtain a better understanding of the real world. While there has been work trying to acquire this kind of knowledge in the space of vision and language, it has mostly focused on aligning the image patches with the tokens on the language side. However, image patches do not have any meaning to the human eye, and individual tokens do not necessarily carry groundable information in the image. It is groups of tokens which describe different aspects of the scene. In this work, we propose a model which groups the caption tokens as part of its architecture in order to capture a fine-grained representation of the language. We expect our representations to be at the level of objects present in the image, and therefore align our representations with the output of an image encoder trained to discover objects. We show that by learning to group the tokens, the vision-language model has a better fine-grained understanding of vision and language. In addition, the token groups that our model discovers are highly similar to groundable phrases in text, both qualitatively and quantitatively.
- Abstract(参考訳): 視覚言語モデルにとって、現実世界をより深く理解するためには、きめ細かい知識が不可欠である。
このような知識を視覚と言語の領域で獲得しようと努力してきたが、主に画像パッチと言語側のトークンの整合性に注力してきた。
しかし、画像パッチは人間の目には何の意味も持たず、個々のトークンは画像に接地可能な情報を必ずしも持たない。
シーンの異なる側面を記述するトークンのグループである。
そこで本研究では,キャプショントークンをアーキテクチャの一部としてグループ化するモデルを提案する。
我々は、表現が画像に存在するオブジェクトのレベルにあることを期待し、それゆえ、表現をオブジェクト発見のために訓練された画像エンコーダの出力と整合させる。
トークンをグループ化することで、視覚言語モデルは、視覚と言語をより細かく理解できることが示される。
さらに、我々のモデルが発見するトークン群は、定性的かつ定量的に、テキスト中の接地可能なフレーズと非常によく似ている。
関連論文リスト
- Compositional Entailment Learning for Hyperbolic Vision-Language Models [54.41927525264365]
画像とテキストのペアを超えて、双曲的埋め込みの自然的階層性を完全に活用する方法を示す。
双曲型視覚言語モデルのための構成的包摂学習を提案する。
数百万の画像テキストペアで訓練された双曲型視覚言語モデルに対する経験的評価は、提案手法が従来のユークリッドCLIP学習より優れていることを示している。
論文 参考訳(メタデータ) (2024-10-09T14:12:50Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Towards Multimodal Vision-Language Models Generating Non-Generic Text [2.102846336724103]
視覚言語モデルは、画像内の視覚的コンテキストを評価し、記述的なテキストを生成することができる。
近年の研究では、画像から抽出したテキストで視覚情報を補うために光学文字認識が用いられている。
本研究では、画像から抽出できるが、現在のモデルでは使用されない付加的な情報から、視覚言語モデルが恩恵を受けることができると論じる。
論文 参考訳(メタデータ) (2022-07-09T01:56:35Z) - Visual Clues: Bridging Vision and Language Foundations for Image
Paragraph Captioning [78.07495777674747]
我々は、視覚的手がかりを用いて、大きな事前訓練された視覚基盤モデルと言語モデルをブリッジすることで、余分なクロスモーダルトレーニングなしでそれを行うことができると論じる。
基礎モデルの強力なゼロショット機能のおかげで、画像のリッチなセマンティック表現を構築することから始める。
大規模言語モデルを用いて視覚的コンテンツを包括的に記述し、視覚モデルによって再度検証し、画像に最適な候補を選択する。
論文 参考訳(メタデータ) (2022-06-03T22:33:09Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。