論文の概要: The Role of Linguistic Priors in Measuring Compositional Generalization
of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2310.02777v1
- Date: Wed, 4 Oct 2023 12:48:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 15:08:51.056611
- Title: The Role of Linguistic Priors in Measuring Compositional Generalization
of Vision-Language Models
- Title(参考訳): 視覚言語モデルの合成汎化計測における言語先行の役割
- Authors: Chenwei Wu, Li Erran Li, Stefano Ermon, Patrick Haffner, Rong Ge,
Zaiwei Zhang
- Abstract要約: 我々は、言語的先行と画像とテキスト間の相互作用という、視覚言語的構成性の2つの源を同定する。
このような言語的前提を伴わない新しい構成性尺度を提案する。
- 参考スコア(独自算出の注目度): 64.43764443000003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compositionality is a common property in many modalities including natural
languages and images, but the compositional generalization of multi-modal
models is not well-understood. In this paper, we identify two sources of
visual-linguistic compositionality: linguistic priors and the interplay between
images and texts. We show that current attempts to improve compositional
generalization rely on linguistic priors rather than on information in the
image. We also propose a new metric for compositionality without such
linguistic priors.
- Abstract(参考訳): 構成性は、自然言語や画像を含む多くのモダリティにおいて共通の性質であるが、多モードモデルの合成一般化は十分に理解されていない。
本稿では,言語的先行と画像とテキスト間の相互作用という,視覚言語的構成性の源泉を同定する。
構成一般化を改善するための現在の試みは、画像内の情報よりも言語的先行に頼っていることを示す。
また,このような言語的前提を伴わない新しい構成性尺度を提案する。
関連論文リスト
- Analyzing The Language of Visual Tokens [48.62180485759458]
我々は、離散的な視覚言語を分析するために、自然言語中心のアプローチをとる。
トークンの高度化はエントロピーの増大と圧縮の低下を招き,トークンが主にオブジェクト部品を表すことを示す。
また、視覚言語には結合的な文法構造が欠如していることが示され、自然言語と比較して難易度が高く、階層構造が弱いことが判明した。
論文 参考訳(メタデータ) (2024-11-07T18:59:28Z) - On Evaluating Multilingual Compositional Generalization with Translated
Datasets [34.51457321680049]
構成一般化能力は言語によって異なることを示す。
我々は、MCWQデータセットを英語から中国語、日本語に忠実に翻訳する。
MCWQ-Rとよばれるロバストなベンチマークが得られたとしても、構成の分布は言語的な相違によって依然として苦しんでいることが示される。
論文 参考訳(メタデータ) (2023-06-20T10:03:57Z) - Multilingual Conceptual Coverage in Text-to-Image Models [98.80343331645626]
コンセプチュアル・カバー・アクロス言語(Conceptual Coverage Across Languages, CoCo-CroLa)とは、任意の生成的テキスト・画像システムにおいて、有形名詞の観点から学習言語に多言語対応を提供する程度をベンチマークする手法である。
各モデルについて、ソースコード中の一連の有形名詞に生成される画像の集団と、対象言語に翻訳された各名詞に生成された画像の集団とを比較することにより、ソース言語に対して与えられた対象言語の「概念的カバレッジ」を評価することができる。
論文 参考訳(メタデータ) (2023-06-02T17:59:09Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Variational Cross-Graph Reasoning and Adaptive Structured Semantics
Learning for Compositional Temporal Grounding [143.5927158318524]
テンポラルグラウンドティング(Temporal grounding)とは、クエリ文に従って、未編集のビデオから特定のセグメントを特定するタスクである。
新たに構成時間グラウンドタスクを導入し,2つの新しいデータセット分割を構築した。
ビデオや言語に内在する構造的意味論は、構成的一般化を実現する上で重要な要素である、と我々は主張する。
論文 参考訳(メタデータ) (2023-01-22T08:02:23Z) - The Role of Syntactic Planning in Compositional Image Captioning [17.363891408746298]
本研究では,キャプションの構文構造を計画し,構成一般化を改善する手法について検討する。
実験の結果,RNNモデルとTransformerモデルの両方でトークンとタグの一般化を共同でモデル化し,標準メトリクスの性能も向上した。
論文 参考訳(メタデータ) (2021-01-28T10:26:08Z) - Accurate Word Representations with Universal Visual Guidance [55.71425503859685]
本稿では,視覚指導から従来の単語埋め込みを視覚的に強調する視覚的表現法を提案する。
各単語が多様な関連画像に対応するマルチモーダルシードデータセットから,小型の単語画像辞書を構築する。
12の自然言語理解および機械翻訳タスクの実験により,提案手法の有効性と一般化能力がさらに検証された。
論文 参考訳(メタデータ) (2020-12-30T09:11:50Z) - Compositionality and Generalization in Emergent Languages [42.68870559695238]
深層マルチエージェントシミュレーションで現れる言語が、新しいプリミティブの組み合わせに類似する能力を持っているかどうかを考察する。
創発的言語の合成度合いと一般化能力の相関関係は見つからない。
構成的な言語が多ければ多いほど、新しい学習者が習得しやすくなります。
論文 参考訳(メタデータ) (2020-04-20T08:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。