論文の概要: Uncovering Visual-Semantic Psycholinguistic Properties from the Distributional Structure of Text Embedding Space
- arxiv url: http://arxiv.org/abs/2505.23029v2
- Date: Wed, 04 Jun 2025 18:51:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 14:14:43.12173
- Title: Uncovering Visual-Semantic Psycholinguistic Properties from the Distributional Structure of Text Embedding Space
- Title(参考訳): テキスト埋め込み空間の分布構造から視覚的セマンティックな心理言語特性を明らかにする
- Authors: Si Wu, Sebastian Bruch,
- Abstract要約: イメージ可能性と具体性は、視覚空間と意味空間をリンクする心理言語学的特性である。
画像キャプチャデータセットのテキスト自身は、これらの特性を正確に推定するのに十分な信号を提供する。
本稿では,ピークのシャープネスを定量化する,教師なし分布自由度尺度を提案する。
- 参考スコア(独自算出の注目度): 7.995466888923514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imageability (potential of text to evoke a mental image) and concreteness (perceptibility of text) are two psycholinguistic properties that link visual and semantic spaces. It is little surprise that computational methods that estimate them do so using parallel visual and semantic spaces, such as collections of image-caption pairs or multi-modal models. In this paper, we work on the supposition that text itself in an image-caption dataset offers sufficient signals to accurately estimate these properties. We hypothesize, in particular, that the peakedness of the neighborhood of a word in the semantic embedding space reflects its degree of imageability and concreteness. We then propose an unsupervised, distribution-free measure, which we call Neighborhood Stability Measure (NSM), that quantifies the sharpness of peaks. Extensive experiments show that NSM correlates more strongly with ground-truth ratings than existing unsupervised methods, and is a strong predictor of these properties for classification. Our code and data are available on GitHub (https://github.com/Artificial-Memory-Lab/imageability).
- Abstract(参考訳): イメージ可能性(心的イメージを誘発するテキストの可能性)と具体性(テキストの知覚性)は、視覚空間と意味空間をリンクする2つの心理言語学的特性である。
画像キャプチャペアのコレクションやマルチモーダルモデルなど、並列的な視覚空間とセマンティック空間を使ってそれらを推定する計算手法は、それほど驚きではない。
本稿では,画像キャプチャデータセットのテキスト自体が,それらの特性を正確に推定するのに十分な信号を提供するという仮定について検討する。
特に、意味的な埋め込み空間における単語の近傍のピークは、その画像性や具体性を反映していると仮定する。
次に、ピークのシャープネスを定量化するNSM(Neighborhood Stability Measure)と呼ばれる、教師なし分布自由度尺度を提案する。
広範囲にわたる実験により、NSMは既存の教師なし手法よりも地中信頼度と強く相関していることが示され、分類のためのこれらの特性の強い予測因子である。
私たちのコードとデータはGitHubで公開されています(https://github.com/Artificial-Memory-Lab/imageability)。
関連論文リスト
- Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-01-30T17:21:30Z) - Is An Image Worth Five Sentences? A New Look into Semantics for
Image-Text Matching [10.992151305603267]
本稿では,検索項目の意味的関連度を評価するための2つの指標を提案する。
画像キャプションの指標であるCIDErを用いて,標準的な三重項損失に最適化されるセマンティック適応マージン(SAM)を定義する。
論文 参考訳(メタデータ) (2021-10-06T09:54:28Z) - Exploring Set Similarity for Dense Self-supervised Representation
Learning [96.35286140203407]
本研究では,高密度自己教師型表現学習のためのtextbfset textbfsimilarity (SetSim) を提案する。
ピクセルワイドの類似性学習をセットワイドに一般化し,よりセマンティックな情報や構造的な情報を含むため,ロバスト性を向上させる。
具体的には、ビューの注意的特徴に頼って対応する集合を定め、不適切な対応を引き起こす可能性のあるノイズの多い背景をフィルタリングする。
論文 参考訳(メタデータ) (2021-07-19T09:38:27Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Grounded and Controllable Image Completion by Incorporating Lexical
Semantics [111.47374576372813]
Lexical Semantic Image Completion (LSIC)は、芸術、デザイン、遺産保護に潜在的な応用をもたらす可能性がある。
視覚的文脈と語彙的文脈の両方に忠実な結果を生成することを提唱する。
LSICの大きな課題の1つは、ビジュアル・セマンティック・コンテキストの構造をモデル化し整合させることである。
論文 参考訳(メタデータ) (2020-02-29T16:54:21Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z) - Deep Multimodal Image-Text Embeddings for Automatic Cross-Media
Retrieval [0.0]
視覚と言語表現を同時に学習するための,エンドツーエンドの深層マルチモーダル畳み込み再帰ネットワークを提案する。
このモデルは、どのペアがマッチ(正)か、どれがミスマッチ(負)かをヒンジベースの三重項ランキングを用いて学習する。
論文 参考訳(メタデータ) (2020-02-23T23:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。