論文の概要: Exploring the Grounding Issues in Image Caption
- arxiv url: http://arxiv.org/abs/2305.14616v1
- Date: Wed, 24 May 2023 01:30:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 20:49:01.231970
- Title: Exploring the Grounding Issues in Image Caption
- Title(参考訳): 画像キャプションにおける接地問題の検討
- Authors: Pin-Er Chen, Hsin-Yu Chou, Po-Ya Angela Wang, Yu-Hsiang Tseng, Shu-Kai
Hsieh
- Abstract要約: 本稿では,マルチモーダルな意味表現に関する基礎的課題を,計算的認知言語学的視点から考察する。
Flickr30kデータセットの画像に注釈を付け,そのキャプションの探索的分析と統計的モデリングを行った。
- 参考スコア(独自算出の注目度): 0.7349727826230862
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper explores the grounding issue concerning multimodal semantic
representation from a computational cognitive-linguistic view. Five perceptual
properties of groundedness are annotated and analyzed: Affordance, Perceptual
salience, Object number, Gaze cueing, and Ecological Niche Association (ENA).
We annotated selected images from the Flickr30k dataset with exploratory
analyses and statistical modeling of their captions. Our findings suggest that
a comprehensive understanding of an object or event requires cognitive
attention, semantic distinctions in linguistic expression, and multimodal
construction. During this construction process, viewers integrate situated
meaning and affordance into multimodal semantics, which is consolidated into
image captions used in the image-text dataset incorporating visual and textual
elements. Our findings suggest that situated meaning and affordance grounding
are critical for grounded natural language understanding systems to generate
appropriate responses and show the potential to advance the understanding of
human construal in diverse situations.
- Abstract(参考訳): 本稿では,マルチモーダルな意味表現に関する基礎的課題を,計算的認知言語学の観点から考察する。
接地感の5つの知覚特性を注釈し分析する: 順応, 知覚的サリエンス, 対象数, 迷路cueing, エコロジーニチェアソシエーション(ENA)。
Flickr30kデータセットから選択した画像に,探索的解析と統計的キャプションのモデリングを行った。
対象や事象の包括的理解には,認知的注意,言語表現の意味的区別,マルチモーダル構成が必要であることが示唆された。
この構築過程において、視聴者は位置の意味と余裕をマルチモーダルセマンティクスに統合し、視覚およびテキスト要素を含む画像テキストデータセットで使用される画像キャプションに統合する。
本研究は,自然言語理解システムにおいて,位置的意味と余裕の接地が,適切な応答を生じさせ,多様な状況において,人文構成の理解を前進させる可能性を示すために重要であることを示唆する。
関連論文リスト
- StableSemantics: A Synthetic Language-Vision Dataset of Semantic Representations in Naturalistic Images [5.529078451095096]
視覚シーンの意味を理解することはコンピュータビジョンの基本的な課題である。
テキストと画像のフレームワークの最近の進歩は、自然のシーン統計を暗黙的に捉えるモデルにつながっている。
提案するStableSemanticsは、224万件の人為的なプロンプト、処理された自然言語キャプション、200万以上の合成画像、そして個々の名詞のチャンクに対応する1000万のアテンションマップからなるデータセットである。
論文 参考訳(メタデータ) (2024-06-19T17:59:40Z) - Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language
Pretraining? [34.609984453754656]
本研究の目的は,意味表現や構文構造を含む包括的言語知識がマルチモーダルアライメントに与える影響を明らかにすることである。
具体的には、最初の大規模マルチモーダルアライメント探索ベンチマークであるSNAREを設計、リリースする。
論文 参考訳(メタデータ) (2023-08-24T16:17:40Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Visual Semantic Parsing: From Images to Abstract Meaning Representation [20.60579156219413]
自然言語処理の分野で広く使われている意味表現である抽象的意味表現(AMR)を活用することを提案する。
我々の視覚的AMRグラフは、視覚入力から外挿された高レベルな意味概念に焦点をあてて、言語的により理解されている。
本研究は,シーン理解の改善に向けた今後の重要な研究方向を示唆するものである。
論文 参考訳(メタデータ) (2022-10-26T17:06:42Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - From Show to Tell: A Survey on Image Captioning [48.98681267347662]
視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。
画像キャプションの研究はまだ結論に達していない。
本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
論文 参考訳(メタデータ) (2021-07-14T18:00:54Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。