論文の概要: How is Visual Attention Influenced by Text Guidance? Database and Model
- arxiv url: http://arxiv.org/abs/2404.07537v2
- Date: Fri, 12 Apr 2024 08:18:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 12:17:41.973953
- Title: How is Visual Attention Influenced by Text Guidance? Database and Model
- Title(参考訳): テキスト誘導による視覚的注意の影響 : データベースとモデル
- Authors: Yinan Sun, Xiongkuo Min, Huiyu Duan, Guangtao Zhai,
- Abstract要約: 我々は、主観的視点と客観的視点の両方から、テキスト誘導イメージ・サリエンシ(TIS)の研究を行う。
我々は,様々なテキスト記述が視覚的注意に与える影響を,最先端の正当性モデルを用いて分析する。
本稿では,画像特徴とテキスト特徴の両方を抽出,統合し,さまざまなテキスト記述条件下での画像塩分率の予測を行うTGSal予測モデルを提案する。
- 参考スコア(独自算出の注目度): 56.79932907110823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The analysis and prediction of visual attention have long been crucial tasks in the fields of computer vision and image processing. In practical applications, images are generally accompanied by various text descriptions, however, few studies have explored the influence of text descriptions on visual attention, let alone developed visual saliency prediction models considering text guidance. In this paper, we conduct a comprehensive study on text-guided image saliency (TIS) from both subjective and objective perspectives. Specifically, we construct a TIS database named SJTU-TIS, which includes 1200 text-image pairs and the corresponding collected eye-tracking data. Based on the established SJTU-TIS database, we analyze the influence of various text descriptions on visual attention. Then, to facilitate the development of saliency prediction models considering text influence, we construct a benchmark for the established SJTU-TIS database using state-of-the-art saliency models. Finally, considering the effect of text descriptions on visual attention, while most existing saliency models ignore this impact, we further propose a text-guided saliency (TGSal) prediction model, which extracts and integrates both image features and text features to predict the image saliency under various text-description conditions. Our proposed model significantly outperforms the state-of-the-art saliency models on both the SJTU-TIS database and the pure image saliency databases in terms of various evaluation metrics. The SJTU-TIS database and the code of the proposed TGSal model will be released at: https://github.com/IntMeGroup/TGSal.
- Abstract(参考訳): 視覚的注意の分析と予測は、コンピュータビジョンと画像処理の分野で長い間重要な課題であった。
実際の応用では、画像には様々なテキスト記述が伴うことが多いが、テキスト記述が視覚的注意に与える影響を調査する研究は少ない。
本稿では、主観的視点と客観的視点の両方から、テキスト誘導画像サリエンシ(TIS)について包括的な研究を行う。
具体的には、1200のテキストイメージ対とそれに対応するアイトラッキングデータを含む、SJTU-TISというTISデータベースを構築する。
確立されたSJTU-TISデータベースに基づいて、様々なテキスト記述が視覚的注意に与える影響を分析する。
そこで本研究では,テキストの影響を考慮したサリエンシ予測モデルの開発を容易にするために,最先端のサリエンシモデルを用いたSJTU-TISデータベースのベンチマークを構築した。
最後に,テキスト記述が視覚的注意に与える影響を考慮し,既存のサリエンシモデルの多くがこの影響を無視する一方で,様々なテキスト記述条件下で画像特徴とテキスト特徴の両方を抽出・統合するテキスト誘導サリエンシ(TGSal)予測モデルを提案する。
提案手法は,SJTU-TISデータベースと純画像サリエンシデータベースの両モデルにおいて,各種評価指標において,最先端のサリエンシモデルよりも優れていた。
SJTU-TISデータベースと提案されたTGSalモデルのコードは、https://github.com/IntMeGroup/TGSalでリリースされる。
関連論文リスト
- VISTA: A Visual and Textual Attention Dataset for Interpreting Multimodal Models [2.0718016474717196]
統合ビジョンと言語モデル(VLM)は、機械学習研究コミュニティ内のブラックボックスと見なされることが多い。
本稿では、画像領域と対応するテキストセグメント間の特定の関連をマッピングする画像テキスト整列人間の視覚的注意データセットを提案する。
次に、VLモデルによって生成された内部のヒートマップとこのデータセットを比較し、モデルの決定プロセスを分析し、よりよく理解できるようにします。
論文 参考訳(メタデータ) (2024-10-06T20:11:53Z) - Enhancing Vision Models for Text-Heavy Content Understanding and Interaction [0.0]
画像エンコーディングのためのCLIPとMassive Text Embedding Benchmarkのモデルを統合したビジュアルチャットアプリケーションを構築した。
プロジェクトの目的は、複雑な視覚的テキストデータ相互接続データの理解において、先進視覚モデルの能力を高め、強化することである。
論文 参考訳(メタデータ) (2024-05-31T15:17:47Z) - FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - Autoregressive Pre-Training on Pixels and Texts [35.82610192457444]
文書画像とテキストの両方で事前学習された自己回帰フレームワークを用いて、視覚的・テキスト的両言語の二重モードについて検討する。
本手法はマルチモーダル・トレーニング・ストラテジーを用いて,次のパッチ予測による視覚データと,次のトークン予測による回帰ヘッドおよび/またはテキストデータを利用する。
視覚データのみを訓練した一方向画素モデルでは,複数の言語理解タスクにおける最先端の双方向モデルに匹敵する結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-04-16T16:36:50Z) - ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models [92.60282074937305]
テキストリッチな画像に対して文脈に敏感な推論を必要とする人為的な命令を特徴とする新しいデータセットであるConTextualを紹介した。
そこで本研究では,14の基盤モデルの性能評価実験を行い,人為的な性能基準を確立する。
GPT-4Vとヒトのパフォーマンスの30.8%の有意な性能差を観察した。
論文 参考訳(メタデータ) (2024-01-24T09:07:11Z) - Learning the Visualness of Text Using Large Vision-Language Models [42.75864384249245]
視覚的テキストは人の心の中のイメージを誘発するが、視覚的でないテキストはそれを起こさない。
テキスト内の視覚を自動的に検出する手法により、テキスト・ツー・イメージ検索と生成モデルにより、関連する画像でテキストを拡張できる。
我々は,3,620の英語文のデータセットと,複数のアノテータによって提供されるその視覚性スコアをキュレートする。
論文 参考訳(メタデータ) (2023-05-11T17:45:16Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。