論文の概要: The Roles of Contextual Semantic Relevance Metrics in Human Visual Processing
- arxiv url: http://arxiv.org/abs/2410.09921v1
- Date: Sun, 13 Oct 2024 17:05:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 04:13:22.688207
- Title: The Roles of Contextual Semantic Relevance Metrics in Human Visual Processing
- Title(参考訳): 視覚処理における文脈意味的関連尺度の役割
- Authors: Kun Sun, Rong Wang,
- Abstract要約: 本研究では,文脈意味的関連性の指標を紹介する。
対象オブジェクトとその周辺環境間の意味的関係を視覚的・言語的両面から評価する。
我々は、最先端のディープラーニング技術を用いて、これらのメトリクスを計算し、人間の視覚処理に対する修正措置への影響を分析する。
- 参考スコア(独自算出の注目度): 27.152245569974678
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Semantic relevance metrics can capture both the inherent semantics of individual objects and their relationships to other elements within a visual scene. Numerous previous research has demonstrated that these metrics can influence human visual processing. However, these studies often did not fully account for contextual information or employ the recent deep learning models for more accurate computation. This study investigates human visual perception and processing by introducing the metrics of contextual semantic relevance. We evaluate semantic relationships between target objects and their surroundings from both vision-based and language-based perspectives. Testing a large eye-movement dataset from visual comprehension, we employ state-of-the-art deep learning techniques to compute these metrics and analyze their impacts on fixation measures on human visual processing through advanced statistical models. These metrics could also simulate top-down and bottom-up processing in visual perception. This study further integrates vision-based and language-based metrics into a novel combined metric, addressing a critical gap in previous research that often treated visual and semantic similarities separately. Results indicate that all metrics could precisely predict fixation measures in visual perception and processing, but with distinct roles in prediction. The combined metric outperforms other metrics, supporting theories that emphasize the interaction between semantic and visual information in shaping visual perception/processing. This finding aligns with growing recognition of the importance of multi-modal information processing in human cognition. These insights enhance our understanding of cognitive mechanisms underlying visual processing and have implications for developing more accurate computational models in fields such as cognitive science and human-computer interaction.
- Abstract(参考訳): 意味的関連性メトリクスは、個々のオブジェクトの本質的意味と、視覚的なシーン内の他の要素との関係の両方をキャプチャすることができる。
過去の多くの研究では、これらの指標が人間の視覚処理に影響を与えることが示されている。
しかし、これらの研究は文脈情報を完全に説明しなかったり、最近のディープラーニングモデルを使ってより正確な計算を行ったりすることが多かった。
本研究では,文脈意味的関連性の指標を導入することにより,人間の視覚知覚と処理について検討する。
対象オブジェクトとその周辺環境間の意味的関係を視覚的・言語的両面から評価する。
視覚的理解から大規模眼球運動データセットをテストし、最先端のディープラーニング技術を用いて、これらのメトリクスを計算し、高度な統計モデルによる人間の視覚処理に対する修正措置への影響を分析する。
これらのメトリクスは、視覚知覚におけるトップダウンとボトムアップの処理をシミュレートすることもできる。
本研究は,視覚的および意味的類似点を別々に扱うことの多い過去の研究において重要なギャップに対処するため,視覚的および言語に基づくメトリクスを新しい組み合わせ尺度に統合する。
結果は、すべての指標が視覚知覚と処理において正確に修正を予測できるが、予測において異なる役割を持つことを示している。
統合されたメトリクスは他の指標よりも優れており、視覚知覚/処理を形作る際に意味情報と視覚情報の相互作用を強調する理論を支持している。
この発見は、人間の認知におけるマルチモーダル情報処理の重要性の認識の高まりと一致している。
これらの知見は、視覚処理の基礎となる認知メカニズムの理解を深め、認知科学や人間とコンピュータの相互作用といった分野において、より正確な計算モデルを開発するための意味を持つ。
関連論文リスト
- Probing the contents of semantic representations from text, behavior, and brain data using the psychNorms metabase [0.0]
テキスト,行動,脳データから得られた意味表現の類似性と相違について検討した。
我々は、人間の表現や行動を把握するためのテキストの重要な補完として行動を確立する。
論文 参考訳(メタデータ) (2024-12-06T10:44:20Z) - When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Attention-aware semantic relevance predicting Chinese sentence reading [6.294658916880712]
本研究では,文脈意味的関連性を計算するための注意意識的アプローチを提案する。
意味的関連性の注意を意識したメトリクスは、中国語読解タスクの固定期間をより正確に予測することができる。
私たちのアプローチは、人間の言語理解と処理方法の理解を深めるために、これらのメトリクスの可能性を強調します。
論文 参考訳(メタデータ) (2024-03-27T13:22:38Z) - Revisiting Self-supervised Learning of Speech Representation from a
Mutual Information Perspective [68.20531518525273]
我々は、情報理論の観点から、既存の自己教師型音声の手法を詳しく検討する。
我々は線形プローブを用いて、対象情報と学習された表現の間の相互情報を推定する。
我々は、ラベルを使わずに、データの異なる部分間の相互情報を見積もる自己教師型の表現を評価する可能性を探る。
論文 参考訳(メタデータ) (2024-01-16T21:13:22Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Visualizing and Understanding Contrastive Learning [22.553990823550784]
一対のイメージから類似性学習タスクを理解するのに寄与する視覚的説明法を設計する。
また、画像分類システムの視覚的説明を評価するために用いられる既存のメトリクスを、一対の説明に適合させる。
論文 参考訳(メタデータ) (2022-06-20T13:01:46Z) - Learnable Visual Words for Interpretable Image Recognition [70.85686267987744]
モデル予測動作を2つの新しいモジュールで解釈するLearable Visual Words (LVW)を提案する。
意味的な視覚的単語学習は、カテゴリ固有の制約を緩和し、異なるカテゴリ間で共有される一般的な視覚的単語を可能にする。
6つの視覚的ベンチマーク実験により,提案したLVWの精度とモデル解釈における優れた効果が示された。
論文 参考訳(メタデータ) (2022-05-22T03:24:45Z) - Efficient Multi-Modal Embeddings from Structured Data [0.0]
マルチモーダルワードセマンティクスは、知覚入力による埋め込みを強化することを目的としている。
ビジュアルグラウンドは言語アプリケーションにも貢献できる。
新しい埋め込みは、テキストベースの埋め込みのための補完的な情報を伝達する。
論文 参考訳(メタデータ) (2021-10-06T08:42:09Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。