論文の概要: Beyond Semantics: Modeling Factual and Affective Perceptual Experiences from Vision-Language Data
- arxiv url: http://arxiv.org/abs/2606.03345v1
- Date: Tue, 02 Jun 2026 08:54:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.884849
- Title: Beyond Semantics: Modeling Factual and Affective Perceptual Experiences from Vision-Language Data
- Title(参考訳): セマンティクスを超えて:ビジョンランゲージデータから実感と感情の知覚体験をモデル化する
- Authors: Youssef Mohamed, Kenneth Ward Church, Mohamed Elhoseiny,
- Abstract要約: Pトピックモデリングに取り組む2段階アーキテクチャである**PercepT**(**Percep**tion topic**T**ransformerを紹介する。
PercepTは意味的に意味のある知覚経験を捉え、既存の方法よりもはるかに優れている。
- 参考スコア(独自算出の注目度): 37.91467682358732
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present P-Topics (Perception Topics) modeling, a novel problem for understanding how images are perceived affectively and across cultures. The goal is to (1) discover and model the different perception experiences in a dataset of images and captions, where each experience is defined by an objective factual and a subjective affective aspect, and (2) associate images to their relevant perception experiences. We introduce **PercepT** (**Percep**tion topic **T**ransformer), a two-stage architecture that tackles P-Topics modeling. In the formation stage, percepT discovers *P-Topics* as visual-textual clusters using an unsupervised training objective, and dynamically selects the number of clusters to match the perceptual richness of the dataset. In the mapping stage, it learns *P-Topic mapping functions* via attention pooling to associate images to their respective clusters. On ArtELingo, PercepT achieves a silhouette score of **0.97** compared to **0.37** from the closest baseline reflecting better perceptual clusters. PercepT also achieves an AUC score of **0.94** compared to **0.77** showing better mapping to perceptual clusters. Human evaluation confirms that PercepT captures semantically meaningful perception experiences and significantly outperforms existing methods. Our implementation will be made public.
- Abstract(参考訳): 本稿では, イメージの感情的・文化的認識の新たな問題として, P-Topics (Perception Topics) モデリングを提案する。
目的は、(1)イメージとキャプションのデータセットにおける異なる知覚経験を発見し、モデル化することであり、そこでは、各体験は、客観的な事実的および主観的な感情的側面によって定義され、(2)イメージと関連する知覚経験を関連づけることである。
Pトピックモデリングに取り組む2段階アーキテクチャである**PercepT**(**Percep**tion topic**T**ransformerを紹介する。
形成段階において、PercepTは、教師なしのトレーニング目標を使用して、*P-Topics*を視覚テキストクラスタとして発見し、データセットの知覚豊かさに合わせるために、クラスタの数を動的に選択する。
マッピング段階では、*Pトピックマッピング関数*をアテンションプールを通じて学習し、各クラスタにイメージを関連付ける。
ArtELingoでは、PercepTはより優れた知覚的クラスタを反映する最も近いベースラインから**0.37*に比べて**0.97*のシルエットスコアを得る。
PercepTはまた、**0.94*のAUCスコアを**0.77*に比べて達成し、知覚クラスタへのより良いマッピングを示す。
人間の評価は、PercepTが意味論的に意味のある知覚経験を捉え、既存の方法よりもはるかに優れていることを確認した。
私たちの実装は公開されます。
関連論文リスト
- ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。
ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文 参考訳(メタデータ) (2025-06-11T19:16:54Z) - Beginning with You: Perceptual-Initialization Improves Vision-Language Representation and Alignment [2.3735961220736423]
視覚表現学習におけるパラダイムシフトである知覚初期化(PI)を導入する。
提案手法は,タスク固有の微調整を使わずに,ゼロショット性能が大幅に向上したことを示す。
私たちの研究は、人間の知覚から始まる「あなたとの交際」が、汎用的な視覚言語知能の強力な基盤を提供することを示している。
論文 参考訳(メタデータ) (2025-05-20T11:04:14Z) - When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - PerceptionCLIP: Visual Classification by Inferring and Conditioning on Contexts [33.109305627550405]
本稿では,人間の視覚知覚過程からインスピレーションを得る。
トレーニング不要で2段階のゼロショット分類手法であるPerceptionCLIPを提案する。
実験の結果,PerceptionCLIPはより優れた一般化,グループロバスト性,相互運用性を実現することがわかった。
論文 参考訳(メタデータ) (2023-08-02T17:57:25Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - Learning an Adaptation Function to Assess Image Visual Similarities [0.0]
ここでは、類推が重要となるとき、視覚的イメージ類似性を学ぶための特定のタスクに焦点を当てる。
本稿では,異なるスケールとコンテンツデータセットで事前学習した,教師付き,半教師付き,自己教師型ネットワークの比較を提案する。
The Totally Looks Like Image dataset conducted on the Totally Looks Like image highlight the interest of our method, by increase the search scores of the best model @1 by 2.25x。
論文 参考訳(メタデータ) (2022-06-03T07:15:00Z) - Object-aware Contrastive Learning for Debiased Scene Representation [74.30741492814327]
オブジェクトを自己教師型でローカライズする,オブジェクト認識型コントラスト学習フレームワークを開発した。
また、コントラCAM、オブジェクト認識型乱作、背景混合に基づく2つのデータ拡張を導入し、コントラスト型自己教師型学習における文脈バイアスと背景バイアスを低減した。
論文 参考訳(メタデータ) (2021-07-30T19:24:07Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。