論文の概要: Visual Interestingness Decoded: How GPT-4o Mirrors Human Interests
- arxiv url: http://arxiv.org/abs/2510.13316v1
- Date: Wed, 15 Oct 2025 09:04:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.584173
- Title: Visual Interestingness Decoded: How GPT-4o Mirrors Human Interests
- Title(参考訳): GPT-4oはどのように人間の興味を映すか
- Authors: Fitim Abdullahu, Helmut Grabner,
- Abstract要約: 視覚的面白さの概念を理解するために,大規模マルチモーダルモデルの可能性を探る。
本研究は, LMM である GPT-4o とヒトの部分的アライメントを明らかにする。
この洞察は、人間の関心をより深く理解するための道を開く。
- 参考スコア(独自算出の注目度): 4.297070083645049
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Our daily life is highly influenced by what we consume and see. Attracting and holding one's attention -- the definition of (visual) interestingness -- is essential. The rise of Large Multimodal Models (LMMs) trained on large-scale visual and textual data has demonstrated impressive capabilities. We explore these models' potential to understand to what extent the concepts of visual interestingness are captured and examine the alignment between human assessments and GPT-4o's, a leading LMM, predictions through comparative analysis. Our studies reveal partial alignment between humans and GPT-4o. It already captures the concept as best compared to state-of-the-art methods. Hence, this allows for the effective labeling of image pairs according to their (commonly) interestingness, which are used as training data to distill the knowledge into a learning-to-rank model. The insights pave the way for a deeper understanding of human interest.
- Abstract(参考訳): 私たちの日常生活は、消費されるものや見るものの影響を強く受けています。
注意を引き付け、保持すること -- 視覚的な)面白さの定義 -- が不可欠です。
大規模視覚およびテキストデータに基づくLMM(Large Multimodal Models)の台頭は、目覚ましい能力を示している。
視覚的面白さの概念がどの程度捉えられるかを理解するためのこれらのモデルのポテンシャルを探求し、人間の評価と、先行するLMMであるGPT-4oのアライメントを比較分析により検討する。
本研究は,ヒトとGPT-4oの部分的アライメントを明らかにする。
最先端の手法と比較しても、すでにこのコンセプトを捉えている。
これにより、学習からランクまでのモデルに知識を抽出するためのトレーニングデータとして使用される、(一般的に)興味深いことから、イメージペアの効果的なラベル付けが可能になる。
この洞察は、人間の関心をより深く理解するための道を開く。
関連論文リスト
- Large Language Model-Informed Feature Discovery Improves Prediction and Interpretation of Credibility Perceptions of Visual Content [0.24999074238880484]
本稿では,Large Language Model (LLM) を用いた特徴発見フレームワークを導入する。
対象のプロンプトを用いて解釈可能な特徴を抽出・定量化し、それらを機械学習モデルに統合して信頼性予測を改善する。
提案手法は,R2においてゼロショットGPTに基づく予測を13%向上させ,情報具体性や画像フォーマットなどの重要な特徴を明らかにした。
論文 参考訳(メタデータ) (2025-04-15T05:11:40Z) - Gemini vs GPT-4V: A Preliminary Comparison and Combination of
Vision-Language Models Through Qualitative Cases [98.35348038111508]
本稿では,Google の Gemini と OpenAI の GPT-4V(ision) の2つのパイオニアモデルについて,詳細な比較研究を行った。
分析の核となるのは、各モデルの視覚的理解能力である。
両モデルのユニークな強みとニッチを照らし出した。
論文 参考訳(メタデータ) (2023-12-22T18:59:58Z) - A Comprehensive Evaluation of GPT-4V on Knowledge-Intensive Visual Question Answering [53.70661720114377]
マルチモーダル・大型モデル(MLM)は視覚的理解の分野を著しく進歩させ、視覚的質問応答(VQA)の領域で顕著な能力を提供している
しかし、真の課題は知識集約型VQAタスクの領域にある。
1) モデルが視覚的手がかりを理解し、一般的な知識にどのように結びつくかを評価するコモンセンス知識、2) 画像から特定の知識を推論し、提示する際のモデルのスキルをテストする微粒な世界知識。
論文 参考訳(メタデータ) (2023-11-13T18:22:32Z) - The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.42924593374127]
我々は,最新のモデルであるGPT-4Vを分析し,LMMの理解を深める。
GPT-4Vは、任意にインターリーブされたマルチモーダル入力を処理するという前例のない能力により、強力なマルチモーダルジェネラリストシステムとなっている。
GPT-4Vの、入力画像に描かれた視覚マーカーを理解するユニークな能力は、新しい人間とコンピュータの相互作用方法をもたらす。
論文 参考訳(メタデータ) (2023-09-29T17:34:51Z) - Unsupervised discovery of Interpretable Visual Concepts [0.0]
モデルの決定を説明する2つの方法を提案し,グローバルな解釈可能性を高める。
咬合・感性分析(因果性を含む)にインスパイアされた1つの方法
別の方法は、クラス認識順序相関 (Class-Aware Order correlation, CAOC) と呼ばれる新しいメトリクスを用いて、最も重要な画像領域を世界規模で評価する。
論文 参考訳(メタデータ) (2023-08-31T07:53:02Z) - Does Conceptual Representation Require Embodiment? Insights From Large
Language Models [9.390117546307042]
ヒトとChatGPT(GPT-3.5およびGPT-4)の4,442の語彙概念の表現の比較
2) GPT-4 は GPT-3.5 よりも優れており,GPT-4 の利得は付加的な視覚学習と結びついており,触覚やイメージ容易性などの関連性にも寄与すると考えられる。
論文 参考訳(メタデータ) (2023-05-30T15:06:28Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。