論文の概要: Exploring Visual Culture Awareness in GPT-4V: A Comprehensive Probing
- arxiv url: http://arxiv.org/abs/2402.06015v1
- Date: Thu, 8 Feb 2024 19:25:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 18:52:45.615209
- Title: Exploring Visual Culture Awareness in GPT-4V: A Comprehensive Probing
- Title(参考訳): gpt-4vにおける視覚文化認識の探求 : 包括的調査
- Authors: Yong Cao, Wenyan Li, Jiaang Li, Yifei Yuan, Daniel Hershcovich
- Abstract要約: 我々は,MARVLベンチマークデータセットを用いてGPT-4Vを広範囲に探索し,その能力と視覚的理解の限界について検討した。
実験結果から,GPT-4Vは文化概念の同定に優れるが,低リソース言語では依然として性能が弱いことが示唆された。
- 参考スコア(独自算出の注目度): 20.22909228856621
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained large Vision-Language models have drawn considerable interest in
recent years due to their remarkable performance. Despite considerable efforts
to assess these models from diverse perspectives, the extent of visual cultural
awareness in the state-of-the-art GPT-4V model remains unexplored. To tackle
this gap, we extensively probed GPT-4V using the MaRVL benchmark dataset,
aiming to investigate its capabilities and limitations in visual understanding
with a focus on cultural aspects. Specifically, we introduced three visual
related tasks, i.e. caption classification, pairwise captioning, and culture
tag selection, to systematically delve into fine-grained visual cultural
evaluation. Experimental results indicate that GPT-4V excels at identifying
cultural concepts but still exhibits weaker performance in low-resource
languages, such as Tamil and Swahili. Notably, through human evaluation, GPT-4V
proves to be more culturally relevant in image captioning tasks than the
original MaRVL human annotations, suggesting a promising solution for future
visual cultural benchmark construction.
- Abstract(参考訳): 事前訓練された大型視覚言語モデルは、その顕著な性能のために近年かなりの関心を集めている。
様々な視点からこれらのモデルを評価するためのかなりの努力にもかかわらず、最先端のGPT-4Vモデルにおける視覚的文化的認識の程度は未解明のままである。
このギャップに対処するため,我々はMARVLベンチマークデータセットを用いてGPT-4Vを広範囲に探索し,文化的側面に着目した視覚的理解の能力と限界について検討した。
具体的には,字幕分類,ペアワイズ字幕分類,文化タグ選択という3つの視覚関連課題を導入し,詳細な視文化評価を体系的に検討した。
実験結果から, GPT-4Vは文化的概念の同定に優れ, タミル語やスワヒリ語などの低リソース言語では依然として弱い性能を示した。
特に人間の評価によって、GPT-4VはオリジナルのMARVLの人間のアノテーションよりもイメージキャプションタスクに文化的に関係があることが証明され、将来のビジュアルカルチャーベンチマーク構築のための有望な解決策が示唆された。
関連論文リスト
- Assessing the Aesthetic Evaluation Capabilities of GPT-4 with Vision:
Insights from Group and Individual Assessments [2.539875353011627]
本研究は,画像の美的評価課題に対するビジョン付きGPT-4の性能について検討する。
我々は,グループの平均評価値と個人の評価値の予測という2つのタスクを採用する。
GPT-4は美的評価の予測に優れた性能を示し,美容と美容に対する異なる反応の性質を示した。
論文 参考訳(メタデータ) (2024-03-06T10:27:09Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept
Recognition in Large Vision Language Models [68.46457611340097]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - Gemini vs GPT-4V: A Preliminary Comparison and Combination of
Vision-Language Models Through Qualitative Cases [98.35348038111508]
本稿では,Google の Gemini と OpenAI の GPT-4V(ision) の2つのパイオニアモデルについて,詳細な比較研究を行った。
分析の核となるのは、各モデルの視覚的理解能力である。
両モデルのユニークな強みとニッチを照らし出した。
論文 参考訳(メタデータ) (2023-12-22T18:59:58Z) - GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? [82.40761196684524]
本稿では,ゼロショット視覚認識タスクにおけるGPT-4の言語的・視覚的能力の評価に焦点を当てる。
我々は、画像、ビデオ、点群にわたるGPT-4の性能を評価するための広範な実験を行った。
言語記述が充実したGPT-4はゼロショット認識を著しく改善した。
論文 参考訳(メタデータ) (2023-11-27T11:29:10Z) - A Comprehensive Evaluation of GPT-4V on Knowledge-Intensive Visual
Question Answering [56.01977227584777]
マルチモーダル・大型モデル (MLM) は視覚的理解の分野を大幅に進歩させた。
しかし、真の課題は知識集約型視覚質問応答(VQA)タスクの領域にある。
本研究は,新たに導入されたGPT-4Vの詳細な評価を提供する。
論文 参考訳(メタデータ) (2023-11-13T18:22:32Z) - GPT-4V(ision) as a Generalist Evaluator for Vision-Language Tasks [70.98062518872999]
我々は,GPT-4Vの性能評価,基本画像からテキストへの合成,高レベル画像から画像への変換,複数画像からテキストへのアライメントといったタスクに対処する能力を検証する。
特に、GPT-4Vは、様々なタスクや評価方法にまたがって人間と有望な合意を示し、マルチモーダルLCMを評価対象として持つ可能性を示している。
論文 参考訳(メタデータ) (2023-11-02T16:11:09Z) - An Early Evaluation of GPT-4V(ision) [40.866323649060696]
我々は,GPT-4Vの視覚的理解,言語理解,視覚パズルの解法,深度,熱,映像,音声などの他のモダリティの理解など,様々な能力を評価する。
GPT-4Vの性能を評価するため、656の試験インスタンスを手動で構築し、GPT-4Vの結果を慎重に評価する。
論文 参考訳(メタデータ) (2023-10-25T10:33:17Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z) - Navigating Cultural Chasms: Exploring and Unlocking the Cultural POV of
Text-To-Image Models [36.04866429768613]
本稿では,3つの階層(文化次元,文化領域,文化概念)にまたがる文化を特徴付けることによって,テキスト・トゥ・イメージ・モデルに埋め込まれた文化的知覚を探求する。
本稿では,CLIP空間を用いた内在的評価,ビジュアルクエスト・アンサー(VQA)モデルによる外在的評価,人的評価など,総合的な評価手法を提案する。
我々の実験は、TTIモデルにおける文化的エンコーディングの性質について、Do、What、What、Howおよび研究に関する洞察を提供し、異文化的な応用への道を開いた。
論文 参考訳(メタデータ) (2023-10-03T10:13:36Z) - EnCBP: A New Benchmark Dataset for Finer-Grained Cultural Background
Prediction in English [25.38572483508948]
文化的背景を持つ自然言語処理モデルを拡張した。
英語を話す5カ国と米国の4州で、言語表現に顕著な違いがあることが示されている。
本研究は,多種多様なNLPタスクに対する文化的背景モデリングの重要性を裏付け,文化関連研究におけるEnCBPの適用性を示すものである。
論文 参考訳(メタデータ) (2022-03-28T04:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。