Fugu-MT 論文翻訳(概要): Exploring Visual Culture Awareness in GPT-4V: A Comprehensive Probing

論文の概要: Exploring Visual Culture Awareness in GPT-4V: A Comprehensive Probing

arxiv url: http://arxiv.org/abs/2402.06015v1
Date: Thu, 8 Feb 2024 19:25:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-12 18:52:45.615209
Title: Exploring Visual Culture Awareness in GPT-4V: A Comprehensive Probing
Title（参考訳）: gpt-4vにおける視覚文化認識の探求 : 包括的調査
Authors: Yong Cao, Wenyan Li, Jiaang Li, Yifei Yuan, Daniel Hershcovich
Abstract要約: 我々は,MARVLベンチマークデータセットを用いてGPT-4Vを広範囲に探索し,その能力と視覚的理解の限界について検討した。実験結果から,GPT-4Vは文化概念の同定に優れるが,低リソース言語では依然として性能が弱いことが示唆された。
参考スコア（独自算出の注目度）: 20.22909228856621
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pretrained large Vision-Language models have drawn considerable interest in recent years due to their remarkable performance. Despite considerable efforts to assess these models from diverse perspectives, the extent of visual cultural awareness in the state-of-the-art GPT-4V model remains unexplored. To tackle this gap, we extensively probed GPT-4V using the MaRVL benchmark dataset, aiming to investigate its capabilities and limitations in visual understanding with a focus on cultural aspects. Specifically, we introduced three visual related tasks, i.e. caption classification, pairwise captioning, and culture tag selection, to systematically delve into fine-grained visual cultural evaluation. Experimental results indicate that GPT-4V excels at identifying cultural concepts but still exhibits weaker performance in low-resource languages, such as Tamil and Swahili. Notably, through human evaluation, GPT-4V proves to be more culturally relevant in image captioning tasks than the original MaRVL human annotations, suggesting a promising solution for future visual cultural benchmark construction.
Abstract（参考訳）: 事前訓練された大型視覚言語モデルは、その顕著な性能のために近年かなりの関心を集めている。様々な視点からこれらのモデルを評価するためのかなりの努力にもかかわらず、最先端のGPT-4Vモデルにおける視覚的文化的認識の程度は未解明のままである。このギャップに対処するため,我々はMARVLベンチマークデータセットを用いてGPT-4Vを広範囲に探索し,文化的側面に着目した視覚的理解の能力と限界について検討した。具体的には,字幕分類,ペアワイズ字幕分類,文化タグ選択という3つの視覚関連課題を導入し,詳細な視文化評価を体系的に検討した。実験結果から, GPT-4Vは文化的概念の同定に優れ, タミル語やスワヒリ語などの低リソース言語では依然として弱い性能を示した。特に人間の評価によって、GPT-4VはオリジナルのMARVLの人間のアノテーションよりもイメージキャプションタスクに文化的に関係があることが証明され、将来のビジュアルカルチャーベンチマーク構築のための有望な解決策が示唆された。

関連論文リスト

Cultural Evaluations of Vision-Language Models Have a Lot to Learn from Cultural Theory [25.953345583487312]
現代の視覚言語モデル(VLM)は、しばしば文化的能力評価とベンチマークで失敗する。本稿では,視覚文化研究の基盤となる方法論が画像の文化的分析に欠かせないことを論じる。
論文参考訳（メタデータ） (2025-05-28T19:04:04Z)
RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding [79.44246283490665]
本稿では,検索による視覚文化理解の促進を目的とした新しいベンチマークであるRAVENEAを紹介する。 RAVENEAは、文化中心の視覚的質問応答(cVQA)と文化インフォームドイメージキャプション(cIC)の2つのタスクに焦点を当てている。画像クエリ毎に7つのマルチモーダルレトリバーを訓練・評価し、14の最先端の視覚言語モデルにおける検索強化入力の下流への影響を計測する。
論文参考訳（メタデータ） (2025-05-20T14:57:16Z)
JEEM: Vision-Language Understanding in Four Arabic Dialects [17.255723895477526]
このデータセットは、視覚言語モデル(VLM)が方言をまたいで一般化する能力を評価することを目的としている。 5つの著名なオープンソースのアラビア語 VLM と GPT-4V の評価において,アラビア語 VLM は視覚的理解と方言固有の生成に苦慮し,一貫して性能が低下していることがわかった。このことは、より包括的なモデルの必要性と、文化的に異なる評価パラダイムの価値を浮き彫りにしている。
論文参考訳（メタデータ） (2025-03-27T18:41:21Z)
CultureVLM: Characterizing and Improving Cultural Understanding of Vision-Language Models for over 100 Countries [63.00147630084146]
視覚言語モデル(VLM)は高度な人間とAIの相互作用を持つが、文化的な理解に苦慮している。 CultureVerseは大規模なマルチモーダルベンチマークで、682の文化的概念、188の国/地域、15の文化的概念、3の質問タイプをカバーしている。本稿では,文化理解の大幅な向上を実現するために,我々のデータセットを微調整したVLMのシリーズであるCultureVLMを提案する。
論文参考訳（メタデータ） (2025-01-02T14:42:37Z)
Benchmarking Vision Language Models for Cultural Understanding [31.898921287065242]
本稿では,視覚言語モデル(VLM)の評価を目的とした視覚的質問応答ベンチマークであるCulturalVQAを紹介する。我々は,5大陸11カ国の文化を表わす質問毎の回答が1～5である2,378枚の画像検索ペアのコレクションをキュレートした。質問は、衣服、食べ物、飲み物、儀式、伝統など、様々な文化の側面の理解を調査する。
論文参考訳（メタデータ） (2024-07-15T17:21:41Z)
Vision-Language Models under Cultural and Inclusive Considerations [53.614528867159706]
視覚言語モデル(VLM)は、日常生活の画像を記述することで視覚障害者を支援する。現在の評価データセットは、多様な文化的ユーザ背景や、このユースケースの状況を反映していない可能性がある。我々は、字幕の好みを決定するための調査を作成し、視覚障害者によって撮影された画像を含む既存のデータセットであるVizWizをフィルタリングすることで、文化中心の評価ベンチマークを提案する。次に,複数のVLMを評価し,その信頼性を文化的に多様な環境で視覚アシスタントとして検証した。
論文参考訳（メタデータ） (2024-07-08T17:50:00Z)
From Local Concepts to Universals: Evaluating the Multicultural Understanding of Vision-Language Models [10.121734731147376]
視覚言語モデルの性能は、西欧文化のイメージに最適以下である。様々なベンチマークが、モデルの文化的傾向をテストするために提案されているが、それらは限られた範囲の文化をカバーしている。我々はGlobalRGベンチマークを導入し、普遍性を越えた検索と文化的な視覚的接地という2つの課題からなる。
論文参考訳（メタデータ） (2024-06-28T23:28:28Z)
Putting GPT-4o to the Sword: A Comprehensive Evaluation of Language, Vision, Speech, and Multimodal Proficiency [3.161954199291541]
本研究は, GPT-4oの言語, 視覚, 音声, マルチモーダル能力を包括的に評価する。 GPT-4oは、言語と推論能力において、複数のドメインにわたる高い精度と効率を示す。モデルは可変性を示し、複雑であいまいな入力を扱う際の制限に直面している。
論文参考訳（メタデータ） (2024-06-19T19:00:21Z)
CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文参考訳（メタデータ） (2024-05-24T01:49:02Z)
Assessing the Aesthetic Evaluation Capabilities of GPT-4 with Vision: Insights from Group and Individual Assessments [2.539875353011627]
本研究は,画像の美的評価課題に対するビジョン付きGPT-4の性能について検討する。我々は,グループの平均評価値と個人の評価値の予測という2つのタスクを採用する。 GPT-4は美的評価の予測に優れた性能を示し,美容と美容に対する異なる反応の性質を示した。
論文参考訳（メタデータ） (2024-03-06T10:27:09Z)
GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? [82.40761196684524]
本稿では,ゼロショット視覚認識タスクにおけるGPT-4の言語的・視覚的能力の評価に焦点を当てる。我々は、画像、ビデオ、点群にわたるGPT-4の性能を評価するための広範な実験を行った。言語記述が充実したGPT-4はゼロショット認識を著しく改善した。
論文参考訳（メタデータ） (2023-11-27T11:29:10Z)
A Comprehensive Evaluation of GPT-4V on Knowledge-Intensive Visual Question Answering [53.70661720114377]
マルチモーダル・大型モデル(MLM)は視覚的理解の分野を著しく進歩させ、視覚的質問応答(VQA)の領域で顕著な能力を提供しているしかし、真の課題は知識集約型VQAタスクの領域にある。 1) モデルが視覚的手がかりを理解し、一般的な知識にどのように結びつくかを評価するコモンセンス知識、2) 画像から特定の知識を推論し、提示する際のモデルのスキルをテストする微粒な世界知識。
論文参考訳（メタデータ） (2023-11-13T18:22:32Z)
GPT-4V(ision) as a Generalist Evaluator for Vision-Language Tasks [70.98062518872999]
我々は,GPT-4Vの性能評価,基本画像からテキストへの合成,高レベル画像から画像への変換,複数画像からテキストへのアライメントといったタスクに対処する能力を検証する。特に、GPT-4Vは、様々なタスクや評価方法にまたがって人間と有望な合意を示し、マルチモーダルLCMを評価対象として持つ可能性を示している。
論文参考訳（メタデータ） (2023-11-02T16:11:09Z)
Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。 LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文参考訳（メタデータ） (2023-10-19T05:38:23Z)
EnCBP: A New Benchmark Dataset for Finer-Grained Cultural Background Prediction in English [25.38572483508948]
文化的背景を持つ自然言語処理モデルを拡張した。英語を話す5カ国と米国の4州で、言語表現に顕著な違いがあることが示されている。本研究は,多種多様なNLPタスクに対する文化的背景モデリングの重要性を裏付け,文化関連研究におけるEnCBPの適用性を示すものである。
論文参考訳（メタデータ） (2022-03-28T04:57:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。