Fugu-MT 論文翻訳(概要): Crossroads of Continents: Automated Artifact Extraction for Cultural Adaptation with Large Multimodal Models

論文の概要: Crossroads of Continents: Automated Artifact Extraction for Cultural Adaptation with Large Multimodal Models

arxiv url: http://arxiv.org/abs/2407.02067v1
Date: Tue, 2 Jul 2024 08:55:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-03 16:04:54.501828
Title: Crossroads of Continents: Automated Artifact Extraction for Cultural Adaptation with Large Multimodal Models
Title（参考訳）: 大陸横断:大規模マルチモーダルモデルによる文化的適応のための自動人工物抽出
Authors: Anjishnu Mukherjee, Ziwei Zhu, Antonios Anastasopoulos,
Abstract要約: まず,67か国の9,935のイメージと10のコンセプトクラスを含む大規模データセットであるDale Streetを紹介した。次に、人工物抽出タスクによるモデルの深い文化理解を評価し、異なる国に関連する18,000以上の人工物を特定する。最後に,文化から文化へイメージを適応させるために,高度に構成可能なパイプラインであるCultureAdaptを提案する。
参考スコア（独自算出の注目度）: 22.92083941222383
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: In this work, we present a comprehensive three-phase study to examine (1) the effectiveness of large multimodal models (LMMs) in recognizing cultural contexts; (2) the accuracy of their representations of diverse cultures; and (3) their ability to adapt content across cultural boundaries. We first introduce Dalle Street, a large-scale dataset generated by DALL-E 3 and validated by humans, containing 9,935 images of 67 countries and 10 concept classes. We reveal disparities in cultural understanding at the sub-region level with both open-weight (LLaVA) and closed-source (GPT-4V) models on Dalle Street and other existing benchmarks. Next, we assess models' deeper culture understanding by an artifact extraction task and identify over 18,000 artifacts associated with different countries. Finally, we propose a highly composable pipeline, CultureAdapt, to adapt images from culture to culture. Our findings reveal a nuanced picture of the cultural competence of LMMs, highlighting the need to develop culture-aware systems. Dataset and code are available at https://github.com/iamshnoo/crossroads
Abstract（参考訳）: 本研究では,(1)文化的文脈の認識における大規模マルチモーダルモデル(LMM)の有効性,(2)多様な文化の表現の精度,(3)文化的境界を越えてコンテンツに適応する能力について,総合的な3段階の研究を行った。まず、DALL-E 3によって生成され、人間によって検証された大規模なデータセットであるDalle Streetを紹介し、67か国9,935枚の画像と10のコンセプトクラスを含む。本研究では,Dale Street などの既存ベンチマークにおいて,オープンウェイト (LLaVA) モデルとクローズドソース (GPT-4V) モデルの両方を用いて,サブリージョンレベルでの文化的理解の差異を明らかにする。次に、人工物抽出タスクによるモデルの深い文化理解を評価し、異なる国に関連する18,000以上の人工物を特定する。最後に,文化から文化へイメージを適応させるために,高度に構成可能なパイプラインであるCultureAdaptを提案する。以上の結果から,LMMの文化的能力の微妙なイメージが浮かび上がっており,文化認識システムの開発の必要性が浮かび上がっている。データセットとコードはhttps://github.com/iamshnoo/crossroadsで入手できる。

関連論文リスト

CultureScope: A Dimensional Lens for Probing Cultural Understanding in LLMs [57.653830744706305]
CultureScopeは、大規模な言語モデルにおける文化的理解を評価するための、これまでで最も包括的な評価フレームワークである。文化的な氷山理論に触発されて、文化知識分類のための新しい次元スキーマを設計する。実験結果から,文化的理解を効果的に評価できることが示唆された。
論文参考訳（メタデータ） (2025-09-19T17:47:48Z)
Grounding Multilingual Multimodal LLMs With Cultural Knowledge [48.95126394270723]
本稿では,MLLMを文化的知識に根ざしたデータ中心型アプローチを提案する。 CulturalGroundは、42の国と39の言語にまたがる2200万の高品質で文化的に豊かなVQAペアで構成されている。我々は,MLLM CulturalPangeaをCulturalGround上で学習し,汎用性を維持するために,標準の多言語指導訓練データをインターリーブする。
論文参考訳（メタデータ） (2025-08-10T16:24:11Z)
Pearl: A Multimodal Culturally-Aware Arabic Instruction Dataset [28.016981736730617]
PEARLは、文化的理解のために設計された大規模なアラビアのマルチモーダルデータセットとベンチマークである。 PEARLは、文化的に重要な10の領域にまたがる309K以上の例で構成されている。
論文参考訳（メタデータ） (2025-05-28T05:14:47Z)
RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding [79.44246283490665]
本稿では,検索による視覚文化理解の促進を目的とした新しいベンチマークであるRAVENEAを紹介する。 RAVENEAは、文化中心の視覚的質問応答(cVQA)と文化インフォームドイメージキャプション(cIC)の2つのタスクに焦点を当てている。画像クエリ毎に7つのマルチモーダルレトリバーを訓練・評価し、14の最先端の視覚言語モデルにおける検索強化入力の下流への影響を計測する。
論文参考訳（メタデータ） (2025-05-20T14:57:16Z)
CAReDiO: Cultural Alignment of LLM via Representativeness and Distinctiveness Guided Data Optimization [50.90288681622152]
大規模言語モデル(LLM)は、より深く様々な地域における人間の生活に統合される。既存のアプローチは、文化固有のコーパスを微調整することで、文化的に整合したLCMを開発する。本稿では,新しい文化データ構築フレームワークであるCAReDiOを紹介する。
論文参考訳（メタデータ） (2025-04-09T13:40:13Z)
CultureVLM: Characterizing and Improving Cultural Understanding of Vision-Language Models for over 100 Countries [63.00147630084146]
視覚言語モデル(VLM)は高度な人間とAIの相互作用を持つが、文化的な理解に苦慮している。 CultureVerseは大規模なマルチモーダルベンチマークで、682の文化的概念、188の国/地域、15の文化的概念、3の質問タイプをカバーしている。本稿では,文化理解の大幅な向上を実現するために,我々のデータセットを微調整したVLMのシリーズであるCultureVLMを提案する。
論文参考訳（メタデータ） (2025-01-02T14:42:37Z)
How Well Do LLMs Identify Cultural Unity in Diversity? [12.982460687543952]
本稿では,概念の文化的統一性を理解するために,デコーダのみの大規模言語モデル(LLM)を評価するためのベンチマークデータセットを提案する。 CUNITは、10か国で285の伝統的な文化的概念に基づいて構築された1,425の評価例で構成されている。高い関連性を持つ異文化のコンセプトペアを識別するLLMの能力を評価するために,コントラストマッチングタスクを設計する。
論文参考訳（メタデータ） (2024-08-09T14:45:22Z)
Beyond Aesthetics: Cultural Competence in Text-to-Image Models [34.98692829036475]
CUBEは、テキスト・ツー・イメージ・モデルの文化的能力を評価するための最初のベンチマークである。 CUBEは、異なる地理的文化圏の8か国に関連する文化的アーティファクトをカバーしている。 CUBE-CSpaceは、文化的多様性を評価する基盤となる文化的アーティファクトのより大きなデータセットである。
論文参考訳（メタデータ） (2024-07-09T13:50:43Z)
Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文参考訳（メタデータ） (2024-06-17T14:03:27Z)
CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文参考訳（メタデータ） (2024-05-24T01:49:02Z)
Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.09670425244462]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LCMの能力と限界について検討する。
論文参考訳（メタデータ） (2024-05-07T20:28:34Z)
CULTURE-GEN: Revealing Global Cultural Perception in Language Models through Natural Language Prompting [73.94059188347582]
110か国・地域での3つのSOTAモデルの文化認識を,文化条件付き世代を通して8つの文化関連トピックについて明らかにした。文化条件付き世代は、デフォルトの文化と区別される余分な文化を区別する言語的な「マーカー」から成り立っていることが判明した。
論文参考訳（メタデータ） (2024-04-16T00:50:43Z)
Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文参考訳（メタデータ） (2024-02-14T18:16:54Z)
On the Cultural Gap in Text-to-Image Generation [75.69755281031951]
テキスト・トゥ・イメージ(T2I)生成における課題のひとつは、トレーニングデータに存在する文化ギャップの意図しない反映である。クロスカルチャー画像を生成するT2Iモデルの能力を体系的に評価するベンチマークは存在しない。本稿では,モデルが対象文化にどの程度適しているかを評価するため,包括的評価基準付きChallenging Cross-Cultural (C3)ベンチマークを提案する。
論文参考訳（メタデータ） (2023-07-06T13:17:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。