論文の概要: VietMEAgent: Culturally-Aware Few-Shot Multimodal Explanation for Vietnamese Visual Question Answering
- arxiv url: http://arxiv.org/abs/2511.09058v1
- Date: Thu, 13 Nov 2025 01:29:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.387067
- Title: VietMEAgent: Culturally-Aware Few-Shot Multimodal Explanation for Vietnamese Visual Question Answering
- Title(参考訳): VietMEAgent:ベトナムの視覚的質問応答のための文化的に意識されたFew-Shot Multimodal Explanation
- Authors: Hai-Dang Nguyen, Minh-Anh Dang, Minh-Tan Le, Minh-Tuan Le,
- Abstract要約: 本稿ではベトナム文化理解のためのマルチモーダルな説明可能なフレームワークであるVietMEAgentを紹介する。
ベトナム文化団体のキュレートされた知識基盤は、背景情報の明確な源泉となっている。
双対モダリティ説明モジュールは、注意に基づく視覚的証拠と構造化され、可読な文章の有理性を組み合わせる。
- 参考スコア(独自算出の注目度): 1.4413073343064953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contemporary Visual Question Answering (VQA) systems remain constrained when confronted with culturally specific content, largely because cultural knowledge is under-represented in training corpora and the reasoning process is not rendered interpretable to end users. This paper introduces VietMEAgent, a multimodal explainable framework engineered for Vietnamese cultural understanding. The method integrates a cultural object detection backbone with a structured program generation layer, yielding a pipeline in which answer prediction and explanation are tightly coupled. A curated knowledge base of Vietnamese cultural entities serves as an explicit source of background information, while a dual-modality explanation module combines attention-based visual evidence with structured, human-readable textual rationales. We further construct a Vietnamese Cultural VQA dataset sourced from public repositories and use it to demonstrate the practicality of programming-based methodologies for cultural AI. The resulting system provides transparent explanations that disclose both the computational rationale and the underlying cultural context, supporting education and cultural preservation with an emphasis on interpretability and cultural sensitivity.
- Abstract(参考訳): 現代視覚質問応答システム(VQA)は, 文化的な知識が教育コーパスに不足しており, 推論プロセスがエンドユーザに解釈できないため, 文化的な特定のコンテンツに直面する場合, 依然として制約が残っている。
本稿ではベトナム文化理解のためのマルチモーダルな説明可能なフレームワークであるVietMEAgentを紹介する。
この方法は、文化的対象検出バックボーンを構造化プログラム生成層に統合し、回答予測と説明が密結合されたパイプラインを生成する。
ベトナムの文化団体のキュレートされた知識ベースは、背景情報の明確な情報源として機能し、双対モダリティの説明モジュールは、注意に基づく視覚的証拠と、構造化され、可読なテキストの有理性を組み合わせたものである。
さらに、公開リポジトリをベースとしたベトナム文化VQAデータセットを構築し、それを用いて、文化AIのためのプログラミングベースの方法論の実践性を実証する。
得られたシステムは、計算的合理性と根底にある文化的文脈の両方を開示する透過的な説明を提供し、解釈可能性と文化的感受性を重視した教育と文化保存を支援する。
関連論文リスト
- MMA-ASIA: A Multilingual and Multimodal Alignment Framework for Culturally-Grounded Evaluation [91.22008265721952]
MMA-ASIAは、アジア8か国と10か国を対象とする人為的、多言語的、マルチモーダルなベンチマークに重点を置いている。
これは、テキスト、画像(視覚的質問応答)、音声の3つのモードにまたがる入力レベルで整列された最初のデータセットである。
i) 国間の文化的認識格差、(ii) 言語間の整合性、(iii) 言語間の整合性、(iv) 文化知識の一般化、(v) 基礎的妥当性を評価する5次元評価プロトコルを提案する。
論文 参考訳(メタデータ) (2025-10-07T14:12:12Z) - CultureScope: A Dimensional Lens for Probing Cultural Understanding in LLMs [57.653830744706305]
CultureScopeは、大規模な言語モデルにおける文化的理解を評価するための、これまでで最も包括的な評価フレームワークである。
文化的な氷山理論に触発されて、文化知識分類のための新しい次元スキーマを設計する。
実験結果から,文化的理解を効果的に評価できることが示唆された。
論文 参考訳(メタデータ) (2025-09-19T17:47:48Z) - TCC-Bench: Benchmarking the Traditional Chinese Culture Understanding Capabilities of MLLMs [13.069833806549914]
中国伝統文化理解ベンチマーク(TCC-Bench)を提案する。
TCC-Benchは、文化的に豊かで視覚的に多様なデータで構成されており、博物館の工芸品、日常の生活シーン、漫画、その他の文化的に重要な文脈の画像が組み込まれている。
テキストのみのモードでGPT-4oを利用する半自動パイプラインを採用し、候補問題を生成し、続いて人間によるキュレーションを行い、データ品質を保証し、潜在的なデータ漏洩を回避する。
論文 参考訳(メタデータ) (2025-05-16T14:10:41Z) - CROPE: Evaluating In-Context Adaptation of Vision and Language Models to Culture-Specific Concepts [45.77570690529597]
文化固有の概念の知識を探索するための視覚的質問応答ベンチマークであるCROPEを紹介する。
いくつかの最先端のオープンビジョンと言語モデルの評価は、文化固有の概念と共通の概念の相違が大きいことを示す。
文脈知識を用いた実験は、モデルがマルチモーダル情報を効果的に活用し、文化固有の概念を描写に結びつけるのに苦労していることを示している。
論文 参考訳(メタデータ) (2024-10-20T17:31:19Z) - Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z) - Benchmarking Machine Translation with Cultural Awareness [50.183458829028226]
文化関連コンテンツの翻訳は、効果的な異文化間コミュニケーションに不可欠である。
多くの文化特化項目(CSI)は言語間の翻訳を欠いていることが多い。
この難しさは機械翻訳システムの文化的意識の分析を妨げる。
論文 参考訳(メタデータ) (2023-05-23T17:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。