論文の概要: Towards Cross-modal Retrieval in Chinese Cultural Heritage Documents: Dataset and Solution
- arxiv url: http://arxiv.org/abs/2505.10921v1
- Date: Fri, 16 May 2025 06:52:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.196185
- Title: Towards Cross-modal Retrieval in Chinese Cultural Heritage Documents: Dataset and Solution
- Title(参考訳): 中国文化遺産のクロスモーダル検索に向けて:データセットと解決策
- Authors: Junyi Yuan, Jian Zhang, Fangyu Wu, Dongming Lu, Huanda Lu, Qiufeng Wang,
- Abstract要約: クロスモーダル検索は中国文化遺産の理解と解釈において重要な役割を担っている。
中国文化遺産に関する特別なデータセットが不足している。
そこで我々は,中国語-CLIPを微調整した学習自由な局所アライメント戦略であるLACLIPを提案する。
- 参考スコア(独自算出の注目度): 13.303788484531779
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: China has a long and rich history, encompassing a vast cultural heritage that includes diverse multimodal information, such as silk patterns, Dunhuang murals, and their associated historical narratives. Cross-modal retrieval plays a pivotal role in understanding and interpreting Chinese cultural heritage by bridging visual and textual modalities to enable accurate text-to-image and image-to-text retrieval. However, despite the growing interest in multimodal research, there is a lack of specialized datasets dedicated to Chinese cultural heritage, limiting the development and evaluation of cross-modal learning models in this domain. To address this gap, we propose a multimodal dataset named CulTi, which contains 5,726 image-text pairs extracted from two series of professional documents, respectively related to ancient Chinese silk and Dunhuang murals. Compared to existing general-domain multimodal datasets, CulTi presents a challenge for cross-modal retrieval: the difficulty of local alignment between intricate decorative motifs and specialized textual descriptions. To address this challenge, we propose LACLIP, a training-free local alignment strategy built upon a fine-tuned Chinese-CLIP. LACLIP enhances the alignment of global textual descriptions with local visual regions by computing weighted similarity scores during inference. Experimental results on CulTi demonstrate that LACLIP significantly outperforms existing models in cross-modal retrieval, particularly in handling fine-grained semantic associations within Chinese cultural heritage.
- Abstract(参考訳): 中国には長い歴史と豊かな歴史があり、絹の模様、ダンファンの壁画、それに付随する歴史物語など、多様で多様な情報を含む広大な文化遺産を包含している。
クロスモーダル検索は、正確なテキスト・ツー・イメージ検索と画像・ツー・テキスト検索を可能にするために、視覚的・テキスト的モダリティをブリッジすることで、中国の文化遺産の理解と解釈において重要な役割を担っている。
しかし、マルチモーダル研究への関心が高まっているにもかかわらず、中国文化遺産専門データセットが不足しており、この領域におけるクロスモーダル学習モデルの開発と評価が制限されている。
このギャップに対処するため,中国古来の絹や敦陽壁画に関連する2種類の専門文書から5,726枚の画像テキストペアを抽出したCulTiというマルチモーダルデータセットを提案する。
既存の汎用ドメインマルチモーダルデータセットと比較して、CulTiは、複雑な装飾モチーフと特殊なテキスト記述の間の局所的なアライメントの難しさという、クロスモーダル検索の課題を提示している。
この課題に対処するために,中国-CLIPを微調整した訓練不要な局所アライメント戦略であるLACLIPを提案する。
LACLIPは、推論中に重み付けされた類似度スコアを計算することにより、グローバルテキスト記述と局所的な視覚領域とのアライメントを強化する。
CulTiの実験結果から、LACLIPは、特に中国の文化遺産におけるきめ細かい意味的関連を扱う際に、既存のモデルよりも優れていることが示されている。
関連論文リスト
- TCC-Bench: Benchmarking the Traditional Chinese Culture Understanding Capabilities of MLLMs [13.069833806549914]
TCC-Benchは、MLLMによる伝統的な中国文化の理解を評価するためのベンチマークである。
文化的に豊かで視覚的に多様なデータを含み、博物館の工芸品、日常生活のシーン、漫画、その他の文化的に重要な文脈のイメージを取り入れている。
テキストのみのモードでGPT-4oを利用する半自動パイプラインを採用し、候補問題を生成し、続いて人間によるキュレーションを行い、データ品質を保証し、潜在的なデータ漏洩を回避する。
論文 参考訳(メタデータ) (2025-05-16T14:10:41Z) - CAReDiO: Cultural Alignment of LLM via Representativeness and Distinctiveness Guided Data Optimization [50.90288681622152]
大規模言語モデル(LLM)は、より深く様々な地域における人間の生活に統合される。
既存のアプローチは、文化固有のコーパスを微調整することで、文化的に整合したLCMを開発する。
本稿では,新しい文化データ構築フレームワークであるCAReDiOを紹介する。
論文 参考訳(メタデータ) (2025-04-09T13:40:13Z) - Crossroads of Continents: Automated Artifact Extraction for Cultural Adaptation with Large Multimodal Models [22.92083941222383]
DALL-E 3によって生成され、人間によって検証される大規模なデータセットであるDalleStreetを紹介する。
我々は,オープンソース(LLaVA)とクローズドソース(GPT-4V)の両方のモデルを用いて,地理的サブリージョンレベルでの文化的理解の相違を見出した。
以上の結果から,LMMの文化的能力の微妙なイメージが浮かび上がっており,文化認識システムの開発の必要性が浮かび上がっている。
論文 参考訳(メタデータ) (2024-07-02T08:55:41Z) - CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。
CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。
CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文 参考訳(メタデータ) (2024-06-10T01:59:00Z) - CIVICS: Building a Dataset for Examining Culturally-Informed Values in Large Language Models [59.22460740026037]
大規模言語モデル(LLM)の社会的・文化的変動を評価するためのデータセット「CIVICS:文化インフォームド・バリュース・インクルーシブ・コーパス・フォー・ソシエティ・インパクト」
我々は、LGBTQIの権利、社会福祉、移民、障害権利、代理など、特定の社会的に敏感なトピックに対処する、手作りの多言語プロンプトのデータセットを作成します。
論文 参考訳(メタデータ) (2024-05-22T20:19:10Z) - CHisIEC: An Information Extraction Corpus for Ancient Chinese History [12.41912979618724]
我々は,中国歴史情報抽出コーパス(CHis IEC)データセットを提示する。
CHis IECは、NERおよびREタスクの開発と評価のために設計された、精巧にキュレートされたデータセットである。
データセットは4つの異なるエンティティタイプと12のリレーショナルタイプを含み、慎重にラベル付けされたデータセットとなる。
論文 参考訳(メタデータ) (2024-03-22T10:12:10Z) - Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z) - Multi3WOZ: A Multilingual, Multi-Domain, Multi-Parallel Dataset for
Training and Evaluating Culturally Adapted Task-Oriented Dialog Systems [64.40789703661987]
Multi3WOZは、新しいマルチ言語、マルチドメイン、マルチ並列ToDデータセットである。
大規模で、4つの言語で文化的に適応したダイアログを提供する。
最終データセットを生成する複雑なボトムアップデータ収集プロセスについて述べる。
論文 参考訳(メタデータ) (2023-07-26T08:29:42Z) - ScrollTimes: Tracing the Provenance of Paintings as a Window into
History [35.605930297790465]
考古学や美術史において、文化遺産の遺物、遺産の相続と保存の研究が重要な意味を持つ。
美術史家らと共同で、歴史資料の豊富な資料を提供する伝統的な中国の絵画形式である「ハンズクロル」を調査した。
本報告では,ハンドクロルのための「バイオグラフィー」を作成するために,アーティファクト,コンテキスト,および証明レベルを包含する3段階の方法論を提案する。
論文 参考訳(メタデータ) (2023-06-15T03:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。