論文の概要: DEJIMA: A Novel Large-scale Japanese Dataset for Image Captioning and Visual Question Answering
- arxiv url: http://arxiv.org/abs/2512.00773v1
- Date: Sun, 30 Nov 2025 08:09:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.414093
- Title: DEJIMA: A Novel Large-scale Japanese Dataset for Image Captioning and Visual Question Answering
- Title(参考訳): DEJIMA: 画像キャプションと視覚質問応答のための大規模日本語データセット
- Authors: Toshiki Katsube, Taiga Fukuhara, Kenichiro Ando, Yusuke Mukuta, Kohei Uehara, Tatsuya Harada,
- Abstract要約: 本研究は,日本語ビジョン・アンド・ランゲージ(V&L)モデリングのための高品質・大規模資源の不足に対処する。
本稿では,大規模Webコレクションと厳密なフィルタリング/復号化,オブジェクト検出駆動型エビデンス抽出,Large Language Model(LLM)に基づく改良などを統合した,スケーラブルで再現可能なパイプラインを提案する。
- 参考スコア(独自算出の注目度): 42.08511799479111
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work addresses the scarcity of high-quality, large-scale resources for Japanese Vision-and-Language (V&L) modeling. We present a scalable and reproducible pipeline that integrates large-scale web collection with rigorous filtering/deduplication, object-detection-driven evidence extraction, and Large Language Model (LLM)-based refinement under grounding constraints. Using this pipeline, we build two resources: an image-caption dataset (DEJIMA-Cap) and a VQA dataset (DEJIMA-VQA), each containing 3.88M image-text pairs, far exceeding the size of existing Japanese V&L datasets. Human evaluations demonstrate that DEJIMA achieves substantially higher Japaneseness and linguistic naturalness than datasets constructed via translation or manual annotation, while maintaining factual correctness at a level comparable to human-annotated corpora. Quantitative analyses of image feature distributions further confirm that DEJIMA broadly covers diverse visual domains characteristic of Japan, complementing its linguistic and cultural representativeness. Models trained on DEJIMA exhibit consistent improvements across multiple Japanese multimodal benchmarks, confirming that culturally grounded, large-scale resources play a key role in enhancing model performance. All data sources and modules in our pipeline are licensed for commercial use, and we publicly release the resulting dataset and metadata to encourage further research and industrial applications in Japanese V&L modeling.
- Abstract(参考訳): 本研究は,日本語ビジョン・アンド・ランゲージ(V&L)モデリングのための高品質・大規模資源の不足に対処する。
本稿では,大規模Webコレクションと厳密なフィルタリング/復号化,オブジェクト検出駆動型エビデンス抽出,基底制約下での大規模言語モデル(LLM)に基づく改良などを統合した,スケーラブルで再現可能なパイプラインを提案する。
このパイプラインを用いて、画像キャプチャデータセット(DEJIMA-Cap)とVQAデータセット(DEJIMA-VQA)の2つのリソースを構築する。
人的評価は,人的注釈付きコーパスに匹敵する程度で事実的正当性を維持しつつ,翻訳や手動アノテーションを用いて構築したデータセットよりも日本語性や言語的自然性が著しく高いことを示す。
画像特徴分布の定量的解析により、DeJIMAは日本特有の多様な視覚領域を幅広くカバーし、その言語的・文化的な代表性を補完していることが明らかとなった。
DEJIMAでトレーニングされたモデルは、複数の日本のマルチモーダルベンチマークで一貫した改善を示し、文化的基盤を持つ大規模資源がモデル性能の向上に重要な役割を果たしていることを確認した。
パイプライン内のすべてのデータソースとモジュールは商用利用のためにライセンスされており、得られたデータセットとメタデータを公開して、日本のV&Lモデリングにおけるさらなる研究および産業的応用を促進する。
関連論文リスト
- WAON: Large-Scale and High-Quality Japanese Image-Text Pair Dataset for Vision-Language Models [29.864478753087138]
WAONは、大規模かつ高品質な画像テキストペアデータセットである。
本手法の有効性を評価するため,日本文化イメージ分類のベンチマークであるWAON-Benchを構築した。
両方のデータセット上で、強力な多言語モデルであるSigLIP2を微調整する。
論文 参考訳(メタデータ) (2025-10-25T12:42:42Z) - Harnessing PDF Data for Improving Japanese Large Multimodal Models [56.80385809059738]
大規模マルチモーダルモデル (LMM) は英語では高い性能を示したが、日本語では有効性は限られている。
現在の日本のLMMは、しばしば翻訳された英語のデータセットに依存しており、日本固有の文化知識を捉える能力を制限する。
我々は、事前訓練されたモデルを利用してPDFから画像とテキストのペアを抽出する完全自動パイプラインを導入する。
論文 参考訳(メタデータ) (2025-02-20T17:59:59Z) - Constructing Multimodal Datasets from Scratch for Rapid Development of a Japanese Visual Language Model [30.055297898544648]
日本語を非英語とみなし、日本語のマルチモーダルデータセットをスクラッチから高速に作成する方法を提案する。
我々は,Webアーカイブから日本語画像テキストペアとインターリーブされたデータを収集し,既存のVLMを用いて画像から直接日本語の指導データを生成する。
実験の結果、これらのネイティブデータセットに基づいて訓練されたVLMは、機械翻訳されたコンテンツに依存するものよりも優れていた。
論文 参考訳(メタデータ) (2024-10-30T06:46:33Z) - WanJuan: A Comprehensive Multimodal Dataset for Advancing English and
Chinese Large Models [69.96148259273065]
ワンフアン(Wan Juan)は、中国語と英語のデータからなる大規模なマルチモーダルデータセットであり、幅広いWebソースから収集されている。
同様のスケールのモデルと比較して,多次元評価において有意な優位性を示すモデルであるInternLMのトレーニングに利用された。
論文 参考訳(メタデータ) (2023-08-21T14:40:48Z) - A Survey of Vision-Language Pre-training from the Lens of Multimodal
Machine Translation [13.426403221815063]
本稿では,マルチモーダル機械翻訳のレンズによる言語とビジョンの事前学習の状況について調査する。
我々は、共通アーキテクチャ、事前学習目的、文献からのデータセットを要約し、マルチモーダル機械翻訳の進展に何が必要かを推測する。
論文 参考訳(メタデータ) (2023-06-12T15:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。