論文の概要: VaseVQA-3D: Benchmarking 3D VLMs on Ancient Greek Pottery
- arxiv url: http://arxiv.org/abs/2510.04479v1
- Date: Mon, 06 Oct 2025 04:28:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.678751
- Title: VaseVQA-3D: Benchmarking 3D VLMs on Ancient Greek Pottery
- Title(参考訳): VaseVQA-3D:古代ギリシアの陶器の3D VLMのベンチマーク
- Authors: Nonghai Zhang, Zeyu Zhang, Jiazi Wang, Yang Zhao, Hao Tang,
- Abstract要約: VaseVQA-3Dデータセットは古代ギリシアの陶器分析のための最初の3次元視覚質問応答データセットとして機能する。
我々はさらにVaseVLMモデルを開発し、ドメイン適応学習によるVaseアーチファクト解析におけるモデル性能を向上させる。
- 参考スコア(独自算出の注目度): 14.993425622341917
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-Language Models (VLMs) have achieved significant progress in multimodal understanding tasks, demonstrating strong capabilities particularly in general tasks such as image captioning and visual reasoning. However, when dealing with specialized cultural heritage domains like 3D vase artifacts, existing models face severe data scarcity issues and insufficient domain knowledge limitations. Due to the lack of targeted training data, current VLMs struggle to effectively handle such culturally significant specialized tasks. To address these challenges, we propose the VaseVQA-3D dataset, which serves as the first 3D visual question answering dataset for ancient Greek pottery analysis, collecting 664 ancient Greek vase 3D models with corresponding question-answer data and establishing a complete data construction pipeline. We further develop the VaseVLM model, enhancing model performance in vase artifact analysis through domain-adaptive training. Experimental results validate the effectiveness of our approach, where we improve by 12.8% on R@1 metrics and by 6.6% on lexical similarity compared with previous state-of-the-art on the VaseVQA-3D dataset, significantly improving the recognition and understanding of 3D vase artifacts, providing new technical pathways for digital heritage preservation research.
- Abstract(参考訳): 視覚言語モデル(VLM)はマルチモーダル理解タスクにおいて大きな進歩を遂げており、特に画像キャプションや視覚的推論といった一般的なタスクにおいて強力な能力を発揮している。
しかし、3D花瓶などの特殊な文化遺産ドメインを扱う場合、既存のモデルは深刻なデータ不足とドメイン知識の不足に直面している。
目標とする訓練データがないため、現在のVLMは文化的に重要な専門的なタスクを効果的に扱うのに苦労している。
これらの課題に対処するために、古代ギリシアの陶器分析のための最初の3次元視覚的質問応答データセットとして機能するVaseVQA-3Dデータセットを提案し、対応する問合せデータを用いて664個の古代ギリシアのVase 3Dモデルを収集し、完全なデータ構築パイプラインを構築する。
我々はさらにVaseVLMモデルを開発し、ドメイン適応学習によるVaseアーチファクト解析におけるモデル性能を向上させる。
その結果,従来のVaseVQA-3Dデータセットと比較すると,R@1の12.8%,語彙的類似性6.6%の改善,3次元Vaseアーティファクトの認識と理解の向上,デジタル保存研究のための新たな技術パスの提供など,アプローチの有効性が検証された。
関連論文リスト
- TeDA: Boosting Vision-Lanuage Models for Zero-Shot 3D Object Retrieval via Testing-time Distribution Alignment [14.535056813802527]
テスト時間分布アライメント(TeDA)は、テスト時に未知の3次元オブジェクトの検索に事前訓練された2次元視覚言語モデルCLIPを適用する新しいフレームワークである。
TeDAは3Dオブジェクトをマルチビューイメージに投影し、CLIPを使って機能を抽出し、3Dクエリの埋め込みを洗練する。
4つのオープンセットの3Dオブジェクト検索ベンチマークの実験により、TeDAは最先端の手法を大幅に上回ることを示した。
論文 参考訳(メタデータ) (2025-05-05T02:47:07Z) - Unveiling the Mist over 3D Vision-Language Understanding: Object-centric Evaluation with Chain-of-Analysis [65.42684641776931]
3Dビジョン言語(3D-VL)ベンチマークは、3D-VLモデルの評価に不足している。
我々は3D-VLグラウンドとQAタスクのベンチマークであるBeacon3Dを提案する。
論文 参考訳(メタデータ) (2025-03-28T13:32:29Z) - MeshFleet: Filtered and Annotated 3D Vehicle Dataset for Domain Specific Generative Modeling [0.0]
微調整された大規模な生成モデルは、これらのモデルをエンジニアリングなどの分野で利用できるようにする上で有望な視点である。
我々は,最も広く公開されている3DオブジェクトコレクションであるXLから抽出した,フィルタおよび注釈付き3DデータセットであるMeshFleetを紹介する。
本手法の有効性を,字幕と画像の美的スコアに基づく手法との比較分析とSV3Dによる微調整実験により実証した。
論文 参考訳(メタデータ) (2025-03-18T08:09:24Z) - UVRM: A Scalable 3D Reconstruction Model from Unposed Videos [68.34221167200259]
従来の2次元視覚データを用いた3D再構成モデルのトレーニングには、トレーニングサンプルのカメラポーズに関する事前知識が必要である。
UVRMは、ポーズに関する情報を必要とせず、単眼ビデオでトレーニングし、評価できる新しい3D再構成モデルである。
論文 参考訳(メタデータ) (2025-01-16T08:00:17Z) - Open-Vocabulary High-Resolution 3D (OVHR3D) Data Segmentation and Annotation Framework [1.1280113914145702]
本研究の目的は,3次元セグメンテーションタスクのための包括的で効率的なフレームワークの設計と開発である。
このフレームワークはGrounding DINOとSegment Any Modelを統合し、3Dメッシュによる2D画像レンダリングの強化によって強化される。
論文 参考訳(メタデータ) (2024-12-09T07:39:39Z) - Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes [65.22070581594426]
Implicit-Zoo"は、この分野の研究と開発を容易にするために、数千のGPUトレーニング日を必要とする大規模なデータセットである。
1)トランスモデルのトークン位置を学習すること、(2)NeRFモデルに関して直接3Dカメラが2D画像のポーズを取ること、である。
これにより、画像分類、セマンティックセグメンテーション、および3次元ポーズ回帰の3つのタスクすべてのパフォーマンスが向上し、研究のための新たな道が開けることになる。
論文 参考訳(メタデータ) (2024-06-25T10:20:44Z) - SketchANIMAR: Sketch-based 3D Animal Fine-Grained Retrieval [17.286320102183502]
我々は,スケッチクエリを用いたデータセットから関連する3D動物モデルを取得することに焦点を当てた,新しいSHRECチャレンジトラックを紹介した。
本コンテストでは,複雑かつ詳細なスケッチに基づいて,参加者が3Dモデルを取得する必要がある。
8つのチームから満足のいく結果が得られ、204回が実行されます。
論文 参考訳(メタデータ) (2023-04-12T09:40:38Z) - Unsupervised Learning of 3D Object Categories from Videos in the Wild [75.09720013151247]
オブジェクトインスタンスの大規模なコレクションの複数のビューからモデルを学ぶことに重点を置いています。
再構成を大幅に改善するワープコンディショニングレイ埋め込み(WCR)と呼ばれる新しいニューラルネットワーク設計を提案する。
本評価は,既存のベンチマークを用いた複数の深部単眼再構成ベースラインに対する性能改善を示す。
論文 参考訳(メタデータ) (2021-03-30T17:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。