論文の概要: VaseVQA: Multimodal Agent and Benchmark for Ancient Greek Pottery
- arxiv url: http://arxiv.org/abs/2509.17191v1
- Date: Sun, 21 Sep 2025 18:36:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.160057
- Title: VaseVQA: Multimodal Agent and Benchmark for Ancient Greek Pottery
- Title(参考訳): VaseVQA: 古代ギリシアの陶器のマルチモーダルエージェントとベンチマーク
- Authors: Jinchao Ge, Tengfei Cheng, Biao Wu, Zeyu Zhang, Shiya Huang, Judith Bishop, Gillian Shepherd, Meng Fang, Ling Chen, Yang Zhao,
- Abstract要約: 本稿では,評価を監督するSFT-then-RLシステムであるVaseVLを提案する。
VaseVQAは31,773枚の画像の総合的なベンチマークで、深い理解を探索するように設計されています。
- 参考スコア(独自算出の注目度): 34.97732784308918
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Analyzing cultural-heritage artifacts remains challenging for MLLMs: general models lack domain expertise, and SFT often overfits superficial patterns, yielding brittle reasoning for authentication and historical attribution. This raises the question of how to equip MLLMs with robust, expert-level reasoning for ancient Greek pottery. We present VaseVL, an SFT-then-RL system that turns evaluation into supervision: we construct a taxonomy of question types, probe the SFT model to localize type-specific performance gaps, and optimize with type-conditioned, compositionality-oriented rewards targeting those gaps. We also release VaseVQA, a comprehensive benchmark of 31,773 images designed to probe deep understanding. Experiments show state-of-the-art results on style classification and historical attribution with marked gains in compositional robustness over SFT-only baselines, validating diagnosis-guided, taxonomy-conditioned reward engineering and providing a reusable resource for future research. Code and dataset will be available at https://github.com/AIGeeksGroup/VaseVQA.
- Abstract(参考訳): 一般的なモデルはドメインの専門知識が欠如しており、SFTはしばしば表面的なパターンに適合し、認証と歴史的属性に対する脆い推論をもたらす。
このことは、古代ギリシアの陶器の堅固で専門家レベルの推論でMLLMをどう装備するかという疑問を提起する。
我々は,SFT-then-RLシステムとして,質問型の分類を構築し,タイプ固有のパフォーマンスギャップをローカライズするためにSFTモデルを探索し,それらのギャップをターゲットとしたタイプ条件の合成指向報酬を最適化する。
VaseVQAは31,773枚の画像の総合的なベンチマークで、深い理解を探索するように設計されています。
実験では、SFTのみのベースラインに対する構成的堅牢性の顕著な向上、診断誘導型、分類条件付き報酬工学の検証、将来の研究のための再利用可能な資源の提供など、スタイル分類と歴史的属性に関する最先端の結果が示されている。
コードとデータセットはhttps://github.com/AIGeeksGroup/VaseVQA.comで入手できる。
関連論文リスト
- LETToT: Label-Free Evaluation of Large Language Models On Tourism Using Expert Tree-of-Thought [18.539462131974215]
我々はエキスパート由来の推論構造を利用するフレームワークであるExpert $textbfT$ree-$textbfo$f-$textbfT$hought (LETToT)を提案する。
その結果,4.99-14.15%の相対的品質向上率をベースラインに最適化したToTの有効性が示された。
論文 参考訳(メタデータ) (2025-08-15T07:37:12Z) - Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing [84.16442052968615]
RISEBenchはReasoning-Informed ViSual Editing (RISE)の最初のベンチマークである。
RISEBenchは、時間、因果、空間、論理的推論の4つの主要な推論カテゴリに焦点を当てている。
オープンソースモデルとプロプライエタリモデルの両方を含む,9つの目立った視覚編集モデルを評価する実験を行った。
論文 参考訳(メタデータ) (2025-04-03T17:59:56Z) - ExpertGenQA: Open-ended QA generation in Specialized Domains [9.412082058055823]
ExpertGenQAは、いくつかのショット学習と構造化トピックとスタイル分類を組み合わせて、包括的なドメイン固有のQAペアを生成するプロトコルである。
ExpertGenQAは,9,4.4%のトピックカバレッジを維持しつつ,ベースライン数ショットアプローチの効率を2倍に向上することを示す。
論文 参考訳(メタデータ) (2025-03-04T19:09:48Z) - Benchmarking Post-Training Quantization in LLMs: Comprehensive Taxonomy, Unified Evaluation, and Comparative Analysis [89.60263788590893]
後学習量子化(PTQ)技術は大規模言語モデル(LLM)圧縮に広く採用されている。
既存のアルゴリズムは主にパフォーマンスに重点を置いており、モデルサイズ、パフォーマンス、量子化ビット幅間のトレードオフを見越している。
本稿では LLM PTQ のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-02-18T07:35:35Z) - TSFM-Bench: A Comprehensive and Unified Benchmark of Foundation Models for Time Series Forecasting [35.505530132151]
時系列予測(TSF)は、金融投資、気象サービス、エネルギー管理など、多くの分野で重要な機能である。
多くのTSFメソッドはドメイン固有のデータ収集とモデルトレーニングを必要とし、他のドメインに適用してもうまく一般化しない。
大規模な異種時系列データに基づいて事前訓練された時系列基礎モデル(TSFM)は、これらの制限を克服することを目的としている。
論文 参考訳(メタデータ) (2024-10-15T17:23:49Z) - Variational Autoencoder for Anomaly Detection: A Comparative Study [1.9131868049527914]
本稿では,同時代の変分オートエンコーダ(VAE)アーキテクチャを異常検出に用い比較解析することを目的とする。
検討中のアーキテクチャ構成には、元々のVAEベースライン、ガウスランダムフィールド(VAE-GRF)を持つVAE、ビジョントランスフォーマー(ViT-VAE)を搭載したVAEが含まれる。
論文 参考訳(メタデータ) (2024-08-24T12:07:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。