論文の概要: VaseVQA: Multimodal Agent and Benchmark for Ancient Greek Pottery
- arxiv url: http://arxiv.org/abs/2509.17191v1
- Date: Sun, 21 Sep 2025 18:36:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.160057
- Title: VaseVQA: Multimodal Agent and Benchmark for Ancient Greek Pottery
- Title(参考訳): VaseVQA: 古代ギリシアの陶器のマルチモーダルエージェントとベンチマーク
- Authors: Jinchao Ge, Tengfei Cheng, Biao Wu, Zeyu Zhang, Shiya Huang, Judith Bishop, Gillian Shepherd, Meng Fang, Ling Chen, Yang Zhao,
- Abstract要約: 本稿では,評価を監督するSFT-then-RLシステムであるVaseVLを提案する。
VaseVQAは31,773枚の画像の総合的なベンチマークで、深い理解を探索するように設計されています。
- 参考スコア(独自算出の注目度): 34.97732784308918
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Analyzing cultural-heritage artifacts remains challenging for MLLMs: general models lack domain expertise, and SFT often overfits superficial patterns, yielding brittle reasoning for authentication and historical attribution. This raises the question of how to equip MLLMs with robust, expert-level reasoning for ancient Greek pottery. We present VaseVL, an SFT-then-RL system that turns evaluation into supervision: we construct a taxonomy of question types, probe the SFT model to localize type-specific performance gaps, and optimize with type-conditioned, compositionality-oriented rewards targeting those gaps. We also release VaseVQA, a comprehensive benchmark of 31,773 images designed to probe deep understanding. Experiments show state-of-the-art results on style classification and historical attribution with marked gains in compositional robustness over SFT-only baselines, validating diagnosis-guided, taxonomy-conditioned reward engineering and providing a reusable resource for future research. Code and dataset will be available at https://github.com/AIGeeksGroup/VaseVQA.
- Abstract(参考訳): 一般的なモデルはドメインの専門知識が欠如しており、SFTはしばしば表面的なパターンに適合し、認証と歴史的属性に対する脆い推論をもたらす。
このことは、古代ギリシアの陶器の堅固で専門家レベルの推論でMLLMをどう装備するかという疑問を提起する。
我々は,SFT-then-RLシステムとして,質問型の分類を構築し,タイプ固有のパフォーマンスギャップをローカライズするためにSFTモデルを探索し,それらのギャップをターゲットとしたタイプ条件の合成指向報酬を最適化する。
VaseVQAは31,773枚の画像の総合的なベンチマークで、深い理解を探索するように設計されています。
実験では、SFTのみのベースラインに対する構成的堅牢性の顕著な向上、診断誘導型、分類条件付き報酬工学の検証、将来の研究のための再利用可能な資源の提供など、スタイル分類と歴史的属性に関する最先端の結果が示されている。
コードとデータセットはhttps://github.com/AIGeeksGroup/VaseVQA.comで入手できる。
関連論文リスト
- Beyond Static Artifacts: A Forensic Benchmark for Video Deepfake Reasoning in Vision Language Models [42.760056969811075]
空間的アーティファクトを識別するディープフェイク検出のための現在のビジョン・ランゲージ・モデル(VLM)は、ビデオフォージェリーにおける時間的矛盾を見落としている。
本稿では,時間的深度解析をマルチチョイスタスクとして定式化する大規模ベンチマークであるForensic Answer-Questioning (FAQ)を提案する。
論文 参考訳(メタデータ) (2026-02-25T10:54:55Z) - Do It for HER: First-Order Temporal Logic Reward Specification in Reinforcement Learning (Extended Version) [49.462399222747024]
本研究では,大規模状態空間を持つ決定過程(MDP)における非マルコフ報酬の論理的仕様に関する新しい枠組みを提案する。
我々のアプローチは有限トレース(LTLfMT)上での線形時間論理モデュロ理論を利用する
本稿では,報酬マシンとHER(Hindsight Experience Replay)をベースとした一階述語論理仕様の翻訳手法を提案する。
論文 参考訳(メタデータ) (2026-02-05T22:11:28Z) - Continual Action Quality Assessment via Adaptive Manifold-Aligned Graph Regularization [53.82400605816587]
アクション品質アセスメント(AQA)は、ビデオにおける人間の行動を定量化し、スポーツスコアリング、リハビリテーション、スキル評価の応用を支援する。
大きな課題は、現実世界のシナリオにおける品質分布の非定常的な性質にある。
本稿では,進化する分布を扱うための連続学習機能を備えた連続AQA(Continuous AQA)を紹介する。
論文 参考訳(メタデータ) (2025-10-08T10:09:47Z) - VaseVQA-3D: Benchmarking 3D VLMs on Ancient Greek Pottery [14.993425622341917]
VaseVQA-3Dデータセットは古代ギリシアの陶器分析のための最初の3次元視覚質問応答データセットとして機能する。
我々はさらにVaseVLMモデルを開発し、ドメイン適応学習によるVaseアーチファクト解析におけるモデル性能を向上させる。
論文 参考訳(メタデータ) (2025-10-06T04:28:39Z) - LETToT: Label-Free Evaluation of Large Language Models On Tourism Using Expert Tree-of-Thought [18.539462131974215]
我々はエキスパート由来の推論構造を利用するフレームワークであるExpert $textbfT$ree-$textbfo$f-$textbfT$hought (LETToT)を提案する。
その結果,4.99-14.15%の相対的品質向上率をベースラインに最適化したToTの有効性が示された。
論文 参考訳(メタデータ) (2025-08-15T07:37:12Z) - Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing [84.16442052968615]
RISEBenchはReasoning-Informed ViSual Editing (RISE)の最初のベンチマークである。
RISEBenchは、時間、因果、空間、論理的推論の4つの主要な推論カテゴリに焦点を当てている。
オープンソースモデルとプロプライエタリモデルの両方を含む,9つの目立った視覚編集モデルを評価する実験を行った。
論文 参考訳(メタデータ) (2025-04-03T17:59:56Z) - ExpertGenQA: Open-ended QA generation in Specialized Domains [9.412082058055823]
ExpertGenQAは、いくつかのショット学習と構造化トピックとスタイル分類を組み合わせて、包括的なドメイン固有のQAペアを生成するプロトコルである。
ExpertGenQAは,9,4.4%のトピックカバレッジを維持しつつ,ベースライン数ショットアプローチの効率を2倍に向上することを示す。
論文 参考訳(メタデータ) (2025-03-04T19:09:48Z) - Benchmarking Post-Training Quantization in LLMs: Comprehensive Taxonomy, Unified Evaluation, and Comparative Analysis [89.60263788590893]
後学習量子化(PTQ)技術は大規模言語モデル(LLM)圧縮に広く採用されている。
既存のアルゴリズムは主にパフォーマンスに重点を置いており、モデルサイズ、パフォーマンス、量子化ビット幅間のトレードオフを見越している。
本稿では LLM PTQ のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-02-18T07:35:35Z) - TSFM-Bench: A Comprehensive and Unified Benchmark of Foundation Models for Time Series Forecasting [35.505530132151]
時系列予測(TSF)は、金融投資、気象サービス、エネルギー管理など、多くの分野で重要な機能である。
多くのTSFメソッドはドメイン固有のデータ収集とモデルトレーニングを必要とし、他のドメインに適用してもうまく一般化しない。
大規模な異種時系列データに基づいて事前訓練された時系列基礎モデル(TSFM)は、これらの制限を克服することを目的としている。
論文 参考訳(メタデータ) (2024-10-15T17:23:49Z) - Variational Autoencoder for Anomaly Detection: A Comparative Study [1.9131868049527914]
本稿では,同時代の変分オートエンコーダ(VAE)アーキテクチャを異常検出に用い比較解析することを目的とする。
検討中のアーキテクチャ構成には、元々のVAEベースライン、ガウスランダムフィールド(VAE-GRF)を持つVAE、ビジョントランスフォーマー(ViT-VAE)を搭載したVAEが含まれる。
論文 参考訳(メタデータ) (2024-08-24T12:07:57Z) - ViTime: Foundation Model for Time Series Forecasting Powered by Vision Intelligence [49.60944381032587]
時系列予測(TSF)は、電力やエネルギー、輸送など、様々な分野で大きな実践的価値を持っている。
TSFモデルは長年、問題固有であり、アプリケーションの一般化性に欠けることが知られている。
本稿では,視覚情報を利用したViTimeフレームワークを初めて提案する。
論文 参考訳(メタデータ) (2024-07-10T02:11:01Z) - Test-Time Domain Generalization for Face Anti-Spoofing [60.94384914275116]
Face Anti-Spoofing (FAS) は、顔認識システムをプレゼンテーション攻撃から保護するために重要である。
本稿では,テストデータを活用してモデルの一般化性を高める新しいテスト時間領域一般化フレームワークについて紹介する。
テスト時間スタイル投影 (TTSP) とディバーススタイルシフトシミュレーション (DSSS) によって構成された本手法は, 目に見えないデータを領域空間に効果的に投影する。
論文 参考訳(メタデータ) (2024-03-28T11:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。