Fugu-MT 論文翻訳(概要): Understanding the World's Museums through Vision-Language Reasoning

論文の概要: Understanding the World's Museums through Vision-Language Reasoning

arxiv url: http://arxiv.org/abs/2412.01370v1
Date: Mon, 02 Dec 2024 10:54:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:11:22.509699
Title: Understanding the World's Museums through Vision-Language Reasoning
Title（参考訳）: 視覚・言語推論による世界の博物館の理解
Authors: Ada-Astrid Balauca, Sanjana Garai, Stefan Balauca, Rasesh Udayakumar Shetty, Naitik Agrawal, Dhwanil Subhashbhai Shah, Yuqian Fu, Xi Wang, Kristina Toutanova, Danda Pani Paudel, Luc Van Gool,
Abstract要約: 博物館は、様々なエポック、文明、地域にまたがる文化遺産や歴史的遺物の重要な保管物として機能している。我々は、世界中の展示のために、標準的な博物館カタログフォーマットで65万枚の画像と2億枚の質問回答ペアの大規模なデータセットを収集し、キュレートする。 BLIPモデルと視覚言語対応の埋め込みを持つが、大きな言語モデルの表現力に欠ける2つのVLMと、視覚言語推論能力に富んだ強力な命令チューニング LLaVA モデルを訓練する。
参考スコア（独自算出の注目度）: 49.976422699906706
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Museums serve as vital repositories of cultural heritage and historical artifacts spanning diverse epochs, civilizations, and regions, preserving well-documented collections. Data reveal key attributes such as age, origin, material, and cultural significance. Understanding museum exhibits from their images requires reasoning beyond visual features. In this work, we facilitate such reasoning by (a) collecting and curating a large-scale dataset of 65M images and 200M question-answer pairs in the standard museum catalog format for exhibits from all around the world; (b) training large vision-language models on the collected dataset; (c) benchmarking their ability on five visual question answering tasks. The complete dataset is labeled by museum experts, ensuring the quality as well as the practical significance of the labels. We train two VLMs from different categories: the BLIP model, with vision-language aligned embeddings, but lacking the expressive power of large language models, and the LLaVA model, a powerful instruction-tuned LLM enriched with vision-language reasoning capabilities. Through exhaustive experiments, we provide several insights on the complex and fine-grained understanding of museum exhibits. In particular, we show that some questions whose answers can often be derived directly from visual features are well answered by both types of models. On the other hand, questions that require the grounding of the visual features in repositories of human knowledge are better answered by the large vision-language models, thus demonstrating their superior capacity to perform the desired reasoning. Find our dataset, benchmarks, and source code at: https://github.com/insait-institute/Museum-65
Abstract（参考訳）: 博物館は、様々なエポック、文明、地域にまたがる文化遺産や歴史的遺物の重要な保管所として機能し、文書化されたコレクションを保存している。データは、年齢、起源、資料、文化的重要性などの重要な属性を明らかにする。美術館の展示をイメージから理解するには、視覚的な特徴以上の推論が必要である。この作品では、このような推論を促進する。 (a)世界中の展示品を展示する標準的な博物館カタログ形式で、65万枚の画像と2億枚の質問応答対の大規模なデータセットを収集し、キュレーションすること。 b) 収集したデータセットに基づいて大規模視覚言語モデルを訓練すること。 (c)5つの視覚的質問応答タスクにおいて,その能力のベンチマークを行う。完全なデータセットは博物館の専門家によってラベル付けされ、ラベルの質と実用的重要性が保証される。 BLIPモデルと視覚言語対応の埋め込みを持つが、大きな言語モデルの表現力に欠ける2つのVLMと、視覚言語推論能力に富んだ強力な命令チューニング LLaVA モデルを訓練する。総合的な実験を通じて,博物館展示の複雑できめ細かい理解について,いくつかの知見を提供する。特に,視覚的特徴から直接解答を導き出すことのできる疑問は,両モデルでよく解答される。一方、人間の知識のリポジトリにおける視覚的特徴の基盤となることを必要とする質問は、大きな視覚言語モデルによってよりよく答えられ、望まれる推論を行うための優れた能力を示す。データセット、ベンチマーク、ソースコードは、https://github.com/insait-institute/Museum-65で確認します。

関連論文リスト

WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines [74.25764182510295]
視覚言語モデル(VLM)は、特に英語以外の言語において、文化特有の知識に苦しむことが多い。我々は多言語および多文化の視覚的理解のための大規模ベンチマークであるWorld Cuisinesを紹介した。このベンチマークには、30の言語と方言にまたがるテキストイメージペアを備えた、視覚的質問応答(VQA)データセットが含まれている。
論文参考訳（メタデータ） (2024-10-16T16:11:49Z)
MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文参考訳（メタデータ） (2024-07-06T00:40:53Z)
Towards Vision-Language Geo-Foundation Model: A Survey [65.70547895998541]
Vision-Language Foundation Models (VLFMs) は、様々なマルチモーダルタスクにおいて顕著な進歩を遂げている。本稿では, VLGFMを網羅的にレビューし, この分野の最近の展開を要約し, 分析する。
論文参考訳（メタデータ） (2024-06-13T17:57:30Z)
CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。 CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。 CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文参考訳（メタデータ） (2024-06-10T01:59:00Z)
WinoViz: Probing Visual Properties of Objects Under Different States [39.92628807477848]
本稿では,異なる文脈や状態下でのオブジェクトの異種視覚特性に関する言語モデルの推論能力を探索する,1,380の例からなるテキストのみの評価データセットを提案する。我々の課題は、現実的な推論(意図した意味を表現)と視覚的知識推論を必要とするため、難しい。また、タスクを解決するには、複数のステップの推論チェーンを必要とする、より難しいバージョンのマルチホップデータも提示します。
論文参考訳（メタデータ） (2024-02-21T07:31:47Z)
ViCLEVR: A Visual Reasoning Dataset and Hybrid Multimodal Fusion Model for Visual Question Answering in Vietnamese [1.6340299456362617]
ベトナムにおける様々な視覚的推論能力を評価するための先駆的な収集であるViCLEVRデータセットを紹介した。我々は、現代の視覚的推論システムの包括的な分析を行い、その強みと限界についての貴重な洞察を提供する。 PhoVITは、質問に基づいて画像中のオブジェクトを識別する総合的なマルチモーダル融合である。
論文参考訳（メタデータ） (2023-10-27T10:44:50Z)
The All-Seeing Project: Towards Panoptic Visual Recognition and Understanding of the Open World [71.52132776748628]
オープンな世界のすべてを認識、理解するための大規模データとモデルであるAll-Seeing (AS)プロジェクトを紹介します。我々は10億以上の領域に意味タグ、質問応答ペア、詳細なキャプションを付加した新しいデータセット(AS-1B)を作成します。視覚認識と理解のための統合フレームワークであるAll-Seeing Model (ASM) を開発した。
論文参考訳（メタデータ） (2023-08-03T17:59:47Z)
Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions? [50.29862466940209]
情報検索に適した視覚的質問応答データセットであるInfoSeekを紹介する。事前学習した様々な視覚的質問応答モデルを分析し,その特徴について考察する。関連文書を検索することでInfoSeekの性能を向上させるために,正確な視覚的実体認識が利用できることを示す。
論文参考訳（メタデータ） (2023-02-23T00:33:54Z)
VIPHY: Probing "Visible" Physical Commonsense Knowledge [22.00069189468524]
視覚言語モデル(VLM)は視覚的推論タスクにおいて顕著な性能を示した。視覚的」身体的知識を習得する能力を評価する。以上の結果から,モデルと人的パフォーマンスの間には深刻なギャップがあることが示唆された。
論文参考訳（メタデータ） (2022-09-15T02:06:25Z)
FashionVQA: A Domain-Specific Visual Question Answering System [2.6924405243296134]
我々は、ファッション写真画像におけるアパレルに関する複雑な自然言語質問に答えるために、視覚的質問応答システム(VQA)を訓練する。最高のモデルの正確さは、人間が生成した質問に答える場合でも、人間の専門家レベルを超えます。大規模マルチモーダルなドメイン特化データセットを生成するための我々のアプローチは、自然言語で通信可能な特殊なモデルを訓練するためのパスを提供する。
論文参考訳（メタデータ） (2022-08-24T01:18:13Z)
VisualMRC: Machine Reading Comprehension on Document Images [4.057968826847943]
質問と文書画像が与えられたとき、機械は自然言語で質問に答えるために画像中のテキストを読み、理解する。 VisualMRCは、自然言語の理解と生成能力の開発に重点を置いている。これには3万以上の質問と、Webページの複数のドメインから得られた1万以上のドキュメントイメージの抽象的な回答が含まれている。
論文参考訳（メタデータ） (2021-01-27T09:03:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。