論文の概要: Is GPT-3 all you need for Visual Question Answering in Cultural
Heritage?
- arxiv url: http://arxiv.org/abs/2207.12101v2
- Date: Fri, 19 May 2023 09:56:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 19:50:29.869539
- Title: Is GPT-3 all you need for Visual Question Answering in Cultural
Heritage?
- Title(参考訳): GPT-3 文化遺産における視覚的質問回答に必要なもの
- Authors: Pietro Bongini, Federico Becattini, Alberto Del Bimbo
- Abstract要約: 本稿では,実行時に記述シートを生成する視覚質問応答手法を提案する。
本稿では, キャプション指標を用いて生成した記述の質を分析し, GPT-3による記述生成について検討する。
- 参考スコア(独自算出の注目度): 22.86041284499166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The use of Deep Learning and Computer Vision in the Cultural Heritage domain
is becoming highly relevant in the last few years with lots of applications
about audio smart guides, interactive museums and augmented reality. All these
technologies require lots of data to work effectively and be useful for the
user. In the context of artworks, such data is annotated by experts in an
expensive and time consuming process. In particular, for each artwork, an image
of the artwork and a description sheet have to be collected in order to perform
common tasks like Visual Question Answering. In this paper we propose a method
for Visual Question Answering that allows to generate at runtime a description
sheet that can be used for answering both visual and contextual questions about
the artwork, avoiding completely the image and the annotation process. For this
purpose, we investigate on the use of GPT-3 for generating descriptions for
artworks analyzing the quality of generated descriptions through captioning
metrics. Finally we evaluate the performance for Visual Question Answering and
captioning tasks.
- Abstract(参考訳): 文化遺産ドメインにおけるディープラーニングとコンピュータビジョンの利用は、ここ数年、オーディオスマートガイド、インタラクティブな博物館、拡張現実に関する多くの応用において、非常に重要になっている。
これらの技術はすべて、効果的に動作し、ユーザに役立つために大量のデータを必要とします。
アートワークの文脈では、そのようなデータは高価な時間のかかるプロセスにおいて専門家によって注釈付けされる。
特に、各アートワークには、視覚質問応答のような共通的なタスクを実行するために、アートワークの画像と記述シートを収集する必要がある。
本稿では,映像とアノテーションのプロセスを完全に回避し,アートワークに関する視覚的質問と文脈質問の両方に回答できる記述シートを,実行時に生成できる視覚的質問応答手法を提案する。
そこで本研究では, キャプションメトリクスを用いて生成した記述の質を分析し, GPT-3による記述生成について検討する。
最後に,視覚的質問応答とキャプションタスクの性能評価を行う。
関連論文リスト
- InfoVisDial: An Informative Visual Dialogue Dataset by Bridging Large
Multimodal and Language Models [123.1441379479263]
我々はInfoVisDialという名前のビジュアル対話データセットを構築し、各ラウンドで豊富な情報を提供する。
効果的なデータ収集のための鍵となるアイデアは、大規模マルチモーダルモデル(GITなど)と言語モデル(GPT-3など)をブリッジすることである。
論文 参考訳(メタデータ) (2023-12-21T00:44:45Z) - Testing the Depth of ChatGPT's Comprehension via Cross-Modal Tasks Based
on ASCII-Art: GPT3.5's Abilities in Regard to Recognizing and Generating
ASCII-Art Are Not Totally Lacking [1.3416250383686867]
ChatGPTとその基盤モデルであるGPT3.5は、能力とアクセシビリティの強力な混合により、大きな注目を集めている。
我々は, GPT3.5の視覚的タスクに対する適性について検討した。
論文 参考訳(メタデータ) (2023-07-28T10:45:14Z) - Knowledge Mining with Scene Text for Fine-Grained Recognition [53.74297368412834]
本研究では,シーンテキスト画像の背景にある暗黙的な文脈知識をマイニングする,エンドツーエンドのトレーニング可能なネットワークを提案する。
我々は,KnowBertを用いて意味表現の関連知識を検索し,それを画像特徴と組み合わせ,きめ細かい分類を行う。
本手法は,3.72%のmAPと5.39%のmAPをそれぞれ上回っている。
論文 参考訳(メタデータ) (2022-03-27T05:54:00Z) - The Curious Layperson: Fine-Grained Image Recognition without Expert
Labels [90.88501867321573]
我々は、専門家のアノテーションを使わずに、きめ細かい画像認識という新しい問題を考える。
非専門的な画像記述を用いてオブジェクトの視覚的外観を記述するモデルを学ぶ。
次に、画像記述と文書とを文レベルでマッチングする、きめ細かいテキスト類似性モデルを訓練する。
論文 参考訳(メタデータ) (2021-11-05T17:58:37Z) - An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA [51.639880603821446]
本稿では,知識に基づくVQAのための画像キャプションを用いて,GPT3をプロンプトする簡易かつ効果的なPICaを提案する。
まず、まず、GPT-3が理解できるキャプション(タグ)に変換し、次に、GPT-3を適用してVQAタスクを数ショットで解決する。
PICaは16の例しか使用せず、OK-VQAデータセットの絶対+8.6ポイントで芸術の監督された状態を超越している。
論文 参考訳(メタデータ) (2021-09-10T17:51:06Z) - From Show to Tell: A Survey on Image Captioning [48.98681267347662]
視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。
画像キャプションの研究はまだ結論に達していない。
本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
論文 参考訳(メタデータ) (2021-07-14T18:00:54Z) - A Picture May Be Worth a Hundred Words for Visual Question Answering [26.83504716672634]
画像理解においては、簡潔だが詳細な画像表現を用いることが不可欠である。
より高速なR-CNNのような視覚モデルによって抽出された深い視覚的特徴は、複数のタスクで広く使われている。
本稿では、深い視覚的特徴の代わりに記述-探索ペアを入力とし、言語のみのトランスフォーマーモデルに入力する。
論文 参考訳(メタデータ) (2021-06-25T06:13:14Z) - CapWAP: Captioning with a Purpose [56.99405135645775]
我々は、CapWAP(Captioning with a Purpose)という新しいタスクを提案する。
私たちのゴールは、意図した人口の情報ニーズに合うように調整可能なシステムを開発することです。
目的とする情報に直接最適化するために強化学習を利用することが可能であることを示す。
論文 参考訳(メタデータ) (2020-11-09T09:23:55Z) - SAC: Semantic Attention Composition for Text-Conditioned Image Retrieval [15.074592583852167]
我々は,参照画像と並行してテキストフィードバックを利用して画像を取得するテキスト条件付き画像検索の課題に焦点をあてる。
そこで我々は,これらを「見る場所」(Semantic Feature Attention) と「変化の仕方」の2つの主要なステップで解決する新しいフレームワーク SAC を提案する。
我々のアーキテクチャは、他の最先端技術で必要となる様々なモジュールを不要にすることで、テキスト認識画像機能の生成をいかに効率化するかを示す。
論文 参考訳(メタデータ) (2020-09-03T06:55:23Z) - Scene Graph Reasoning for Visual Question Answering [23.57543808056452]
本研究では,シーン内に存在するオブジェクトとその意味的・空間的関係に基づいて,コンテキスト駆動型シーケンシャルな推論を行うことにより,タスクにアプローチする手法を提案する。
強化エージェントは、抽出されたシーングラフを自律的にナビゲートして、回答を導出する基礎となるパスを生成する。
論文 参考訳(メタデータ) (2020-07-02T13:02:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。