論文の概要: Visual Question Answering for Cultural Heritage
- arxiv url: http://arxiv.org/abs/2003.09853v1
- Date: Sun, 22 Mar 2020 10:26:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 05:05:48.419967
- Title: Visual Question Answering for Cultural Heritage
- Title(参考訳): 文化遺産に対する視覚的質問応答
- Authors: Pietro Bongini, Federico Becattini, Andrew D. Bagdanov, Alberto Del
Bimbo
- Abstract要約: 機械学習とコンピュータビジョンは、この継続的な統合の重要な要素であり、ユーザーと博物館の間の新たなインタラクションモダリティを可能にする。
コンピュータビジョンで人気のトレンドはビジュアル質問回答(VQA)である。
これは、博物館訪問やパーソナルスマートフォンでの簡単な画像閲覧のためのスマートオーディオガイドの進化であると考えています。
- 参考スコア(独自算出の注目度): 27.843597176715054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Technology and the fruition of cultural heritage are becoming increasingly
more entwined, especially with the advent of smart audio guides, virtual and
augmented reality, and interactive installations. Machine learning and computer
vision are important components of this ongoing integration, enabling new
interaction modalities between user and museum. Nonetheless, the most frequent
way of interacting with paintings and statues still remains taking pictures.
Yet images alone can only convey the aesthetics of the artwork, lacking is
information which is often required to fully understand and appreciate it.
Usually this additional knowledge comes both from the artwork itself (and
therefore the image depicting it) and from an external source of knowledge,
such as an information sheet. While the former can be inferred by computer
vision algorithms, the latter needs more structured data to pair visual content
with relevant information. Regardless of its source, this information still
must be be effectively transmitted to the user. A popular emerging trend in
computer vision is Visual Question Answering (VQA), in which users can interact
with a neural network by posing questions in natural language and receiving
answers about the visual content. We believe that this will be the evolution of
smart audio guides for museum visits and simple image browsing on personal
smartphones. This will turn the classic audio guide into a smart personal
instructor with which the visitor can interact by asking for explanations
focused on specific interests. The advantages are twofold: on the one hand the
cognitive burden of the visitor will decrease, limiting the flow of information
to what the user actually wants to hear; and on the other hand it proposes the
most natural way of interacting with a guide, favoring engagement.
- Abstract(参考訳): 特にスマートオーディオガイド、バーチャルと拡張現実、インタラクティブなインスタレーションが出現したことで、テクノロジーと文化遺産の成果はますます定着しつつある。
機械学習とコンピュータビジョンは、この進行中の統合の重要な要素であり、ユーザとミュージアム間の新しいインタラクションモードを可能にする。
それにもかかわらず、絵画や彫像との相互作用の最も頻繁な方法は現在でも撮影されている。
しかし、画像だけでは芸術の美学しか伝えられないが、それを十分に理解し、理解するために必要とされる情報が欠けている。
通常、この追加の知識は、アートワークそのもの(そしてそれを表現するイメージ)と、情報シートのような外部の知識ソースの両方からもたらされる。
前者はコンピュータビジョンアルゴリズムで推測できるが、後者は視覚コンテンツを関連情報と組み合わせるためにより構造化されたデータを必要とする。
ソースに関係なく、この情報はユーザに効果的に送信されなければならない。
コンピュータビジョンにおける一般的な新しいトレンドは、視覚質問応答(vqa)であり、ユーザーは自然言語で質問をしたり、視覚コンテンツに関する回答を受け取ることで、ニューラルネットワークと対話することができる。
これは博物館の訪問やスマートフォンでの簡単な画像閲覧のためのスマートオーディオガイドの進化だと信じています。
これにより、古典的なオーディオガイドがスマートなパーソナルインストラクターになり、訪問者は特定の興味に焦点を絞った説明を求めることで対話できる。
アドバンテージは2つある: 一方、訪問者の認知的負担は減少し、ユーザが実際に聞きたいものだけに情報のフローを制限し、一方、ガイドと対話し、エンゲージメントを優先する最も自然な方法を提案する。
関連論文リスト
- Visual Knowledge in the Big Model Era: Retrospect and Prospect [63.282425615863]
視覚知識は、視覚概念とその関係を簡潔で包括的で解釈可能な方法でカプセル化できる新しい知識表現である。
視覚世界に関する知識は、人間の認知と知性にとって欠かせない要素として認識されているため、視覚知識は、機械知性を確立する上で重要な役割を担っていると考えられる。
論文 参考訳(メタデータ) (2024-04-05T07:31:24Z) - Can Pre-trained Vision and Language Models Answer Visual
Information-Seeking Questions? [50.29862466940209]
情報検索に適した視覚的質問応答データセットであるInfoSeekを紹介する。
事前学習した様々な視覚的質問応答モデルを分析し,その特徴について考察する。
関連文書を検索することでInfoSeekの性能を向上させるために,正確な視覚的実体認識が利用できることを示す。
論文 参考訳(メタデータ) (2023-02-23T00:33:54Z) - How Would The Viewer Feel? Estimating Wellbeing From Video Scenarios [73.24092762346095]
情緒応答と主観的幸福感に注釈を付けた6万本以上のビデオを備えた大規模データセットを2つ導入した。
Video Cognitive Empathyデータセットには、微粒な感情応答の分布のためのアノテーションが含まれており、モデルが感情状態の詳細な理解を得ることができる。
Video to Valenceデータセットには、ビデオ間の相対的な快適性のアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-10-18T17:58:25Z) - K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。
トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。
評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文 参考訳(メタデータ) (2022-04-20T04:47:01Z) - Visual Intelligence through Human Interaction [43.82765410550207]
我々は,新しいインタラクション戦略により,コンピュータビジョンのための新しい形式のデータ収集と評価が可能になることを実証する。
クラウドソーシングインタフェースにより、有料データ収集を桁違いにスピードアップし、現代の視覚モデルにおけるデータ急激な性質を満たす。
第3に,人間の生成的視覚モデルの評価が信頼性が高く,手頃な価格で,心理物理学理論に根ざしたシステムを開発する。
論文 参考訳(メタデータ) (2021-11-12T19:37:17Z) - Interpretable Visual Understanding with Cognitive Attention Network [20.991018495051623]
視覚的コモンセンス推論のための認知意識ネットワーク(CAN)を提案する。
まず、画像とテキストの情報をまとめて融合するための画像テキスト融合モジュールを導入する。
第二に、新しい推論モジュールは、画像、クエリ、レスポンスのコモンセンスをエンコードするように設計されている。
論文 参考訳(メタデータ) (2021-08-06T02:57:43Z) - Explainability via Interactivity? Supporting Nonexperts' Sensemaking of
Pretrained CNN by Interacting with Their Daily Surroundings [7.455054065013047]
我々は,CNN(Convolutional Neural Networks)を対話的に理解するための非専門家を支援するモバイルアプリケーションを提案する。
ユーザーは周囲のオブジェクトの写真を撮ることで、事前訓練されたCNNで遊べる。
モデルの決定を直感的に視覚化するために、最新のXAI技術(Class Activation Map)を使用します。
論文 参考訳(メタデータ) (2021-05-31T19:22:53Z) - Contextualized Knowledge-aware Attentive Neural Network: Enhancing
Answer Selection with Knowledge [77.77684299758494]
ナレッジグラフ(KG)による外部知識による回答選択モデル向上のアプローチを幅広く検討しています。
まず、KGの外部知識とテキスト情報との密接な相互作用を考慮し、QA文表現を学習するコンテキスト知識相互作用学習フレームワークであるナレッジアウェアニューラルネットワーク(KNN)を紹介します。
KG情報の多様性と複雑性に対処するために, カスタマイズされたグラフ畳み込みネットワーク (GCN) を介して構造情報を用いた知識表現学習を改善し, コンテキストベースおよび知識ベースの文表現を総合的に学習する コンテキスト型知識認識型アテンシブニューラルネットワーク (CKANN) を提案する。
論文 参考訳(メタデータ) (2021-04-12T05:52:20Z) - KVL-BERT: Knowledge Enhanced Visual-and-Linguistic BERT for Visual
Commonsense Reasoning [4.787501955202053]
visual commonsense reasoning (vcr)タスクでは、マシンは正しく答え、その答えを正当化するための根拠を提供する必要がある。
本稿では,KVL-BERT(KVL-BERT)モデルを提案する。
視覚的および言語的内容の入力に加えて、ConceptNetから抽出された外部コモンセンス知識を多層トランスフォーマーに統合する。
論文 参考訳(メタデータ) (2020-12-13T08:22:33Z) - Vision and Language: from Visual Perception to Content Creation [100.36776435627962]
言語へのビジョン"は、おそらく過去5年で最も人気のあるトピックの1つである。
本稿は、これらの2つの側面に沿った最近の進歩、すなわち「言語へのビジョン」と「視覚への言語」を概観する。
論文 参考訳(メタデータ) (2019-12-26T14:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。