論文の概要: Enhancing Textbooks with Visuals from the Web for Improved Learning
- arxiv url: http://arxiv.org/abs/2304.08931v1
- Date: Tue, 18 Apr 2023 12:16:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 14:48:33.874006
- Title: Enhancing Textbooks with Visuals from the Web for Improved Learning
- Title(参考訳): web からの視覚による教科書の強化と学習の改善
- Authors: Janvijay Singh, Vil\'em Zouhar, Mrinmaya Sachan
- Abstract要約: 視覚言語モデルの有効性について検討し,Webからの画像を用いた教科書を自動的に強化する手法を提案する。
具体的には、世界最大の無料オンライン出版社の1つから、電子書籍のデータセットを収集します。
- 参考スコア(独自算出の注目度): 15.604503075179595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Textbooks are the primary vehicle for delivering quality education to
students. It has been shown that explanatory or illustrative visuals play a key
role in the retention, comprehension and the general transfer of knowledge.
However, many textbooks, especially in the developing world, are low quality
and lack interesting visuals to support student learning. In this paper, we
investigate the effectiveness of vision-language models to automatically
enhance textbooks with images from the web. Specifically, we collect a dataset
of e-textbooks from one of the largest free online publishers in the world. We
rigorously analyse the dataset, and use the resulting analysis to motivate a
task that involves retrieving and appropriately assigning web images to
textbooks, which we frame as a novel optimization problem. Through a
crowd-sourced evaluation, we verify that (1) while the original textbook images
are rated higher, automatically assigned ones are not far behind, and (2) the
choice of the optimization problem matters. We release the dataset of textbooks
with an associated image bank to spur further research in this area.
- Abstract(参考訳): 教科書は学生に質の高い教育を提供する主要な手段である。
説明的あるいは説明的視覚は、保持、理解、知識の一般的な伝達において重要な役割を果たすことが示されている。
しかし、特に発展途上国では、多くの教科書は品質が低く、学生の学習をサポートするための興味深いビジュアルが欠落している。
本稿では,Webからの画像を用いた教科書を自動的に強化する視覚言語モデルの有効性について検討する。
具体的には、世界最大の無料オンライン出版社から、電子書籍のデータセットを収集します。
我々は、データセットを厳格に分析し、その結果得られた分析を使って、新しい最適化問題として枠組された教科書にwebイメージを検索し、適切に割り当てるタスクを動機付ける。
クラウドソーシングによる評価により,(1)原文画像が高い評価を受ける一方で,自動割当て画像がそれほど遅れていないこと,(2)最適化問題の選択が重要であることを検証した。
我々は,この領域のさらなる研究を促進するために,関連画像バンクを用いた教科書データセットをリリースする。
関連論文リスト
- Enhancing Vision Models for Text-Heavy Content Understanding and Interaction [0.0]
画像エンコーディングのためのCLIPとMassive Text Embedding Benchmarkのモデルを統合したビジュアルチャットアプリケーションを構築した。
プロジェクトの目的は、複雑な視覚的テキストデータ相互接続データの理解において、先進視覚モデルの能力を高め、強化することである。
論文 参考訳(メタデータ) (2024-05-31T15:17:47Z) - FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Self-Supervised Image-to-Text and Text-to-Image Synthesis [23.587581181330123]
クロスモーダルな埋め込み空間を学習するための,新たな自己教師型深層学習手法を提案する。
そこで本研究では,まず,StackGANベースのオートエンコーダモデルを用いて画像の高密度ベクトル表現と,LSTMベースのテキストオートエンコーダを用いた文レベルでの高密度ベクトル表現を得る。
論文 参考訳(メタデータ) (2021-12-09T13:54:56Z) - LAViTeR: Learning Aligned Visual and Textual Representations Assisted by Image and Caption Generation [5.064384692591668]
本稿では,視覚およびテキスト表現学習のための新しいアーキテクチャであるLAViTeRを提案する。
メインモジュールであるVisual Textual Alignment (VTA)は、GANベースの画像合成とイメージキャプションという2つの補助的なタスクによって支援される。
CUBとMS-COCOの2つの公開データセットに対する実験結果は、優れた視覚的およびテキスト的表現アライメントを示す。
論文 参考訳(メタデータ) (2021-09-04T22:48:46Z) - Enhancing Social Relation Inference with Concise Interaction Graph and
Discriminative Scene Representation [56.25878966006678]
我々はtextbfSocial rtextbfElation (PRISE) における textbfPractical textbfInference のアプローチを提案する。
人の対話的特徴と全体主義的な場面の識別的特徴を簡潔に学習する。
PRISEはPIPAデータセットにおけるドメイン分類の改善を6.8$%で達成している。
論文 参考訳(メタデータ) (2021-07-30T04:20:13Z) - Multi-Modal Reasoning Graph for Scene-Text Based Fine-Grained Image
Classification and Retrieval [8.317191999275536]
本稿では,視覚的・テキスト的手がかりの形でマルチモーダルコンテンツを活用することで,微細な画像分類と検索の課題に取り組むことに焦点を当てる。
画像中の有意なオブジェクトとテキスト間の共通意味空間を学習することにより、マルチモーダル推論を行い、関係強化された特徴を得るためにグラフ畳み込みネットワークを用いる。
論文 参考訳(メタデータ) (2020-09-21T12:31:42Z) - Scene Text Synthesis for Efficient and Effective Deep Network Training [62.631176120557136]
我々は,背景画像に前景オブジェクトを埋め込むことで,注釈付き訓練画像を構成する革新的な画像合成技術を開発した。
提案手法は,ディープネットワークトレーニングにおける合成画像の有用性を高める2つの重要な要素から構成される。
複数の公開データセットに対する実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2019-01-26T10:15:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。