論文の概要: Classroom Slide Narration System
- arxiv url: http://arxiv.org/abs/2201.08574v1
- Date: Fri, 21 Jan 2022 07:20:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-24 19:09:41.067179
- Title: Classroom Slide Narration System
- Title(参考訳): 教室用スライドナレーションシステム
- Authors: Jobin K.V., Ajoy Mondal, and C. V. Jawahar
- Abstract要約: スライドプレゼンテーションは、教室コミュニケーションのための教育コミュニティが使う効果的で効率的なツールである。
教室スライドナレーションシステム(CSNS)は、スライド内容に対応する音声記述を生成する。
FacebookのAutomatic Alt-Text(AAT)やTesseractのような既存のシステムと比較して、提案されたCSNSの品質のアウトプットに対して、より優れたフィードバックが得られている。
- 参考スコア(独自算出の注目度): 27.127537034521467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Slide presentations are an effective and efficient tool used by the teaching
community for classroom communication. However, this teaching model can be
challenging for blind and visually impaired (VI) students. The VI student
required personal human assistance for understand the presented slide. This
shortcoming motivates us to design a Classroom Slide Narration System (CSNS)
that generates audio descriptions corresponding to the slide content. This
problem poses as an image-to-markup language generation task. The initial step
is to extract logical regions such as title, text, equation, figure, and table
from the slide image. In the classroom slide images, the logical regions are
distributed based on the location of the image. To utilize the location of the
logical regions for slide image segmentation, we propose the architecture,
Classroom Slide Segmentation Network (CSSN). The unique attributes of this
architecture differs from most other semantic segmentation networks. Publicly
available benchmark datasets such as WiSe and SPaSe are used to validate the
performance of our segmentation architecture. We obtained 9.54 segmentation
accuracy improvement in WiSe dataset. We extract content (information) from the
slide using four well-established modules such as optical character recognition
(OCR), figure classification, equation description, and table structure
recognizer. With this information, we build a Classroom Slide Narration System
(CSNS) to help VI students understand the slide content. The users have given
better feedback on the quality output of the proposed CSNS in comparison to
existing systems like Facebooks Automatic Alt-Text (AAT) and Tesseract.
- Abstract(参考訳): スライドプレゼンテーションは、教室コミュニケーションのための教育コミュニティが使う効果的で効率的なツールである。
しかし、視覚障害者(VI)では、この授業モデルは困難である。
VIの学生は提示されたスライドを理解するために個人的な人間支援を必要とした。
この欠点は、スライドコンテンツに対応する音声記述を生成するCSNS(Classroom Slide Narration System)を設計する動機となっている。
この問題は、画像からマークアップへの言語生成タスクとして現れる。
最初のステップは、スライド画像からタイトル、テキスト、方程式、図形、テーブルなどの論理領域を抽出することである。
教室のスライド画像では、画像の位置に基づいて論理領域が分散される。
スライド画像のセグメンテーションに論理領域の位置を利用するために,アーキテクチャであるClassroom Slide Segmentation Network (CSSN)を提案する。
このアーキテクチャのユニークな特性は、他の多くのセマンティックセグメンテーションネットワークとは異なる。
WiSeやSPaSeなどの公開ベンチマークデータセットを使用して、セグメンテーションアーキテクチャのパフォーマンスを検証する。
ワイズデータセットのセグメンテーション精度は9.54。
光文字認識(ocr)、図形分類、方程式記述、テーブル構造認識といった4つの確立されたモジュールを用いて、スライドからコンテンツ(情報)を抽出する。
この情報を用いて,第6学年におけるスライド内容の理解を支援するクラスルームスライドナレーションシステム(CSNS)を構築した。
FacebookのAutomatic Alt-Text(AAT)やTesseractのような既存のシステムと比較して、提案されたCSNSの品質のアウトプットに対して、より優れたフィードバックが得られた。
関連論文リスト
- CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification [9.996589403019675]
person re-identification (ReID) は Contrastive Language-Image Pre-Training (CLIP) のような大規模な事前訓練された視覚言語モデルの恩恵を受けている。
本稿では、既存の画像キャプションモデルを利用して人物画像の擬似キャプションを生成する方法を提案する。
CLIP-SCGI(CLIP-SCGI)は、合成キャプションを利用して、差別的・堅牢な表現の学習をガイドするフレームワークである。
論文 参考訳(メタデータ) (2024-10-12T06:24:33Z) - Selective Vision-Language Subspace Projection for Few-shot CLIP [55.361337202198925]
SSP (Selective Vision-Language Subspace Projection) という手法を導入する。
SSPはローカルな画像特徴を取り入れ、それらをブリッジとして利用し、画像とテキストのペア間のアライメントを強化する。
提案手法では,学習不要な行列計算しか必要とせず,高度なCLIPベースの数ショット学習フレームワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2024-07-24T03:45:35Z) - Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - Deep Semantic-Visual Alignment for Zero-Shot Remote Sensing Image Scene
Classification [26.340737217001497]
ゼロショット学習(ZSL)は、トレーニング中に見えない新しいクラスを識別する。
以前のZSLモデルは、主に言語モデルから抽出された手作業でラベル付けされた属性や単語の埋め込みに依存し、見受けられるクラスから新しいクラスに知識を伝達する。
本稿では,視覚的に検出可能な属性を自動的に収集することを提案する。属性と画像のセマンティック・視覚的類似性を記述することで,クラスごとの属性を予測する。
論文 参考訳(メタデータ) (2024-02-03T09:18:49Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - Text Descriptions are Compressive and Invariant Representations for
Visual Learning [63.3464863723631]
本研究では,クラスごとの複数の視覚的特徴に対する人間の理解に則って,頑健な数ショット学習環境では魅力的な性能が得られることを示す。
特に,SLR-AVD (Sparse Logistic Regression using Augmented Visual Descriptors) という新しい手法を導入する。
このメソッドはまず、まず大きな言語モデル(LLM)を介して各クラスの複数の視覚的記述を自動生成し、次にVLMを使用してこれらの記述を各画像の視覚的特徴埋め込みに変換し、最後に、これらの特徴の関連するサブセットを選択するためにスパースロジスティック回帰を使用する。
論文 参考訳(メタデータ) (2023-07-10T03:06:45Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - CLIP Meets Video Captioners: Attribute-Aware Representation Learning
Promotes Accurate Captioning [34.46948978082648]
ImageNet Pre-Training (INP) は通常、ビデオコンテンツをエンコードするために使用され、タスク指向ネットワークはスクラッチから微調整され、キャプション生成に対処する。
本稿では,映像キャプションにおけるINPの潜在的な欠陥について検討し,正確な記述を生成するための鍵を探る。
本稿では,映像コンテンツと属性の対応を学習するために,映像キャプションモデルを必要とする補助タスクであるDual Attribute Predictionを紹介する。
論文 参考訳(メタデータ) (2021-11-30T06:37:44Z) - Exploiting the relationship between visual and textual features in
social networks for image classification with zero-shot deep learning [0.0]
本稿では,CLIPニューラルネットワークアーキテクチャの伝達可能な学習能力に基づく分類器アンサンブルを提案する。
本研究は,Placesデータセットのラベルによる画像分類タスクに基づいて,視覚的部分のみを考慮した実験である。
画像に関連付けられたテキストを考えることは、目標に応じて精度を向上させるのに役立つ。
論文 参考訳(メタデータ) (2021-07-08T10:54:59Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。