論文の概要: CodeSCAN: ScreenCast ANalysis for Video Programming Tutorials
- arxiv url: http://arxiv.org/abs/2409.18556v1
- Date: Fri, 27 Sep 2024 08:53:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-01 21:55:30.181847
- Title: CodeSCAN: ScreenCast ANalysis for Video Programming Tutorials
- Title(参考訳): CodeSCAN:ScreenCast Analysis for Video Programming Tutorials
- Authors: Alexander Naumann, Felix Hertlein, Jacqueline Höllig, Lucas Cazzonelli, Steffen Thoma,
- Abstract要約: 開発中にVisual Studio Code環境から12,000のスクリーンショットを含むCodeSCANデータセットを紹介します。
24のプログラミング言語、25のフォント、90以上の異なるテーマに加えて、レイアウトの変更や現実的なユーザインタラクションも備えている。
また,統合開発環境(IDE)要素検出,カラー・ブラック・アンド・ホワイト変換,光学文字認識(OCR)の性能を評価するために,詳細な定量的・質的な評価を行った。
- 参考スコア(独自算出の注目度): 39.58317527488534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Programming tutorials in the form of coding screencasts play a crucial role in programming education, serving both novices and experienced developers. However, the video format of these tutorials presents a challenge due to the difficulty of searching for and within videos. Addressing the absence of large-scale and diverse datasets for screencast analysis, we introduce the CodeSCAN dataset. It comprises 12,000 screenshots captured from the Visual Studio Code environment during development, featuring 24 programming languages, 25 fonts, and over 90 distinct themes, in addition to diverse layout changes and realistic user interactions. Moreover, we conduct detailed quantitative and qualitative evaluations to benchmark the performance of Integrated Development Environment (IDE) element detection, color-to-black-and-white conversion, and Optical Character Recognition (OCR). We hope that our contributions facilitate more research in coding screencast analysis, and we make the source code for creating the dataset and the benchmark publicly available on this website.
- Abstract(参考訳): コーディングスクリーンキャストという形でチュートリアルをプログラミングすることは、初心者と経験豊富な開発者の両方に役立ち、プログラミング教育において重要な役割を果たす。
しかし,これらのチュートリアルの動画形式は,動画検索の難しさから課題となっている。
スクリーンキャスト解析のための大規模で多様なデータセットが存在しないことに対処するため,CodeSCANデータセットを紹介した。
開発中にVisual Studio Code環境から12,000のスクリーンショットをキャプチャし、24のプログラミング言語、25のフォント、90以上の異なるテーマを特徴とする。
さらに,統合開発環境(IDE)要素検出,カラー・ブラック・アンド・ホワイト変換,光学文字認識(OCR)の性能を評価するために,詳細な定量的・質的な評価を行った。
当社のコントリビューションによって、スクリーンキャスト分析のコーディングに関するさらなる研究が促進されることを願っています。
関連論文リスト
- Multi-language Video Subtitle Dataset for Image-based Text Recognition [0.0]
このデータセットには、オンラインプラットフォームからソースされた24のビデオから抽出された4,224の字幕イメージが含まれている。
タイ語の子音、母音、トーンマーク、句読点、数字、ローマ字、アラビア数字など様々な文字が特徴である。
論文 参考訳(メタデータ) (2024-11-07T00:06:53Z) - OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。
これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。
このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文 参考訳(メタデータ) (2024-03-26T17:59:24Z) - Composed Video Retrieval via Enriched Context and Discriminative Embeddings [118.66322242183249]
コンポジションビデオ検索(CoVR)はコンピュータビジョンにおいて難しい問題である。
本稿では,クエリ固有のコンテキスト情報を明示的にエンコードするために,詳細な言語記述を活用する新しいCoVRフレームワークを提案する。
我々の手法はリコール@K=1のスコアで7%の上昇を達成した。
論文 参考訳(メタデータ) (2024-03-25T17:59:03Z) - Text-Conditioned Resampler For Long Form Video Understanding [94.81955667020867]
トレーニング済みのビジュアルエンコーダと大言語モデル(LLM)を用いたテキストコンディショニングビデオリサンプラー(TCR)モジュールを提案する。
TCRは、最適化された実装なしで、平易な注意で一度に100フレーム以上を処理できる。
論文 参考訳(メタデータ) (2023-12-19T06:42:47Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - Video Exploration via Video-Specific Autoencoders [60.256055890647595]
ヒト制御可能なビデオ探索を可能にするビデオ固有オートエンコーダを提案する。
特定のビデオの複数のフレームで訓練された単純なオートエンコーダは、さまざまなビデオ処理および編集タスクを実行できることを観察します。
論文 参考訳(メタデータ) (2021-03-31T17:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。