Fugu-MT 論文翻訳(概要): CodeSCAN: ScreenCast ANalysis for Video Programming Tutorials

論文の概要: CodeSCAN: ScreenCast ANalysis for Video Programming Tutorials

arxiv url: http://arxiv.org/abs/2409.18556v1
Date: Fri, 27 Sep 2024 08:53:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-01 21:55:30.181847
Title: CodeSCAN: ScreenCast ANalysis for Video Programming Tutorials
Title（参考訳）: CodeSCAN:ScreenCast Analysis for Video Programming Tutorials
Authors: Alexander Naumann, Felix Hertlein, Jacqueline Höllig, Lucas Cazzonelli, Steffen Thoma,
Abstract要約: 開発中にVisual Studio Code環境から12,000のスクリーンショットを含むCodeSCANデータセットを紹介します。 24のプログラミング言語、25のフォント、90以上の異なるテーマに加えて、レイアウトの変更や現実的なユーザインタラクションも備えている。また,統合開発環境(IDE)要素検出,カラー・ブラック・アンド・ホワイト変換,光学文字認識(OCR)の性能を評価するために,詳細な定量的・質的な評価を行った。
参考スコア（独自算出の注目度）: 39.58317527488534
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Programming tutorials in the form of coding screencasts play a crucial role in programming education, serving both novices and experienced developers. However, the video format of these tutorials presents a challenge due to the difficulty of searching for and within videos. Addressing the absence of large-scale and diverse datasets for screencast analysis, we introduce the CodeSCAN dataset. It comprises 12,000 screenshots captured from the Visual Studio Code environment during development, featuring 24 programming languages, 25 fonts, and over 90 distinct themes, in addition to diverse layout changes and realistic user interactions. Moreover, we conduct detailed quantitative and qualitative evaluations to benchmark the performance of Integrated Development Environment (IDE) element detection, color-to-black-and-white conversion, and Optical Character Recognition (OCR). We hope that our contributions facilitate more research in coding screencast analysis, and we make the source code for creating the dataset and the benchmark publicly available on this website.
Abstract（参考訳）: コーディングスクリーンキャストという形でチュートリアルをプログラミングすることは、初心者と経験豊富な開発者の両方に役立ち、プログラミング教育において重要な役割を果たす。しかし,これらのチュートリアルの動画形式は,動画検索の難しさから課題となっている。スクリーンキャスト解析のための大規模で多様なデータセットが存在しないことに対処するため,CodeSCANデータセットを紹介した。開発中にVisual Studio Code環境から12,000のスクリーンショットをキャプチャし、24のプログラミング言語、25のフォント、90以上の異なるテーマを特徴とする。さらに,統合開発環境(IDE)要素検出,カラー・ブラック・アンド・ホワイト変換,光学文字認識(OCR)の性能を評価するために,詳細な定量的・質的な評価を行った。当社のコントリビューションによって、スクリーンキャスト分析のコーディングに関するさらなる研究が促進されることを願っています。

関連論文リスト

Code2Video: A Code-centric Paradigm for Educational Video Generation [60.03043132859077]
我々は,Pythonコードによる教育ビデオを生成するための,コード中心のエージェントフレームワークであるCode2Videoを提案する。 i)講義内容を時間的コヒーレントなフローに構造化するPlanner,(ii)構造化命令を実行可能なPythonコードに変換するCoder,そして(iii)視覚言語モデル(VLM)を視覚的アンカープロンプトで活用し,空間的レイアウトを洗練し,明確性を確保するCryticという3つの協調エージェントから構成される。我々の結果は、Code2Videoが拡張性があり、解釈可能で、制御可能なアプローチである可能性を示し、直接コードよりも40%改善されている。
論文参考訳（メタデータ） (2025-10-01T17:56:48Z)
Unsupervised Transcript-assisted Video Summarization and Highlight Detection [6.80224810039938]
本稿では,ビデオフレームとその対応する文字起こしを活用して,より凝縮したビデオを生成するマルチモーダルパイプラインを提案する。パイプラインはRLフレームワーク内でトレーニングされ、多彩で代表的な要約を生成するモデルに報酬を与える。実験の結果,映像の要約やハイライト検出における転写文字の使用は,映像の視覚的内容にのみ依存するよりも優れた結果が得られることがわかった。
論文参考訳（メタデータ） (2025-05-29T09:16:19Z)
T2VTextBench: A Human Evaluation Benchmark for Textual Control in Video Generation Models [12.120541052871486]
T2VTextBenchは、画面上のテキストの忠実度と時間的一貫性を評価するための最初の人間評価ベンチマークである。オープンソースソリューションから商用製品まで,10の最先端システムを評価しました。
論文参考訳（メタデータ） (2025-05-08T04:49:52Z)
Multi-language Video Subtitle Dataset for Image-based Text Recognition [0.0]
このデータセットには、オンラインプラットフォームからソースされた24のビデオから抽出された4,224の字幕イメージが含まれている。タイ語の子音、母音、トーンマーク、句読点、数字、ローマ字、アラビア数字など様々な文字が特徴である。
論文参考訳（メタデータ） (2024-11-07T00:06:53Z)
OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文参考訳（メタデータ） (2024-03-26T17:59:24Z)
Composed Video Retrieval via Enriched Context and Discriminative Embeddings [118.66322242183249]
コンポジションビデオ検索(CoVR)はコンピュータビジョンにおいて難しい問題である。本稿では,クエリ固有のコンテキスト情報を明示的にエンコードするために,詳細な言語記述を活用する新しいCoVRフレームワークを提案する。我々の手法はリコール@K=1のスコアで7%の上昇を達成した。
論文参考訳（メタデータ） (2024-03-25T17:59:03Z)
Text-Conditioned Resampler For Long Form Video Understanding [94.81955667020867]
トレーニング済みのビジュアルエンコーダと大言語モデル(LLM)を用いたテキストコンディショニングビデオリサンプラー(TCR)モジュールを提案する。 TCRは、最適化された実装なしで、平易な注意で一度に100フレーム以上を処理できる。
論文参考訳（メタデータ） (2023-12-19T06:42:47Z)
InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。 InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文参考訳（メタデータ） (2023-07-13T17:58:32Z)
Video Exploration via Video-Specific Autoencoders [60.256055890647595]
ヒト制御可能なビデオ探索を可能にするビデオ固有オートエンコーダを提案する。特定のビデオの複数のフレームで訓練された単純なオートエンコーダは、さまざまなビデオ処理および編集タスクを実行できることを観察します。
論文参考訳（メタデータ） (2021-03-31T17:56:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。