論文の概要: ScholaWrite: A Dataset of End-to-End Scholarly Writing Process
- arxiv url: http://arxiv.org/abs/2502.02904v4
- Date: Tue, 21 Oct 2025 20:29:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:03.624185
- Title: ScholaWrite: A Dataset of End-to-End Scholarly Writing Process
- Title(参考訳): ScholaWrite: エンド・ツー・エンドの学術的プロセスのデータセット
- Authors: Khanh Chi Le, Linghe Wang, Minhwa Lee, Ross Volkov, Luan Tuyen Chau, Dongyeop Kang,
- Abstract要約: ScholaWriteは、エンドツーエンドの学術論文の最初のデータセットである。
Overleafでキーストロークを不当に記録するChromeエクステンションは、リアルでその場で書かれたデータの収集を可能にする。
データセットには5つのコンピュータサイエンスプリプリントからのLaベースの編集が含まれ、4ヶ月で62万近いテキスト変更をキャプチャする。
- 参考スコア(独自算出の注目度): 16.328206405243073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Writing is a cognitively demanding activity that requires constant decision-making, heavy reliance on working memory, and frequent shifts between tasks of different goals. To build writing assistants that truly align with writers' cognition, we must capture and decode the complete thought process behind how writers transform ideas into final texts. We present ScholaWrite, the first dataset of end-to-end scholarly writing, tracing the multi-month journey from initial drafts to final manuscripts. We contribute three key advances: (1) a Chrome extension that unobtrusively records keystrokes on Overleaf, enabling the collection of realistic, in-situ writing data; (2) a novel corpus of full scholarly manuscripts, enriched with fine-grained annotations of cognitive writing intentions. The dataset includes \LaTeX-based edits from five computer science preprints, capturing nearly 62K text changes over four months; and (3) analyses and insights into the micro-dynamics of scholarly writing, highlighting gaps between human writing processes and the current capabilities of large language models (LLMs) in providing meaningful assistance. ScholaWrite underscores the value of capturing end-to-end writing data to develop future writing assistants that support, not replace, the cognitive work of scientists.
- Abstract(参考訳): 執筆は認知的に要求される活動であり、一定の意思決定、作業記憶への依存、異なる目標のタスク間の頻繁なシフトを必要とする。
著者の認識と真に整合した執筆アシスタントを構築するためには、著者がアイデアを最終テキストに変換する方法の背後にある、完全な思考プロセスをキャプチャしてデコードする必要がある。
我々は、最初の草稿から最終稿まで、数ヶ月の旅をたどる、エンドツーエンドの学術論文の最初のデータセットであるScholaWriteを紹介します。
本研究は,(1)Overleaf上でキーストロークを控えめに記録し,現実的かつその場的な筆記データ収集を可能にするChromeエクステンション,(2)認知的筆記意図の微妙なアノテーションを具現化した,完全な学術的写本の新たなコーパス,の3つの重要な進歩を貢献する。
このデータセットには、5つのコンピュータサイエンスプリプリントからの編集が含まれており、4ヶ月で62K近いテキスト変更をキャプチャし、(3)学術的な執筆のミクロ力学に関する分析と洞察、人間の執筆プロセスと大規模言語モデル(LLM)の現在の能力のギャップを強調している。
ScholaWriteは、科学者の認知作業をサポートするのではなく、将来の書き込みアシスタントを開発するために、エンドツーエンドの書き込みデータをキャプチャする価値を強調している。
関連論文リスト
- Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Nuremberg Letterbooks: A Multi-Transcriptional Dataset of Early 15th Century Manuscripts for Document Analysis [4.660229623034816]
ニュルンベルク・レターブックス・データセットは15世紀初頭の史料である。
データセットには、1711のラベル付きページを含む4冊の書籍が含まれている。
論文 参考訳(メタデータ) (2024-11-11T17:08:40Z) - BookWorm: A Dataset for Character Description and Analysis [59.186325346763184]
本稿では,短い事実プロファイルを生成する文字記述と,詳細な解釈を提供する文字解析という2つのタスクを定義する。
本稿では,Gutenbergプロジェクトからの書籍と,人間による記述と分析のペアリングを行うBookWormデータセットを紹介する。
その結果,検索に基づくアプローチは両タスクにおいて階層的アプローチよりも優れていた。
論文 参考訳(メタデータ) (2024-10-14T10:55:58Z) - OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition [79.852642726105]
多様なシナリオにまたがって視覚的なテキストを解析するための統一パラダイムを提案する。
具体的には,3つの視覚的なテキスト解析タスクを同時に処理できるOmniというユニバーサルモデルを提案する。
オムニでは、全てのタスクが統一エンコーダ・デコーダアーキテクチャ、統一目的点条件テキスト生成、統一入力表現を共有している。
論文 参考訳(メタデータ) (2024-03-28T03:51:14Z) - An end-to-end, interactive Deep Learning based Annotation system for
cursive and print English handwritten text [0.0]
我々は、印刷版とカーシブ版の両方で書かれたオフライン手書きの原稿に注釈を付ける、革新的で完全なエンドツーエンドパイプラインを提示する。
本手法は,最先端のテキスト検出モデルに基づいて構築された検出システムと,認識システムのための独自のDeep Learningモデルとのアーキテクチャ結合を含む。
論文 参考訳(メタデータ) (2023-04-18T00:24:07Z) - Decoding the End-to-end Writing Trajectory in Scholarly Manuscripts [7.294418916091011]
そこで本研究では,意図,著作者行動,および記述データの情報タイプに応じて,学術的な記述行動の分類を行う新しい分類法を提案する。
学術論文の分類学は,認知書記理論に動機付けられ,一般的な書記の流れを辿るために,分類のレベルが3つ含まれている。
ManuScriptは、書道の直線性と非直線性を捉えることによって、学術的な書道の完全な図面を提供する。
論文 参考訳(メタデータ) (2023-03-31T20:33:03Z) - Exploitation and exploration in text evolution. Quantifying planning and
translation flows during writing [0.13108652488669734]
執筆過程において,計画(探索)と翻訳(探索)のサブサイクルを定量化する手法を導入する。
このデータセットは、革新的なバージョニングソフトウェアを通じて、テキストの構築におけるすべてのステップを記録できる一連のワークショップから生まれました。
論文 参考訳(メタデータ) (2023-02-07T17:52:33Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Effidit: Your AI Writing Assistant [60.588370965898534]
Effiditは、人工知能(AI)技術を使用して、ユーザーが高品質なテキストをより効率的に書けるようにするためのデジタルライティングアシスタントである。
Effiditでは、テキスト補完、エラーチェック、テキスト研磨、キーワード・トゥ・センテンス(K2S)、クラウド・インプット・メソッド(クラウドIME)の5つのカテゴリで機能を提供することで、筆記アシスタントの能力を大幅に拡大する。
論文 参考訳(メタデータ) (2022-08-03T02:24:45Z) - CoAuthor: Designing a Human-AI Collaborative Writing Dataset for
Exploring Language Model Capabilities [92.79451009324268]
我々は,GPT-3の創造的かつ議論的な記述を支援する能力を明らかにするために設計されたデータセットであるCoAuthorを提案する。
我々は、CoAuthorがGPT-3の言語、アイデア、コラボレーション機能に関する問題に対処できることを実証した。
インタラクション設計に関して,この作業がLMの約束や落とし穴に関して,より原則化された議論を促進する可能性について論じる。
論文 参考訳(メタデータ) (2022-01-18T07:51:57Z) - Letter-level Online Writer Identification [86.13203975836556]
我々は文字レベルのオンラインライタIDという新たな問題に焦点をあてる。
主な課題は、しばしば異なるスタイルで手紙を書くことである。
我々はこの問題をオンライン書記スタイルのばらつき(Var-O-Styles)と呼ぶ。
論文 参考訳(メタデータ) (2021-12-06T07:21:53Z) - Characterizing Stage-Aware Writing Assistance in Collaborative Document
Authoring [14.512030721220437]
本稿では,文書作成の時間的段階を探求する3つの研究について述べる。
我々は、著者が文書を執筆しながら、いくつかの異なる段階を通して概念的に進歩していると結論付けている。
インテリジェントなデジタルライティングアシスタントの実現に向けた第一歩として,文書の時間段階を予測するためのユーザインタラクションログデータの有用性を予備調査する。
論文 参考訳(メタデータ) (2020-08-18T21:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。