論文の概要: ScholaWrite: A Dataset of End-to-End Scholarly Writing Process
- arxiv url: http://arxiv.org/abs/2502.02904v1
- Date: Wed, 05 Feb 2025 05:57:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:26:42.510928
- Title: ScholaWrite: A Dataset of End-to-End Scholarly Writing Process
- Title(参考訳): ScholaWrite: エンド・ツー・エンドの学術的プロセスのデータセット
- Authors: Linghe Wang, Minhwa Lee, Ross Volkov, Luan Tuyen Chau, Dongyeop Kang,
- Abstract要約: ScholaWriteデータセットは、完全な原稿のエンドツーエンドの学術的な記述プロセスの、第一級のキーストロークログである。
私たちのデータセットには、5つのプレプリントから得られたキーストロークデータが含まれており、合計62万件のテキスト変更と4ヶ月にわたる注釈が含まれています。
本実験は最終稿ではなく,エンド・ツー・エンドの筆記データの収集の重要性を明らかに示していた。
- 参考スコア(独自算出の注目度): 12.170448539143909
- License:
- Abstract: Writing is a cognitively demanding task involving continuous decision-making, heavy use of working memory, and frequent switching between multiple activities. Scholarly writing is particularly complex as it requires authors to coordinate many pieces of multiform knowledge. To fully understand writers' cognitive thought process, one should fully decode the end-to-end writing data (from individual ideas to final manuscript) and understand their complex cognitive mechanisms in scholarly writing. We introduce ScholaWrite dataset, the first-of-its-kind keystroke logs of an end-to-end scholarly writing process for complete manuscripts, with thorough annotations of cognitive writing intentions behind each keystroke. Our dataset includes LaTeX-based keystroke data from five preprints with nearly 62K total text changes and annotations across 4 months of paper writing. ScholaWrite shows promising usability and applications (e.g., iterative self-writing) for the future development of AI writing assistants for academic research, which necessitate complex methods beyond LLM prompting. Our experiments clearly demonstrated the importance of collection of end-to-end writing data, rather than the final manuscript, for the development of future writing assistants to support the cognitive thinking process of scientists. Our de-identified dataset, demo, and code repository are available on our project page.
- Abstract(参考訳): 執筆は、継続的な意思決定、作業記憶の多用、複数のアクティビティ間の頻繁な切り替えなど、認知的に要求されるタスクである。
学者が多形式知識の多くの部分を調整する必要があるため、学術的な執筆は特に複雑である。
著者の認知的思考プロセスを完全に理解するためには、エンド・ツー・エンドの文章データ(個々のアイデアから最終原稿まで)を完全にデコードし、学術的執筆における複雑な認知メカニズムを理解する必要がある。
我々は,各キーストロークの背後にある認知的記述意図の詳細なアノテーションを備えた,完全な原稿のためのエンドツーエンドの学術的な記述プロセスの,第一級キーストロークログであるScholaWriteデータセットを紹介した。
データセットには、LaTeXベースの5つのプリプリントからのキーストロークデータが含まれている。
ScholaWrite氏は、学術研究のためのAI記述アシスタントの開発に有望なユーザビリティとアプリケーション(イテレーティブなセルフライティングなど)を紹介している。
本実験は, 科学者の認知的思考プロセスを支援するために, 最終稿ではなく, エンド・ツー・エンドの筆記データ収集の重要性を明らかにした。
特定されていないデータセット、デモ、コードリポジトリは、プロジェクトのページで利用可能です。
関連論文リスト
- Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Nuremberg Letterbooks: A Multi-Transcriptional Dataset of Early 15th Century Manuscripts for Document Analysis [4.660229623034816]
ニュルンベルク・レターブックス・データセットは15世紀初頭の史料である。
データセットには、1711のラベル付きページを含む4冊の書籍が含まれている。
論文 参考訳(メタデータ) (2024-11-11T17:08:40Z) - BookWorm: A Dataset for Character Description and Analysis [59.186325346763184]
本稿では,短い事実プロファイルを生成する文字記述と,詳細な解釈を提供する文字解析という2つのタスクを定義する。
本稿では,Gutenbergプロジェクトからの書籍と,人間による記述と分析のペアリングを行うBookWormデータセットを紹介する。
その結果,検索に基づくアプローチは両タスクにおいて階層的アプローチよりも優れていた。
論文 参考訳(メタデータ) (2024-10-14T10:55:58Z) - An end-to-end, interactive Deep Learning based Annotation system for
cursive and print English handwritten text [0.0]
我々は、印刷版とカーシブ版の両方で書かれたオフライン手書きの原稿に注釈を付ける、革新的で完全なエンドツーエンドパイプラインを提示する。
本手法は,最先端のテキスト検出モデルに基づいて構築された検出システムと,認識システムのための独自のDeep Learningモデルとのアーキテクチャ結合を含む。
論文 参考訳(メタデータ) (2023-04-18T00:24:07Z) - Decoding the End-to-end Writing Trajectory in Scholarly Manuscripts [7.294418916091011]
そこで本研究では,意図,著作者行動,および記述データの情報タイプに応じて,学術的な記述行動の分類を行う新しい分類法を提案する。
学術論文の分類学は,認知書記理論に動機付けられ,一般的な書記の流れを辿るために,分類のレベルが3つ含まれている。
ManuScriptは、書道の直線性と非直線性を捉えることによって、学術的な書道の完全な図面を提供する。
論文 参考訳(メタデータ) (2023-03-31T20:33:03Z) - Exploitation and exploration in text evolution. Quantifying planning and
translation flows during writing [0.13108652488669734]
執筆過程において,計画(探索)と翻訳(探索)のサブサイクルを定量化する手法を導入する。
このデータセットは、革新的なバージョニングソフトウェアを通じて、テキストの構築におけるすべてのステップを記録できる一連のワークショップから生まれました。
論文 参考訳(メタデータ) (2023-02-07T17:52:33Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Effidit: Your AI Writing Assistant [60.588370965898534]
Effiditは、人工知能(AI)技術を使用して、ユーザーが高品質なテキストをより効率的に書けるようにするためのデジタルライティングアシスタントである。
Effiditでは、テキスト補完、エラーチェック、テキスト研磨、キーワード・トゥ・センテンス(K2S)、クラウド・インプット・メソッド(クラウドIME)の5つのカテゴリで機能を提供することで、筆記アシスタントの能力を大幅に拡大する。
論文 参考訳(メタデータ) (2022-08-03T02:24:45Z) - CoAuthor: Designing a Human-AI Collaborative Writing Dataset for
Exploring Language Model Capabilities [92.79451009324268]
我々は,GPT-3の創造的かつ議論的な記述を支援する能力を明らかにするために設計されたデータセットであるCoAuthorを提案する。
我々は、CoAuthorがGPT-3の言語、アイデア、コラボレーション機能に関する問題に対処できることを実証した。
インタラクション設計に関して,この作業がLMの約束や落とし穴に関して,より原則化された議論を促進する可能性について論じる。
論文 参考訳(メタデータ) (2022-01-18T07:51:57Z) - Letter-level Online Writer Identification [86.13203975836556]
我々は文字レベルのオンラインライタIDという新たな問題に焦点をあてる。
主な課題は、しばしば異なるスタイルで手紙を書くことである。
我々はこの問題をオンライン書記スタイルのばらつき(Var-O-Styles)と呼ぶ。
論文 参考訳(メタデータ) (2021-12-06T07:21:53Z) - Characterizing Stage-Aware Writing Assistance in Collaborative Document
Authoring [14.512030721220437]
本稿では,文書作成の時間的段階を探求する3つの研究について述べる。
我々は、著者が文書を執筆しながら、いくつかの異なる段階を通して概念的に進歩していると結論付けている。
インテリジェントなデジタルライティングアシスタントの実現に向けた第一歩として,文書の時間段階を予測するためのユーザインタラクションログデータの有用性を予備調査する。
論文 参考訳(メタデータ) (2020-08-18T21:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。