Fugu-MT 論文翻訳(概要): ScholaWrite: A Dataset of End-to-End Scholarly Writing Process

論文の概要: ScholaWrite: A Dataset of End-to-End Scholarly Writing Process

arxiv url: http://arxiv.org/abs/2502.02904v4
Date: Tue, 21 Oct 2025 20:29:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-25 03:08:03.624185
Title: ScholaWrite: A Dataset of End-to-End Scholarly Writing Process
Title（参考訳）: ScholaWrite: エンド・ツー・エンドの学術的プロセスのデータセット
Authors: Khanh Chi Le, Linghe Wang, Minhwa Lee, Ross Volkov, Luan Tuyen Chau, Dongyeop Kang,
Abstract要約: ScholaWriteは、エンドツーエンドの学術論文の最初のデータセットである。 Overleafでキーストロークを不当に記録するChromeエクステンションは、リアルでその場で書かれたデータの収集を可能にする。データセットには5つのコンピュータサイエンスプリプリントからのLaベースの編集が含まれ、4ヶ月で62万近いテキスト変更をキャプチャする。
参考スコア（独自算出の注目度）: 16.328206405243073
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Writing is a cognitively demanding activity that requires constant decision-making, heavy reliance on working memory, and frequent shifts between tasks of different goals. To build writing assistants that truly align with writers' cognition, we must capture and decode the complete thought process behind how writers transform ideas into final texts. We present ScholaWrite, the first dataset of end-to-end scholarly writing, tracing the multi-month journey from initial drafts to final manuscripts. We contribute three key advances: (1) a Chrome extension that unobtrusively records keystrokes on Overleaf, enabling the collection of realistic, in-situ writing data; (2) a novel corpus of full scholarly manuscripts, enriched with fine-grained annotations of cognitive writing intentions. The dataset includes \LaTeX-based edits from five computer science preprints, capturing nearly 62K text changes over four months; and (3) analyses and insights into the micro-dynamics of scholarly writing, highlighting gaps between human writing processes and the current capabilities of large language models (LLMs) in providing meaningful assistance. ScholaWrite underscores the value of capturing end-to-end writing data to develop future writing assistants that support, not replace, the cognitive work of scientists.
Abstract（参考訳）: 執筆は認知的に要求される活動であり、一定の意思決定、作業記憶への依存、異なる目標のタスク間の頻繁なシフトを必要とする。著者の認識と真に整合した執筆アシスタントを構築するためには、著者がアイデアを最終テキストに変換する方法の背後にある、完全な思考プロセスをキャプチャしてデコードする必要がある。我々は、最初の草稿から最終稿まで、数ヶ月の旅をたどる、エンドツーエンドの学術論文の最初のデータセットであるScholaWriteを紹介します。本研究は,(1)Overleaf上でキーストロークを控えめに記録し,現実的かつその場的な筆記データ収集を可能にするChromeエクステンション,(2)認知的筆記意図の微妙なアノテーションを具現化した,完全な学術的写本の新たなコーパス,の3つの重要な進歩を貢献する。このデータセットには、5つのコンピュータサイエンスプリプリントからの編集が含まれており、4ヶ月で62K近いテキスト変更をキャプチャし、(3)学術的な執筆のミクロ力学に関する分析と洞察、人間の執筆プロセスと大規模言語モデル(LLM)の現在の能力のギャップを強調している。 ScholaWriteは、科学者の認知作業をサポートするのではなく、将来の書き込みアシスタントを開発するために、エンドツーエンドの書き込みデータをキャプチャする価値を強調している。

関連論文リスト

Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。これらの課題を克服するために、新しい方法論とデータセットを導入します。人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文参考訳（メタデータ） (2024-12-17T08:47:41Z)
Online Writer Retrieval with Chinese Handwritten Phrases: A Synergistic Temporal-Frequency Representation Learning Approach [53.189911918976655]
DOLPHINは,相乗的時間周波数解析による手書き表現の向上を目的とした新しい検索モデルである。 OLIWER(OLIWER)は,1,731人から670,000以上の中国語の字句を含む大規模オンライン作家検索データセットである。本研究は,手書き表現の質向上における点サンプリング周波数と圧力特性の重要性を強調した。
論文参考訳（メタデータ） (2024-12-16T11:19:22Z)
Nuremberg Letterbooks: A Multi-Transcriptional Dataset of Early 15th Century Manuscripts for Document Analysis [4.660229623034816]
ニュルンベルク・レターブックス・データセットは15世紀初頭の史料である。データセットには、1711のラベル付きページを含む4冊の書籍が含まれている。
論文参考訳（メタデータ） (2024-11-11T17:08:40Z)
BookWorm: A Dataset for Character Description and Analysis [59.186325346763184]
本稿では,短い事実プロファイルを生成する文字記述と,詳細な解釈を提供する文字解析という2つのタスクを定義する。本稿では,Gutenbergプロジェクトからの書籍と,人間による記述と分析のペアリングを行うBookWormデータセットを紹介する。その結果,検索に基づくアプローチは両タスクにおいて階層的アプローチよりも優れていた。
論文参考訳（メタデータ） (2024-10-14T10:55:58Z)
Integrating Planning into Single-Turn Long-Form Text Generation [66.08871753377055]
長文コンテンツを生成するための計画案を提案する。私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。実験では,LLMを補助タスクで微調整し,高品質な文書を生成する,異なる領域からの2つのデータセットを実証した。
論文参考訳（メタデータ） (2024-10-08T17:02:40Z)
OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition [79.852642726105]
多様なシナリオにまたがって視覚的なテキストを解析するための統一パラダイムを提案する。具体的には,3つの視覚的なテキスト解析タスクを同時に処理できるOmniというユニバーサルモデルを提案する。オムニでは、全てのタスクが統一エンコーダ・デコーダアーキテクチャ、統一目的点条件テキスト生成、統一入力表現を共有している。
論文参考訳（メタデータ） (2024-03-28T03:51:14Z)
An end-to-end, interactive Deep Learning based Annotation system for cursive and print English handwritten text [0.0]
我々は、印刷版とカーシブ版の両方で書かれたオフライン手書きの原稿に注釈を付ける、革新的で完全なエンドツーエンドパイプラインを提示する。本手法は,最先端のテキスト検出モデルに基づいて構築された検出システムと,認識システムのための独自のDeep Learningモデルとのアーキテクチャ結合を含む。
論文参考訳（メタデータ） (2023-04-18T00:24:07Z)
Decoding the End-to-end Writing Trajectory in Scholarly Manuscripts [7.294418916091011]
そこで本研究では,意図,著作者行動,および記述データの情報タイプに応じて,学術的な記述行動の分類を行う新しい分類法を提案する。学術論文の分類学は,認知書記理論に動機付けられ,一般的な書記の流れを辿るために,分類のレベルが3つ含まれている。 ManuScriptは、書道の直線性と非直線性を捉えることによって、学術的な書道の完全な図面を提供する。
論文参考訳（メタデータ） (2023-03-31T20:33:03Z)
Exploitation and exploration in text evolution. Quantifying planning and translation flows during writing [0.13108652488669734]
執筆過程において,計画(探索)と翻訳(探索)のサブサイクルを定量化する手法を導入する。このデータセットは、革新的なバージョニングソフトウェアを通じて、テキストの構築におけるすべてのステップを記録できる一連のワークショップから生まれました。
論文参考訳（メタデータ） (2023-02-07T17:52:33Z)
Cloning Ideology and Style using Deep Learning [0.0]
研究は、特定の著者のイデオロギーとスタイルに基づくテキスト生成と、過去に同じ著者が書いたものではないトピックに関するテキスト生成に焦点を当てている。 Bi-LSTMモデルを用いて文字レベルでの予測を行う。事前学習モデルを用いて、著者のコーパスと矛盾する真実の文を識別し、言語モデルを傾斜させる。
論文参考訳（メタデータ） (2022-10-25T11:37:19Z)
PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文参考訳（メタデータ） (2022-09-30T11:08:39Z)
Effidit: Your AI Writing Assistant [60.588370965898534]
Effiditは、人工知能(AI)技術を使用して、ユーザーが高品質なテキストをより効率的に書けるようにするためのデジタルライティングアシスタントである。 Effiditでは、テキスト補完、エラーチェック、テキスト研磨、キーワード・トゥ・センテンス(K2S)、クラウド・インプット・メソッド(クラウドIME)の5つのカテゴリで機能を提供することで、筆記アシスタントの能力を大幅に拡大する。
論文参考訳（メタデータ） (2022-08-03T02:24:45Z)
CoAuthor: Designing a Human-AI Collaborative Writing Dataset for Exploring Language Model Capabilities [92.79451009324268]
我々は,GPT-3の創造的かつ議論的な記述を支援する能力を明らかにするために設計されたデータセットであるCoAuthorを提案する。我々は、CoAuthorがGPT-3の言語、アイデア、コラボレーション機能に関する問題に対処できることを実証した。インタラクション設計に関して,この作業がLMの約束や落とし穴に関して,より原則化された議論を促進する可能性について論じる。
論文参考訳（メタデータ） (2022-01-18T07:51:57Z)
SCROLLS: Standardized CompaRison Over Long Language Sequences [62.574959194373264]
SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。 SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
論文参考訳（メタデータ） (2022-01-10T18:47:15Z)
Letter-level Online Writer Identification [86.13203975836556]
我々は文字レベルのオンラインライタIDという新たな問題に焦点をあてる。主な課題は、しばしば異なるスタイルで手紙を書くことである。我々はこの問題をオンライン書記スタイルのばらつき(Var-O-Styles)と呼ぶ。
論文参考訳（メタデータ） (2021-12-06T07:21:53Z)
Characterizing Stage-Aware Writing Assistance in Collaborative Document Authoring [14.512030721220437]
本稿では,文書作成の時間的段階を探求する3つの研究について述べる。我々は、著者が文書を執筆しながら、いくつかの異なる段階を通して概念的に進歩していると結論付けている。インテリジェントなデジタルライティングアシスタントの実現に向けた第一歩として,文書の時間段階を予測するためのユーザインタラクションログデータの有用性を予備調査する。
論文参考訳（メタデータ） (2020-08-18T21:48:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。