論文の概要: AI-Assisted Authoring for Transparent, Data-Driven Documents
- arxiv url: http://arxiv.org/abs/2601.06027v1
- Date: Mon, 27 Oct 2025 13:39:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.562232
- Title: AI-Assisted Authoring for Transparent, Data-Driven Documents
- Title(参考訳): 透明でデータ駆動型ドキュメントのためのAI支援オーサリング
- Authors: Alfonso Piscitelli, Cristina David, Mattia De Rosa, Ali Mohammed, Federico Nanni, Jacob Pake, Roly Perera, Jessy Sodimu, Chenyiqiu Zheng,
- Abstract要約: テキストの断片をホバリングすることで、読者が基礎となるデータとの関係を探ることのできる、インタラクティブなWebベースの学術論文である_transparent Document_を紹介した。
エージェントベースのツールは、透明なドキュメントの作成中に人間の著者をサポートし、データから計算できるテキストの断片を識別する。
結果の式は記事のWebページに挿入され、静的テキストフラグメントを相互作用可能なデータ駆動要素に変換する。
- 参考スコア(独自算出の注目度): 2.3859666466771605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce _transparent documents_, interactive web-based scholarly articles which allow readers to explore the relationship to the underlying data by hovering over fragments of text, and present an LLM-based tool for authoring transparent documents, building on recent developments in data provenance for general-purpose programming languages. As a target platform, our implementation uses Fluid, an open source programming language with a provenance-tracking runtime. Our agent-based tool supports a human author during the creation of transparent documents, identifying fragments of text which can be computed from data, such as numerical values selected from records or computed by aggregations like sum and mean, comparatives and superlatives like _better than_ and _largest_, trend-adjectives like _growing_, and similar quantitative or semi-quantitative phrases, and then attempts to synthesise a suitable Fluid query over the data which generates the target string. The resulting expression is inserted into the article's web page, turning the static text fragment into an interactable data-driven element able to reveal the data that underwrites the natural language claim. We evaluate our approach on a subset of SciGen, an open source dataset consisting of tables from scientific articles and their corresponding descriptions, which we extend with hand-generated counterfactual test cases to evaluate how well machine-generated expressions generalise. Our results show that gpt4o is often able to synthesise compound expressions extensionally compatible with our gold solutions.
- Abstract(参考訳): 本稿では,テキストの断片をホバリングすることで,その基盤となるデータとの関係を探ることのできる,インタラクティブな Web ベースの学術論文である _transparent Document_ を紹介し,汎用プログラミング言語におけるデータ証明の最近の発展を基盤として,透過的な文書のオーサリングを行う LLM ベースのツールを提案する。
ターゲットプラットフォームとして、我々の実装では、実績追跡ランタイムを備えたオープンソースのプログラミング言語であるFluidを使用します。
我々のエージェントベースのツールは、透明な文書作成の際、人間の著者をサポートし、データから計算可能なテキストの断片を識別する。例えば、レコードから選択された数値や、和や平均などの集計によって計算される数値、_better than_や_ largest_のような比較値と最大値、_ growing_のようなトレンド形容詞、および類似の量的あるいは半定量的なフレーズ、そして、ターゲット文字列を生成するデータに対して適切な流体クエリを合成しようとする。
結果の式は記事のWebページに挿入され、静的テキストフラグメントを対話可能なデータ駆動要素に変換し、自然言語のクレームを下書きするデータを公開する。
我々は,SciGenのサブセットに対するアプローチを評価する。SciGenは科学論文の表とそれに対応する記述からなるオープンソースのデータセットであり,手書きの逆実例を用いて,機械生成式がいかに一般化するかを評価する。
以上の結果から,gpt4oは金溶液と拡張的に適合する化合物の合成が可能であることが示唆された。
関連論文リスト
- StructText: A Synthetic Table-to-Text Approach for Benchmark Generation with Multi-Dimensional Evaluation [8.251302684712773]
StructTextは、テキストからキー値抽出のための高忠実度ベンチマークを自動的に生成するエンドツーエンドフレームワークである。
提案手法は,49件の文書を対象とした71,539件のサンプルを用いて評価した。
論文 参考訳(メタデータ) (2025-07-28T21:20:44Z) - MOLE: Metadata Extraction and Validation in Scientific Papers Using LLMs [48.73595915402094]
MOLEは、アラビア語以外の言語のデータセットをカバーする科学論文からメタデータ属性を自動的に抽出するフレームワークである。
本手法では,複数の入力形式にまたがって文書全体を処理し,一貫した出力に対する堅牢な検証機構を組み込む。
論文 参考訳(メタデータ) (2025-05-26T10:31:26Z) - ChartifyText: Automated Chart Generation from Data-Involved Texts via LLM [16.87320295911898]
科学研究、経済、公衆衛生、ジャーナリズムなどの様々な応用において、関連する数値を持つ文書が広く使われている。
この研究のギャップを埋めるために、この研究はグラフを自動的に生成し、基礎となるデータとアイデアを読者に正確に伝えることを目的としている。
本稿では,Large Language Models (LLMs) を利用して複雑なデータ関連テキストを表現型チャートに変換する,新しい完全自動化アプローチであるChartifyTextを提案する。
論文 参考訳(メタデータ) (2024-10-18T09:43:30Z) - Optimizing Factual Accuracy in Text Generation through Dynamic Knowledge
Selection [71.20871905457174]
言語モデル(LM)は、私たちが情報と対話する方法に革命をもたらしたが、しばしば非現実的なテキストを生成する。
従来の手法では、外部知識をテキスト生成の参照として使用して事実性を高めるが、無関係な参照の知識の混在に苦慮することが多い。
本稿では,テキスト生成プロセスを反復処理に分割するDKGenを提案する。
論文 参考訳(メタデータ) (2023-08-30T02:22:40Z) - SciLit: A Platform for Joint Scientific Literature Discovery,
Summarization and Citation Generation [11.186252009101077]
本稿では,関連論文を自動的に推薦し,ハイライトを抽出するパイプラインSciLitを提案し,論文の引用として参照文を提案する。
SciLitは、2段階の事前フェッチと再ランクの文献検索システムを使用して、数億の論文の大規模なデータベースから論文を効率的に推奨する。
論文 参考訳(メタデータ) (2023-06-06T09:34:45Z) - ImPaKT: A Dataset for Open-Schema Knowledge Base Construction [10.073210304061966]
ImPaKTは、ショッピングドメイン(商品購入ガイド)におけるC4コーパスから約2500のテキストスニペットからなるオープンスキーマ情報抽出用データセットである。
本研究では,オープンソースUL2言語モデルをデータセットのサブセットに微調整し,製品購入ガイドのコーパスから含意関係を抽出し,その結果の予測を人為的に評価することで,このアプローチの能力を評価する。
論文 参考訳(メタデータ) (2022-12-21T05:02:49Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。