論文の概要: From Reflection to Repair: A Scoping Review of Dataset Documentation Tools
- arxiv url: http://arxiv.org/abs/2602.15968v1
- Date: Tue, 17 Feb 2026 19:37:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.419461
- Title: From Reflection to Repair: A Scoping Review of Dataset Documentation Tools
- Title(参考訳): リフレクションからリフレクションへ:データセットドキュメンテーションツールのスコープレビュー
- Authors: Pedro Reynolds-Cuéllar, Marisol Wong-Villacres, Adriana Alvarado Garcia, Heila Precel,
- Abstract要約: 59のデータセット文書出版物の混合メソッド分析によって支援された体系的レビューを提案する。
我々の分析では、データセットのドキュメント概念化において、採用と標準化を阻害する可能性のある4つの永続的なパターンが示されています。
これらの知見に基づいて,個別のソリューションではなく,機関的なAIツール設計へのシフトを提案する。
- 参考スコア(独自算出の注目度): 10.124271544484634
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Dataset documentation is widely recognized as essential for the responsible development of automated systems. Despite growing efforts to support documentation through different kinds of artifacts, little is known about the motivations shaping documentation tool design or the factors hindering their adoption. We present a systematic review supported by mixed-methods analysis of 59 dataset documentation publications to examine the motivations behind building documentation tools, how authors conceptualize documentation practices, and how these tools connect to existing systems, regulations, and cultural norms. Our analysis shows four persistent patterns in dataset documentation conceptualization that potentially impede adoption and standardization: unclear operationalizations of documentation's value, decontextualized designs, unaddressed labor demands, and a tendency to treat integration as future work. Building on these findings, we propose a shift in Responsible AI tool design toward institutional rather than individual solutions, and outline actions the HCI community can take to enable sustainable documentation practices.
- Abstract(参考訳): データセットのドキュメンテーションは、自動化システムの責任ある開発に不可欠であると広く認識されている。
さまざまな種類のアーティファクトを通じてドキュメントをサポートする努力が増えているが、ドキュメントツール設計を形成する動機や、採用を妨げる要因についてはほとんど知られていない。
59のデータセット文書出版物の混合手法分析により,文書ツール構築の背景にあるモチベーション,著者がドキュメントの実践をいかに概念化し,これらのツールが既存のシステム,規制,文化規範とどのように結びつくかを検討する。
我々の分析では、データセットのドキュメント概念化において、採用と標準化を阻害する可能性のある4つの永続的なパターンが示されています。
これらの知見に基づいて,HCIコミュニティが持続可能なドキュメンテーションプラクティスを実現するために行うべき行動の概要を述べるとともに,Responsible AIツールの設計を個々のソリューションではなく制度的なものにシフトすることを提案する。
関連論文リスト
- Perspectives - Interactive Document Clustering in the Discourse Analysis Tool Suite [20.935269641413694]
Perspectivesは、デジタル人文科学(DH)の研究者が大規模で非構造化の文書コレクションを探索し組織化するためのツールスイートである。
パースペクティブは、ヒューマン・イン・ザ・ループの洗練機能を備えたフレキシブルでアスペクト指向のドキュメントクラスタリングパイプラインを実装している。
論文 参考訳(メタデータ) (2026-02-17T12:44:05Z) - ExStrucTiny: A Benchmark for Schema-Variable Structured Information Extraction from Document Images [19.490609860018804]
文書画像から構造化情報抽出(IE)のための新しいベンチマークデータセットであるExStrucTinyを紹介する。
ExStrucTinyは、手動と合成された人間のバリデーションサンプルを組み合わせた、新しいパイプラインで構築されている。
このベンチマークでオープンでクローズドなビジョン言語モデルを分析し、適応、クエリアンダーセグメンテーション、スキーマ適応といった課題を強調します。
論文 参考訳(メタデータ) (2026-02-12T17:38:57Z) - DREAM: Document Reconstruction via End-to-end Autoregressive Model [53.51754520966657]
本稿では、文書再構成に特化した革新的な自己回帰モデルについて述べる。
文書再構成タスクの標準化定義を確立し,文書類似度基準(DSM)とDocRec1Kデータセットを導入し,タスクの性能を評価する。
論文 参考訳(メタデータ) (2025-07-08T09:24:07Z) - From Exploration to Mastery: Enabling LLMs to Master Tools via Self-Driven Interactions [60.733557487886635]
本稿では,大規模言語モデルと外部ツールとの包括的ギャップを埋めることに焦点を当てる。
動的精錬ツールの文書化を目的とした新しいフレームワーク DRAFT を提案する。
この方法論は、3つの異なる学習フェーズからなる革新的な試行錯誤アプローチに基づいている。
論文 参考訳(メタデータ) (2024-10-10T17:58:44Z) - Data Efficient Training of a U-Net Based Architecture for Structured
Documents Localization [0.0]
構造化文書のローカライズのためのエンコーダデコーダアーキテクチャのような新しいU-NetであるSDL-Netを提案する。
本手法では,SDL-Netのエンコーダを,各種文書クラスのサンプルを含む汎用データセット上で事前学習することができる。
論文 参考訳(メタデータ) (2023-10-02T07:05:19Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - Focused Attention Improves Document-Grounded Generation [111.42360617630669]
文書基盤生成は、文書に提供される情報を用いてテキスト生成を改善するタスクである。
本研究はwikipedia更新生成タスクと対話応答生成という2つの異なる文書基底生成タスクに焦点を当てている。
論文 参考訳(メタデータ) (2021-04-26T16:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。