論文の概要: Evaluating Structured Documentation as a Tool for Reflexivity in Dataset Development
- arxiv url: http://arxiv.org/abs/2605.11345v1
- Date: Mon, 11 May 2026 23:55:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.484426
- Title: Evaluating Structured Documentation as a Tool for Reflexivity in Dataset Development
- Title(参考訳): データセット開発における反射性評価ツールとしての構造化ドキュメンテーションの評価
- Authors: Eshta Bhardwaj, Ciara Zogheib, Christoph Becker,
- Abstract要約: 我々は、主要な反射性トピックのコードブックを提示し、アクション可能な戦略を推奨し、これらのトピックをより効率的に構造化されたドキュメントフレームワークやFAccT文献に組み込むための拡張された質問セットを提案する。
- 参考スコア(独自算出の注目度): 2.370481325034444
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: It is prominently recognized that dataset development in machine learning is a value-laden process from problem formulation to data processing, use, and reuse. Structured documentation frameworks such as datasheets, data statements, and dataset nutrition labels have been created to aid developers in documenting how their datasets were produced and, according to the creators of the frameworks, to facilitate reflexivity in dataset development. While reflexivity is a stated goal, it is unclear whether and to what extent these structured dataset documentation frameworks incorporate concepts from reflexivity literature (at FAccT and elsewhere) and whether the use of the frameworks demonstrates reflexivity. Here, we adopt mixed-method thematic analysis and corpus-assisted discourse analysis to explore how reflexivity is incorporated in structured documentation frameworks and their responses. We demonstrate empirically that there is a general lack of engagement with major themes of reflexivity in both dataset documentation frameworks and published applications of these frameworks. We present a codebook of major reflexivity topics, recommend actionable strategies, and propose a set of extended datasheet questions to more effectively incorporate these topics into structured documentation frameworks and in the FAccT literature.
- Abstract(参考訳): 機械学習におけるデータセット開発は、問題定式化からデータ処理、使用、再利用に至るまで、価値の高いプロセスであると認識されている。
データシート、データステートメント、データセット栄養ラベルなどの構造化ドキュメンテーションフレームワークが作成され、開発者がデータセットの作成方法の文書化を支援し、フレームワークの作成者によると、データセット開発における反射性を促進する。
反射性(reflexivity)は明確な目標であるが、これらの構造化データセットドキュメンテーションフレームワークが(FAccTなどにおいて)反射性文学の概念を取り入れているかどうか、またフレームワークの使用が反射性を示すかどうかは不明である。
そこで我々は, 構造化文書フレームワークとその応答に, 反射性がどのように組み込まれているかを検討するために, 混合メタロマティック分析とコーパス支援談話分析を採用した。
我々は、データセットドキュメンテーションフレームワークとこれらのフレームワークの公開アプリケーションの両方において、反射性の主要なテーマへの関与が一般的に欠如していることを実証的に示す。
我々は、主要な反射性トピックのコードブックを提示し、アクション可能な戦略を推奨し、これらのトピックをより効率的に構造化されたドキュメントフレームワークやFAccT文献に組み込むために、拡張されたデータシートの質問セットを提案する。
関連論文リスト
- ExStrucTiny: A Benchmark for Schema-Variable Structured Information Extraction from Document Images [19.490609860018804]
文書画像から構造化情報抽出(IE)のための新しいベンチマークデータセットであるExStrucTinyを紹介する。
ExStrucTinyは、手動と合成された人間のバリデーションサンプルを組み合わせた、新しいパイプラインで構築されている。
このベンチマークでオープンでクローズドなビジョン言語モデルを分析し、適応、クエリアンダーセグメンテーション、スキーマ適応といった課題を強調します。
論文 参考訳(メタデータ) (2026-02-12T17:38:57Z) - Eval Factsheets: A Structured Framework for Documenting AI Evaluations [18.275882528334794]
我々は,AIシステム評価を文書化するためのフレームワークであるEval Factsheetsを紹介する。
本フレームワークは,5つの基本次元にまたがって評価特性を整理する。
Eval Factsheetsは様々な評価パラダイムを効果的に捉えていることを示す。
論文 参考訳(メタデータ) (2025-12-03T18:46:50Z) - Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - Equipping Retrieval-Augmented Large Language Models with Document Structure Awareness [15.810758425275322]
本稿では,RAGプロセス全体を通して構造情報を明示的に組み込む新しいフレームワークであるRetrieve-DocumentRoute-Read (RDR2)を提案する。
RDR2 は LLM ベースのルータを用いて文書構造木を動的にナビゲートする。
我々の重要な革新は、文書のルーティングをトレーニング可能なタスクとして定式化することであり、自動的なアクションキュレーションと、人間の読書戦略にインスパイアされた構造対応の通路選択である。
論文 参考訳(メタデータ) (2025-10-05T17:04:24Z) - DREAM: Document Reconstruction via End-to-end Autoregressive Model [53.51754520966657]
本稿では、文書再構成に特化した革新的な自己回帰モデルについて述べる。
文書再構成タスクの標準化定義を確立し,文書類似度基準(DSM)とDocRec1Kデータセットを導入し,タスクの性能を評価する。
論文 参考訳(メタデータ) (2025-07-08T09:24:07Z) - Re3: A Holistic Framework and Dataset for Modeling Collaborative Document Revision [62.12545440385489]
共同文書リビジョンを共同で分析するためのフレームワークであるRe3を紹介する。
本稿では,Re3-Sciについて紹介する。Re3-Sciは,その行動と意図に応じて手動でラベル付けされた科学的論文の大規模なコーパスである。
我々は,新しいデータを用いて,学術領域における共同文書改訂に関する実証的研究を行った。
論文 参考訳(メタデータ) (2024-05-31T21:19:09Z) - Open Datasheets: Machine-readable Documentation for Open Datasets and Responsible AI Assessments [9.125552623625806]
本稿では、オープンデータセットのための、ノーコードで機械可読なドキュメントフレームワークを紹介する。
このフレームワークは、オープンデータセットの理解性とユーザビリティを改善することを目的としている。
このフレームワークは、研究や意思決定に使用されるデータの質と信頼性を高めることが期待されている。
論文 参考訳(メタデータ) (2023-12-11T06:41:14Z) - StructGPT: A General Framework for Large Language Model to Reason over
Structured Data [117.13986738340027]
我々は,構造化データに基づく質問応答タスクの解法として,emphIterative Reading-then-Reasoning(IRR)アプローチを開発した。
提案手法はChatGPTの性能を大幅に向上させ,全データの教師付きベースラインに対して同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-16T17:45:23Z) - Data Cards: Purposeful and Transparent Dataset Documentation for
Responsible AI [0.0]
我々は、データセットの透明性、目的、人間中心のドキュメンテーションを促進するためのデータカードを提案する。
データカードは、利害関係者が必要とするMLデータセットのさまざまな側面に関する重要な事実の要約である。
実世界のユーティリティと人間中心性にデータカードを基盤とするフレームワークを提示する。
論文 参考訳(メタデータ) (2022-04-03T13:49:36Z) - CateCom: a practical data-centric approach to categorization of
computational models [77.34726150561087]
本稿では,物理モデルとデータ駆動型計算モデルのランドスケープを整理する取り組みについて述べる。
オブジェクト指向設計の概念を適用し、オープンソース協調フレームワークの基礎を概説する。
論文 参考訳(メタデータ) (2021-09-28T02:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。