論文の概要: SoUnD Framework: Analyzing (So)cial Representation in (Un)structured
(D)ata
- arxiv url: http://arxiv.org/abs/2311.17259v2
- Date: Fri, 1 Dec 2023 18:41:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 20:49:38.049603
- Title: SoUnD Framework: Analyzing (So)cial Representation in (Un)structured
(D)ata
- Title(参考訳): SoUnDフレームワーク: (Un)structured (D)ataにおける (So)cial Representationの解析
- Authors: Mark D\'iaz, Sunipa Dev, Emily Reif, Emily Denton, Vinodkumar
Prabhakaran
- Abstract要約: 本研究では,非構造化データにおける人間の表現の分析を導くためのフレームワークを提案する。
このフレームワークをCommon Crawl Web text corpus (C4) と LAION-400M の2つのおもちゃの例に適用する。
また、データセットの使用、開発、ドキュメントのサービスにおける仮説的なアクションステップのセットを提案します。
- 参考スコア(独自算出の注目度): 22.07842698495922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The unstructured nature of data used in foundation model development is a
challenge to systematic analyses for making data use and documentation
decisions. From a Responsible AI perspective, these decisions often rely upon
understanding how people are represented in data. We propose a framework
designed to guide analysis of human representation in unstructured data and
identify downstream risks. We apply the framework in two toy examples using the
Common Crawl web text corpus (C4) and LAION-400M. We also propose a set of
hypothetical action steps in service of dataset use, development, and
documentation.
- Abstract(参考訳): 基礎モデル開発で使用されるデータの非構造化の性質は、データの使用やドキュメントの決定を行うための体系的な分析の課題である。
責任あるaiの観点からすると、これらの決定は、データにおける人々の表現方法を理解することに依存することが多い。
本稿では,非構造化データにおける人間表現の分析を指導し,下流リスクを識別するための枠組みを提案する。
このフレームワークをCommon Crawl Web text corpus (C4) と LAION-400M の2つの例に適用する。
また、データセットの使用、開発、およびドキュメントのサービスにおける一連の仮定的なアクションステップも提案する。
関連論文リスト
- Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。
この目的のために設計された新しいデータセットであるMMTabQAを紹介する。
我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-08-25T15:17:43Z) - QuaLLM: An LLM-based Framework to Extract Quantitative Insights from Online Forums [10.684484559041284]
本研究は,オンラインフォーラム上でテキストデータから量的洞察を分析し,抽出する新しいフレームワークであるQuaLLMを紹介する。
このフレームワークを適用して、Redditの2つのライドシェアワーカーコミュニティからの100万以上のコメントを分析しました。
論文 参考訳(メタデータ) (2024-05-08T18:20:03Z) - Images in Discrete Choice Modeling: Addressing Data Isomorphism in
Multi-Modality Inputs [77.54052164713394]
本稿では,離散選択モデリング(DCM)と機械学習の交わりについて考察する。
本稿では,DCMフレームワーク内の従来の表型入力と同型情報を共有する高次元画像データの埋め込み結果について検討する。
論文 参考訳(メタデータ) (2023-12-22T14:33:54Z) - Text2Analysis: A Benchmark of Table Question Answering with Advanced
Data Analysis and Unclear Queries [67.0083902913112]
高度な解析タスクを取り入れたText2Analysisベンチマークを開発した。
また,5つのイノベーティブかつ効果的なアノテーション手法を開発した。
3つの異なる指標を用いて5つの最先端モデルを評価する。
論文 参考訳(メタデータ) (2023-12-21T08:50:41Z) - StructGPT: A General Framework for Large Language Model to Reason over
Structured Data [117.13986738340027]
我々は,構造化データに基づく質問応答タスクの解法として,emphIterative Reading-then-Reasoning(IRR)アプローチを開発した。
提案手法はChatGPTの性能を大幅に向上させ,全データの教師付きベースラインに対して同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-16T17:45:23Z) - Discourse Analysis via Questions and Answers: Parsing Dependency
Structures of Questions Under Discussion [57.43781399856913]
この研究は、談話分析にQUD(Language framework of Questions Under discussion)を採用する。
我々は、文間の関係を、徹底的なきめ細かい質問とは対照的に、自由形式の質問として特徴づける。
完全文書上の質問の依存関係構造を導出する第一種QUDを開発する。
論文 参考訳(メタデータ) (2022-10-12T03:53:12Z) - A Knowledge-Enhanced Adversarial Model for Cross-lingual Structured
Sentiment Analysis [31.05169054736711]
言語間構造的感情分析タスクは、ソース言語からターゲット言語へ知識を伝達することを目的としている。
本稿では,暗黙的分散と明示的構造的知識を両立させた知識強化逆数モデル(textttKEAM)を提案する。
我々は5つのデータセットの実験を行い、textttKEAMと教師なしおよび教師なしの両方の手法を比較した。
論文 参考訳(メタデータ) (2022-05-31T03:07:51Z) - CateCom: a practical data-centric approach to categorization of
computational models [77.34726150561087]
本稿では,物理モデルとデータ駆動型計算モデルのランドスケープを整理する取り組みについて述べる。
オブジェクト指向設計の概念を適用し、オープンソース協調フレームワークの基礎を概説する。
論文 参考訳(メタデータ) (2021-09-28T02:59:40Z) - Architectures of Meaning, A Systematic Corpus Analysis of NLP Systems [0.0]
このフレームワークはSemevalタスクの完全なコーパスで検証されている。
これは、大部分が動的で指数関数的に成長する場を解釈する体系的なメカニズムを提供する。
論文 参考訳(メタデータ) (2021-07-16T21:10:43Z) - Exploring Probabilistic Soft Logic as a framework for integrating
top-down and bottom-up processing of language in a task context [0.6091702876917279]
このアーキテクチャは既存のNLPコンポーネントを統合し、8段階の言語モデリングの候補分析を生成する。
このアーキテクチャは、形式レベルでの表現形式としてUniversal Dependencies (UD) と、学習者回答のセマンティックな分析を表現するための抽象的意味表現 (AMR) に基づいて構築されている。
論文 参考訳(メタデータ) (2020-04-15T11:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。