論文の概要: SoUnD Framework: Analyzing (So)cial Representation in (Un)structured
(D)ata
- arxiv url: http://arxiv.org/abs/2311.17259v1
- Date: Tue, 28 Nov 2023 22:48:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 23:19:07.283995
- Title: SoUnD Framework: Analyzing (So)cial Representation in (Un)structured
(D)ata
- Title(参考訳): SoUnDフレームワーク: (Un)structured (D)ataにおける (So)cial Representationの解析
- Authors: Mark D\'iaz, Sunipa Dev, Emily Reif, Remi Denton, Vinodkumar
Prabhakaran
- Abstract要約: 本研究では,非構造化データにおける人間の表現の分析を導くためのフレームワークを提案する。
このフレームワークをCommon Crawl Web text corpus (C4) と LAION-400M の2つのおもちゃの例に適用する。
また、データセットの使用、開発、ドキュメントのサービスにおける仮説的なアクションステップのセットを提案します。
- 参考スコア(独自算出の注目度): 17.405175674194375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The unstructured nature of data used in foundation model development is a
challenge to systematic analyses for making data use and documentation
decisions. From a Responsible AI perspective, these decisions often rely upon
understanding how people are represented in data. We propose a framework
designed to guide analysis of human representation in unstructured data and
identify downstream risks. We apply the framework in two toy examples using the
Common Crawl web text corpus (C4) and LAION-400M. We also propose a set of
hypothetical action steps in service of dataset use, development, and
documentation.
- Abstract(参考訳): 基礎モデル開発で使用されるデータの非構造化の性質は、データの使用やドキュメントの決定を行うための体系的な分析の課題である。
責任あるaiの観点からすると、これらの決定は、データにおける人々の表現方法を理解することに依存することが多い。
本稿では,非構造化データにおける人間表現の分析を指導し,下流リスクを識別するための枠組みを提案する。
このフレームワークをCommon Crawl Web text corpus (C4) と LAION-400M の2つの例に適用する。
また、データセットの使用、開発、およびドキュメントのサービスにおける一連の仮定的なアクションステップも提案する。
関連論文リスト
- A Survey of Model Architectures in Information Retrieval [64.75808744228067]
機能抽出のためのバックボーンモデルと、関連性推定のためのエンドツーエンドシステムアーキテクチャの2つの重要な側面に焦点を当てる。
従来の用語ベースの手法から現代のニューラルアプローチまで,特にトランスフォーマーベースのモデルとそれに続く大規模言語モデル(LLM)の影響が注目されている。
我々は、パフォーマンスとスケーラビリティのアーキテクチャ最適化、マルチモーダル、マルチランガルデータの処理、従来の検索パラダイムを超えた新しいアプリケーションドメインへの適応など、新たな課題と今後の方向性について議論することで結論付けた。
論文 参考訳(メタデータ) (2025-02-20T18:42:58Z) - Knowledge Graphs Construction from Criminal Court Appeals: Insights from the French Cassation Court [49.1574468325115]
本稿では,フランス・カシエーション裁判所への上訴から知識グラフを構築するための枠組みを提案する。
このフレームワークはドメイン固有のオントロジーと派生データセットを含み、構造化された法的データ表現と分析の基礎を提供する。
論文 参考訳(メタデータ) (2025-01-24T15:38:32Z) - QuaLLM: An LLM-based Framework to Extract Quantitative Insights from Online Forums [10.684484559041284]
本研究は,オンラインフォーラム上でテキストデータから量的洞察を分析し,抽出する新しいフレームワークであるQuaLLMを紹介する。
このフレームワークを適用して、Redditの2つのライドシェアワーカーコミュニティからの100万以上のコメントを分析しました。
AIとアルゴリズムのプラットフォーム決定に関する重要な労働者の懸念を明らかにし、労働者の洞察に関する規制の要求に応えました。
論文 参考訳(メタデータ) (2024-05-08T18:20:03Z) - Images in Discrete Choice Modeling: Addressing Data Isomorphism in
Multi-Modality Inputs [77.54052164713394]
本稿では,離散選択モデリング(DCM)と機械学習の交わりについて考察する。
本稿では,DCMフレームワーク内の従来の表型入力と同型情報を共有する高次元画像データの埋め込み結果について検討する。
論文 参考訳(メタデータ) (2023-12-22T14:33:54Z) - StructGPT: A General Framework for Large Language Model to Reason over
Structured Data [117.13986738340027]
我々は,構造化データに基づく質問応答タスクの解法として,emphIterative Reading-then-Reasoning(IRR)アプローチを開発した。
提案手法はChatGPTの性能を大幅に向上させ,全データの教師付きベースラインに対して同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-16T17:45:23Z) - Discourse Analysis via Questions and Answers: Parsing Dependency
Structures of Questions Under Discussion [57.43781399856913]
この研究は、談話分析にQUD(Language framework of Questions Under discussion)を採用する。
我々は、文間の関係を、徹底的なきめ細かい質問とは対照的に、自由形式の質問として特徴づける。
完全文書上の質問の依存関係構造を導出する第一種QUDを開発する。
論文 参考訳(メタデータ) (2022-10-12T03:53:12Z) - A Knowledge-Enhanced Adversarial Model for Cross-lingual Structured
Sentiment Analysis [31.05169054736711]
言語間構造的感情分析タスクは、ソース言語からターゲット言語へ知識を伝達することを目的としている。
本稿では,暗黙的分散と明示的構造的知識を両立させた知識強化逆数モデル(textttKEAM)を提案する。
我々は5つのデータセットの実験を行い、textttKEAMと教師なしおよび教師なしの両方の手法を比較した。
論文 参考訳(メタデータ) (2022-05-31T03:07:51Z) - CateCom: a practical data-centric approach to categorization of
computational models [77.34726150561087]
本稿では,物理モデルとデータ駆動型計算モデルのランドスケープを整理する取り組みについて述べる。
オブジェクト指向設計の概念を適用し、オープンソース協調フレームワークの基礎を概説する。
論文 参考訳(メタデータ) (2021-09-28T02:59:40Z) - Architectures of Meaning, A Systematic Corpus Analysis of NLP Systems [0.0]
このフレームワークはSemevalタスクの完全なコーパスで検証されている。
これは、大部分が動的で指数関数的に成長する場を解釈する体系的なメカニズムを提供する。
論文 参考訳(メタデータ) (2021-07-16T21:10:43Z) - Exploring Probabilistic Soft Logic as a framework for integrating
top-down and bottom-up processing of language in a task context [0.6091702876917279]
このアーキテクチャは既存のNLPコンポーネントを統合し、8段階の言語モデリングの候補分析を生成する。
このアーキテクチャは、形式レベルでの表現形式としてUniversal Dependencies (UD) と、学習者回答のセマンティックな分析を表現するための抽象的意味表現 (AMR) に基づいて構築されている。
論文 参考訳(メタデータ) (2020-04-15T11:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。