Fugu-MT 論文翻訳(概要): SoUnD Framework: Analyzing (So)cial Representation in (Un)structured (D)ata

論文の概要: SoUnD Framework: Analyzing (So)cial Representation in (Un)structured (D)ata

arxiv url: http://arxiv.org/abs/2311.17259v1
Date: Tue, 28 Nov 2023 22:48:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-30 23:19:07.283995
Title: SoUnD Framework: Analyzing (So)cial Representation in (Un)structured (D)ata
Title（参考訳）: SoUnDフレームワーク: (Un)structured (D)ataにおける (So)cial Representationの解析
Authors: Mark D\'iaz, Sunipa Dev, Emily Reif, Remi Denton, Vinodkumar Prabhakaran
Abstract要約: 本研究では,非構造化データにおける人間の表現の分析を導くためのフレームワークを提案する。このフレームワークをCommon Crawl Web text corpus (C4) と LAION-400M の2つのおもちゃの例に適用する。また、データセットの使用、開発、ドキュメントのサービスにおける仮説的なアクションステップのセットを提案します。
参考スコア（独自算出の注目度）: 17.405175674194375
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The unstructured nature of data used in foundation model development is a challenge to systematic analyses for making data use and documentation decisions. From a Responsible AI perspective, these decisions often rely upon understanding how people are represented in data. We propose a framework designed to guide analysis of human representation in unstructured data and identify downstream risks. We apply the framework in two toy examples using the Common Crawl web text corpus (C4) and LAION-400M. We also propose a set of hypothetical action steps in service of dataset use, development, and documentation.
Abstract（参考訳）: 基礎モデル開発で使用されるデータの非構造化の性質は、データの使用やドキュメントの決定を行うための体系的な分析の課題である。責任あるaiの観点からすると、これらの決定は、データにおける人々の表現方法を理解することに依存することが多い。本稿では,非構造化データにおける人間表現の分析を指導し,下流リスクを識別するための枠組みを提案する。このフレームワークをCommon Crawl Web text corpus (C4) と LAION-400M の2つの例に適用する。また、データセットの使用、開発、およびドキュメントのサービスにおける一連の仮定的なアクションステップも提案する。

関連論文リスト

Integrating Unstructured Text into Causal Inference: Empirical Evidence from Real Data [3.6081423220512945]
本稿では,非構造化テキストを用いた因果推論を行うためにトランスフォーマーに基づく言語モデルを利用するフレームワークを提案する。本研究では,非構造化テキストから得られた因果推定値と,人口,集団,個人レベルで得られた構造化データとを比較して,本フレームワークの有効性を実証する。我々のアプローチは、因果推論手法の適用性を、テキストデータのみが利用可能なシナリオに拡張する。
論文参考訳（メタデータ） (2026-02-15T18:55:03Z)
Affordance Representation and Recognition for Autonomous Agents [64.39018305018904]
本稿では,構造化データを用いた世界モデリングのためのパターン言語を提案する。 DOMトランスダクションパターンは、Webページの複雑さの課題に対処する。 Hypermedia Affordances Recognition Patternは、エージェントがその世界モデルを動的に強化することを可能にする。
論文参考訳（メタデータ） (2025-10-28T14:27:28Z)
Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。 Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文参考訳（メタデータ） (2025-10-17T02:33:16Z)
LLM/Agent-as-Data-Analyst: A Survey [54.08761322298559]
大規模言語モデル(LLM)とエージェント技術は、データ分析タスクの機能と開発パラダイムに根本的な変化をもたらした。 LLMは複雑なデータ理解、自然言語、意味分析機能、自律パイプラインオーケストレーションを可能にする。
論文参考訳（メタデータ） (2025-09-28T17:31:38Z)
Structuring the Unstructured: A Systematic Review of Text-to-Structure Generation for Agentic AI with a Universal Evaluation Framework [39.83132604513921]
本稿では,テキスト・ツー・ストラクチャの手法と課題について考察する。我々は、構造化された出力に対する普遍的な評価フレームワークを導入し、次世代AIシステムの基盤基盤としてテキスト・ツー・ストラクチャを確立する。
論文参考訳（メタデータ） (2025-08-17T06:41:40Z)
AgenticData: An Agentic Data Analytics System for Heterogeneous Data [12.67277567222908]
AgenticDataはエージェントデータ分析システムで、複数のドメインにまたがるデータソースを自律的に分析しながら、自然言語(NL)の質問に反応することができる。本稿では,関連するデータを発見するためのデータプロファイリングエージェント,フィードバックに基づく反復最適化のためのセマンティッククロスバリデーションエージェント,短期文脈を維持するためのスマートメモリエージェントを利用するマルチエージェント協調戦略を提案する。
論文参考訳（メタデータ） (2025-08-07T03:33:59Z)
I2I-STRADA -- Information to Insights via Structured Reasoning Agent for Data Analysis [0.0]
現実世界のデータ分析には一貫した認知ワークフローが必要です。この推論プロセスの形式化を目的としたエージェントアーキテクチャであるI2I-STRADAを紹介する。
論文参考訳（メタデータ） (2025-07-23T18:58:42Z)
WebShaper: Agentically Data Synthesizing via Information-Seeking Formalization [68.46693401421923]
WebShaperは集合論を通してISタスクを体系的に定式化する。 WebShaperは、GAIAおよびWebWalkerQAベンチマーク上で、オープンソースISエージェントの最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-07-20T17:53:37Z)
Conceptual Topic Aggregation [0.0]
本稿では,FAT-CATを提案する。FAT-CATは,意味のあるトピックアグリゲーションと可視化を強化するための形式概念分析(FCA)に基づくアプローチである。当社のアプローチでは,さまざまなトピックやファイルタイプ – ディレクトリによってグループ化された – を処理して,そのトピック分布の構造化された階層的な表現を提供する概念格子を構築することが可能です。
論文参考訳（メタデータ） (2025-06-27T15:19:38Z)
A Survey of Model Architectures in Information Retrieval [64.75808744228067]
機能抽出のためのバックボーンモデルと、関連性推定のためのエンドツーエンドシステムアーキテクチャの2つの重要な側面に焦点を当てる。従来の用語ベースの手法から現代のニューラルアプローチまで,特にトランスフォーマーベースのモデルとそれに続く大規模言語モデル(LLM)の影響が注目されている。我々は、パフォーマンスとスケーラビリティのアーキテクチャ最適化、マルチモーダル、マルチランガルデータの処理、従来の検索パラダイムを超えた新しいアプリケーションドメインへの適応など、新たな課題と今後の方向性について議論することで結論付けた。
論文参考訳（メタデータ） (2025-02-20T18:42:58Z)
Knowledge Graphs Construction from Criminal Court Appeals: Insights from the French Cassation Court [49.1574468325115]
本稿では,フランス・カシエーション裁判所への上訴から知識グラフを構築するための枠組みを提案する。このフレームワークはドメイン固有のオントロジーと派生データセットを含み、構造化された法的データ表現と分析の基礎を提供する。
論文参考訳（メタデータ） (2025-01-24T15:38:32Z)
Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。この目的のために設計された新しいデータセットであるMMTabQAを紹介する。我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文参考訳（メタデータ） (2024-08-25T15:17:43Z)
QuaLLM: An LLM-based Framework to Extract Quantitative Insights from Online Forums [10.684484559041284]
本研究は,オンラインフォーラム上でテキストデータから量的洞察を分析し,抽出する新しいフレームワークであるQuaLLMを紹介する。このフレームワークを適用して、Redditの2つのライドシェアワーカーコミュニティからの100万以上のコメントを分析しました。
論文参考訳（メタデータ） (2024-05-08T18:20:03Z)
Images in Discrete Choice Modeling: Addressing Data Isomorphism in Multi-Modality Inputs [77.54052164713394]
本稿では,離散選択モデリング(DCM)と機械学習の交わりについて考察する。本稿では,DCMフレームワーク内の従来の表型入力と同型情報を共有する高次元画像データの埋め込み結果について検討する。
論文参考訳（メタデータ） (2023-12-22T14:33:54Z)
Text2Analysis: A Benchmark of Table Question Answering with Advanced Data Analysis and Unclear Queries [67.0083902913112]
高度な解析タスクを取り入れたText2Analysisベンチマークを開発した。また,5つのイノベーティブかつ効果的なアノテーション手法を開発した。 3つの異なる指標を用いて5つの最先端モデルを評価する。
論文参考訳（メタデータ） (2023-12-21T08:50:41Z)
StructGPT: A General Framework for Large Language Model to Reason over Structured Data [117.13986738340027]
我々は,構造化データに基づく質問応答タスクの解法として,emphIterative Reading-then-Reasoning(IRR)アプローチを開発した。提案手法はChatGPTの性能を大幅に向上させ,全データの教師付きベースラインに対して同等のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-05-16T17:45:23Z)
Discourse Analysis via Questions and Answers: Parsing Dependency Structures of Questions Under Discussion [57.43781399856913]
この研究は、談話分析にQUD(Language framework of Questions Under discussion)を採用する。我々は、文間の関係を、徹底的なきめ細かい質問とは対照的に、自由形式の質問として特徴づける。完全文書上の質問の依存関係構造を導出する第一種QUDを開発する。
論文参考訳（メタデータ） (2022-10-12T03:53:12Z)
A Knowledge-Enhanced Adversarial Model for Cross-lingual Structured Sentiment Analysis [31.05169054736711]
言語間構造的感情分析タスクは、ソース言語からターゲット言語へ知識を伝達することを目的としている。本稿では,暗黙的分散と明示的構造的知識を両立させた知識強化逆数モデル(textttKEAM)を提案する。我々は5つのデータセットの実験を行い、textttKEAMと教師なしおよび教師なしの両方の手法を比較した。
論文参考訳（メタデータ） (2022-05-31T03:07:51Z)
CateCom: a practical data-centric approach to categorization of computational models [77.34726150561087]
本稿では,物理モデルとデータ駆動型計算モデルのランドスケープを整理する取り組みについて述べる。オブジェクト指向設計の概念を適用し、オープンソース協調フレームワークの基礎を概説する。
論文参考訳（メタデータ） (2021-09-28T02:59:40Z)
Architectures of Meaning, A Systematic Corpus Analysis of NLP Systems [0.0]
このフレームワークはSemevalタスクの完全なコーパスで検証されている。これは、大部分が動的で指数関数的に成長する場を解釈する体系的なメカニズムを提供する。
論文参考訳（メタデータ） (2021-07-16T21:10:43Z)
Exploring Probabilistic Soft Logic as a framework for integrating top-down and bottom-up processing of language in a task context [0.6091702876917279]
このアーキテクチャは既存のNLPコンポーネントを統合し、8段階の言語モデリングの候補分析を生成する。このアーキテクチャは、形式レベルでの表現形式としてUniversal Dependencies (UD) と、学習者回答のセマンティックな分析を表現するための抽象的意味表現 (AMR) に基づいて構築されている。
論文参考訳（メタデータ） (2020-04-15T11:00:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。