論文の概要: LLM as Dataset Analyst: Subpopulation Structure Discovery with Large Language Model
- arxiv url: http://arxiv.org/abs/2405.02363v2
- Date: Wed, 24 Jul 2024 02:36:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 18:51:23.051662
- Title: LLM as Dataset Analyst: Subpopulation Structure Discovery with Large Language Model
- Title(参考訳): データセット分析としてのLLM:大規模言語モデルを用いたサブポピュレーション構造発見
- Authors: Yulin Luo, Ruichuan An, Bocheng Zou, Yiming Tang, Jiaming Liu, Shanghang Zhang,
- Abstract要約: サブポピュレーション分布はデータセット内に隠された重要な特性である。
その重要性にもかかわらず、データセットのサブポピュレーション分布を体系的に探求する研究は行われていない。
本稿では,データセット内のサブポピュレーション分布を表現,解析,利用するための新しいサブポピュレーション構造を提案する。
- 参考スコア(独自算出の注目度): 23.482557634454093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The distribution of subpopulations is an important property hidden within a dataset. Uncovering and analyzing the subpopulation distribution within datasets provides a comprehensive understanding of the datasets, standing as a powerful tool beneficial to various downstream tasks, including Dataset Subpopulation Organization, Subpopulation Shift, and Slice Discovery. Despite its importance, there has been no work that systematically explores the subpopulation distribution of datasets to our knowledge. To address the limitation and solve all the mentioned tasks in a unified way, we introduce a novel concept of subpopulation structures to represent, analyze, and utilize subpopulation distributions within datasets. To characterize the structures in an interpretable manner, we propose the Subpopulation Structure Discovery with Large Language Models (SSD-LLM) framework, which employs world knowledge and instruction-following capabilities of Large Language Models (LLMs) to linguistically analyze informative image captions and summarize the structures. Furthermore, we propose complete workflows to address downstream tasks, named Task-specific Tuning, showcasing the application of the discovered structure to a spectrum of subpopulation-related tasks, including dataset subpopulation organization, subpopulation shift, and slice discovery. Furthermore, we propose complete workflows to address downstream tasks, named Task-specific Tuning, showcasing the application of the discovered structure to a spectrum of subpopulation-related tasks, including dataset subpopulation organization, subpopulation shift, and slice discovery.
- Abstract(参考訳): サブポピュレーションの分布はデータセット内に隠された重要な特性である。
データセット内のサブポピュレーション分布の解明と分析は、データセットの包括的な理解を提供し、データセットサブポピュレーション組織、サブポピュレーションシフト、スライスディスカバリなど、さまざまな下流タスクに有用な強力なツールとして立っている。
その重要性にもかかわらず、我々の知識に対するデータセットのサブポピュレーション分布を体系的に探求する研究は行われていない。
この制限に対処し、全てのタスクを統一的に解決するために、データセット内のサブポピュレーション分布を表現、分析、利用するための新しいサブポピュレーション構造の概念を導入する。
本研究では,Large Language Models (LLM) の知識と命令追従機能を活用し,言語学的に情報的イメージキャプションを解析し,構造を要約するサブポピュレーション構造ディスカバリー(SSD-LLM)フレームワークを提案する。
さらに、本研究では、データセットサブポピュレーション組織、サブポピュレーションシフト、スライス発見を含むサブポピュレーション関連タスクのスペクトルに対する、検出された構造の適用を示す、タスク固有チューニング(Task-specific Tuning)と呼ばれる下流タスクに対処するための完全なワークフローを提案する。
さらに、本研究では、データセットサブポピュレーション組織、サブポピュレーションシフト、スライス発見を含むサブポピュレーション関連タスクのスペクトルに対する、検出された構造の適用を示す、タスク固有チューニング(Task-specific Tuning)と呼ばれる下流タスクに対処するための完全なワークフローを提案する。
関連論文リスト
- DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Interpetable Target-Feature Aggregation for Multi-Task Learning based on Bias-Variance Analysis [53.38518232934096]
マルチタスク学習(MTL)は、タスク間の共有知識を活用し、一般化とパフォーマンスを改善するために設計された強力な機械学習パラダイムである。
本稿では,タスククラスタリングと特徴変換の交点におけるMTL手法を提案する。
両段階において、鍵となる側面は減った目標と特徴の解釈可能性を維持することである。
論文 参考訳(メタデータ) (2024-06-12T08:30:16Z) - Wiki-TabNER:Advancing Table Interpretation Through Named Entity
Recognition [19.423556742293762]
TIタスクの評価に広く用いられているベンチマークデータセットを分析した。
この欠点を克服するため、我々はより困難なデータセットを構築し、注釈付けします。
本稿では,新たに開発された大規模言語モデルを評価するためのプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:22:07Z) - Learning Exceptional Subgroups by End-to-End Maximizing KL-divergence [32.98328133998099]
Syflowは、例外的なサブポピュレーションを見つけるための、エンドツーエンドの最適化可能なアプローチである。
我々は、Syflowが洞察に富んだ説明を伴う非常に例外的な部分群を確実に見つけることを示す。
論文 参考訳(メタデータ) (2024-02-20T11:29:57Z) - VLSlice: Interactive Vision-and-Language Slice Discovery [17.8634551024147]
VLSliceは、一貫した視覚言語行動を伴うコヒーレントな表現レベルサブグループの発見を可能にする対話型システムである。
VLSliceは,ユーザの学習において多種多様な高一貫性スライスを迅速に生成し,ツールを一般公開することを可能にする。
論文 参考訳(メタデータ) (2023-09-13T04:02:38Z) - Learning Prototype-oriented Set Representations for Meta-Learning [85.19407183975802]
集合構造データから学ぶことは、近年注目を集めている根本的な問題である。
本稿では,既存の要約ネットワークを改善するための新しい最適輸送方式を提案する。
さらに、少数ショット分類と暗黙的メタ生成モデリングの事例にインスタンス化する。
論文 参考訳(メタデータ) (2021-10-18T09:49:05Z) - Semi-supervised Multi-task Learning for Semantics and Depth [88.77716991603252]
MTL(Multi-Task Learning)は、関連するタスク間で表現を共有することで、モデル一般化を強化することを目的としている。
そこで本研究では,異なるデータセットから利用可能な監視信号を活用するために,半教師付きマルチタスク学習(MTL)手法を提案する。
本稿では,データセット間の整合性の問題を軽減するために,様々なアライメントの定式化を施したドメイン認識識別器構造を提案する。
論文 参考訳(メタデータ) (2021-10-14T07:43:39Z) - Exploring Multi-dimensional Data via Subset Embedding [13.092303047029311]
サブセットパターンを探索する視覚分析手法を提案する。
アプローチの中核はサブセット埋め込みネットワーク(SEN)であり、サブセットの群を一様に変形した埋め込みとして表現する。
この設計により、任意のサブセットを処理し、単一の機能でサブセットの類似性をキャプチャできる。
論文 参考訳(メタデータ) (2021-04-24T03:08:08Z) - Representation Matters: Assessing the Importance of Subgroup Allocations
in Training Data [85.43008636875345]
訓練データにおける多様な表現は,サブグループのパフォーマンス向上と集団レベルの目標達成の鍵である。
分析と実験は、データセット構成がパフォーマンスにどのように影響するかを説明し、既存のデータにおけるトレンドとドメイン知識を用いて、意図的かつ客観的なデータセット設計を導くのに役立つ構成結果を提供する。
論文 参考訳(メタデータ) (2021-03-05T00:27:08Z) - Personal Fixations-Based Object Segmentation with Object Localization
and Boundary Preservation [60.41628937597989]
我々はPFOS(Personal Fixations-based Object)に着目し,過去の研究の課題に対処する。
視線オブジェクトをセグメント化するオブジェクトローカリゼーションと境界保存(OLBP)に基づく新しいネットワークを提案する。
OLBPは複数のタイプの深い監督の混合されたボトムアップおよびトップダウンの方法で整理されます。
論文 参考訳(メタデータ) (2021-01-22T09:20:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。