論文の概要: GSCLIP : A Framework for Explaining Distribution Shifts in Natural
Language
- arxiv url: http://arxiv.org/abs/2206.15007v1
- Date: Thu, 30 Jun 2022 04:06:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-01 13:10:25.070491
- Title: GSCLIP : A Framework for Explaining Distribution Shifts in Natural
Language
- Title(参考訳): gsclip : 自然言語における分布変化を説明する枠組み
- Authors: Zhiying Zhu, Weixin Liang, James Zou
- Abstract要約: 2つのイメージデータセットが与えられたデータセット説明は、自然言語でデータセットレベルの分散シフトを自動的に指摘することを目的としている。
GSCLIPはデータセット説明タスクを解決するためのトレーニング不要のフレームワークである。
- 参考スコア(独自算出の注目度): 20.876505812867222
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Helping end users comprehend the abstract distribution shifts can greatly
facilitate AI deployment. Motivated by this, we propose a novel task, dataset
explanation. Given two image data sets, dataset explanation aims to
automatically point out their dataset-level distribution shifts with natural
language. Current techniques for monitoring distribution shifts provide
inadequate information to understand datasets with the goal of improving data
quality. Therefore, we introduce GSCLIP, a training-free framework to solve the
dataset explanation task. In GSCLIP, we propose the selector as the first
quantitative evaluation method to identify explanations that are proper to
summarize dataset shifts. Furthermore, we leverage this selector to demonstrate
the superiority of a generator based on language model generation. Systematic
evaluation on natural data shift verifies that GSCLIP, a combined system of a
hybrid generator group and an efficient selector is not only easy-to-use but
also powerful for dataset explanation at scale.
- Abstract(参考訳): 抽象的な分散シフトを理解するエンドユーザを支援することで、AIデプロイメントが大幅に簡単になる。
そこで本研究では,新しい課題であるデータセット説明を提案する。
2つの画像データセットが与えられたデータセット説明は、データセットレベルの分散シフトを自然言語で自動的に指摘することを目的としている。
分散シフトを監視する現在の技術は、データ品質を改善するためにデータセットを理解するのに不十分な情報を提供する。
そこで本研究では,データセット説明課題を解決するためのトレーニングフリーフレームワークであるGSCLIPを紹介する。
GSCLIPでは,データセットのシフトを要約するのに適した説明を識別する最初の定量的評価手法としてセレクタを提案する。
さらに,このセレクタを活用して,言語モデル生成に基づくジェネレータの優位性を示す。
自然データシフトの体系的評価は,ハイブリッドジェネレータ群と効率的なセレクタを組み合わせたGSCLIPが,使いやすいだけでなく,大規模なデータセット説明にも有効であることを示す。
関連論文リスト
- Adapt-$\infty$: Scalable Lifelong Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、Lifelong Instruction Tuningの新しいマルチウェイおよびアダプティブデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - TAGCOS: Task-agnostic Gradient Clustered Coreset Selection for Instruction Tuning Data [29.45013725650798]
完全なデータセットに匹敵するパフォーマンスを達成する命令データセットのサブセットを抽出することが不可欠である。
タスク非依存のグラディエントクラスタ化コレセット選択(TAGCOS)を提案する。
具体的には、サンプル勾配をデータ表現として利用し、類似したデータをグループ化するためにクラスタリングを行い、コアセット選択に効率的なグリーディアルゴリズムを適用する。
論文 参考訳(メタデータ) (2024-07-21T17:59:20Z) - KAXAI: An Integrated Environment for Knowledge Analysis and Explainable
AI [0.0]
本稿では,AutoML,XAI,合成データ生成を統合したシステムの設計について述べる。
このシステムは、複雑度を抽象化し、高いユーザビリティを提供しながら、機械学習のパワーをナビゲートし活用することができる。
論文 参考訳(メタデータ) (2023-12-30T10:20:47Z) - UP-DP: Unsupervised Prompt Learning for Data Pre-Selection with
Vision-Language Models [24.50445616970387]
我々は、データ事前選択に視覚言語モデルを適用する、シンプルで効果的な教師なしのプロンプト学習手法UP-DPを導入する。
具体的には,BLIP-2パラメータを凍結することにより,テキストプロンプトをトレーニングして,表現性の向上による関節特徴の抽出を行う。
提案手法を,異なる設定の7つのベンチマークデータセットを用いて,最先端の手法と比較し,最大20%の性能向上を実現した。
論文 参考訳(メタデータ) (2023-07-20T20:45:13Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Explaining Patterns in Data with Language Models via Interpretable
Autoprompting [143.4162028260874]
本稿では,データを説明する自然言語文字列を生成するアルゴリズムである,解釈可能なオートプロンプト(iPrompt)を提案する。
iPromptは、基盤となるデータセット記述を正確に見つけることで、意味のある洞察を得ることができる。
fMRIデータセットを用いた実験は、iPromptが科学的発見に役立つ可能性を示している。
論文 参考訳(メタデータ) (2022-10-04T18:32:14Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Improving Generative Adversarial Networks with Local Coordinate Coding [150.24880482480455]
GAN(Generative Adversarial Network)は、事前定義された事前分布から現実的なデータを生成することに成功している。
実際には、意味情報はデータから学んだ潜在的な分布によって表現される。
ローカル座標符号化(LCC)を用いたLCCGANモデルを提案する。
論文 参考訳(メタデータ) (2020-07-28T09:17:50Z) - Partially Conditioned Generative Adversarial Networks [75.08725392017698]
Generative Adversarial Networks (GAN)は、実世界のトレーニングデータセットの基盤となる確率分布を暗黙的にモデル化することで、人工データセットを合成する。
条件付きGANとその変種の導入により、これらの手法はデータセット内の各サンプルで利用可能な補助情報に基づいて条件付きサンプルを生成するように拡張された。
本研究では,標準条件付きGANがそのようなタスクに適さないことを論じ,新たなAdversarial Networkアーキテクチャとトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-07-06T15:59:28Z) - Hybrid Attention-Based Transformer Block Model for Distant Supervision
Relation Extraction [20.644215991166902]
DSREタスクを実行するために,マルチインスタンス学習を用いたハイブリッドアテンションベースのトランスフォーマーブロックを用いた新しいフレームワークを提案する。
提案手法は評価データセットの最先端アルゴリズムより優れている。
論文 参考訳(メタデータ) (2020-03-10T13:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。