論文の概要: Visualizing Linguistic Diversity of Text Datasets Synthesized by Large
Language Models
- arxiv url: http://arxiv.org/abs/2305.11364v1
- Date: Fri, 19 May 2023 00:53:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 16:52:11.170629
- Title: Visualizing Linguistic Diversity of Text Datasets Synthesized by Large
Language Models
- Title(参考訳): 大規模言語モデルによるテキストデータセットの言語多様性の可視化
- Authors: Emily Reif, Minsuk Kahng, Savvas Petridis
- Abstract要約: LinguisticLensは,データセットの構文的多様性を理解し解析するための,新たなインタラクティブな可視化ツールである。
テキストデータセットの階層的な可視化をサポートしており、ユーザーは概要を素早くスキャンし、個々の例を検査することができる。
- 参考スコア(独自算出の注目度): 5.998401829996758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) can be used to generate smaller, more refined
datasets via few-shot prompting for benchmarking, fine-tuning or other use
cases. However, understanding and evaluating these datasets is difficult, and
the failure modes of LLM-generated data are still not well understood.
Specifically, the data can be repetitive in surprising ways, not only
semantically but also syntactically and lexically. We present LinguisticLens, a
novel inter-active visualization tool for making sense of and analyzing
syntactic diversity of LLM-generated datasets. LinguisticLens clusters text
along syntactic, lexical, and semantic axes. It supports hierarchical
visualization of a text dataset, allowing users to quickly scan for an overview
and inspect individual examples. The live demo is available at
shorturl.at/zHOUV.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ベンチマークや微調整、その他のユースケースのための数ショットプロンプトを通じて、より小さくより洗練されたデータセットを生成するために使用することができる。
しかし、これらのデータセットの理解と評価は困難であり、llm生成データの障害モードはまだよく分かっていない。
特に、データは、意味的にだけでなく、構文的にも、語彙的にも、驚くほど反復的です。
LLM生成したデータセットの構文的多様性を理解し解析するための新しい対話型可視化ツールLinguisticLensを提案する。
languagelensは、構文、語彙、セマンティック軸に沿ってテキストをクラスターする。
テキストデータセットの階層的な視覚化をサポートし、ユーザーは概要をすばやくスキャンし、個々の例を検査できる。
ライブデモは shorturl.at/zHOUV で公開されている。
関連論文リスト
- Explaining Datasets in Words: Statistical Models with Natural Language Parameters [66.69456696878842]
本稿では, クラスタリング, 時系列, 分類モデルなど, 自然言語の述語によってパラメータ化される統計モデル群を紹介する。
当社のフレームワークは、ユーザチャット対話の分類、時間の経過とともにどのように進化するかの特徴付け、一方の言語モデルが他方よりも優れているカテゴリを見つけることなど、幅広い問題に適用しています。
論文 参考訳(メタデータ) (2024-09-13T01:40:20Z) - PUB: Plot Understanding Benchmark and Dataset for Evaluating Large Language Models on Synthetic Visual Data Interpretation [2.1184929769291294]
本稿では,データ視覚化における大規模言語モデルの習熟度を評価するために設計された,新しい合成データセットを提案する。
我々のデータセットは、制御されたパラメータを使って生成され、潜在的な現実世界シナリオの包括的カバレッジが保証されます。
我々は、画像中の視覚データに関連する質問を多モーダルテキストプロンプトを用いて、いくつかの最先端モデルをベンチマークする。
論文 参考訳(メタデータ) (2024-09-04T11:19:17Z) - Unified Lexical Representation for Interpretable Visual-Language Alignment [52.059812317944434]
複雑な設計をせずに両方のモダリティを統一した語彙表現を学習するためのフレームワークであるLexVLAを紹介する。
我々はDINOv2をローカル言語の特徴の視覚モデルとして使用し、生成言語モデルであるLlamaをテキスト内語彙予測能力の活用に利用した。
これら2つの事前学習されたユニモーダルモデルが、控えめなマルチモーダルデータセットを微調整することで、適切に整列できることを実証する。
論文 参考訳(メタデータ) (2024-07-25T07:35:27Z) - SUGARCREPE++ Dataset: Vision-Language Model Sensitivity to Semantic and Lexical Alterations [13.608653575298183]
SuGARCREPE++データセットを導入し、視覚・言語モデルのセマンティックな変化に対する感度を解析する。
SuGARCREPE++では,構成性データセットの性能向上に寄与するすべてのモデルが同等に動作しないことを示す。
論文 参考訳(メタデータ) (2024-06-17T03:22:20Z) - VLSlice: Interactive Vision-and-Language Slice Discovery [17.8634551024147]
VLSliceは、一貫した視覚言語行動を伴うコヒーレントな表現レベルサブグループの発見を可能にする対話型システムである。
VLSliceは,ユーザの学習において多種多様な高一貫性スライスを迅速に生成し,ツールを一般公開することを可能にする。
論文 参考訳(メタデータ) (2023-09-13T04:02:38Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Explaining Patterns in Data with Language Models via Interpretable
Autoprompting [143.4162028260874]
本稿では,データを説明する自然言語文字列を生成するアルゴリズムである,解釈可能なオートプロンプト(iPrompt)を提案する。
iPromptは、基盤となるデータセット記述を正確に見つけることで、意味のある洞察を得ることができる。
fMRIデータセットを用いた実験は、iPromptが科学的発見に役立つ可能性を示している。
論文 参考訳(メタデータ) (2022-10-04T18:32:14Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - On The Ingredients of an Effective Zero-shot Semantic Parser [95.01623036661468]
我々は、標準発話とプログラムの訓練例を文法から言い換えて、ゼロショット学習を分析する。
改良された文法,より強力なパラフレーズ,効率的な学習手法を用いて,これらのギャップを埋めることを提案する。
我々のモデルはラベル付きデータゼロの2つの意味解析ベンチマーク(Scholar, Geo)で高い性能を達成する。
論文 参考訳(メタデータ) (2021-10-15T21:41:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。