論文の概要: Analyzing Text Representations under Tight Annotation Budgets: Measuring
Structural Alignment
- arxiv url: http://arxiv.org/abs/2210.05721v1
- Date: Tue, 11 Oct 2022 18:28:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 13:53:16.438025
- Title: Analyzing Text Representations under Tight Annotation Budgets: Measuring
Structural Alignment
- Title(参考訳): タイトなアノテーション予算下でのテキスト表現の分析:構造的アライメントの測定
- Authors: C\'esar Gonz\'alez-Guti\'errez, Audi Primadhanty, Francesco Cazzaro,
Ariadna Quattoni
- Abstract要約: 厳密なアノテーションの予算の下では、データ表現の選択が重要になります。
与えられた表現がタスクと構造的に整合している範囲を測定する指標を提案する。
- 参考スコア(独自算出の注目度): 2.198430261120653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Annotating large collections of textual data can be time consuming and
expensive. That is why the ability to train models with limited annotation
budgets is of great importance. In this context, it has been shown that under
tight annotation budgets the choice of data representation is key. The goal of
this paper is to better understand why this is so. With this goal in mind, we
propose a metric that measures the extent to which a given representation is
structurally aligned with a task. We conduct experiments on several text
classification datasets testing a variety of models and representations. Using
our proposed metric we show that an efficient representation for a task (i.e.
one that enables learning from few samples) is a representation that induces a
good alignment between latent input structure and class structure.
- Abstract(参考訳): 大量のテキストデータに注釈を付けるのは時間がかかり、費用がかかる。
そのため、限定的なアノテーション予算でモデルをトレーニングする能力が非常に重要です。
この文脈では、厳密なアノテーション予算の下でデータ表現の選択が重要であることが示されている。
この論文の目的はなぜそうなのかをよりよく理解することである。
この目標を念頭に置いて、与えられた表現がタスクと構造的に整合している範囲を測定する指標を提案する。
我々は、様々なモデルや表現をテストするテキスト分類データセットの実験を行う。
提案手法を用いることで、タスクの効率的な表現(つまり、少数のサンプルから学習できるもの)が潜時入力構造とクラス構造との整合性を誘導する表現であることを示す。
関連論文リスト
- IDEAL: Influence-Driven Selective Annotations Empower In-Context
Learners in Large Language Models [66.32043210237768]
本稿では,影響駆動型選択的アノテーション手法を提案する。
アノテーションのコストを最小限に抑えつつ、コンテキスト内サンプルの品質を向上させることを目的としている。
様々なベンチマークで提案手法の優位性を確認する実験を行った。
論文 参考訳(メタデータ) (2023-10-16T22:53:54Z) - MetricPrompt: Prompting Model as a Relevance Metric for Few-shot Text
Classification [65.51149771074944]
MetricPromptは、数発のテキスト分類タスクをテキストペア関連性推定タスクに書き換えることで、言語設計の難易度を緩和する。
広範に使われている3つのテキスト分類データセットを4つのショット・セッティングで実験する。
結果から,MetricPromptは,手動弁証法や自動弁証法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-06-15T06:51:35Z) - Analyzing Text Representations by Measuring Task Alignment [2.198430261120653]
階層的クラスタリングに基づくタスクアライメントスコアを構築し,異なるレベルの粒度でアライメントを測定する。
テキスト分類実験は、タスクアライメントが与えられた表現の分類性能を説明することができることを示すことによって、我々の仮説を検証する。
論文 参考訳(メタデータ) (2023-05-31T11:20:48Z) - Joint Representations of Text and Knowledge Graphs for Retrieval and
Evaluation [15.55971302563369]
ニューラルネットワークの重要な特徴は、オブジェクト(テキスト、画像、スピーチなど)のセマンティックなベクトル表現を生成し、類似したオブジェクトがベクトル空間内で互いに近接していることを保証することである。
多くの研究は、他のモダリティの表現の学習に焦点を合わせてきたが、テキストや知識ベース要素の整列したクロスモーダル表現は存在しない。
論文 参考訳(メタデータ) (2023-02-28T17:39:43Z) - What Are You Token About? Dense Retrieval as Distributions Over the
Vocabulary [68.77983831618685]
本稿では,2つのエンコーダが生成するベクトル表現を,モデルの語彙空間に投影することで解釈する。
得られたプロジェクションは、リッチな意味情報を含み、それらの間の接続を描画し、スパース検索を行う。
論文 参考訳(メタデータ) (2022-12-20T16:03:25Z) - Revisiting text decomposition methods for NLI-based factuality scoring
of summaries [9.044665059626958]
細粒度分解が必ずしも事実性スコアの勝利戦略であるとは限らないことを示す。
また,従来提案されていたエンテーメントに基づくスコアリング手法の小さな変更により,性能が向上することを示した。
論文 参考訳(メタデータ) (2022-11-30T09:54:37Z) - Measuring the Interpretability of Unsupervised Representations via
Quantized Reverse Probing [97.70862116338554]
本稿では,自己教師付き表現の解釈可能性の測定問題について検討する。
我々は、後者を、表現と手動でラベル付けされた概念の空間の間の相互情報を推定するものとして定式化する。
提案手法は,多人数の自己教師付き表現の評価に利用し,解釈可能性による評価を行う。
論文 参考訳(メタデータ) (2022-09-07T16:18:50Z) - Fine-Grained Visual Entailment [51.66881737644983]
そこで本稿では,テキストから画像への微粒な知識要素の論理的関係を予測することを目的として,このタスクの拡張を提案する。
従来の研究とは異なり、本手法は本質的に説明可能であり、異なるレベルの粒度で論理的予測を行う。
本手法は,手動でアノテートした知識要素のデータセットを用いて評価し,この課題に対して68.18%の精度を達成できることを示す。
論文 参考訳(メタデータ) (2022-03-29T16:09:38Z) - DirectProbe: Studying Representations without Classifiers [21.23284793831221]
DirectProbeは、タスクのバージョン空間の概念に基づいて表現の幾何学を研究します。
いくつかの言語的タスクと文脈的埋め込みの実験は、訓練された分類器がなくても、DirectProbeは埋め込み空間がラベルの表現方法に光を当てることができることを示している。
論文 参考訳(メタデータ) (2021-04-13T02:40:26Z) - Structured (De)composable Representations Trained with Neural Networks [21.198279941828112]
テンプレート表現は、クラス全体の特性をキャプチャするジェネリック表現を指す。
提案手法は、エンドツーエンドのディープラーニングを用いて、入力画像と離散ラベルから構造化および構成可能な表現を学習する。
表現には明確な構造があることを証明し、表現をクラスや環境を表す因子に分解する。
論文 参考訳(メタデータ) (2020-07-07T10:20:31Z) - Interpretable Entity Representations through Large-Scale Typing [61.4277527871572]
本稿では,人間の読みやすいエンティティ表現を作成し,箱から高パフォーマンスを実現する手法を提案する。
我々の表現は、微粒な実体型に対する後続確率に対応するベクトルである。
特定のドメインに対して,学習に基づく方法で,型セットのサイズを縮小できることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。