論文の概要: Vocabulary-Defined Semantics: Latent Space Clustering for Improving In-Context Learning
- arxiv url: http://arxiv.org/abs/2401.16184v6
- Date: Mon, 14 Oct 2024 04:19:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:04:30.930649
- Title: Vocabulary-Defined Semantics: Latent Space Clustering for Improving In-Context Learning
- Title(参考訳): 語彙決定セマンティックス:文脈内学習改善のための潜在空間クラスタリング
- Authors: Jian Gu, Aldeida Aleti, Chunyang Chen, Hongyu Zhang,
- Abstract要約: コンテキスト内学習により、言語モデルは下流のデータに適応したり、プロンプト内のデモとして少数のサンプルでタスクを組み込むことができる。
しかし、文脈内学習のパフォーマンスは、実演の質、形式、順序によって不安定である可能性がある。
語彙定義意味論(vocabulary-defined semantics)を提案する。
- 参考スコア(独自算出の注目度): 32.178931149612644
- License:
- Abstract: In-context learning enables language models (LM) to adapt to downstream data or tasks by incorporating few samples as demonstrations within the prompts. It offers strong performance without the expense of fine-tuning. However, the performance of in-context learning can be unstable depending on the quality, format, or order of demonstrations, which in turn exacerbates the difficulty of optimization. Prior work, such as Knn Prompting, index samples based on the similarities of logits at the output-side, in addition to the regular retrieval operation at the input-side. They improve in-context learning by leveraging the core ability of next-token prediction, rather than relying solely on the emergent capacity to make analogies. Despite this, the hard-to-optimize issue of in-context learning still exists. In our view, it stems from the process of selecting demonstrations. To address this, we propose complementing in-context learning with an additional clustering operation. We propose a novel approach "vocabulary-defined semantics". Grounded in LM vocabulary, which is the label space of model outputs, the proposed approach computes semantically equivalent latent representations for output labels. Then, taking the representations as centroids, a clustering operation is performed to align the semantic properties between the language model and the downstream data/tasks. Based on extensive experiments across diverse textual understanding datasets and multiple models, our approach outperforms the state-of-the-art in terms of effectiveness and efficiency. On average, it achieves $3\%-49\%$ improvements while requiring only half of the computation time.
- Abstract(参考訳): インコンテキスト学習により、言語モデル(LM)は、いくつかのサンプルをプロンプト内にデモとして組み込むことで、下流のデータやタスクに適応することができる。
微調整を犠牲にすることなく、高いパフォーマンスを提供する。
しかし、文脈内学習のパフォーマンスは、品質、フォーマット、またはデモの順序によって不安定になり、それによって最適化の難しさが悪化する。
Knn Promptingのような以前の研究は、入力側の正規検索操作に加えて、出力側のロジットの類似性に基づくインデックスサンプルであった。
彼らは、アナログを作るのに創発的な能力だけに頼るのではなく、次のトーケン予測のコア能力を活用することで、コンテキスト内学習を改善する。
それにもかかわらず、文脈内学習の難解な問題はまだ残っている。
私たちの見解では、それはデモを選択するプロセスに由来する。
そこで本研究では,追加のクラスタリング操作でコンテキスト内学習を補完する手法を提案する。
本稿では,語彙定義意味論(vocabulary-defined semantics)を提案する。
モデル出力のラベル空間であるLM語彙に基づいて,提案手法は意味論的に等価な潜在表現を出力ラベルに対して計算する。
次に、表現をセンタロイドとすることで、言語モデルと下流データ/タスク間のセマンティック特性を整合させるクラスタリング操作を行う。
多様なテキスト理解データセットと複数のモデルにまたがる広範な実験に基づいて、我々のアプローチは、有効性と効率の点で最先端の手法より優れている。
平均して、計算時間の半分しか必要とせず、$3\%-49\%の改善を実現している。
関連論文リスト
- Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。
提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-08-29T12:34:01Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - DenoSent: A Denoising Objective for Self-Supervised Sentence
Representation Learning [59.4644086610381]
本稿では,他の視点,すなわち文内視点から継承する新たな認知的目的を提案する。
離散ノイズと連続ノイズの両方を導入することで、ノイズの多い文を生成し、モデルを元の形式に復元するように訓練する。
我々の経験的評価は,本手法が意味的テキスト類似性(STS)と幅広い伝達タスクの両面で競合する結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-01-24T17:48:45Z) - Make Prompts Adaptable: Bayesian Modeling for Vision-Language Prompt
Learning with Data-Dependent Prior [14.232144691524528]
最近のVision-Language Pretrainedモデルは、多くの下流タスクのバックボーンとなっている。
MLEトレーニングは、トレーニングデータにおいて、コンテキストベクトルを過度に適合する画像特徴に導くことができる。
本稿では,素早い学習のためのベイズ的枠組みを提案する。
論文 参考訳(メタデータ) (2024-01-09T10:15:59Z) - In-Context Probing: Toward Building Robust Classifiers via Probing Large
Language Models [5.5089506884366735]
本稿では, In-Context Probing (ICP) という代替手法を提案する。
インコンテキスト学習と同様に、入力の表現を命令で文脈化するが、出力予測を復号する代わりに、ラベルを予測するために文脈化表現を探索する。
我々はICPがファインタニングよりも優れていることを示し、より小さなモデルの上に分類器を構築するのに特に有用であることを示した。
論文 参考訳(メタデータ) (2023-05-23T15:43:04Z) - Learning Context-aware Classifier for Semantic Segmentation [88.88198210948426]
本稿では,文脈認識型分類器の学習を通じて文脈ヒントを利用する。
本手法はモデルに依存しないため,ジェネリックセグメンテーションモデルにも容易に適用できる。
無視できる追加パラメータと+2%の推論時間だけで、小型モデルと大型モデルの両方で十分な性能向上が達成されている。
論文 参考訳(メタデータ) (2023-03-21T07:00:35Z) - Compositional Exemplars for In-context Learning [21.961094715261133]
大規模な事前学習言語モデル(LM)は、印象的なインコンテキスト学習(ICL)能力を示している。
本稿では,CEIL (Compositional Exemplars for In-context Learning) を提案する。
我々は、感情分析、パラフレーズ検出、自然言語推論、コモンセンス推論、オープンドメイン質問応答、コード生成、意味解析を含む7つの異なるNLPタスクから、CEILを12の分類および生成データセットで検証する。
論文 参考訳(メタデータ) (2023-02-11T14:02:08Z) - Improving Few-Shot Performance of Language Models via Nearest Neighbor
Calibration [12.334422701057674]
In-context Learning のための近辺校正フレームワークを提案する。
インコンテキスト学習パラダイムは、トレーニングインスタンスを推論する際に誤ったラベルを生成するという現象にインスパイアされている。
テキスト分類タスクの多種多様な実験により,本手法はテキスト内学習を大幅に改善することが示された。
論文 参考訳(メタデータ) (2022-12-05T12:49:41Z) - On the Use of External Data for Spoken Named Entity Recognition [40.93448412171246]
近年の自己教師型音声表現の進歩により,ラベル付きデータに制限のある学習モデルを考えることが可能になった。
自己学習、知識蒸留、トランスファーラーニングなど、さまざまなアプローチを採用し、エンドツーエンドモデルとパイプラインアプローチの両方に適用性を検討する。
論文 参考訳(メタデータ) (2021-12-14T18:49:26Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。