論文の概要: Modeling Data Diversity for Joint Instance and Verbalizer Selection in Cold-Start Scenarios
- arxiv url: http://arxiv.org/abs/2507.00330v1
- Date: Tue, 01 Jul 2025 00:01:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.132576
- Title: Modeling Data Diversity for Joint Instance and Verbalizer Selection in Cold-Start Scenarios
- Title(参考訳): コールドスタートシナリオにおけるジョイントインスタンスとバーバリザーの選択のためのデータ多様性のモデル化
- Authors: Mohna Chakraborty, Adithya Kulkarni, Qi Li,
- Abstract要約: COLDSELECTは、データの多様性をモデル化する共同動詞化とインスタンス選択のアプローチである。
8つのベンチマークの実験では、COLDSELECTが不確実性を減らし、一般化を高めるのに優れていることが示されている。
- 参考スコア(独自算出の注目度): 11.80632322391738
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Prompt-based methods leverage the knowledge of pre-trained language models (PLMs) trained with a masked language modeling (MLM) objective; however, these methods are sensitive to template, verbalizer, and few-shot instance selection, particularly in cold-start settings with no labeled data. Existing studies overlook the dependency between instances and verbalizers, where instance-label probabilities depend on verbalizer token proximity in the embedding space. To address this, we propose COLDSELECT, a joint verbalizer and instance selection approach that models data diversity. COLDSELECT maps PLM vocabulary and $h_{[MASK]}$ embeddings into a shared space, applying dimensionality reduction and clustering to ensure efficient and diverse selection. By optimizing for minimal uncertainty and maximal diversity, COLDSELECT captures data relationships effectively. Experiments on eight benchmarks demonstrate COLDSELECT's superiority in reducing uncertainty and enhancing generalization, outperforming baselines in verbalizer and few-shot instance selection for cold-start scenarios.
- Abstract(参考訳): プロンプトに基づく手法は,プリトレーニング言語モデル (PLM) の知識をマスク言語モデリング (MLM) の目的に活用するが,これらの手法はテンプレート,動詞化,少数ショットのインスタンス選択に敏感である。
既存の研究では、インスタンスラベル確率は埋め込み空間における動詞化トークンの近接に依存するため、インスタンスと動詞化器間の依存性を見落としている。
そこで本研究では,データ多様性をモデル化する共同動詞化手法であるCOLDSELECTを提案する。
COLDSELECT は PLM vocabulary と $h_{[MASK]}$ の埋め込みを共有空間にマッピングし、次元の縮小とクラスタリングを適用し、効率的で多様な選択を確実にする。
最小不確実性と最大多様性を最適化することにより、COLDSELECTはデータ関係を効果的にキャプチャする。
8つのベンチマークの実験では、COLDSELECTが不確実性を低減し、一般化を向上し、動詞のベースラインを上回り、コールドスタートシナリオの少数ショットのインスタンス選択に優れていることが示されている。
関連論文リスト
- Task-Specific Data Selection for Instruction Tuning via Monosemantic Neuronal Activations [19.25205110583291]
重要なボトルネックは、タスク固有のパフォーマンスを最大化するために、最も関連性の高いデータを選択することです。
既存のデータ選択アプローチには、不安定な影響に基づく方法や、より安定した分布アライメント方法が含まれる。
タスク関連データをよりよく識別するために、この分野に専用の類似度指標を導入します。
論文 参考訳(メタデータ) (2025-03-19T11:35:57Z) - Investigating the Impact of Data Selection Strategies on Language Model Performance [1.0013553984400492]
本研究では,異なるデータ選択手法と特徴型がモデル性能に与える影響について検討する。
我々は,データサブセットの選択が下流タスクに影響を及ぼすか,n-gram特徴が目標分布との整合性を改善するか,埋め込み型ニューラルネットワーク特徴が相補的な利点をもたらすかを評価する。
論文 参考訳(メタデータ) (2025-01-07T14:38:49Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Target-Aware Language Modeling via Granular Data Sampling [25.957424920194914]
言語モデルの事前訓練は、一般的に幅広いユースケースをターゲットにし、多様なソースからのデータを取り込む。
コスト効率が高く簡単なアプローチは、低次元のデータ特徴をサンプリングすることである。
事前学習したモデルはRefinedWebの全データと同等に動作し、125Mから1.5Bまでのモデルサイズに対してランダムに選択されたサンプルより優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-23T04:52:17Z) - One size doesn't fit all: Predicting the Number of Examples for In-Context Learning [16.712595387955574]
In-context Learning (ICL)は、ラベル付きデータのトレーニングセットから少量のローカライズされたサンプルをLLMのプロンプトに追加するプロセスを指す。
私たちの作業は、この'one fits all'アプローチの制限を軽減し、数ショットの推論で使用する各データインスタンスの例数を動的に予測します。
テキスト分類ベンチマーク実験の結果,AICLが標準ICLを最大17%上回っていることがわかった。
論文 参考訳(メタデータ) (2024-03-11T03:28:13Z) - Revisiting Demonstration Selection Strategies in In-Context Learning [66.11652803887284]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)を用いて広範囲のタスクを実行するという印象的な能力を示している。
本研究ではまず,データとモデルの両方の側面から,この分散に寄与する要因を再検討し,実演の選択がデータとモデルに依存していることを確かめる。
本研究では,データとモデルに依存した実演選択手法である textbfTopK + ConE を提案する。
論文 参考訳(メタデータ) (2024-01-22T16:25:27Z) - Towards Free Data Selection with General-Purpose Models [71.92151210413374]
望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。
アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。
FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
論文 参考訳(メタデータ) (2023-09-29T15:50:14Z) - In-Context Demonstration Selection with Cross Entropy Difference [95.21947716378641]
大規模言語モデル(LLM)は、ゼロショットタスクのパフォーマンスを改善するためにコンテキスト内デモを使用することができる。
テキスト内デモを選択するためのクロスエントロピー差分法(CED)を提案する。
論文 参考訳(メタデータ) (2023-05-24T05:04:00Z) - Self-augmented Data Selection for Few-shot Dialogue Generation [18.794770678708637]
我々は,MR-to-Text生成問題に対処するために,自己学習フレームワークを採用する。
我々は,我々の生成モデルが最も不確実なデータを選択するための新しいデータ選択戦略を提案する。
論文 参考訳(メタデータ) (2022-05-19T16:25:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。