論文の概要: Dataset Featurization: Uncovering Natural Language Features through Unsupervised Data Reconstruction
- arxiv url: http://arxiv.org/abs/2502.17541v1
- Date: Mon, 24 Feb 2025 18:42:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:23:25.428787
- Title: Dataset Featurization: Uncovering Natural Language Features through Unsupervised Data Reconstruction
- Title(参考訳): データセットの飽和:教師なしデータ再構成による自然言語の特徴の発見
- Authors: Michal Bravansky, Vaclav Kubon, Suhas Hariharan, Robert Kirk,
- Abstract要約: 大規模言語モデル(LLM)は、そのような自然言語によるデータの解釈を提供することを約束している。
本稿では,抽出した特徴量を正確に制御する,データセットのデファクトライズのためのドメインに依存しない手法を提案する。
- 参考スコア(独自算出の注目度): 1.0784083404427411
- License:
- Abstract: Interpreting data is central to modern research. Large language models (LLMs) show promise in providing such natural language interpretations of data, yet simple feature extraction methods such as prompting often fail to produce accurate and versatile descriptions for diverse datasets and lack control over granularity and scale. To address these limitations, we propose a domain-agnostic method for dataset featurization that provides precise control over the number of features extracted while maintaining compact and descriptive representations comparable to human expert labeling. Our method optimizes the selection of informative binary features by evaluating the ability of an LLM to reconstruct the original data using those features. We demonstrate its effectiveness in dataset modeling tasks and through two case studies: (1) Constructing a feature representation of jailbreak tactics that compactly captures both the effectiveness and diversity of a larger set of human-crafted attacks; and (2) automating the discovery of features that align with human preferences, achieving accuracy and robustness comparable to expert-crafted features. Moreover, we show that the pipeline scales effectively, improving as additional features are sampled, making it suitable for large and diverse datasets.
- Abstract(参考訳): データの解釈は現代の研究の中心である。
大規模言語モデル(LLM)は、データの自然言語解釈を提供するという約束を示すが、様々なデータセットに対して正確で汎用的な記述を生成できず、粒度やスケールを制御できないような単純な特徴抽出手法は、しばしば失敗する。
これらの制約に対処するために、人間の専門家のラベル付けに匹敵するコンパクトで記述的な表現を維持しながら抽出された特徴の数を正確に制御する、データセットのデファクトライズのためのドメインに依存しない手法を提案する。
本手法は,LLMが特徴量を用いて元のデータを再構成する能力を評価することにより,情報的バイナリー特徴の選択を最適化する。
本研究は,(1)より大規模な人為的攻撃の有効性と多様性をコンパクトに捉えたジェイルブレイク戦術の特徴表現を構築すること,(2)人的嗜好に沿った特徴の発見を自動化し,専門家による攻撃に匹敵する正確さと堅牢性を達成すること,の2つのケーススタディを通じて,その効果を実証する。
さらに、パイプラインは効果的にスケールし、追加機能がサンプリングされるにつれて改善され、大規模で多様なデータセットに適合することを示す。
関連論文リスト
- A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - CLAIM Your Data: Enhancing Imputation Accuracy with Contextual Large Language Models [0.18416014644193068]
本稿では,精度インプット法(CLAIM)の文脈言語モデルを提案する。
従来の計算法とは異なり、CLAIMは文脈に関連のある自然言語記述子を使用して、欠落した値を埋める。
多様なデータセットや欠落パターンに対する評価は,既存の計算手法よりもCLAIMの方が優れた性能を示している。
論文 参考訳(メタデータ) (2024-05-28T00:08:29Z) - Dynamic In-context Learning with Conversational Models for Data Extraction and Materials Property Prediction [0.0]
PropertyExtractorは、ゼロショットと数ショットのインコンテキスト学習をブレンドしたオープンソースのツールである。
本試験では, 約9%の誤差率で95%を超える精度とリコールを実証した。
論文 参考訳(メタデータ) (2024-05-16T21:15:51Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。
我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - UP-DP: Unsupervised Prompt Learning for Data Pre-Selection with
Vision-Language Models [24.50445616970387]
我々は、データ事前選択に視覚言語モデルを適用する、シンプルで効果的な教師なしのプロンプト学習手法UP-DPを導入する。
具体的には,BLIP-2パラメータを凍結することにより,テキストプロンプトをトレーニングして,表現性の向上による関節特徴の抽出を行う。
提案手法を,異なる設定の7つのベンチマークデータセットを用いて,最先端の手法と比較し,最大20%の性能向上を実現した。
論文 参考訳(メタデータ) (2023-07-20T20:45:13Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Towards Open-World Feature Extrapolation: An Inductive Graph Learning
Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。
本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文 参考訳(メタデータ) (2021-10-09T09:02:45Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。