Fugu-MT 論文翻訳(概要): Dataset Featurization: Uncovering Natural Language Features through Unsupervised Data Reconstruction

論文の概要: Dataset Featurization: Uncovering Natural Language Features through Unsupervised Data Reconstruction

arxiv url: http://arxiv.org/abs/2502.17541v1
Date: Mon, 24 Feb 2025 18:42:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-26 17:42:45.131922
Title: Dataset Featurization: Uncovering Natural Language Features through Unsupervised Data Reconstruction
Title（参考訳）: データセットの飽和:教師なしデータ再構成による自然言語の特徴の発見
Authors: Michal Bravansky, Vaclav Kubon, Suhas Hariharan, Robert Kirk,
Abstract要約: 大規模言語モデル(LLM)は、そのような自然言語によるデータの解釈を提供することを約束している。本稿では,抽出した特徴量を正確に制御する,データセットのデファクトライズのためのドメインに依存しない手法を提案する。
参考スコア（独自算出の注目度）: 1.0784083404427411
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Interpreting data is central to modern research. Large language models (LLMs) show promise in providing such natural language interpretations of data, yet simple feature extraction methods such as prompting often fail to produce accurate and versatile descriptions for diverse datasets and lack control over granularity and scale. To address these limitations, we propose a domain-agnostic method for dataset featurization that provides precise control over the number of features extracted while maintaining compact and descriptive representations comparable to human expert labeling. Our method optimizes the selection of informative binary features by evaluating the ability of an LLM to reconstruct the original data using those features. We demonstrate its effectiveness in dataset modeling tasks and through two case studies: (1) Constructing a feature representation of jailbreak tactics that compactly captures both the effectiveness and diversity of a larger set of human-crafted attacks; and (2) automating the discovery of features that align with human preferences, achieving accuracy and robustness comparable to expert-crafted features. Moreover, we show that the pipeline scales effectively, improving as additional features are sampled, making it suitable for large and diverse datasets.
Abstract（参考訳）: データの解釈は現代の研究の中心である。大規模言語モデル(LLM)は、データの自然言語解釈を提供するという約束を示すが、様々なデータセットに対して正確で汎用的な記述を生成できず、粒度やスケールを制御できないような単純な特徴抽出手法は、しばしば失敗する。これらの制約に対処するために、人間の専門家のラベル付けに匹敵するコンパクトで記述的な表現を維持しながら抽出された特徴の数を正確に制御する、データセットのデファクトライズのためのドメインに依存しない手法を提案する。本手法は,LLMが特徴量を用いて元のデータを再構成する能力を評価することにより,情報的バイナリー特徴の選択を最適化する。本研究は,(1)より大規模な人為的攻撃の有効性と多様性をコンパクトに捉えたジェイルブレイク戦術の特徴表現を構築すること,(2)人的嗜好に沿った特徴の発見を自動化し,専門家による攻撃に匹敵する正確さと堅牢性を達成すること,の2つのケーススタディを通じて,その効果を実証する。さらに、パイプラインは効果的にスケールし、追加機能がサンプリングされるにつれて改善され、大規模で多様なデータセットに適合することを示す。

関連論文リスト

D2AF: A Dual-Driven Annotation and Filtering Framework for Visual Grounding [36.321156992727055]
D2AFは、入力画像のみを使用して視覚的な接地を行うための堅牢なアノテーションフレームワークである。二重駆動型アノテーション戦略を実装することにより、詳細な領域テキストペアを効果的に生成する。以上の結果から,データ量の増加がモデル性能を向上させることが示唆された。
論文参考訳（メタデータ） (2025-05-30T09:04:47Z)
Enhancing Dataset Distillation via Non-Critical Region Refinement [29.858754062202213]
本研究では,NRR-DD法(Non-Critical Region Refinement dataset Distillation)を提案する。また,距離ベース代表者(DBR)の知識伝達についても紹介し,訓練におけるソフトラベルの必要性を排除した。実験結果から,NRR-DDは,小規模・大規模両方のデータセットで最先端の性能を実現することがわかった。
論文参考訳（メタデータ） (2025-03-24T01:20:22Z)
A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文参考訳（メタデータ） (2024-08-05T23:20:32Z)
Dynamic In-context Learning with Conversational Models for Data Extraction and Materials Property Prediction [0.0]
PropertyExtractorは、ゼロショットと数ショットのインコンテキスト学習をブレンドしたオープンソースのツールである。本試験では, 約9%の誤差率で95%を超える精度とリコールを実証した。
論文参考訳（メタデータ） (2024-05-16T21:15:51Z)
Text2Data: Low-Resource Data Generation with Textual Control [100.5970757736845]
Text2Dataは、ラベルのないデータを使って基盤となるデータ配布を理解する新しいアプローチである。制御性を確保し、破滅的な忘れを効果的に防止する、制約最適化に基づく新たな学習目標を通じて微調整を行う。
論文参考訳（メタデータ） (2024-02-08T03:41:39Z)
LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。 LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文参考訳（メタデータ） (2024-02-06T19:18:04Z)
One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文参考訳（メタデータ） (2023-12-16T03:33:12Z)
Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning [47.02160072880698]
モデル自体が等しくあるいはそれ以上に効果的であるサブセットを積極的にサンプリングできる自己進化メカニズムを導入します。データサンプリング技術の鍵は、選択したサブセットの多様性の向上にあります。 3つのデータセットとベンチマークにわたる大規模な実験は、DiverseEvolの有効性を示している。
論文参考訳（メタデータ） (2023-11-14T14:10:40Z)
Multi-label and Multi-target Sampling of Machine Annotation for Computational Stance Detection [44.90471123149513]
アノテーションの品質を最適化するために,マルチラベルおよびマルチターゲットサンプリング戦略を導入する。ベンチマークスタンス検出コーパスの実験結果から,本手法は性能と学習効率を大幅に向上させることができることが示された。
論文参考訳（メタデータ） (2023-11-08T06:54:34Z)
UP-DP: Unsupervised Prompt Learning for Data Pre-Selection with Vision-Language Models [24.50445616970387]
我々は、データ事前選択に視覚言語モデルを適用する、シンプルで効果的な教師なしのプロンプト学習手法UP-DPを導入する。具体的には,BLIP-2パラメータを凍結することにより,テキストプロンプトをトレーニングして,表現性の向上による関節特徴の抽出を行う。提案手法を,異なる設定の7つのベンチマークデータセットを用いて,最先端の手法と比較し,最大20%の性能向上を実現した。
論文参考訳（メタデータ） (2023-07-20T20:45:13Z)
An Empirical Investigation of Commonsense Self-Supervision with Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文参考訳（メタデータ） (2022-05-21T19:49:04Z)
Towards Open-World Feature Extrapolation: An Inductive Graph Learning Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文参考訳（メタデータ） (2021-10-09T09:02:45Z)
Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文参考訳（メタデータ） (2020-06-10T20:20:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。