論文の概要: Position: Let's Develop Data Probes to Fundamentally Understand How Data Affects LLM Performance
- arxiv url: http://arxiv.org/abs/2605.18801v1
- Date: Mon, 11 May 2026 11:44:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 21:37:32.340244
- Title: Position: Let's Develop Data Probes to Fundamentally Understand How Data Affects LLM Performance
- Title(参考訳): 位置: LLMのパフォーマンスにデータがどのように影響するかを根本的に理解するデータプローブの開発
- Authors: Shiqiang Wang, Herbert Woisetschläger, Hans Arno Jacobsen, Mingyue Ji,
- Abstract要約: 我々は、適切に定義されたランダムプロセスから合成配列を生成するための体系的手法を開発する必要性を主張する。
データプローブ上でのLCMの挙動を観察することにより、研究者は、データ特性がモデルの性能、一般化、堅牢性にどのように影響するかを体系的に研究することができる。
- 参考スコア(独自算出の注目度): 33.08440302959991
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data is fundamental to large language models (LLMs). However, understanding of what makes certain data useful for different stages of an LLM workflow, including training, tuning, alignment, in-context learning, etc., and why, remains an open question. Current approaches rely heavily on extensive experimentation with large public datasets to obtain empirical heuristics for data filtering and dataset construction. These approaches are compute intensive and lack a principled way of understanding the essence of how specific data characteristics drive LLM behavior. In this position paper, we advocate for the need of developing systematic methodologies for generating synthetic sequences from appropriately defined random processes, with the goal that these sequences can reveal useful characteristics when they are used in one or multiple stages of the LLM workflow. We refer to such sequences as data probes. By observing LLM behavior on data probes, researchers can systematically conduct studies on how data characteristics influence model performance, generalization, and robustness. The probing sequences exhibit statistical properties that can be viewed using theoretical concepts, such as typical sets, which are generalized to describe the behaviors of LLMs. This data-probe approach provides a pathway for uncovering foundational insights into the role of data in LLM training and inference, beyond empirical heuristics.
- Abstract(参考訳): データは大きな言語モデル(LLM)の基本である。
しかしながら、トレーニング、チューニング、アライメント、コンテキスト内学習など、LLMワークフローのさまざまな段階で有用なデータが何であるかを理解することは、依然としてオープンな疑問である。
現在のアプローチは、データフィルタリングとデータセット構築のための経験的ヒューリスティックを得るために、大規模な公開データセットによる広範な実験に大きく依存している。
これらのアプローチは計算集約的であり、特定のデータ特性がLCMの振る舞いをいかに促すかを理解するための原則的な方法が欠如している。
本稿では,LLMワークフローの1段階あるいは複数段階で使用される場合に,これらの配列が有用な特徴を明らかにすることを目標として,適切に定義されたランダムプロセスから合成配列を生成するための体系的手法の開発の必要性を論じる。
このようなシーケンスをデータプローブと呼ぶ。
データプローブ上でのLCMの挙動を観察することにより、研究者は、データ特性がモデルの性能、一般化、堅牢性にどのように影響するかを体系的に研究することができる。
探索列は、LLMの挙動を記述するために一般化された典型的な集合のような理論的な概念で見ることのできる統計的性質を示す。
このデータプローブアプローチは、経験的ヒューリスティックスを超えて、LLMトレーニングと推論におけるデータの役割に関する基礎的な洞察を明らかにするための経路を提供する。
関連論文リスト
- Subliminal Effects in Your Data: A General Mechanism via Log-Linearity [39.40622797996004]
現代の大規模言語モデル(LLM)のトレーニングは、特定の振る舞いを引き出すために設計されたアルゴリズムとデータセットの検証可能なスモーガスボードとなっている。
最近の実験では、データセットが個々のデータポイントから直接観測できない信号を送信できることが示されている。
我々は、ジェネリックデータセットに隠されたサブテキストが出現する一般的なメカニズムを明らかにする。
論文 参考訳(メタデータ) (2026-02-04T18:50:46Z) - Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs [66.63911043019294]
データ準備は、生のデータセットを識別し、データセット間の関係を解明し、それらから貴重な洞察を抽出することを目的としている。
本稿では,様々な下流タスクのためのデータ準備にLLM技術を用いることに焦点を当てる。
データクリーニング、標準化、エラー処理、計算、データ統合、データ豊か化という3つの主要なタスクにフィールドを編成するタスク中心の分類を導入します。
論文 参考訳(メタデータ) (2026-01-22T12:02:45Z) - Low-Perplexity LLM-Generated Sequences and Where To Find Them [0.0]
モデルにより生成された高確率テキストスパンの低パープレクティリティシーケンスの解析を主眼とした体系的アプローチを提案する。
私たちのパイプラインは、変性を避けながら、さまざまなトピックにわたる長いシーケンスを確実に抽出し、トレーニングデータのソースまで追跡します。
一致した人に対しては、ソース文書間で発生した事象の分布を定量化し、冗長リコールのスコープと性質を強調する。
論文 参考訳(メタデータ) (2025-07-02T15:58:51Z) - Diversity as a Reward: Fine-Tuning LLMs on a Mixture of Domain-Undetermined Data [54.3895971080712]
多様なデータセットを使用した細調整された大規模言語モデル(LLM)は、さまざまな領域にわたる全体的なパフォーマンス向上に不可欠である。
本稿では,LLMに2つのアイデンティティを与える新しい手法を提案する。多様性報酬に基づいてデータを認知的に探索し,選択する出力モデルと,選択したデータに調整する入力モデルである。
論文 参考訳(メタデータ) (2025-02-05T17:21:01Z) - 60 Data Points are Sufficient to Fine-Tune LLMs for Question-Answering [50.12622877002846]
大規模言語モデル(LLM)は、大量のデータセットの事前トレーニングを通じて、広範囲な世界の知識を符号化する。
我々は,事前学習したLLMが記憶する知識の量に基づいて,教師付き微調整(SFT)データを分類した。
実験の結果,SFTの段階では60個のデータポイントが事前学習中に符号化された知識を活性化することができ,LLMがQAタスクを実行できることがわかった。
論文 参考訳(メタデータ) (2024-09-24T07:38:38Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - How Data Inter-connectivity Shapes LLMs Unlearning: A Structural Unlearning Perspective [29.924482732745954]
既存のアプローチでは、忘れられるべきデータポイントは独立であり、接続性を無視していると仮定している。
構造データセットをコンパイルする手法であるPISTOLを提案する。
論文 参考訳(メタデータ) (2024-06-24T17:22:36Z) - On Inter-dataset Code Duplication and Data Leakage in Large Language Models [4.148857672591562]
本稿では,データセット間の重複現象とその大規模言語モデル(LLM)評価への影響について検討する。
この結果から,複数のSEタスクにまたがるLCMの評価は,データ間重複現象に起因する可能性が示唆された。
オープンソースモデルがデータセット間の重複に影響される可能性があることを示す。
論文 参考訳(メタデータ) (2024-01-15T19:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。