論文の概要: Does This Look Familiar to You? Knowledge Analysis via Model Internal Representations
- arxiv url: http://arxiv.org/abs/2509.07311v1
- Date: Tue, 09 Sep 2025 01:08:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.15905
- Title: Does This Look Familiar to You? Knowledge Analysis via Model Internal Representations
- Title(参考訳): 身近に見えるか? : モデル内部表現による知識分析
- Authors: Sihyun Park,
- Abstract要約: 効果的なトレーニングデータ選択のための明確な方法論は存在しない。
モデル内部表現(KAMIR)は、これらの制限を克服する新しいアプローチである。
機械読解や要約など、幅広いタスクに適用することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have been driven by pretraining, supervised fine tuning (SFT), and alignment tuning. Among these, SFT plays a crucial role in transforming a model 's general knowledge into structured responses tailored to specific tasks. However, there is no clearly established methodology for effective training data selection. Simply increasing the volume of data does not guarantee performance improvements, while preprocessing, sampling, and validation require substantial time and cost. To address this issue, a variety of data selection methods have been proposed. Among them, knowledge based selection approaches identify suitable training data by analyzing the model 's responses. Nevertheless, these methods typically rely on prompt engineering, making them sensitive to variations and incurring additional costs for prompt design. In this study, we propose Knowledge Analysis via Model Internal Representations (KAMIR), a novel approach that overcomes these limitations by analyzing data based on the model 's internal representations. KAMIR computes similarities between the hidden states of each layer (block) and the final hidden states for a given input to assess the data. Unlike prior methods that were largely limited to multiple choice tasks, KAMIR can be applied to a wide range of tasks such as machine reading comprehension and summarization. Moreover, it selects data useful for training based on the model 's familiarity with the input, even with a small dataset and a simple classifier architecture. Experiments across diverse task datasets demonstrate that training with less familiar data leads to better generalization performance.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、事前訓練、教師付き微調整(SFT)、アライメントチューニングによって進められている。
これらのうち、SFTは、モデルの一般的な知識を特定のタスクに適した構造化された応答に変換する上で重要な役割を担っている。
しかし,データ選択を効果的に行う方法が確立されていない。
データ量を増やすだけではパフォーマンスの改善は保証されないが、事前処理、サンプリング、検証には相当な時間とコストが必要である。
この問題に対処するため、様々なデータ選択手法が提案されている。
このうち、知識に基づく選択手法は、モデルの応答を分析して適切な訓練データを特定する。
しかしながら、これらの手法は一般的に急速設計に依存しており、変動に敏感であり、急速設計のための追加のコストがかかる。
本研究では,モデルの内部表現に基づくデータ解析により,これらの制約を克服する新しい手法であるモデル内部表現を用いた知識分析(KAMIR)を提案する。
KAMIRは、各層(ブロック)の隠された状態と、与えられた入力に対して最終的な隠された状態との類似性を計算し、データを評価する。
複数の選択タスクに限られていた従来の方法とは異なり、KAMIRは機械読解や要約といった幅広いタスクに適用できる。
さらに、小さなデータセットと単純な分類器アーキテクチャであっても、モデルが入力に精通していることに基づいて、トレーニングに有用なデータを選択する。
タスクデータセットの多種多様な実験により、慣れ親しんだデータによるトレーニングが、より良い一般化性能をもたらすことが示される。
関連論文リスト
- SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - DUSE: A Data Expansion Framework for Low-resource Automatic Modulation Recognition based on Active Learning [17.651073556023167]
動的不確実性駆動型サンプル拡張(DUSE)と呼ばれるデータ拡張フレームワークを導入する。
DUSEは不確実性スコアリング機能を使用して、関連するAMRデータセットから有用なサンプルをフィルタリングする。
実験によると、DUSEはクラスバランスとクラスバランスの設定の両方で8コアセット選択ベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-07-16T08:09:41Z) - PEAKS: Selecting Key Training Examples Incrementally via Prediction Error Anchored by Kernel Similarity [6.6157730528755065]
インクリメンタルデータ選択(IDS)問題では,サンプルが連続的なストリームとして到着し,完全なデータソースにアクセスせずに選択する必要がある。
IDSに適した効率的なデータ選択法であるPEAKSを提案する。
PEAKSが既存の選択戦略を一貫して上回ることを示す総合評価を行った。
論文 参考訳(メタデータ) (2025-04-07T16:42:09Z) - Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。
軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。
データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:28:55Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z) - Towards General and Efficient Active Learning [20.888364610175987]
アクティブラーニングは、限られたアノテーション予算を利用するために最も有益なサンプルを選択することを目的としている。
本稿では,新しい汎用能動学習法(GEAL)を提案する。
提案手法は,同一モデルの単一パス推定を用いて,異なるデータセット上でデータ選択処理を行うことができる。
論文 参考訳(メタデータ) (2021-12-15T08:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。