論文の概要: Select or Project? Evaluating Lower-dimensional Vectors for LLM Training Data Explanations
- arxiv url: http://arxiv.org/abs/2601.16651v2
- Date: Thu, 29 Jan 2026 10:52:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 14:13:19.835807
- Title: Select or Project? Evaluating Lower-dimensional Vectors for LLM Training Data Explanations
- Title(参考訳): LLMトレーニングデータ記述のための低次元ベクトルの評価
- Authors: Lukas Hinterleitner, Loris Schoenegger, Benjamin Roth,
- Abstract要約: 本稿では,モデルコンポーネントの小さな,アーキテクチャ的に情報を得たサブセットを選択するか,あるいは全勾配を低次元空間に投影することにより,低次元表現を創出することが望ましいかを検討する。
本研究では, 学習課題に必要な学習データの影響を, 全体勾配やランダムな投影よりも効率的に把握できることを示す。
- 参考スコア(独自算出の注目度): 1.6702608045980016
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gradient-based methods for instance-based explanation for large language models (LLMs) are hindered by the immense dimensionality of model gradients. In practice, influence estimation is restricted to a subset of model parameters to make computation tractable, but this subset is often chosen ad hoc and rarely justified by systematic evaluation. This paper investigates if it is better to create low-dimensional representations by selecting a small, architecturally informed subset of model components or by projecting the full gradients into a lower-dimensional space. Using a novel benchmark, we show that a greedily selected subset of components captures the information about training data influence needed for a retrieval task more effectively than either the full gradient or random projection. We further find that this approach is more computationally efficient than random projection, demonstrating that targeted component selection is a practical strategy for making instance-based explanations of large models more computationally feasible.
- Abstract(参考訳): 大規模言語モデル(LLM)のインスタンスベース説明のための勾配に基づく手法は、モデル勾配の大きな次元性によって妨げられる。
実際には、インフルエンス推定は計算を扱いやすくするためにモデルパラメータのサブセットに制限されるが、このサブセットはしばしばアドホックに選ばれ、体系的な評価によって正当化されることは滅多にない。
本稿では,モデルコンポーネントの小さな,アーキテクチャ的に情報を得たサブセットを選択するか,あるいは全勾配を低次元空間に投影することにより,低次元表現を創出することが望ましいかを検討する。
新たなベンチマークを用いて, 学習作業に必要なトレーニングデータの影響に関する情報を, 完全勾配やランダム投影よりも効率的に取得できることを示す。
さらに、このアプローチはランダムなプロジェクションよりも計算効率が良く、ターゲットコンポーネントの選択が大規模モデルのインスタンスベースの説明をより計算的に実現可能なものにするための実践的戦略であることを示す。
関連論文リスト
- Active Sampling of Interpolation Points to Identify Dominant Subspaces for Model Reduction [7.818201674097184]
支配的到達可能部分空間と観測可能部分空間を用いた線形構造系のモデル削減について検討する。
すべての可能な点が $-$ であるようなトレーニングセット $-$ が大きければ、これらの部分空間は多くの大規模線形系を解くことで決定できる。
本研究では,与えられたトレーニングセットから数点のみをサンプリングし,それらの部分空間を正確に推定できるアクティブサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2024-09-05T19:59:14Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - Evaluating Representations with Readout Model Switching [19.907607374144167]
本稿では,最小記述長(MDL)の原理を用いて評価指標を考案する。
我々は、読み出しモデルのためのハイブリッド離散および連続値モデル空間を設計し、それらの予測を組み合わせるために切替戦略を用いる。
提案手法はオンライン手法で効率的に計算でき,様々なアーキテクチャの事前学習された視覚エンコーダに対する結果を示す。
論文 参考訳(メタデータ) (2023-02-19T14:08:01Z) - Multidimensional Item Response Theory in the Style of Collaborative
Filtering [0.8057006406834467]
本稿では,多次元項目応答理論(MIRT)に対する機械学習手法を提案する。
協調フィルタリングに触発されて、多くのMIRTモデルを含むモデルの一般的なクラスを定義します。
本稿では, 個人モデルとクロスバリデーションを推定し, 最適動作モデルを選択するために, ペナル化結合最大度(JML)の使用について論じる。
論文 参考訳(メタデータ) (2023-01-03T00:56:27Z) - Optimal Discriminant Analysis in High-Dimensional Latent Factor Models [4.051523221722475]
高次元分類問題において、一般的に用いられるアプローチは、まず高次元の特徴を低次元空間に射影することである。
我々は、この2段階の手順を正当化するために、隠れた低次元構造を持つ潜在変数モデルを定式化する。
観測された特徴の特定の主成分(PC)を射影とする計算効率の良い分類器を提案する。
論文 参考訳(メタデータ) (2022-10-23T21:45:53Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - Conservative Objective Models for Effective Offline Model-Based
Optimization [78.19085445065845]
計算設計の問題は、合成生物学からコンピュータアーキテクチャまで、様々な場面で発生している。
本研究では,分布外入力に対する接地的目標の実際の値を低くする目的関数のモデルを学習する手法を提案する。
COMは、様々なMBO問題に対して、既存のメソッドの実装と性能の面では単純である。
論文 参考訳(メタデータ) (2021-07-14T17:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。