論文の概要: Characterizing Model-Native Skills
- arxiv url: http://arxiv.org/abs/2604.17614v1
- Date: Sun, 19 Apr 2026 20:58:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.602273
- Title: Characterizing Model-Native Skills
- Title(参考訳): モデルNativeスキルのキャラクタリゼーション
- Authors: Feiyang Kang, Mahavir Dabas, Myeongseob Ko, Ruoxi Jia,
- Abstract要約: スキルは、言語モデルに何ができるか、その振る舞いをどのように変えられるのかを記述するための自然なユニットである。
既存の特徴付けは人書き、テキスト記述、手動プロファイリングパイプラインに依存している。
モデルビヘイビアに介入することが目標である場合、スキルの特徴付けは*モデルネイティブ*でなければならない、と我々は主張する。
- 参考スコア(独自算出の注目度): 16.891026204025838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Skills are a natural unit for describing what a language model can do and how its behavior can be changed. However, existing characterizations rely on human-written taxonomies, textual descriptions, or manual profiling pipelines--all external hypotheses about what matters that need not align with the model's internal representations. We argue that when the goal is to intervene on model behavior, skill characterization should be *model-native*: grounded in the model's own representations rather than imposed through external ontologies. We instantiate this view by recovering a compact orthogonal basis from sequence-level activations. The resulting basis is semantically interpretable but need not correspond to any predefined human ontology; instead, it captures axes of behavioral variation that the model itself organizes around. We validate this characterization on reasoning post-training, using the recovered basis for both SFT data selection and inference-time steering. We develop lightweight proxy interventions to identify which directions are most useful for a given model. Across Llama3-8B and Qwen2.5-3B, selecting data along those directions improves Pass@1 by up to 20% on MATH and 41% on AMC, outperforming data selection based on human-characterized skills. Because the basis lives in activation space, the same directions also serve as steering vectors at inference time, improving Pass@8 by up to 4.8% on MATH--an intervention that human-characterized skills cannot support. We further validate the characterization on safety alignment, where selecting adversarial training data for model-native skill coverage rather than textual diversity yields more sample-efficient learning. These results suggest that recovering skills from the model's own representations, rather than imposing them externally, provides a more effective foundation for intervening on model behavior. Codes are open-sourced.
- Abstract(参考訳): スキルは、言語モデルに何ができるか、その振る舞いをどのように変えられるのかを記述するための自然なユニットである。
しかし、既存の特徴付けは人間による分類、テキスト記述、手動のプロファイリングパイプラインに依存している。
モデルビヘイビアに介入することが目的である場合、スキルの特徴付けは*モデル固有の*:外部オントロジーによって課されるのではなく、モデル自身の表現に基礎を置くべきである、と私たちは主張する。
シーケンスレベルのアクティベーションからコンパクトな直交基底を復元することにより、このビューをインスタンス化する。
結果として得られる基礎は意味論的に解釈可能であるが、事前に定義された人間のオントロジーに該当する必要はない。
本研究では,SFTデータ選択と推論時ステアリングの両手法を用いて,学習後の推論に基づく特徴評価を行った。
我々は、与えられたモデルに最も有用な方向を特定するために、軽量なプロキシ介入を開発する。
Llama3-8BとQwen2.5-3B全体では、これらの方向に沿ってデータを選択することで、Pass@1がMATHで最大20%、AMCで41%向上し、人間のキャラクタライズドスキルに基づいたデータ選択よりも優れています。
基本は活性化空間にあるため、同じ方向が推論時にステアリングベクターとして機能し、Pass@8がMATHで最大4.8%向上する。
さらに,テキストの多様性ではなく,モデルネイティブなスキルカバレッジのための逆トレーニングデータを選択することで,よりサンプル効率のよい学習が可能になる,安全アライメントのキャラクタリゼーションを検証した。
これらの結果は、モデルを外部に導入するのではなく、モデル自身の表現からスキルを回復させることが、モデル行動に介入するためのより効果的な基盤となることを示唆している。
コードはオープンソースである。
関連論文リスト
- From Data to Behavior: Predicting Unintended Model Behaviors Before Training [78.37660873165284]
トレーニング前に意図しないモデルの振る舞いを予測する新しいタスクであるData2Behaviorを紹介する。
また,その平均表現を通して候補データを要約する軽量な手法として,MDF(Manipulating Data Features)を提案する。
Qwen3-14B、Qwen2.5-32B-Instruct、Gemma-3-12b-itの実験では、MDFは意図しない振る舞いを予測でき、事前訓練済みの脆弱性に関する洞察を与える。
論文 参考訳(メタデータ) (2026-02-04T16:37:17Z) - Internal Causal Mechanisms Robustly Predict Language Model Out-of-Distribution Behaviors [61.92704516732144]
正当性予測の最も堅牢な特徴は、モデルの振舞いに特徴的な因果的役割を果たすものであることを示す。
モデル出力の正しさを予測するために因果メカニズムを利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2025-05-17T00:31:39Z) - Entropy-Based Adaptive Weighting for Self-Training [15.089334734753677]
自己学習のためのエントロピーに基づく適応重み付け(EAST)を提案する。
EASTは、自己学習中に不確実なデータを優先順位付けするために設計された適応的な重み付け戦略である。
我々はGSM8KおよびMATHベンチマークに対するアプローチを評価する。
論文 参考訳(メタデータ) (2025-03-31T10:04:35Z) - Machine Unlearning on Pre-trained Models by Residual Feature Alignment Using LoRA [15.542668474378633]
本稿では,事前学習モデルを用いた新しい機械学習手法を提案する。
LoRAを利用して、モデルの中間機能を事前訓練された特徴と残像に分解する。
本手法は,保持集合上のゼロ残差を学習し,未学習集合上でシフト残差を学習することを目的としている。
論文 参考訳(メタデータ) (2024-11-13T08:56:35Z) - AlignDiff: Aligning Diverse Human Preferences via Behavior-Customisable
Diffusion Model [69.12623428463573]
AlignDiffは、人間の好みを定量化し、抽象性をカバーし、拡散計画をガイドする新しいフレームワークである。
ユーザがカスタマイズした動作と正確に一致し、効率的に切り替えることができます。
選好マッチング,スイッチング,カバーにおいて,他のベースラインに比べて優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-03T13:53:08Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z) - Adversarial Infidelity Learning for Model Interpretation [43.37354056251584]
本稿では,モデル解釈のためのモデル非依存能率直接(MEED)FSフレームワークを提案する。
我々のフレームワークは、正当性、ショートカット、モデルの識別可能性、情報伝達に関する懸念を緩和する。
我々のAILメカニズムは、選択した特徴と目標の間の条件分布を学習するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-09T16:27:17Z) - Fairness-Aware Learning with Prejudice Free Representations [2.398608007786179]
本稿では,潜在性識別特徴を効果的に識別し,治療できる新しいアルゴリズムを提案する。
このアプローチは、モデルパフォーマンスを改善するために差別のない機能を集めるのに役立つ。
論文 参考訳(メタデータ) (2020-02-26T10:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。