論文の概要: When Parts Are Greater Than Sums: Individual LLM Components Can Outperform Full Models
- arxiv url: http://arxiv.org/abs/2406.13131v3
- Date: Sun, 06 Oct 2024 12:25:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:39:42.694559
- Title: When Parts Are Greater Than Sums: Individual LLM Components Can Outperform Full Models
- Title(参考訳): 部品が総和より大きい場合:個々のLCMコンポーネントは完全なモデルを上回ることができる
- Authors: Ting-Yun Chang, Jesse Thomason, Robin Jia,
- Abstract要約: 本稿では,大規模言語モデルの出力を,注目の頭やコンポーネントの個人的貢献に分解することで,文脈内学習について検討する。
モデルが貧弱な場合であっても、分類タスクで個別にうまく機能する優れたパフォーマンスのコンポーネント、偶然よりもはるかに悪いパフォーマンスのコンポーネント、常に同じラベルを予測するラベルバイアスのコンポーネント。
- 参考スコア(独自算出の注目度): 28.46131289972691
- License:
- Abstract: This paper studies in-context learning by decomposing the output of large language models into the individual contributions of attention heads and MLPs (components). We observe curious components: good-performing ones that individually do well on a classification task, even when the model performs poorly; bad-performing ones that do much worse than chance; and label-biased components that always predict the same label. We find that component accuracies are well-correlated across different demonstration sets and perturbations of prompt templates. Based on our findings, we propose component reweighting, which learns to linearly re-scale the component activations from a few labeled examples. Given 24 labeled examples, our method improves by an average of 6.0% accuracy points over 24-shot ICL across 8 tasks on Llama-2-7B. Overall, this paper both enriches our understanding of ICL and provides a practical method for improvement by examining model internals.
- Abstract(参考訳): 本稿では,大規模言語モデルの出力を,注目頭やMLP(コンポーネント)の個人的貢献に分解することで,文脈内学習を研究する。
モデルが貧弱な場合であっても、分類タスクで個別にうまく機能する優れたパフォーマンスのコンポーネント、偶然よりもはるかに悪いパフォーマンスのコンポーネント、常に同じラベルを予測するラベルバイアスのコンポーネント。
コンポーネントの精度は、異なるデモセットとプロンプトテンプレートの摂動の間でよく相関している。
そこで本研究では,いくつかのラベル付き例から,コンポーネントアクティベーションを線形に再スケールするコンポーネント再重み付けを提案する。
Llama-2-7Bの8つのタスクにまたがる24ショットICLよりも平均6.0%精度が向上した。
全体として、本論文はICLの理解を深め、モデル内部を調べることで改善のための実践的な方法を提供する。
関連論文リスト
- Large Language Model-guided Document Selection [23.673690115025913]
大規模言語モデル(LLM)の事前学習は、ますます増加する計算予算を消費する。
近年の研究では、ドキュメントの選択がFLOPのごく一部で同等のモデル品質を実現することが実証されている。
拡張性のある汎用ドメイン文書選択のための有望な方向を探究する。
論文 参考訳(メタデータ) (2024-06-07T04:52:46Z) - Prompt Perturbation Consistency Learning for Robust Language Models [47.021022978847036]
大規模言語モデル(LLM)は、多くの自然言語処理タスクにおいて印象的なパフォーマンスを示している。
微調整を十分に行うと,識別モデルに匹敵するIC-SF性能が得られることを示す。
クリーンサンプルと摂動サンプルの損失の分散を規則化して機能する,効率的な緩和手法であるPrompt Perturbation Consistency Learning(PPCL)を提案する。
論文 参考訳(メタデータ) (2024-02-24T15:00:58Z) - Improving In-context Learning via Bidirectional Alignment [41.214003703218914]
大規模言語モデル(LLM)は、コンテキスト内学習(ICL)を通じて、多くのタスクにおいて印象的な数ショットの一般化を示している。
我々は,学生モデルのICL能力を向上させるために,ICL事例に対するモデルの嗜好を十分に活用するための双方向アライメント(Bidirectional Alignment, BiAlign)を提案する。
具体的には、新しいランキング損失を取り入れることで、学生と教師のモデル間の入力好みのアライメントを導入する。
論文 参考訳(メタデータ) (2023-12-28T15:02:03Z) - Understanding the Detrimental Class-level Effects of Data Augmentation [63.1733767714073]
最適な平均精度を達成するには、ImageNetで最大20%の個々のクラスの精度を著しく損なうコストがかかる。
本稿では,DAがクラスレベルの学習力学とどのように相互作用するかを理解するためのフレームワークを提案する。
そこで本研究では, クラス条件拡張戦略により, 負の影響を受けるクラスの性能が向上することを示す。
論文 参考訳(メタデータ) (2023-12-07T18:37:43Z) - The XAISuite framework and the implications of explanatory system
dissonance [0.0]
本稿では,2つの説明システムであるSHAPとLIMEを,それぞれの重要度スコアの相関関係に基づいて比較する。
重要性の大きさは、説明の一貫性において重要ではない。
SHAPとLIMEの重要度スコアの類似性は、モデルの精度を予測できない。
論文 参考訳(メタデータ) (2023-04-15T04:40:03Z) - On the Compositional Generalization Gap of In-Context Learning [73.09193595292233]
In-distriion (ID) と Out-of-distriion (OOD) の相違について考察する。
我々は,3つの意味解析データセットを用いて,OPT,BLOOM,CodeGen,Codexの4つのモデルファミリを評価する。
論文 参考訳(メタデータ) (2022-11-15T19:56:37Z) - Part-Based Models Improve Adversarial Robustness [57.699029966800644]
人間の事前知識とエンドツーエンドの学習を組み合わせることで、ディープニューラルネットワークの堅牢性を向上させることができることを示す。
我々のモデルは、部分分割モデルと小さな分類器を組み合わせて、オブジェクトを同時に部品に分割するようにエンドツーエンドに訓練されている。
実験の結果,これらのモデルによりテクスチャバイアスが低減され,一般的な汚職に対する堅牢性が向上し,相関が急上昇することが示唆された。
論文 参考訳(メタデータ) (2022-09-15T15:41:47Z) - Shared Independent Component Analysis for Multi-Subject Neuroimaging [107.29179765643042]
本稿では,ShICA (Shared Independent Component Analysis) を導入し,各ビューを加法ガウス雑音によって汚染された共有独立成分の線形変換としてモデル化する。
このモデルは、成分がガウス的でないか、あるいはノイズ分散に十分な多様性がある場合、同定可能であることを示す。
我々は,fMRIおよびMEGデータセットの実証的証拠として,ShICAが代替品よりも正確な成分推定を行うことを示す。
論文 参考訳(メタデータ) (2021-10-26T08:54:41Z) - On Model Calibration for Long-Tailed Object Detection and Instance
Segmentation [56.82077636126353]
NorCal, Normalized for long-tailed object detection and instance segmentation。
バックグラウンドクラスを個別に扱い、各提案のクラスに対してスコアを正規化することは、優れたパフォーマンスを達成するための鍵であることを示す。
論文 参考訳(メタデータ) (2021-07-05T17:57:20Z) - Neighborhood Contrastive Learning for Novel Class Discovery [79.14767688903028]
我々は,クラスタリング性能に重要な識別表現を学習するために,Neighborhood Contrastive Learningという新しいフレームワークを構築した。
これらの2つの成分がクラスタリング性能に大きく寄与し、我々のモデルが最先端の手法よりも大きなマージンで優れていることを実験的に実証した。
論文 参考訳(メタデータ) (2021-06-20T17:34:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。