Fugu-MT 論文翻訳(概要): Identifying and Analyzing Performance-Critical Tokens in Large Language Models

論文の概要: Identifying and Analyzing Performance-Critical Tokens in Large Language Models

arxiv url: http://arxiv.org/abs/2401.11323v3
Date: Mon, 24 Feb 2025 03:35:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 22:36:55.19777
Title: Identifying and Analyzing Performance-Critical Tokens in Large Language Models
Title（参考訳）: 大規模言語モデルにおける性能クリティカルなトークンの同定と解析
Authors: Yu Bai, Heyan Huang, Cesare Spinoso-Di Piano, Marc-Antoine Rondeau, Sanxing Chen, Yang Gao, Jackie Chi Kit Cheung,
Abstract要約: 我々は大規模な言語モデルがいかに実演からタスクを実行するかを研究する。私たちの仕事は、大規模な言語モデルがデモからタスクを実行するための学習方法に光を当て、さまざまな種類のトークンが大きな言語モデルで果たす役割についての理解を深めます。
参考スコア（独自算出の注目度）: 52.404072802235234
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In-context learning (ICL) has emerged as an effective solution for few-shot learning with large language models (LLMs). However, how LLMs leverage demonstrations to specify a task and learn a corresponding computational function through ICL is underexplored. Drawing from the way humans learn from content-label mappings in demonstrations, we categorize the tokens in an ICL prompt into content, stopword, and template tokens. Our goal is to identify the types of tokens whose representations directly influence LLM's performance, a property we refer to as being performance-critical. By ablating representations from the attention of the test example, we find that the representations of informative content tokens have less influence on performance compared to template and stopword tokens, which contrasts with the human attention to informative words. We give evidence that the representations of performance-critical tokens aggregate information from the content tokens. Moreover, we demonstrate experimentally that lexical meaning, repetition, and structural cues are the main distinguishing characteristics of these tokens. Our work sheds light on how large language models learn to perform tasks from demonstrations and deepens our understanding of the roles different types of tokens play in large language models.
Abstract（参考訳）: In-context Learning (ICL)は、大規模言語モデル(LLM)を用いた数ショット学習の効果的なソリューションとして登場した。しかし、LCMがいかに実演を活用してタスクを指定し、ICLを通して対応する計算関数を学習するかは、過小評価されている。デモで人間がコンテンツラベルマッピングから学ぶ方法から、ICLプロンプト内のトークンをコンテンツ、ストップワード、テンプレートトークンに分類する。我々のゴールは、LLMのパフォーマンスに直接影響を及ぼすトークンの種類を特定することです。テスト例の注意から表現を非難することにより,情報的コンテンツトークンの表現がテンプレートやストップワードトークンよりも性能に影響を与えないことが分かる。性能クリティカルトークンの表現がコンテンツトークンから情報を集約する証拠を提示する。さらに,これらのトークンの主な特徴は語彙的意味,繰り返し,構造的手がかりであることを示した。私たちの仕事は、大規模な言語モデルがデモからタスクを実行するための学習方法に光を当て、さまざまな種類のトークンが大きな言語モデルで果たす役割についての理解を深めます。

関連論文リスト

Label-Guided In-Context Learning for Named Entity Recognition [14.63059248497416]
In-context Learning (ICL) では、大規模な言語モデルで新しいタスクを実行することができる。トークンレベルの統計情報を用いてトレーニングラベルを活用する新しい手法であるDEERを導入し、ICLの性能を向上させる。
論文参考訳（メタデータ） (2025-05-29T17:54:32Z)
Tokenization is Sensitive to Language Variation [14.568179478275255]
トケナイザーはテキストを小さな単位に分割し、あまり一般的でない言語形式に対して異なる振る舞いをするかもしれない。これは2種類のタスクに対して、下流のLLMパフォーマンスに異なる影響を与える可能性がある。重要なアルゴリズム設計選択が下流モデルの性能に与える影響について検討する。
論文参考訳（メタデータ） (2025-02-21T09:58:54Z)
PICLe: Pseudo-Annotations for In-Context Learning in Low-Resource Named Entity Detection [56.916656013563355]
In-context Learning (ICL)により、大規模言語モデルでは、デモをほとんど使わずにタスクを実行することができる。 PICLeは、ノイズの多い擬似アノテーション付き実演によるインコンテキスト学習のためのフレームワークである。バイオメディカルな5つのNEDデータセット上でPICLeを評価し,PICLeが低リソース環境でICLより優れていることを示す。
論文参考訳（メタデータ） (2024-12-16T16:09:35Z)
[CLS] Token Tells Everything Needed for Training-free Efficient MLLMs [66.5266435598799]
MLLM(Multi- Language Large Language Models)は、最近、広範囲の視覚タスクにおいて強力なパフォーマンスを示した。しかし、その効率的なデプロイメントは、高い計算コストとメモリ要求のため、依然として大きな課題である。本稿では,VTC圧縮という,列車不要の視覚圧縮のための簡易かつ効果的な手法を提案する。
論文参考訳（メタデータ） (2024-12-08T05:29:39Z)
Sparse Autoencoders Reveal Temporal Difference Learning in Large Language Models [7.115323364355489]
インコンテキスト学習(In-context learning)は、入力プロンプトのいくつかの例に基づいて適応する能力であり、大きな言語モデル(LLM)のユビキタスな特徴である。最初に、Llamaが$70$Bで、コンテキスト内で単純なRL問題を解くことができることを示す。次に、スパースオートエンコーダ(SAE)を用いてLlamaの残差ストリームを分析し、時間差(TD)誤差によく一致する表現を求める。
論文参考訳（メタデータ） (2024-10-02T06:51:12Z)
Exploring Italian sentence embeddings properties through multi-tasking [1.4335183427838039]
本研究では,事前学習言語モデルを用いて構築された文表現が,特定の構文情報や意味情報をエンコードする方法について検討する。本研究では,タスクに関連する情報を含む表現や,BLMタスクに埋め込まれた文の圧縮を,2段階のアーキテクチャで個別にモデル化する。文構造 -- フレーズ/チャンクのシーケンスとチャンクプロパティがタスク間で共有できることを期待していましたが、パフォーマンスとエラー分析は、異なるタスクの手がかりが、文の埋め込みにおいて異なる方法でエンコードされていることを示しています。
論文参考訳（メタデータ） (2024-09-10T16:22:18Z)
Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。 SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文参考訳（メタデータ） (2024-06-07T17:55:43Z)
Does In-Context Learning Really Learn? Rethinking How Large Language Models Respond and Solve Tasks via In-Context Learning [41.606494950216764]
In-context Learning (ICL)は、スケールアップされた大規模言語モデル(LLM)の開発と共に強力な能力として登場した。本稿では,ICLの全体的な性能をラベル空間,フォーマット,識別の3次元に分解する。 ICLはラベル空間とフォーマットを制御し,所望のラベル語にLLMが反応するのに役立つことを示す。
論文参考訳（メタデータ） (2024-04-11T08:20:10Z)
Helping Language Models Learn More: Multi-dimensional Task Prompt for Few-shot Tuning [36.14688633670085]
本稿では,タスク関連オブジェクト,要約,タスク記述情報に基づく多次元タスクプロンプト学習手法MTPromptを提案する。提案するMTPromptは,適切なプロンプトを自動構築し,検索することで,いくつかのサンプル設定と5つの異なるデータセットに対して最適な結果が得られる。
論文参考訳（メタデータ） (2023-12-13T10:00:44Z)
Improving Input-label Mapping with Demonstration Replay for In-context Learning [67.57288926736923]
In-context Learning (ICL)は、大規模な自己回帰言語モデルの出現する能力である。 Sliding Causal Attention (RdSca) と呼ばれる新しいICL法を提案する。 ICL実験において,本手法は入力ラベルマッピングを大幅に改善することを示す。
論文参考訳（メタデータ） (2023-10-30T14:29:41Z)
Understanding the Role of Input Token Characters in Language Models: How Does Information Loss Affect Performance? [45.53600782873268]
入力トークン文字における情報損失が事前学習言語モデルの性能に与える影響について検討する。驚くべきことに、極端な設定下であっても事前トレーニングを行うこと、すなわちトークンの1文字だけを使うこと、標準のNLUベンチマークのパフォーマンス保持、および探索タスクが高いことが判明した。例えば、トークンからの1文字1文字にのみ事前トレーニングされたモデルでは、SuperGLUEタスクとGLUEタスクのフルトーケンモデルの約90ドル%と7,7ドル%のパフォーマンス保持が達成される。
論文参考訳（メタデータ） (2023-10-26T09:47:50Z)
What Makes Good In-context Demonstrations for Code Intelligence Tasks with LLMs? [60.668318972782295]
大規模言語モデルは、文脈内学習(ICL)の能力を示している。 ICLはタスク命令といくつかの例をデモとして使用し、次に予測を行うために言語モデルにデモを入力します。コードに関連するタスクに対して,優れたデモを構築する方法について,体系的に検討することが重要である。
論文参考訳（メタデータ） (2023-04-15T15:13:58Z)
Revisiting Multimodal Representation in Contrastive Learning: From Patch and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文参考訳（メタデータ） (2023-03-27T00:58:39Z)
Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。 PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文参考訳（メタデータ） (2022-11-15T01:13:39Z)
Rethinking the Role of Demonstrations: What Makes In-Context Learning Work? [112.72413411257662]
大規模言語モデル(LM)は、いくつかのインプットラベルペア(デモ)を条件付けして、新しいインプットの予測を行うことで、インコンテキストで学習することができる。実演のラベルをランダムに置き換えることは、パフォーマンスをほとんど損なうものではない。デモの他の側面が、エンドタスクのパフォーマンスの主要な要因であることに気付きました。
論文参考訳（メタデータ） (2022-02-25T17:25:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。