Fugu-MT 論文翻訳(概要): Identifying and Analyzing Task-Encoding Tokens in Large Language Models

論文の概要: Identifying and Analyzing Task-Encoding Tokens in Large Language Models

arxiv url: http://arxiv.org/abs/2401.11323v2
Date: Fri, 16 Feb 2024 16:43:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-19 19:19:59.570273
Title: Identifying and Analyzing Task-Encoding Tokens in Large Language Models
Title（参考訳）: 大規模言語モデルにおけるタスクエンコーディングトークンの同定と解析
Authors: Yu Bai, Heyan Huang, Cesare Spinoso-Di Piano, Marc-Antoine Rondeau, Sanxing Chen, Yang Gao, Jackie Chi Kit Cheung
Abstract要約: 本稿では,タスク性能が依存するタスク符号化トークンの識別と解析を行う。テンプレートとストップワードトークンはタスクエンコーディングが最も困難であることを示す。我々の研究は、大規模言語モデル(LLM)がいかにして、デモからタスクを実行するかを学習し、LLMでプレイされるさまざまな種類のトークンの役割の理解を深め、タスクエンコーディングトークンを不適切な利用から不安定を避けるための洞察を提供する。
参考スコア（独自算出の注目度）: 55.03191279766383
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In-context learning (ICL) has become an effective solution for few-shot learning in natural language processing. However, our understanding of ICL's working mechanisms is limited, specifically regarding how models learn to perform tasks from ICL demonstrations. For example, unexpectedly large changes in performance can arise from small changes in the prompt, leaving prompt design a largely empirical endeavour. In this paper, we investigate this problem by identifying and analyzing task-encoding tokens on whose representations the task performance depends. Using experiments that ablate the representations of different token types, we find that template and stopword tokens are the most prone to be task-encoding. In addition, we demonstrate experimentally that lexical meaning, repetition, and text formatting are the main distinguishing characteristics of these tokens. Our work sheds light on how large language models (LLMs) learn to perform a task from demonstrations, deepens our understanding of the varied roles different types of tokens play in LLMs, and provides insights for avoiding instability from improperly utilizing task-encoding tokens.
Abstract（参考訳）: In-context Learning (ICL) は、自然言語処理における数ショット学習に有効なソリューションとなっている。しかし、ICLの動作メカニズムの理解は限られており、特にICLのデモからモデルがどのようにタスクを実行するかを学習している。例えば、予期しないほど大きなパフォーマンスの変化は、プロンプトの小さな変更によって起こりうる。本稿では,タスク性能が依存するタスクエンコーディングトークンを識別し,解析することにより,この問題を解明する。異なるトークンタイプの表現を省略する実験を用いることで、テンプレートとストップワードトークンが最もタスクエンコーディングしやすいことが分かりました。さらに,これらのトークンの主な特徴は語彙的意味,反復,テキスト形式であることを示す。我々の研究は、大規模言語モデル(LLM)がいかにして、デモからタスクを実行するかを学習し、LLMでプレイされるさまざまな種類のトークンの役割の理解を深め、タスクエンコーディングトークンを不適切な利用から不安定を避けるための洞察を提供する。

関連論文リスト

Label-Guided In-Context Learning for Named Entity Recognition [14.63059248497416]
In-context Learning (ICL) では、大規模な言語モデルで新しいタスクを実行することができる。トークンレベルの統計情報を用いてトレーニングラベルを活用する新しい手法であるDEERを導入し、ICLの性能を向上させる。
論文参考訳（メタデータ） (2025-05-29T17:54:32Z)
Tokenization is Sensitive to Language Variation [14.568179478275255]
トケナイザーはテキストを小さな単位に分割し、あまり一般的でない言語形式に対して異なる振る舞いをするかもしれない。これは2種類のタスクに対して、下流のLLMパフォーマンスに異なる影響を与える可能性がある。重要なアルゴリズム設計選択が下流モデルの性能に与える影響について検討する。
論文参考訳（メタデータ） (2025-02-21T09:58:54Z)
PICLe: Pseudo-Annotations for In-Context Learning in Low-Resource Named Entity Detection [56.916656013563355]
In-context Learning (ICL)により、大規模言語モデルでは、デモをほとんど使わずにタスクを実行することができる。 PICLeは、ノイズの多い擬似アノテーション付き実演によるインコンテキスト学習のためのフレームワークである。バイオメディカルな5つのNEDデータセット上でPICLeを評価し,PICLeが低リソース環境でICLより優れていることを示す。
論文参考訳（メタデータ） (2024-12-16T16:09:35Z)
[CLS] Token Tells Everything Needed for Training-free Efficient MLLMs [66.5266435598799]
MLLM(Multi- Language Large Language Models)は、最近、広範囲の視覚タスクにおいて強力なパフォーマンスを示した。しかし、その効率的なデプロイメントは、高い計算コストとメモリ要求のため、依然として大きな課題である。本稿では,VTC圧縮という,列車不要の視覚圧縮のための簡易かつ効果的な手法を提案する。
論文参考訳（メタデータ） (2024-12-08T05:29:39Z)
Sparse Autoencoders Reveal Temporal Difference Learning in Large Language Models [7.115323364355489]
インコンテキスト学習(In-context learning)は、入力プロンプトのいくつかの例に基づいて適応する能力であり、大きな言語モデル(LLM)のユビキタスな特徴である。最初に、Llamaが$70$Bで、コンテキスト内で単純なRL問題を解くことができることを示す。次に、スパースオートエンコーダ(SAE)を用いてLlamaの残差ストリームを分析し、時間差(TD)誤差によく一致する表現を求める。
論文参考訳（メタデータ） (2024-10-02T06:51:12Z)
Exploring Italian sentence embeddings properties through multi-tasking [1.4335183427838039]
本研究では,事前学習言語モデルを用いて構築された文表現が,特定の構文情報や意味情報をエンコードする方法について検討する。本研究では,タスクに関連する情報を含む表現や,BLMタスクに埋め込まれた文の圧縮を,2段階のアーキテクチャで個別にモデル化する。文構造 -- フレーズ/チャンクのシーケンスとチャンクプロパティがタスク間で共有できることを期待していましたが、パフォーマンスとエラー分析は、異なるタスクの手がかりが、文の埋め込みにおいて異なる方法でエンコードされていることを示しています。
論文参考訳（メタデータ） (2024-09-10T16:22:18Z)
Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。 SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文参考訳（メタデータ） (2024-06-07T17:55:43Z)
Does In-Context Learning Really Learn? Rethinking How Large Language Models Respond and Solve Tasks via In-Context Learning [41.606494950216764]
In-context Learning (ICL)は、スケールアップされた大規模言語モデル(LLM)の開発と共に強力な能力として登場した。本稿では,ICLの全体的な性能をラベル空間,フォーマット,識別の3次元に分解する。 ICLはラベル空間とフォーマットを制御し,所望のラベル語にLLMが反応するのに役立つことを示す。
論文参考訳（メタデータ） (2024-04-11T08:20:10Z)
Helping Language Models Learn More: Multi-dimensional Task Prompt for Few-shot Tuning [36.14688633670085]
本稿では,タスク関連オブジェクト,要約,タスク記述情報に基づく多次元タスクプロンプト学習手法MTPromptを提案する。提案するMTPromptは,適切なプロンプトを自動構築し,検索することで,いくつかのサンプル設定と5つの異なるデータセットに対して最適な結果が得られる。
論文参考訳（メタデータ） (2023-12-13T10:00:44Z)
Improving Input-label Mapping with Demonstration Replay for In-context Learning [67.57288926736923]
In-context Learning (ICL)は、大規模な自己回帰言語モデルの出現する能力である。 Sliding Causal Attention (RdSca) と呼ばれる新しいICL法を提案する。 ICL実験において,本手法は入力ラベルマッピングを大幅に改善することを示す。
論文参考訳（メタデータ） (2023-10-30T14:29:41Z)
Understanding the Role of Input Token Characters in Language Models: How Does Information Loss Affect Performance? [45.53600782873268]
入力トークン文字における情報損失が事前学習言語モデルの性能に与える影響について検討する。驚くべきことに、極端な設定下であっても事前トレーニングを行うこと、すなわちトークンの1文字だけを使うこと、標準のNLUベンチマークのパフォーマンス保持、および探索タスクが高いことが判明した。例えば、トークンからの1文字1文字にのみ事前トレーニングされたモデルでは、SuperGLUEタスクとGLUEタスクのフルトーケンモデルの約90ドル%と7,7ドル%のパフォーマンス保持が達成される。
論文参考訳（メタデータ） (2023-10-26T09:47:50Z)
What Makes Good In-context Demonstrations for Code Intelligence Tasks with LLMs? [60.668318972782295]
大規模言語モデルは、文脈内学習(ICL)の能力を示している。 ICLはタスク命令といくつかの例をデモとして使用し、次に予測を行うために言語モデルにデモを入力します。コードに関連するタスクに対して,優れたデモを構築する方法について,体系的に検討することが重要である。
論文参考訳（メタデータ） (2023-04-15T15:13:58Z)
Revisiting Multimodal Representation in Contrastive Learning: From Patch and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文参考訳（メタデータ） (2023-03-27T00:58:39Z)
Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。 PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文参考訳（メタデータ） (2022-11-15T01:13:39Z)
Rethinking the Role of Demonstrations: What Makes In-Context Learning Work? [112.72413411257662]
大規模言語モデル(LM)は、いくつかのインプットラベルペア(デモ)を条件付けして、新しいインプットの予測を行うことで、インコンテキストで学習することができる。実演のラベルをランダムに置き換えることは、パフォーマンスをほとんど損なうものではない。デモの他の側面が、エンドタスクのパフォーマンスの主要な要因であることに気付きました。
論文参考訳（メタデータ） (2022-02-25T17:25:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。