論文の概要: Analyzing Task-Encoding Tokens in Large Language Models
- arxiv url: http://arxiv.org/abs/2401.11323v1
- Date: Sat, 20 Jan 2024 20:55:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 17:08:55.553718
- Title: Analyzing Task-Encoding Tokens in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるタスクエンコーディングトークンの解析
- Authors: Yu Bai, Heyan Huang, Cesare Spinoso-Di Piano, Marc-Antoine Rondeau,
Sanxing Chen, Yang Gao, Jackie Chi Kit Cheung
- Abstract要約: タスク推論手順を格納したタスクエンコーディングトークンを解析する。
テンプレートとストップワードトークンがタスクエンコーディングトークンであることが多いことが分かりました。
我々の研究は、大規模言語モデル(LLM)がICLのタスク推論手順をどのように活用するかについて、さらなる洞察を提供する。
- 参考スコア(独自算出の注目度): 55.03191279766383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-context learning (ICL) has become an effective solution for few-shot
learning in natural language processing. Past work has found that, during this
process, representations of the last prompt token are utilized to store task
reasoning procedures, thereby explaining the working mechanism of in-context
learning. In this paper, we seek to locate and analyze other task-encoding
tokens whose representations store task reasoning procedures. Supported by
experiments that ablate the representations of different token types, we find
that template and stopword tokens are the most prone to be task-encoding
tokens. In addition, we demonstrate experimentally that lexical cues,
repetition, and text formats are the main distinguishing characteristics of
these tokens. Our work provides additional insights into how large language
models (LLMs) leverage task reasoning procedures in ICL and suggests that
future work may involve using task-encoding tokens to improve the computational
efficiency of LLMs at inference time and their ability to handle long
sequences.
- Abstract(参考訳): In-context Learning (ICL) は、自然言語処理における数ショット学習に有効なソリューションとなっている。
過去の研究によると、このプロセスでは、最後のプロンプトトークンの表現がタスク推論手順の格納に利用され、コンテキスト内学習の動作メカニズムが説明されている。
本稿では,タスク推論手順を格納する他のタスク符号化トークンの探索と解析を行う。
異なるトークンタイプの表現を省略する実験によってサポートされ、テンプレートとストップワードトークンが最もタスクエンコーディングトークンになりやすいことが分かりました。
さらに,これらのトークンの主な特徴は語彙的手がかり,繰り返し,テキスト形式であることを示す。
我々の研究は、大規模言語モデル(llm)がiclにおけるタスク推論手順をどのように活用するかに関するさらなる洞察を提供し、将来の作業は、推論時のllmの計算効率と長いシーケンスの処理能力を改善するためにタスクエンコーディングトークンを使用するかもしれないことを示唆する。
関連論文リスト
- Decomposing Label Space, Format and Discrimination: Rethinking How LLMs Respond and Solve Tasks via In-Context Learning [41.606494950216764]
In-context Learning (ICL)は、スケールアップされた大規模言語モデル(LLM)の開発と共に強力な能力として登場した。
本稿では,ICLの全体的な性能をラベル空間,フォーマット,識別の3次元に分解する。
実演は言語モデルの差別的知識を喚起する上で,限界的な影響があることが判明した。
論文 参考訳(メタデータ) (2024-04-11T08:20:10Z) - Helping Language Models Learn More: Multi-dimensional Task Prompt for
Few-shot Tuning [36.14688633670085]
本稿では,タスク関連オブジェクト,要約,タスク記述情報に基づく多次元タスクプロンプト学習手法MTPromptを提案する。
提案するMTPromptは,適切なプロンプトを自動構築し,検索することで,いくつかのサンプル設定と5つの異なるデータセットに対して最適な結果が得られる。
論文 参考訳(メタデータ) (2023-12-13T10:00:44Z) - Understanding the Role of Input Token Characters in Language Models: How
Does Information Loss Affect Performance? [45.53600782873268]
入力トークン文字における情報損失が事前学習言語モデルの性能に与える影響について検討する。
驚くべきことに、極端な設定下であっても事前トレーニングを行うこと、すなわちトークンの1文字だけを使うこと、標準のNLUベンチマークのパフォーマンス保持、および探索タスクが高いことが判明した。
例えば、トークンからの1文字1文字にのみ事前トレーニングされたモデルでは、SuperGLUEタスクとGLUEタスクのフルトーケンモデルの約90ドル%と7,7ドル%のパフォーマンス保持が達成される。
論文 参考訳(メタデータ) (2023-10-26T09:47:50Z) - What Makes Good In-context Demonstrations for Code Intelligence Tasks
with LLMs? [60.668318972782295]
大規模言語モデルは、文脈内学習(ICL)の能力を示している。
ICLはタスク命令といくつかの例をデモとして使用し、次に予測を行うために言語モデルにデモを入力します。
コードに関連するタスクに対して,優れたデモを構築する方法について,体系的に検討することが重要である。
論文 参考訳(メタデータ) (2023-04-15T15:13:58Z) - Revisiting Multimodal Representation in Contrastive Learning: From Patch
and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。
提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文 参考訳(メタデータ) (2023-03-27T00:58:39Z) - ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for
Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。
ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。
具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文 参考訳(メタデータ) (2023-03-09T06:24:50Z) - Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。
提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。
PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文 参考訳(メタデータ) (2022-11-15T01:13:39Z) - Rethinking the Role of Demonstrations: What Makes In-Context Learning
Work? [112.72413411257662]
大規模言語モデル(LM)は、いくつかのインプットラベルペア(デモ)を条件付けして、新しいインプットの予測を行うことで、インコンテキストで学習することができる。
実演のラベルをランダムに置き換えることは、パフォーマンスをほとんど損なうものではない。
デモの他の側面が、エンドタスクのパフォーマンスの主要な要因であることに気付きました。
論文 参考訳(メタデータ) (2022-02-25T17:25:19Z) - Grad2Task: Improved Few-shot Text Classification Using Gradients for
Task Representation [24.488427641442694]
本稿では,数ショットのテキスト分類のための条件付きニューラルプロセスに基づく新しいアプローチを提案する。
私たちのキーとなるアイデアは、ベースモデルからの勾配情報を使って各タスクを表現することです。
我々のアプローチは、従来の微調整、シーケンシャルトランスファーラーニング、そして最先端のメタラーニングアプローチよりも優れています。
論文 参考訳(メタデータ) (2022-01-27T15:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。