Fugu-MT 論文翻訳(概要): Transformer-based Causal Language Models Perform Clustering

論文の概要: Transformer-based Causal Language Models Perform Clustering

arxiv url: http://arxiv.org/abs/2402.12151v2
Date: Sun, 3 Mar 2024 20:06:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 23:59:16.917307
Title: Transformer-based Causal Language Models Perform Clustering
Title（参考訳）: 変圧器に基づく因果言語モデルによるクラスタリング
Authors: Xinbo Wu, Lav R. Varshney
Abstract要約: 簡単な指示追従タスクを導入し、合成データセットを用いてトランスフォーマーに基づく因果言語モデルを分析する。本研究は,本モデルが隠れ空間内のデータをクラスタリングすることで,タスク固有の情報を学習し,学習中にこのクラスタリングプロセスが動的に進化することを示唆している。
参考スコア（独自算出の注目度）: 20.430255724239448
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Even though large language models (LLMs) have demonstrated remarkable capability in solving various natural language tasks, the capability of an LLM to follow human instructions is still a concern. Recent works have shown great improvements in the instruction-following capability via additional training for instruction-following tasks. However, the mechanisms responsible for effective instruction-following capabilities remain inadequately understood. Here, we introduce a simplified instruction-following task and use synthetic datasets to analyze a Transformer-based causal language model. Our findings suggest that the model learns task-specific information by clustering data within its hidden space, with this clustering process evolving dynamically during learning. We also demonstrate how this phenomenon assists the model in handling unseen instances, and validate our results in a more realistic setting. Furthermore, we present inspired applications regarding pre-training and alignment.
Abstract（参考訳）: 大きな言語モデル(LLM)は、様々な自然言語タスクを解く際、顕著な能力を示してきたが、LLMが人間の指示に従う能力は依然として懸念されている。最近の研究は、命令追従タスクの追加トレーニングを通じて、命令追従能力を大幅に改善している。しかし、効果的な指示追従能力のメカニズムはいまだに不十分である。本稿では、簡易な命令追従タスクを導入し、合成データセットを用いてトランスフォーマーに基づく因果言語モデルを分析する。以上の結果から,このクラスタリングプロセスは学習中に動的に進化し,隠れた空間内でデータをクラスタリングすることでタスク固有の情報を学習することが示唆された。また、この現象が未確認のインスタンスを扱うモデルにどのように役立つかを示し、その結果をより現実的な環境で検証する。さらに,事前学習やアライメントに関するアプリケーションについても紹介する。

関連論文リスト

Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。 ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文参考訳（メタデータ） (2025-02-08T00:16:44Z)
An Analysis for Reasoning Bias of Language Models with Small Initialization [8.380004565348619]
大規模言語モデル(LLM)は、さまざまなタスクにまたがる例外的なパフォーマンスを示すことによって、自然言語処理に革命をもたらした。本研究では,パラメータ初期化尺度がLLMの訓練行動とタスク嗜好に及ぼす影響について検討した。
論文参考訳（メタデータ） (2025-02-05T15:23:26Z)
The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文参考訳（メタデータ） (2025-01-15T10:57:55Z)
Dynamic Skill Adaptation for Large Language Models [78.31322532135272]
動的スキル適応(Dynamic Skill Adaptation, DSA)は, 言語モデル(LLM)に新しい複雑なスキルを適応させる適応的かつ動的フレームワークである。各スキルに対して,学習前スキルの詳細な記述を含む教科書的データと,学習前スキルの具体的活用を目標とした演習的データの両方を生成する。 LLAMA や Mistral のような大規模言語モデルを用いた実験は,提案手法が数学推論スキルや社会学習スキルに適応する上で有効であることを示す。
論文参考訳（メタデータ） (2024-12-26T22:04:23Z)
Layer by Layer: Uncovering Where Multi-Task Learning Happens in Instruction-Tuned Large Language Models [22.676688441884465]
タスクの多種多様な配列で訓練済みの大規模言語モデル(LLM)を微調整することが、モデル構築の一般的なアプローチとなっている。本研究では,事前学習したLLMに符号化されたタスク固有情報と,その表現に対する指導指導の効果について検討する。
論文参考訳（メタデータ） (2024-10-25T23:38:28Z)
Training of Scaffolded Language Models with Language Supervision: A Survey [62.59629932720519]
本調査は,戦後のLM周辺における新規構造物の設計と最適化に関する文献を整理した。本稿では,この階層構造を足場型LMと呼び,ツールを用いた多段階プロセスに統合されたLMに焦点を当てる。
論文参考訳（メタデータ） (2024-10-21T18:06:25Z)
SwitchCIT: Switching for Continual Instruction Tuning of Large Language Models [14.085371250265224]
大規模言語モデル(LLM)は、様々な領域、特に一般的な言語理解において印象的な能力を発揮している。しかし、これらのモデルは大量のテキストデータに基づいて訓練されており、命令によって引き起こされる特定のタスクに対して微妙に最適化されていないかもしれない。本研究は, LLMの連続的な命令学習において, パラメータ効率の高いチューニングモデルに演算をルーティングする切替機構を通じて, 破滅的な忘れに対処するものである。
論文参考訳（メタデータ） (2024-07-16T14:37:33Z)
DETAIL: Task DEmonsTration Attribution for Interpretable In-context Learning [75.68193159293425]
インコンテキスト学習(ICL)により、トランスフォーマーベースの言語モデルでは、パラメータを更新することなく、いくつかの"タスクデモ"で特定のタスクを学習することができる。 ICLの特徴に対処する影響関数に基づく帰属手法DETAILを提案する。ホワイトボックスモデルで得られた属性スコアがブラックボックスモデルに転送可能であることを示すことにより、モデル性能を向上させる上で、DETAILの広範な適用性を実験的に証明する。
論文参考訳（メタデータ） (2024-05-22T15:52:52Z)
Instruction Position Matters in Sequence Generation with Large Language Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文参考訳（メタデータ） (2023-08-23T12:36:57Z)
Instruction Tuning for Large Language Models: A Survey [52.86322823501338]
本稿では,インストラクションチューニング(IT)の急速な発展分野における研究成果について調査する。本稿では、指定しない場合を除き、命令チューニング(IT)は教師付き微調整(SFT)と等価である。
論文参考訳（メタデータ） (2023-08-21T15:35:16Z)
SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文参考訳（メタデータ） (2023-07-15T08:33:08Z)
ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。 ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。 ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-16T21:51:04Z)
Concept-aware Training Improves In-context Learning Ability of Language Models [0.0]
トランスフォーマーファミリーの最近の言語モデル(LM)の多くは、いわゆるインコンテキスト学習(ICL)能力を示している。テキスト内情報をよりよく活用できるLMを作成する手法を提案する。概念認識トレーニングのデータサンプリングはモデルの推論能力を継続的に改善する。
論文参考訳（メタデータ） (2023-05-23T07:44:52Z)
Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文参考訳（メタデータ） (2022-11-09T18:58:29Z)
DEER: A Data Efficient Language Model for Event Temporal Reasoning [44.21992914516526]
本稿では,事象の時間的関係に着目した言語モデルDEERを提案する。我々の実験結果から, DEER は SOTA の結果を達成でき,低リソース環境では特に有効であることがわかった。
論文参考訳（メタデータ） (2020-12-30T18:57:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。