Fugu-MT 論文翻訳(概要): Supervised Fine-Tuning Achieve Rapid Task Adaption Via Alternating Attention Head Activation Patterns

論文の概要: Supervised Fine-Tuning Achieve Rapid Task Adaption Via Alternating Attention Head Activation Patterns

arxiv url: http://arxiv.org/abs/2409.15820v2
Date: Fri, 18 Oct 2024 04:38:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-06 19:21:13.817425
Title: Supervised Fine-Tuning Achieve Rapid Task Adaption Via Alternating Attention Head Activation Patterns
Title（参考訳）: アテンションヘッド活性化パターンを交互に変更した超微調整アチエーブ高速タスク適応
Authors: Yang Zhao, Li Du, Xiao Ding, Kai Xiong, Ting Liu, Bing Qin,
Abstract要約: 本研究では,SFTプロセスがLLMを下流タスクに適応させるプロセスについて,注意パターンの観点から検討する。 LLMは、SFT中にタスク固有のアテンションヘッドを選択的に活性化し、(2)複雑なタスクのアクティベーションパターンは基本的なタスクパターンの組み合わせであり、(3)少数のパラメータの変化は、少数のサンプル上でSFT後のアクティベーションパターンに大きな影響を与える。
参考スコア（独自算出の注目度）: 47.57912649802414
License: http://creativecommons.org/licenses/by/4.0/
Abstract: LLMs' performance on complex tasks is still unsatisfactory. A key issue is that presently LLMs learn in a data-driven schema, while the instructions about these complex tasks are both scarce and hard to collect or construct. On the contrary, a prominent phenomenon is that LLMs can learn rather fast on simpler tasks with adequate prior knowledge captured during pretraining stage. Thus, if the prerequisite and mechanism of such rapid generalization could be elucidated, it could enhance the efficiency and effectiveness of the LLM's ability to learn complex tasks. Thus, in this paper, we employ a gradient-based method, to dissect the process that the SFT process adapts LLMs to downstream tasks via the perspective of attention patterns. We find that: (1) LLMs selectively activate task-specific attention heads during SFT; (2) activation patterns for complex tasks are combinations of basic task patterns; and (3) changes in a few parameters can significantly impact activation patterns after SFT on a small number of samples.Based on these insights, experiments are conducted to actually enhance the efficiency and effectiveness of SFT.
Abstract（参考訳）: 複雑なタスクにおけるLLMのパフォーマンスはまだ不十分です。重要な問題は、LLMがデータ駆動スキーマで学習しているのに対して、これらの複雑なタスクに関する命令は、収集や構築が困難であることだ。逆に顕著な現象は、LLMが事前訓練の段階で得られた十分な事前知識で、より単純なタスクでより速く学習できることである。したがって、そのような急激な一般化の前提条件とメカニズムが解明できれば、複雑なタスクを学習するLLMの効率性と有効性を高めることができる。そこで本稿では,SFTプロセスが注視パターンの観点から,下流タスクにLLMを適用する過程を解析するために,勾配に基づく手法を用いる。 1) SFTにおけるタスク固有の注意を選択的に活性化する; 2) 複雑なタスクのアクティベーションパターンは基本的なタスクパターンの組み合わせである; 3) 少数のパラメータの変化は、少数のサンプルに対してSFT後のアクティベーションパターンに大きな影響を及ぼす可能性がある。

関連論文リスト

TUMS: Enhancing Tool-use Abilities of LLMs with Multi-structure Handlers [8.34574238496256]
本稿では,大規模言語モデルのツール利用能力を高めるための新しいフレームワークであるTUMSを提案する。本フレームワークは,(1)LLMがタスクをよりよく理解するためのユーザ意図を識別するインテント認識器,(2)複雑なタスクを単純なサブタスクに分解するタスク分解器,(3)高精度なパラメータを生成するマルチ構造ハンドラを備えたサブタスクプロセッサの4つで構成されている。我々の実証研究は、TUMSフレームワークの有効性と効率を、平均19.6%と50.6%で証明した。
論文参考訳（メタデータ） (2025-05-13T09:57:28Z)
Fast-Slow-Thinking: Complex Task Solving with Large Language Models [49.98959729052245]
本稿では,FST(Fast-Slow-Thinking')と呼ばれるタスク分解手法を提案する。 FTでは、LLMは元のタスクの制約を取り除くよう促されるため、汎用的で簡潔なタスクに単純化される。 STでは、FTで取り除かれた制約をリコールするため、LLMはFTで生成された回答を改善し、元のタスクの要求を満たす。
論文参考訳（メタデータ） (2025-04-11T16:57:36Z)
MTMT: Consolidating Multiple Thinking Modes to Form a Thought Tree for Strengthening LLM [15.687878949848182]
大規模言語モデル(LLM)は、複雑な論理的推論と多段階の問題解決を必要とするタスクの制限を示している。 MTMT(Multi-thinking Modes Tree)は,LLMと対話して思考木を構築する手法である。 GPT-4o miniをベースモデルとして,パラメータ設定の違いによるMTMTの性能評価を行った。
論文参考訳（メタデータ） (2024-12-05T09:05:30Z)
Layer by Layer: Uncovering Where Multi-Task Learning Happens in Instruction-Tuned Large Language Models [22.676688441884465]
タスクの多種多様な配列で訓練済みの大規模言語モデル(LLM)を微調整することが、モデル構築の一般的なアプローチとなっている。本研究では,事前学習したLLMに符号化されたタスク固有情報と,その表現に対する指導指導の効果について検討する。
論文参考訳（メタデータ） (2024-10-25T23:38:28Z)
Seek and Solve Reasoning for Table Question Answering [49.006950918895306]
本稿では,タスク単純化時の推論プロセスが,タスク自体の単純化よりも有用であることを示す。本稿では,LLMにまず関連情報を求め,質問に答えるように指示するSeek-and-solving Pipelineを提案する。本稿では, SS-CoT経路を用いた実演を用いて, 複雑なTQA課題の解決にLLMを誘導する単一ステップTQA解決プロンプトをこのパイプラインから蒸留する。
論文参考訳（メタデータ） (2024-09-09T02:41:00Z)
Interpreting and Improving Large Language Models in Arithmetic Calculation [72.19753146621429]
大規模言語モデル(LLM)は、多くのアプリケーションにまたがる顕著な可能性を示している。本研究では,LLMが計算を行う特定のメカニズムを明らかにする。 LLMの計算性能を高めるために、これらの必須ヘッド/MLPを選択的に微調整する潜在的な利点について検討する。
論文参考訳（メタデータ） (2024-09-03T07:01:46Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文参考訳（メタデータ） (2024-06-14T19:24:00Z)
Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning [12.651588927599441]
インストラクションチューニングは、大きな言語モデルにオープンドメイン命令と人間優先応答を合わせることを目的としている。学生のLLMの追従が難しい命令を選択するために,TAPIR(Task-Aware Curriculum Planning for Instruction Refinement)を導入する。学生の能力のバランスをとるために、トレーニングセット内のタスク分布は、対応するタスクに応じて自動的に調整された応答で調整される。
論文参考訳（メタデータ） (2024-05-22T08:38:26Z)
When does In-context Learning Fall Short and Why? A Study on Specification-Heavy Tasks [54.71034943526973]
In-context Learning (ICL)は、大規模言語モデル(LLM)のデフォルトメソッドとなっている。 ICLは、複雑で広範囲なタスク仕様を持つタスクである、仕様の重いタスクを処理できないことが分かりました。我々は、コンテキストを具体的に理解できないこと、タスクスキーマが人間と理解できないこと、長文理解が不十分であること、の3つの主な理由を識別する。
論文参考訳（メタデータ） (2023-11-15T14:26:30Z)
TRACE: A Comprehensive Benchmark for Continual Learning in Large Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。 LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文参考訳（メタデータ） (2023-10-10T16:38:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。