論文の概要: Adaptive Intellect Unleashed: The Feasibility of Knowledge Transfer in
Large Language Models
- arxiv url: http://arxiv.org/abs/2308.04788v1
- Date: Wed, 9 Aug 2023 08:26:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 15:03:02.574871
- Title: Adaptive Intellect Unleashed: The Feasibility of Knowledge Transfer in
Large Language Models
- Title(参考訳): Adaptive Intellect Unleashed: 大規模言語モデルにおける知識伝達の可能性
- Authors: Qing Huang, Yishun Wu, Zhenchang Xing, He Jiang, Yu Cheng and Huan Jin
- Abstract要約: 我々は,大規模言語モデル(LLM)の一般化能力を向上させるために,知識伝達を用いた最初の実証的研究を行った。
提案する一般知識伝達手法は,LLMがこれまでに遭遇した類似のAPIやコードスニペットに導出し,未知の知識に対するモデルの一般化能力を向上させる。
このアプローチを,API推論,コード例生成,FQN推論という3つのソフトウェアエンジニアリングタスクに適用する。
- 参考スコア(独自算出の注目度): 25.23472658127685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We conduct the first empirical study on using knowledge transfer to improve
the generalization ability of large language models (LLMs) in software
engineering tasks, which often require LLMs to generalize beyond their training
data. Our proposed general knowledge transfer approach guides the LLM towards a
similar and familiar API or code snippet it has encountered before, improving
the model's generalization ability for unseen knowledge. We apply this approach
to three software engineering tasks: API inference, code example generation,
and FQN inference, and find transfer span, transfer strategy, and transfer
architecture as key factors affecting the method. Our findings demonstrate the
feasibility of knowledge transfer and its potential to enhance LLMs'
performance in various software engineering tasks. The effectiveness of
knowledge transfer varies depending on the target domain and task, with the
hierarchical strategy being more effective than direct transfer, and AI-Chain
outperforming CoT in prompt design. The implications of these findings extend
beyond software engineering tasks and suggest that knowledge transfer can
enhance LLMs' ability to handle unknowns in any natural language task.
- Abstract(参考訳): ソフトウェア工学のタスクにおいて,LLMが学習データを超えて一般化するために必要な大規模言語モデル(LLM)の一般化能力を向上させるために,知識伝達を用いた最初の実証的研究を行う。
提案する一般知識伝達手法は,LLMがこれまでに遭遇した類似のAPIやコードスニペットに導出し,未知の知識に対するモデルの一般化能力を向上させる。
api推論、コードサンプル生成、fqn推論の3つのソフトウェアエンジニアリングタスクに適用し、メソッドに影響を与える重要な要素として転送スパン、転送戦略、転送アーキテクチャを見つける。
本研究は,様々なソフトウェア工学タスクにおける知識伝達の可能性とllmsの性能向上の可能性を示す。
知識伝達の有効性は目的のドメインやタスクによって異なり、階層戦略は直接伝達よりも効果的であり、AI-Chainは即座に設計においてCoTを上回る。
これらの発見の意義はソフトウェア工学のタスクを超えて広がり、知識伝達は自然言語タスクにおける未知の処理能力を高めることを示唆している。
関連論文リスト
- KBAlign: Efficient Self Adaptation on Specific Knowledge Bases [75.78948575957081]
大規模言語モデル(LLM)は通常、知識材料を瞬時に活用するために、検索強化世代に依存している。
本稿では,知識ベースを含む下流タスクへの効率的な適応を目的としたKBAlignを提案する。
提案手法は,Q&Aペアやリビジョン提案などの自己注釈付きデータを用いて反復学習を行い,モデルが知識内容を効率的に把握できるようにする。
論文 参考訳(メタデータ) (2024-11-22T08:21:03Z) - Dynamic Transformer Architecture for Continual Learning of Multimodal
Tasks [27.59758964060561]
トランスフォーマーニューラルネットワークは、さまざまなデータモダリティの幅広いアプリケーションにおいて、以前のアーキテクチャを置き換える傾向にある。
連続学習(CL)は、自律学習エージェントに順次到着するタスク間で知識の伝達を容易にすることで、ソリューションとして現れる。
本稿では,視覚と言語の両方に関わる学習タスクに着目したトランスフォーマーベースのCLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-27T03:03:30Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - ExpeL: LLM Agents Are Experiential Learners [60.54312035818746]
実験学習エージェント(ExpeL)を導入し、パラメトリック更新を必要とせずにエージェント体験から学習できるようにする。
我々のエージェントは、経験を自律的に収集し、学習課題の集合から自然言語を用いて知識を抽出する。
推論において、エージェントは抽出された洞察と過去の経験をリコールし、情報的決定を行う。
論文 参考訳(メタデータ) (2023-08-20T03:03:34Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z) - LM-CORE: Language Models with Contextually Relevant External Knowledge [13.451001884972033]
モデルパラメータに大量の知識を格納することは、絶え間なく増加する知識とリソースの要求を考えると、準最適である、と我々は主張する。
LM-CORE - これを実現するための一般的なフレームワークで、外部の知識ソースから言語モデルのトレーニングをテキストデカップリングすることができる。
実験結果から, LM-COREは知識探索タスクにおいて, 最先端の知識強化言語モデルよりも大きく, 堅牢な性能を実現していることがわかった。
論文 参考訳(メタデータ) (2022-08-12T18:59:37Z) - Self-Supervised Knowledge Transfer via Loosely Supervised Auxiliary
Tasks [24.041268664220294]
畳み込みニューラルネットワーク(CNN)を用いた知識伝達は、より少ないパラメータでCNNを効率的に訓練したり、限られた監督下での一般化性能を最大化することができる。
本稿では,ネットワーク構造やデータセットに制約を加えることなく,シンプルな知識伝達手法を提案する。
本研究では,従来の知識を現在の学習プロセスに伝達する学習手法を,ソフトラベルを用いた自己監督を通じて,目標タスクの補助的タスクとして考案する。
論文 参考訳(メタデータ) (2021-10-25T07:18:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。