論文の概要: When does In-context Learning Fall Short and Why? A Study on
Specification-Heavy Tasks
- arxiv url: http://arxiv.org/abs/2311.08993v1
- Date: Wed, 15 Nov 2023 14:26:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 15:44:59.417959
- Title: When does In-context Learning Fall Short and Why? A Study on
Specification-Heavy Tasks
- Title(参考訳): 文脈内学習はいつ短くなるのか?
仕様ヘビータスクに関する研究
- Authors: Hao Peng, Xiaozhi Wang, Jianhui Chen, Weikai Li, Yunjia Qi, Zimu Wang,
Zhili Wu, Kaisheng Zeng, Bin Xu, Lei Hou, Juanzi Li
- Abstract要約: In-context Learning (ICL)は、大規模言語モデル(LLM)のデフォルトメソッドとなっている。
ICLは、複雑で広範囲なタスク仕様を持つタスクである、仕様の重いタスクを処理できないことが分かりました。
我々は、コンテキストを具体的に理解できないこと、タスクスキーマが人間と理解できないこと、長文理解が不十分であること、の3つの主な理由を識別する。
- 参考スコア(独自算出の注目度): 54.71034943526973
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning (ICL) has become the default method for using large
language models (LLMs), making the exploration of its limitations and
understanding the underlying causes crucial. In this paper, we find that ICL
falls short of handling specification-heavy tasks, which are tasks with
complicated and extensive task specifications, requiring several hours for
ordinary humans to master, such as traditional information extraction tasks.
The performance of ICL on these tasks mostly cannot reach half of the
state-of-the-art results. To explore the reasons behind this failure, we
conduct comprehensive experiments on 18 specification-heavy tasks with various
LLMs and identify three primary reasons: inability to specifically understand
context, misalignment in task schema comprehension with humans, and inadequate
long-text understanding ability. Furthermore, we demonstrate that through
fine-tuning, LLMs can achieve decent performance on these tasks, indicating
that the failure of ICL is not an inherent flaw of LLMs, but rather a drawback
of existing alignment methods that renders LLMs incapable of handling
complicated specification-heavy tasks via ICL. To substantiate this, we perform
dedicated instruction tuning on LLMs for these tasks and observe a notable
improvement. We hope the analyses in this paper could facilitate advancements
in alignment methods enabling LLMs to meet more sophisticated human demands.
- Abstract(参考訳): In-context Learning (ICL) は、大きな言語モデル(LLM)を使用するデフォルトメソッドとなり、その限界を探索し、根本原因を理解する。
本稿では,従来の情報抽出タスクなど,一般人が習得するのに数時間を要する,複雑で広範なタスク仕様を持つタスクである,仕様量の多いタスクにICLが不足していることを明らかにする。
これらのタスクにおけるICLの性能はほとんどが最先端の結果の半分に到達できない。
この失敗の原因を探るために,様々なllmを用いた18の仕様に富んだタスクに関する包括的な実験を行い,コンテキストを具体的に理解できないこと,タスクスキーマを人間と理解できないこと,長文理解能力が不十分であることの3つの主な理由を特定した。
さらに、細調整により、ICLの故障はLCMの固有の欠陥ではなく、ICLによる複雑な仕様重大タスクの処理が不可能な既存のアライメント手法の欠点であることを示す。
そこで本研究では,これらのタスクに対するLLMの専用指導チューニングを行い,顕著な改善点を観察する。
本稿では,LLMがより高度な人的要求を満たすためのアライメント手法の進歩を促進することを期待する。
関連論文リスト
- LLM The Genius Paradox: A Linguistic and Math Expert's Struggle with Simple Word-based Counting Problems [28.72485319617863]
LLMは、人間が扱いやすいようないくつかの基本的なタスク、例えば単語トラウベリーの文字数rを数えるのに苦労する。
我々は,高度な数学的およびコーディング推論能力の伝達可能性について,特殊なLCMから単純なカウントタスクまでの測定を行う。
微調整や文脈内学習といった戦略と比較すると、係り受け推論はLLMのタスクをより知覚するのに役立つ最も堅牢で効率的な方法であることがわかる。
論文 参考訳(メタデータ) (2024-10-18T04:17:16Z) - Supervised Fine-Tuning Achieve Rapid Task Adaption Via Alternating Attention Head Activation Patterns [47.57912649802414]
本研究では,SFTプロセスがLLMを下流タスクに適応させるプロセスについて,注意パターンの観点から検討する。
LLMは、SFT中にタスク固有のアテンションヘッドを選択的に活性化し、(2)複雑なタスクのアクティベーションパターンは基本的なタスクパターンの組み合わせであり、(3)少数のパラメータの変化は、少数のサンプル上でSFT後のアクティベーションパターンに大きな影響を与える。
論文 参考訳(メタデータ) (2024-09-24T07:34:50Z) - Defining Boundaries: A Spectrum of Task Feasibility for Large Language Models [6.008311204104302]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示しているが、多くの場合、その知識や能力を超えるクエリを処理できない。
本稿では,LLMが能力を超えるために必要なスキルのために,実用不可能なタスクを認識し,拒否する必要性に対処する。
論文 参考訳(メタデータ) (2024-08-11T22:58:23Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Multi-Task Instruction Tuning of LLaMa for Specific Scenarios: A
Preliminary Study on Writing Assistance [60.40541387785977]
小さな基礎モデルは、命令駆動データを用いて微調整された場合、多様なタスクに対処する際、顕著な習熟度を示すことができる。
本研究は, 汎用的な指導よりも, 1つないし数つの特定のタスクに主眼を置いている, 実践的な問題設定について検討する。
実験結果から,命令データに対する微調整LLaMAは,タスクの記述能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-05-22T16:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。