Fugu-MT 論文翻訳(概要): Language Models can Exploit Cross-Task In-context Learning for Data-Scarce Novel Tasks

論文の概要: Language Models can Exploit Cross-Task In-context Learning for Data-Scarce Novel Tasks

arxiv url: http://arxiv.org/abs/2405.10548v2
Date: Mon, 20 May 2024 06:35:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-21 12:15:54.738425
Title: Language Models can Exploit Cross-Task In-context Learning for Data-Scarce Novel Tasks
Title（参考訳）: 言語モデルは、新しいタスクのためのクロスタスク・インコンテキスト学習を爆発させることができる
Authors: Anwoy Chatterjee, Eshaan Tanwar, Subhabrata Dutta, Tanmoy Chakraborty,
Abstract要約: LLM(Large Language Models)は、ICL(In-context Learning)機能によってNLPを変換した。本稿では,予め定義されたタスクのラベル付き例から新しいタスクまで,LLMが一般化できるかどうかを検討する。 LLaMA-2 7Bは107%, LLaMA-2 13Bは18.6%, GPT3.5は3.2%であった。
参考スコア（独自算出の注目度）: 22.66167973623777
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have transformed NLP with their remarkable In-context Learning (ICL) capabilities. Automated assistants based on LLMs are gaining popularity; however, adapting them to novel tasks is still challenging. While colossal models excel in zero-shot performance, their computational demands limit widespread use, and smaller language models struggle without context. This paper investigates whether LLMs can generalize from labeled examples of predefined tasks to novel tasks. Drawing inspiration from biological neurons and the mechanistic interpretation of the Transformer architecture, we explore the potential for information sharing across tasks. We design a cross-task prompting setup with three LLMs and show that LLMs achieve significant performance improvements despite no examples from the target task in the context. Cross-task prompting leads to a remarkable performance boost of 107% for LLaMA-2 7B, 18.6% for LLaMA-2 13B, and 3.2% for GPT 3.5 on average over zero-shot prompting, and performs comparable to standard in-context learning. The effectiveness of generating pseudo-labels for in-task examples is demonstrated, and our analyses reveal a strong correlation between the effect of cross-task examples and model activation similarities in source and target input tokens. This paper offers a first-of-its-kind exploration of LLMs' ability to solve novel tasks based on contextual signals from different task examples.
Abstract（参考訳）: LLM(Large Language Models)は、ICL(In-context Learning)機能でNLPを変換した。 LLMをベースとした自動アシスタントが普及しているが、新しいタスクに適応することは依然として困難である。コロッサルモデルはゼロショット性能に優れるが、その計算要求は広範囲の使用を制限し、より小さな言語モデルは文脈なしでは苦労する。本稿では,予め定義されたタスクのラベル付き例から新しいタスクまで,LLMが一般化できるかどうかを検討する。生体ニューロンからインスピレーションを得て、トランスフォーマーアーキテクチャの機械的解釈を行い、タスク間での情報共有の可能性を探る。我々は,3つのLLMを用いたクロスタスクプロンプトセットアップを設計し,目標タスクの例を示さずに,LLMが大幅な性能向上を実現していることを示す。クロスタスクプロンプトは、LLaMA-2 7Bが107%、LLaMA-2 13Bが18.6%、GPT3.5が3.2%、ゼロショットプロンプトが平均3.2%、標準のインコンテキスト学習に匹敵するパフォーマンス向上をもたらす。 In-task例に対する擬似ラベル生成の有効性を実証し,本分析により,クロスタスク例の効果と,ソースおよびターゲット入力トークンにおけるモデルアクティベーションの類似性との間に強い相関関係が示された。本稿では,異なる課題事例から得られた文脈信号に基づいて,LLMの課題解決能力について検討する。

関連論文リスト

From Cross-Task Examples to In-Task Prompts: A Graph-Based Pseudo-Labeling Framework for In-context Learning [55.90498988440303]
In-context Learning (ICL) は、大きな言語モデルでパラメータを更新せずに新しいタスクを実行できる。データラベリングのための言語モデルに依存するコスト効率のよい2段階パイプラインを提案する。 5つのタスクにまたがる実験により,ラベリングコストを下げながら,本手法が高い性能を達成することを示す。
論文参考訳（メタデータ） (2025-10-28T15:37:51Z)
Enhancing Cross-task Transfer of Large Language Models via Activation Steering [75.41750053623298]
クロスタスク・イン・コンテキスト学習はタスク間で知識を伝達する直接的なソリューションを提供する。パラメータ更新や入力拡張を伴わずに、潜時空間ステアリングによりクロスタスク転送を実現することができるかを検討する。本稿では,モデルの内部アクティベーション状態を操作することで,効率的な転送を可能にするクロスタスク・アクティベーション・ステアリング・トランスファー・フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-17T15:47:22Z)
How Effective are Generative Large Language Models in Performing Requirements Classification? [4.429729688079712]
本研究では,2次および複数クラスの要件分類を行う3つの生成的大規模言語モデル(LLM)の有効性について検討した。我々の研究は、素早い設計やLLMアーキテクチャといった要因は普遍的に重要であるが、データセットのバリエーションなどの要因は、分類作業の複雑さに応じて、より状況に影響を及ぼすと結論付けている。
論文参考訳（メタデータ） (2025-04-23T14:41:11Z)
Catastrophic Forgetting in LLMs: A Comparative Analysis Across Language Tasks [0.0]
大規模言語モデル(LLM)は、かなり高度な自然言語処理(NLP)を持つ本研究では,主要なNLUタスクに対する各種オープンソースLLMの連続的な微調整について検討する。以上の結果から,Phi-3.5-miniのようなモデルでは,強い学習能力を維持しつつ,最小限の忘れを生じさせることが示唆された。
論文参考訳（メタデータ） (2025-04-01T23:06:55Z)
Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。 ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文参考訳（メタデータ） (2025-02-08T00:16:44Z)
TaskEval: Assessing Difficulty of Code Generation Tasks for Large Language Models [12.143152327874802]
LLM(Large Language Models)はコード生成のようなコード関連のタスクに優れていますが、ベンチマーク評価は困難などのタスク特性を見落とします。本稿では,多種多様なプロンプトと項目応答理論(IRT)を用いてLCMの能力とベンチマークタスク特性を効率的に評価するフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-30T22:31:19Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
ZeroDL: Zero-shot Distribution Learning for Text Clustering via Large Language Models [5.011816280731356]
特定の大規模言語モデル(LLM)に対してタスクを文脈化するための,シンプルで効果的な手法を提案する。本稿では,テキストクラスタリングタスクにおけるこのアプローチの有効性を示すとともに,上記の手順の例による文脈化の重要性を強調する。
論文参考訳（メタデータ） (2024-06-19T08:48:05Z)
MetaGPT: Merging Large Language Models Using Model Exclusive Task Arithmetic [6.46176287368784]
textbfGPTスケールモデルをマージするための textbfModel textbfExclusive textbfTask textbfArithmetic を提案する。提案するMetaGPTは,データに依存しず,検索処理を回避し,低コストで実装が容易なメタGPTである。
論文参考訳（メタデータ） (2024-06-17T10:12:45Z)
Knowledgeable Agents by Offline Reinforcement Learning from Large Language Model Rollouts [10.929547354171723]
本稿では,言語モデルロールアウト(KALM)の知識エージェントを紹介する。大規模言語モデル(LLM)から、オフラインの強化学習手法によってエージェントが容易に学習できる想像上のロールアウトの形で知識を抽出する。未確認の目標を持つタスクの実行において46%の成功率を達成し、ベースラインメソッドによって達成された26%の成功率を大幅に上回る。
論文参考訳（メタデータ） (2024-04-14T13:19:40Z)
TRACE: A Comprehensive Benchmark for Continual Learning in Large Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。 LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文参考訳（メタデータ） (2023-10-10T16:38:49Z)
Improving Open Information Extraction with Large Language Models: A Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文参考訳（メタデータ） (2023-09-07T01:35:24Z)
OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文参考訳（メタデータ） (2023-05-24T10:08:04Z)
Multi-Task Instruction Tuning of LLaMa for Specific Scenarios: A Preliminary Study on Writing Assistance [60.40541387785977]
小さな基礎モデルは、命令駆動データを用いて微調整された場合、多様なタスクに対処する際、顕著な習熟度を示すことができる。本研究は, 汎用的な指導よりも, 1つないし数つの特定のタスクに主眼を置いている, 実践的な問題設定について検討する。実験結果から,命令データに対する微調整LLaMAは,タスクの記述能力を大幅に向上することが示された。
論文参考訳（メタデータ） (2023-05-22T16:56:44Z)
Exploring and Predicting Transferability across NLP Tasks [115.6278033699853]
本研究では,33のNLPタスク間の伝達可能性について検討した。以上の結果から,転帰学習は従来考えられていたよりも有益であることが示唆された。また,特定の対象タスクに対して最も転送可能なソースタスクを予測するために使用できるタスク埋め込みも開発した。
論文参考訳（メタデータ） (2020-05-02T09:39:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。