論文の概要: More is not always better? Enhancing Many-Shot In-Context Learning with Differentiated and Reweighting Objectives
- arxiv url: http://arxiv.org/abs/2501.04070v2
- Date: Thu, 09 Jan 2025 02:20:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 10:39:57.767859
- Title: More is not always better? Enhancing Many-Shot In-Context Learning with Differentiated and Reweighting Objectives
- Title(参考訳): それ以上は必ずしも良くないのか? 差別化と重み付けによる多面的インテクスト学習の強化
- Authors: Xiaoqing Zhang, Ang Lv, Yuhan Liu, Flood Sung, Wei Liu, Shuo Shang, Xiuying Chen, Rui Yan,
- Abstract要約: 本稿では,微分学習と優位性に基づく再重み付けによりモデル性能を向上させる新しい最適化手法であるDryCLを紹介する。
グローバルに、DryCLは差別化学習を利用してNLLの目的を最適化し、マルチショットのパフォーマンスがゼロショットレベルを超えていることを保証する。
Many-Shot ICL Benchmark (ICL-50) は、最大8,000トークンのシーケンスで1から350までのショット数をカバーする50のタスクの大規模ベンチマークである。
- 参考スコア(独自算出の注目度): 50.772462704559345
- License:
- Abstract: Large language models (LLMs) excel at few-shot in-context learning (ICL) without requiring parameter updates. However, as the number of ICL demonstrations increases from a few to many, performance tends to plateau and eventually decline. We identify two primary causes for this trend: the suboptimal negative log-likelihood (NLL) optimization objective and the incremental data noise. To address these issues, we introduce DrICL, a novel optimization method that enhances model performance through Differentiated Learning and advantage-based Reweighting objectives. Globally, DrICL utilizes differentiated learning to optimize the NLL objective, ensuring that many-shot performance surpasses zero-shot levels. Locally, it dynamically adjusts the weighting of many-shot demonstrations by leveraging cumulative advantages inspired by reinforcement learning, thereby improving generalization. This approach allows the model to handle varying numbers of shots effectively, mitigating the impact of noisy data. Recognizing the lack of multi-task datasets with diverse many-shot distributions, we develop the Many-Shot ICL Benchmark (ICL-50)-a large-scale benchmark of 50 tasks that cover shot numbers from 1 to 350 within sequences of up to 8,000 tokens-for fine-tuning purposes. ICL-50 facilitates the evaluation of many-shot ICL strategies across seven prominent NLP tasks and 50 distinct datasets. Experimental results demonstrate that LLMs enhanced with DrICL achieve significant improvements in many-shot setups across various tasks, including both in-domain and out-of-domain scenarios. We release the code and benchmark dataset hoping to facilitate further research in many-shot ICL.
- Abstract(参考訳): 大規模言語モデル(LLM)は、パラメータ更新を必要とせずに、数ショットのインコンテキスト学習(ICL)で優れている。
しかし、ICLのデモの数が数から数に増加するにつれて、パフォーマンスは低下し、最終的には低下する傾向にある。
この傾向の主な原因は,NLL最適化目標とインクリメンタルデータノイズの2つである。
これらの課題に対処するために,微分学習と優位性に基づく再重み付けによりモデル性能を向上させる新しい最適化手法であるDryCLを導入する。
グローバルに、DryCLは差別化学習を利用してNLLの目的を最適化し、マルチショットのパフォーマンスがゼロショットレベルを超えていることを保証する。
局所的には、強化学習にインスパイアされた累積的アドバンテージを活用して、多発デモの重み付けを動的に調整し、一般化を改善する。
このアプローチにより、モデルは様々な数のショットを効果的に処理することができ、ノイズの多いデータの影響を軽減できる。
多様なマルチタスク分布を持つマルチタスクデータセットの欠如を認識し,最大8,000トークンを微調整目的で1から350までのショット数をカバーした50タスクの大規模ベンチマークであるMulti-Shot ICL Benchmark(ICL-50)を開発した。
ICL-50は、7つの著名なNLPタスクと50の異なるデータセットにわたる多ショットICL戦略の評価を容易にする。
DICLにより拡張されたLLMは、ドメイン内シナリオとドメイン外シナリオの両方を含む様々なタスクにおいて、多数のショット設定において大幅に改善されている。
マルチショットICLのさらなる研究を促進するために、コードとベンチマークデータセットをリリースする。
関連論文リスト
- Large Language Models are Few-shot Multivariate Time Series Classifiers [23.045734479292356]
大規模言語モデル (LLM) は時系列解析に広く応用されている。
しかし、数発の分類(すなわち重要な訓練シナリオ)におけるそれらの実用性は過小評価されている。
データ不足を克服するために,LLMの学習済み知識を幅広く活用することを目的としている。
論文 参考訳(メタデータ) (2025-01-30T03:59:59Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - Divide, Reweight, and Conquer: A Logit Arithmetic Approach for In-Context Learning [19.16587730306472]
大規模言語モデル(LLM)の重要な機能として、インコンテキスト学習(ICL)が登場
複数の実演のロジットベースアンサンブルを用いてICLを強化する新しいフレームワークであるLogit Arithmetic Reweighting Approach (LARA)を提案する。
論文 参考訳(メタデータ) (2024-10-14T01:34:16Z) - Instruction Tuning Vs. In-Context Learning: Revisiting Large Language Models in Few-Shot Computational Social Science [0.1499944454332829]
In-context Learning (ICL) とインストラクションチューニング (IT) を用いた大規模言語モデル (LLM) の分類性能の評価を行った。
ICLは、明示的な勾配更新なしで例から学ぶことで、タスク適応の迅速な代替手段を提供する。
私たちの研究は、CSSタスクを数ショットで処理する上で、ICLの重大な利点を強調しています。
論文 参考訳(メタデータ) (2024-09-23T02:43:08Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Many-Shot In-Context Learning in Multimodal Foundation Models [4.772535803521769]
大規模言語モデルはテキスト内学習(ICL)において効果的である
マルチモーダル基礎モデルの最近の進歩は、前例のない長いコンテキストウインドウを可能にしている。
GPT-4oとGemini 1.5 Proを、複数のドメインにまたがる14のデータセットでベンチマークします。
論文 参考訳(メタデータ) (2024-05-16T04:02:43Z) - Many-Shot In-Context Learning [58.395589302800566]
大規模言語モデル (LLMs) は、文脈内学習 (ICL) において優れている
我々は、多種多様な生成的および識別的タスクにおける顕著なパフォーマンス向上を観察する。
少数ショット学習とは異なり、多ショット学習は事前学習されたバイアスをオーバーライドするのに効果的である。
論文 参考訳(メタデータ) (2024-04-17T02:49:26Z) - Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM
Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。
マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。
我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文 参考訳(メタデータ) (2024-02-18T03:40:06Z) - Which Examples to Annotate for In-Context Learning? Towards Effective
and Efficient Selection [35.924633625147365]
大規模言語モデル(LLM)は、文脈内学習(ICL)を介して新しいタスクに適応できる
そこで本研究では,ICLのアクティブな学習手法について検討し,アノテートのための予算が限られている。
本稿では,モデルが不確実であることを示すモデル適応型最適化自由アルゴリズムAdaICLを提案する。
論文 参考訳(メタデータ) (2023-10-30T22:03:55Z) - RA-DIT: Retrieval-Augmented Dual Instruction Tuning [90.98423540361946]
Retrieval-augmented Language Model (RALMs) は、外部データストアからロングテールおよび最新の知識にアクセスすることで、パフォーマンスを向上させる。
既存のアプローチでは、LM事前トレーニングに高価な検索固有の修正が必要になるか、あるいは、最適以下のパフォーマンスをもたらすデータストアのポストホック統合を使用する必要がある。
本稿では,第3の選択肢を提供する軽量な微調整手法であるRetrieval-Augmented Dual Instruction Tuning (RA-DIT)を紹介する。
論文 参考訳(メタデータ) (2023-10-02T17:16:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。