Fugu-MT 論文翻訳(概要): Many-Shot In-Context Learning

論文の概要: Many-Shot In-Context Learning

arxiv url: http://arxiv.org/abs/2404.11018v1
Date: Wed, 17 Apr 2024 02:49:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-18 15:34:07.491072
Title: Many-Shot In-Context Learning
Title（参考訳）: Many-Shot In-Context Learning
Authors: Rishabh Agarwal, Avi Singh, Lei M. Zhang, Bernd Bohnet, Stephanie Chan, Ankesh Anand, Zaheer Abbas, Azade Nova, John D. Co-Reyes, Eric Chu, Feryal Behbahani, Aleksandra Faust, Hugo Larochelle,
Abstract要約: 大規模言語モデル (LLMs) は、文脈内学習 (ICL) において優れている我々は、多種多様な生成的および識別的タスクにおける顕著なパフォーマンス向上を観察する。 Reinforced と Unsupervised ICL は多発的なシステムでは極めて有効であることがわかった。
参考スコア（独自算出の注目度）: 57.56678767958889
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) excel at few-shot in-context learning (ICL) -- learning from a few examples provided in context at inference, without any weight updates. Newly expanded context windows allow us to investigate ICL with hundreds or thousands of examples -- the many-shot regime. Going from few-shot to many-shot, we observe significant performance gains across a wide variety of generative and discriminative tasks. While promising, many-shot ICL can be bottlenecked by the available amount of human-generated examples. To mitigate this limitation, we explore two new settings: Reinforced and Unsupervised ICL. Reinforced ICL uses model-generated chain-of-thought rationales in place of human examples. Unsupervised ICL removes rationales from the prompt altogether, and prompts the model only with domain-specific questions. We find that both Reinforced and Unsupervised ICL can be quite effective in the many-shot regime, particularly on complex reasoning tasks. Finally, we demonstrate that, unlike few-shot learning, many-shot learning is effective at overriding pretraining biases and can learn high-dimensional functions with numerical inputs. Our analysis also reveals the limitations of next-token prediction loss as an indicator of downstream ICL performance.
Abstract（参考訳）: 大規模言語モデル(LLM)は、数ショットのインコンテキスト学習(ICL)で優れている -- 重み付けの更新なしに、推論で提供されるいくつかの例から学習する。新たに拡張されたコンテキストウィンドウにより、数百から数千の例でICLを調査できる — 多ショットの仕組みである。数ショットから多ショットに進むことで、さまざまな生成的および差別的なタスクにおいて、大幅なパフォーマンス向上が観測される。有望ではあるが、多発型ICLは、人間が生成したサンプルの利用可能な量によってボトルネックになる可能性がある。この制限を軽減するために、ReinforcedとUnsupervised ICLという2つの新しい設定を検討します。 Reinforced ICLは、人間の例の代わりにモデル生成の連鎖論理を用いる。教師なしのICLは、プロンプトから合理性を完全に取り除き、ドメイン固有の質問でのみモデルにプロンプトする。 Reinforced と Unsupervised ICL の両者は、特に複雑な推論タスクにおいて、多ショット方式において非常に効果的であることがわかった。最後に、少数ショット学習とは異なり、多ショット学習は事前学習バイアスのオーバーライドに有効であり、数値入力で高次元関数を学習できることを実証する。また, 下流ICL性能の指標として, 次点予測損失の限界を明らかにした。

関連論文リスト

You Only Fine-tune Once: Many-Shot In-Context Fine-Tuning for Large Language Model [5.680203508724697]
大規模言語モデル(LLM)は、文脈内学習(ICL)を実行する優れた能力を持っている many-Shot In-Context Fine-tuning (ManyICL)は、ICLの原則をマルチショット設定に拡張することで、このパフォーマンスギャップを著しく狭める。
論文参考訳（メタデータ） (2025-06-06T19:36:04Z)
Efficient Many-Shot In-Context Learning with Dynamic Block-Sparse Attention [45.20728476185864]
マルチショットのインコンテキスト学習は、最近、ファインタニングの代替として約束されている。これにより、計算負荷がトレーニング時間から推論時間にシフトする。本稿では,動的ブロックスパース注意(Dynamic Block-Sparse Attention)を提案する。
論文参考訳（メタデータ） (2025-03-11T17:30:58Z)
From Few to Many: Self-Improving Many-Shot Reasoners Through Iterative Optimization and Generation [18.988069926846357]
マルチショット・イン・コンテキスト・ラーニング(ICL)はパフォーマンス上のメリットをもたらす可能性があるが、どのような側面が利点を支配しているのか、さらに多くの例にスケールアップすることがICLを改善する最も効果的な方法なのかは不明だ。本稿では,この最適化ステップとベイズ最適化とを交互に交互に交互に組み合わせて実例集合を探索するBRIDGEと,この集合を再利用して実例の推論経路をマルチショット方式に自動的に拡張する生成ステップを提案する。 Gemini, Claude および Mistral LLM の異なるサイズでは、BRIDGE は様々なタスクにまたがって大幅に改善されている。
論文参考訳（メタデータ） (2025-02-01T06:23:24Z)
More is not always better? Enhancing Many-Shot In-Context Learning with Differentiated and Reweighting Objectives [50.772462704559345]
本稿では,微分学習と優位性に基づく再重み付けによりモデル性能を向上させる新しい最適化手法であるDryCLを紹介する。グローバルに、DryCLは差別化学習を利用してNLLの目的を最適化し、マルチショットのパフォーマンスがゼロショットレベルを超えていることを保証する。 Many-Shot ICL Benchmark (ICL-50) は、最大8,000トークンのシーケンスで1から350までのショット数をカバーする50のタスクの大規模ベンチマークである。
論文参考訳（メタデータ） (2025-01-07T14:57:08Z)
Context-aware Prompt Tuning: Advancing In-Context Learning with Adversarial Methods [69.36397993451742]
In this work introduced Context-aware Prompt Tuning (CPT) - ICL, PT, and adversarial attack。入力および出力フォーマットのユニークな構造を考慮して、特定のコンテキストトークンを変更する。敵の攻撃にインスパイアされた我々は、損失を最大化するのではなく、最小化に焦点をあてて、コンテキストに存在するラベルに基づいて入力を調整する。
論文参考訳（メタデータ） (2024-10-22T17:45:47Z)
Divide, Reweight, and Conquer: A Logit Arithmetic Approach for In-Context Learning [19.16587730306472]
大規模言語モデル(LLM)の重要な機能として、インコンテキスト学習(ICL)が登場複数の実演のロジットベースアンサンブルを用いてICLを強化する新しいフレームワークであるLogit Arithmetic Reweighting Approach (LARA)を提案する。
論文参考訳（メタデータ） (2024-10-14T01:34:16Z)
Implicit In-context Learning [37.0562059811099]
In-context Learning (ICL)は、大規模な言語モデルに対して、テストクエリの前にいくつかの実演例をプレフィックスすることで、推論中に目に見えないタスクに適応する権限を与える。 Inlicit In-context Learning (I2CL)は、従来のICLにまつわる課題に、アクティベーション空間内の実演例を吸収することで対処する革新的なパラダイムである。 I2CLは、ゼロショットコストで数ショットのパフォーマンスを達成し、デモ例のバリエーションに対して堅牢性を示す。
論文参考訳（メタデータ） (2024-05-23T14:57:52Z)
"In-Context Learning" or: How I learned to stop worrying and love "Applied Information Retrieval" [9.264121218481133]
In-context Learning (ICL)は、自然言語処理(NLP)の新しいパラダイムとして進化してきた。 ICLは概念的には$k$-NNのような非パラメトリックアプローチに似ている。トレーニングセットから取得したICLの同様の例は、IRのコレクションから取得したドキュメントのセットに関連している。
論文参考訳（メタデータ） (2024-05-02T09:25:24Z)
In-Context Learning with Long-Context Models: An In-Depth Exploration [96.1389740719691]
大規模なラベル空間を持つ多くのデータセットでは、数百から数千のデモでパフォーマンスが向上し続けています。長いコンテキストのICLは驚くほど効果的であるが、ほとんどの利益は同様の例に答えることから得られている。
論文参考訳（メタデータ） (2024-04-30T21:06:52Z)
Does In-Context Learning Really Learn? Rethinking How Large Language Models Respond and Solve Tasks via In-Context Learning [41.606494950216764]
In-context Learning (ICL)は、スケールアップされた大規模言語モデル(LLM)の開発と共に強力な能力として登場した。本稿では,ICLの全体的な性能をラベル空間,フォーマット,識別の3次元に分解する。 ICLはラベル空間とフォーマットを制御し,所望のラベル語にLLMが反応するのに役立つことを示す。
論文参考訳（メタデータ） (2024-04-11T08:20:10Z)
ParaICL: Towards Robust Parallel In-Context Learning [74.38022919598443]
大規模言語モデル(LLM)が自然言語処理の標準となっている。インコンテキスト・ラーニング(ICL)は、いくつかの実演例の選択に依存している。パラレルインコンテキスト学習(ParaICL)という新しい手法を提案する。
論文参考訳（メタデータ） (2024-03-31T05:56:15Z)
In-Context Learning Functions with Varying Number of Minima [3.3268674937926224]
最小値の異なる関数を近似する新しいタスクを提案する。ミニマの数が増加するとICL性能が低下することがわかった。同時に、我々はICLが2層ニューラルネットワーク(2NN)モデルより優れていることを示した。
論文参考訳（メタデータ） (2023-11-21T11:33:03Z)
Structured Prompting: Scaling In-Context Learning to 1,000 Examples [78.41281805608081]
長さ制限を破り、文脈内学習を数千の例に拡張する構造化プロンプトを導入する。具体的には、デモ例は、適切に設計された位置埋め込みで別々にエンコードされ、その後、再スケールされた注意機構を使用してテスト例に共同で出席する。
論文参考訳（メタデータ） (2022-12-13T16:31:21Z)
Contrastive Learning with Adversarial Examples [79.39156814887133]
コントラスト学習(Contrastive Learning, CL)は、視覚表現の自己教師型学習(SSL)において一般的な手法である。本稿では,コンストラクティブ・ラーニングのための新しい逆例群を紹介し,これらの例を用いてCLAEと表記されるSSLの新しい逆トレーニングアルゴリズムを定義する。
論文参考訳（メタデータ） (2020-10-22T20:45:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。