Fugu-MT 論文翻訳(概要): In-context Learning and Gradient Descent Revisited

論文の概要: In-context Learning and Gradient Descent Revisited

arxiv url: http://arxiv.org/abs/2311.07772v4
Date: Sun, 31 Mar 2024 19:33:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-02 15:15:12.076348
Title: In-context Learning and Gradient Descent Revisited
Title（参考訳）: In-context Learning と Gradient Descent Revisited
Authors: Gilad Deutch, Nadav Magar, Tomer Bar Natan, Guy Dar,
Abstract要約: トレーニングされていないモデルでさえ、ICLを提示していないにもかかわらず、同等のICL-GD類似度スコアが得られることを示す。次に、ICLとGDのモデル全体にわたる情報の流れにおける大きな相違について検討し、これをレイヤ因果性(Layer Causality)と呼ぶ。本稿では,階層因果関係を尊重する単純なGDに基づく最適化手法を提案する。
参考スコア（独自算出の注目度）: 3.085927389171139
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In-context learning (ICL) has shown impressive results in few-shot learning tasks, yet its underlying mechanism is still not fully understood. A recent line of work suggests that ICL performs gradient descent (GD)-based optimization implicitly. While appealing, much of the research focuses on simplified settings, where the parameters of a shallow model are optimized. In this work, we revisit evidence for ICL-GD correspondence on realistic NLP tasks and models. We find gaps in evaluation, both in terms of problematic metrics and insufficient baselines. We show that surprisingly, even untrained models achieve comparable ICL-GD similarity scores despite not exhibiting ICL. Next, we explore a major discrepancy in the flow of information throughout the model between ICL and GD, which we term Layer Causality. We propose a simple GD-based optimization procedure that respects layer causality, and show it improves similarity scores significantly.
Abstract（参考訳）: In-context Learning (ICL)は、数ショットの学習タスクにおいて印象的な結果を示しているが、その基盤となるメカニズムはまだ完全には理解されていない。最近の研究は、ICLが勾配降下(GD)に基づく最適化を暗黙的に行うことを示唆している。魅力的な研究は、浅いモデルのパラメータを最適化したシンプルな設定に焦点を当てている。本研究では,現実的なNLPタスクとモデルに対するICL-GD対応の証拠を再考する。評価のギャップは、問題のあるメトリクスと不十分なベースラインの両方で見られます。トレーニングされていないモデルでさえ、ICLを提示していないにもかかわらず、同等のICL-GD類似度スコアを得ることを示す。次に、ICLとGDのモデル全体にわたる情報の流れにおける大きな相違について検討し、これをレイヤ因果性(Layer Causality)と呼ぶ。本稿では,階層因果関係を尊重する単純なGDに基づく最適化手法を提案する。

関連論文リスト

Aligned Contrastive Loss for Long-Tailed Recognition [43.33186901322387]
そこで本研究では,ACL(Aligned Contrastive Learning)アルゴリズムを提案する。これらの結果から,マルチビュー学習が性能を向上させる一方で,コントラスト学習はビュー数の増加とともにモデル一般化を継続的に向上させるものではないことが示唆された。我々のACLアルゴリズムは,これらの問題を排除し,複数のベンチマークで高い性能を示すように設計されている。
論文参考訳（メタデータ） (2025-06-01T16:19:30Z)
Illusion or Algorithm? Investigating Memorization, Emergence, and Symbolic Processing in In-Context Learning [48.67380502157004]
大規模トランスフォーマー言語モデル(LM)は、Webスケールデータによる次世代の予測のみを訓練することで、幅広いタスクを解決できる。この能力の背後にあるメカニズムは、ICL(In-context Learning)と呼ばれ、議論の余地があり、理解が不十分なままである。
論文参考訳（メタデータ） (2025-05-16T08:50:42Z)
Corrective In-Context Learning: Evaluating Self-Correction in Large Language Models [0.0]
In-context Learning (ICL) は、大規模言語モデル (LLM) をNLPタスクに用いた。有効性にもかかわらず、ICLは特に挑戦的な例でエラーを起こしやすい。提案手法は,モデルの不正確な予測と地上の真偽の補正を併用する手法であるCICL(Corative In-Context Learning)を提案する。
論文参考訳（メタデータ） (2025-03-20T10:39:39Z)
Scaling Sparse and Dense Retrieval in Decoder-Only LLMs [20.173669986209024]
大規模言語モデル(LLM)のスケーリングは,検索モデルの性能向上に大きな可能性を示している。従来の研究は、比較損失(CL)を訓練した高密度な検索に重点を置いてきた。スパース検索モデルは、インドメイン(MSMARCO, TREC DL)とアウト・オブ・ドメイン(BEIR)ベンチマークの両方において、密集検索を一貫して上回っている。
論文参考訳（メタデータ） (2025-02-21T15:28:26Z)
Technical Debt in In-Context Learning: Diminishing Efficiency in Long Context [13.796664304274643]
我々は、スタイル化された設定における学習アルゴリズムとして、ICLの最適性を定量化する新しいフレームワークを導入する。 ICLは最初,ベイズ最適推定器の効率と一致したが,その効率は長期に渡り著しく低下する。これらの結果は、ICLを普遍的な問題解決手段として採用する際のトレードオフを明らかにし、新しい世代のオンザフライ適応手法を動機付けている。
論文参考訳（メタデータ） (2025-02-07T00:26:45Z)
Graph Structure Refinement with Energy-based Contrastive Learning [56.957793274727514]
グラフの構造と表現を学習するための生成訓練と識別訓練のジョイントに基づく教師なし手法を提案する。本稿では,ECL-GSR(Energy-based Contrastive Learning)によるグラフ構造再構成(GSR)フレームワークを提案する。 ECL-GSRは、主要なベースラインに対するサンプルやメモリの少ない高速なトレーニングを実現し、下流タスクの単純さと効率性を強調している。
論文参考訳（メタデータ） (2024-12-20T04:05:09Z)
Deeper Insights Without Updates: The Power of In-Context Learning Over Fine-Tuning [22.341935761925892]
ファインチューニングとインコンテキスト学習(ICL)は、タスク固有の知識で大きな言語モデルを出力する2つの一般的な方法である。暗黙的なパターンを持つタスクに対して、ICLはこれらのパターンを微調整よりもはるかによくキャプチャする。
論文参考訳（メタデータ） (2024-10-07T02:12:22Z)
L^2CL: Embarrassingly Simple Layer-to-Layer Contrastive Learning for Graph Collaborative Filtering [33.165094795515785]
グラフニューラルネットワーク(GNN)は、最近、協調フィルタリングにおいて近隣の信号をモデル化するための効果的なアプローチとして登場した。 L2CLは、異なるレイヤの表現を対比する、原則的なレイヤ間コントラスト学習フレームワークである。その結果,L2CLは,一対一のコントラスト学習パラダイムのみを用いて,固有の意味構造をキャプチャし,ノード表現の質を向上させることができることがわかった。
論文参考訳（メタデータ） (2024-07-19T12:45:21Z)
Surgical Feature-Space Decomposition of LLMs: Why, When and How? [8.826164604720738]
トランス言語モデルにおける重みと特徴空間の分解の有効性を実験的に検討する。本稿では, 外科的切除が, 圧縮と言語モデリング性能のトレードオフに関する重要な洞察を与えることを示す。モデルバイアスに対する低ランク近似の影響について検討する。
論文参考訳（メタデータ） (2024-05-17T07:34:03Z)
On Task Performance and Model Calibration with Supervised and Self-Ensembled In-Context Learning [71.44986275228747]
In-context Learning (ICL) は、近年の大規模言語モデル(LLM)の進歩により、効率的なアプローチとなっている。しかし、両方のパラダイムは、過信の批判的な問題(すなわち、誤校正)に苦しむ傾向にある。
論文参考訳（メタデータ） (2023-12-21T11:55:10Z)
Gradient constrained sharpness-aware prompt learning for vision-language models [99.74832984957025]
本稿では,視覚言語モデル(VLM)の一般化可能な即時学習における新たなトレードオフ問題を提案する。最先端手法のロスランドスケープとSAMに基づくバニラシャープネス認識最小化法を解析することにより、トレードオフ性能は損失値と損失シャープネスの両方に相関していると結論付けた。本稿では,GCSCoOp (Gradient Constrained Sharpness-Aware Context Optimization) と表記される,素早い学習のためのSAMベースの新しい手法を提案する。
論文参考訳（メタデータ） (2023-09-14T17:13:54Z)
Learning Deep Representations via Contrastive Learning for Instance Retrieval [11.736450745549792]
本稿では、インスタンス識別に基づくコントラスト学習(CL)を用いて、この問題に取り組むための最初の試みを行う。本研究では、事前学習されたCLモデルと微調整されたCLモデルから識別表現を導出する能力を探求することにより、この問題に対処する。
論文参考訳（メタデータ） (2022-09-28T04:36:34Z)
Zero-Shot Temporal Action Detection via Vision-Language Prompting [134.26292288193298]
視覚言語プロンプト(STALE)を用いた新しいゼロショット時間行動検出モデルを提案する。我々のモデルは最先端の代替品を著しく上回っている。我々のモデルは、近年の強力な競合相手よりも監督的TADにおいて優れた結果をもたらす。
論文参考訳（メタデータ） (2022-07-17T13:59:46Z)
Interventional Contrastive Learning with Meta Semantic Regularizer [28.708395209321846]
コントラスト学習(CL)に基づく自己教師型学習モデルでは,視覚的表現を相互に学習する。 CLモデルがフルイメージでトレーニングされる場合、フルイメージでテストされるパフォーマンスは、フォアグラウンドのモデルよりも優れている。 CLモデルが前景領域で訓練された場合、全画像でテストされた性能は前景領域よりも悪い。
論文参考訳（メタデータ） (2022-06-29T15:02:38Z)
Using Representation Expressiveness and Learnability to Evaluate Self-Supervised Learning Methods [61.49061000562676]
本稿では,学習可能性を評価するためにCluster Learnability (CL)を導入する。 CLは、K-meansで表現をクラスタリングすることによって得られたラベルを予測するために訓練されたKNNのパフォーマンスで測定される。 CLは、他の競合する評価手法よりも分布内モデルの性能と相関することがわかった。
論文参考訳（メタデータ） (2022-06-02T19:05:13Z)
Toward Fast, Flexible, and Robust Low-Light Image Enhancement [87.27326390675155]
我々は、現実の低照度シナリオにおいて、高速でフレキシブルで頑健な鮮明化のための新しい自己校正イルミネーション(SCI)学習フレームワークを開発した。カスケードパターンの計算負担を考慮すると、各ステージの結果の収束を実現する自己校正モジュールを構築する。我々は,SCI固有の特性について,操作不感適応性やモデル非関係の一般性を含む包括的探索を行う。
論文参考訳（メタデータ） (2022-04-21T14:40:32Z)
Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文参考訳（メタデータ） (2020-06-18T19:04:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。