論文の概要: Take Off the Training Wheels Progressive In-Context Learning for Effective Alignment
- arxiv url: http://arxiv.org/abs/2503.09958v1
- Date: Thu, 13 Mar 2025 02:01:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:53:38.730218
- Title: Take Off the Training Wheels Progressive In-Context Learning for Effective Alignment
- Title(参考訳): 効果的なアライメントのための段階的インテクスト学習のためのトレーニングホイールの取り外し
- Authors: Zhenyu Liu, Dongfang Li, Xinshuo Hu, Xinping Zhao, Yibin Chen, Baotian Hu, Min Zhang,
- Abstract要約: 本稿では,アライメントタスクにおけるトークン表現に対するデモの効果について検討する。
2段階からなる効率的なプログレッシブ・イン・コンテクストアライメント(PICA)手法を提案する。
我々の研究は、ICLのアライメントへの応用を強調し、複雑な世代に対するICLのより深い理解を求める。
- 参考スコア(独自算出の注目度): 22.224737528266598
- License:
- Abstract: Recent studies have explored the working mechanisms of In-Context Learning (ICL). However, they mainly focus on classification and simple generation tasks, limiting their broader application to more complex generation tasks in practice. To address this gap, we investigate the impact of demonstrations on token representations within the practical alignment tasks. We find that the transformer embeds the task function learned from demonstrations into the separator token representation, which plays an important role in the generation of prior response tokens. Once the prior response tokens are determined, the demonstrations become redundant.Motivated by this finding, we propose an efficient Progressive In-Context Alignment (PICA) method consisting of two stages. In the first few-shot stage, the model generates several prior response tokens via standard ICL while concurrently extracting the ICL vector that stores the task function from the separator token representation. In the following zero-shot stage, this ICL vector guides the model to generate responses without further demonstrations.Extensive experiments demonstrate that our PICA not only surpasses vanilla ICL but also achieves comparable performance to other alignment tuning methods. The proposed training-free method reduces the time cost (e.g., 5.45+) with improved alignment performance (e.g., 6.57+). Consequently, our work highlights the application of ICL for alignment and calls for a deeper understanding of ICL for complex generations. The code will be available at https://github.com/HITsz-TMG/PICA.
- Abstract(参考訳): 近年,In-Context Learning(ICL)の作業メカニズムについて検討している。
しかし、彼らは主に分類と単純な生成タスクに重点を置いており、より広範な応用を実際より複雑な生成タスクに限定している。
このギャップに対処するために,実証が実際のアライメントタスクにおけるトークン表現に与える影響について検討する。
この変換器は, デモから学んだタスク関数をセパレータトークン表現に埋め込んで, 先行応答トークンの生成において重要な役割を担っている。
この発見によって、我々は2段階からなる効率的なプログレッシブ・イン・コンテクスト・アライメント(PICA)法を提案する。
最初の数ショットの段階で、モデルは標準ICLを介していくつかの先行応答トークンを生成し、同時にセパレータトークン表現からタスク関数を格納するICLベクトルを抽出する。
下記のゼロショット段階では、このICLベクトルはモデルにさらなるデモを伴わずに応答を生成するよう誘導し、このPICAがバニラICLを超えるだけでなく、他のアライメントチューニング手法と同等の性能を発揮することを示す。
提案手法は、アライメント性能の向上(eg, 6.57+)により、時間コスト(eg, 5.45+)を削減する。
その結果、ICLのアライメントへの応用が強調され、複雑な世代に対するICLの深い理解が求められます。
コードはhttps://github.com/HITsz-TMG/PICAで入手できる。
関連論文リスト
- Revisiting In-context Learning Inference Circuit in Large Language Models [2.4866936275046405]
In-context Learning (ICL) は、言語モデル(LM)の内的メカニズムを探索せずに学習する、新たな数発学習パラダイムである。
本稿では、推論力学をモデル化し、ICLの観測現象を説明するための包括的回路を提案する。
論文 参考訳(メタデータ) (2024-10-06T12:50:15Z) - Investigating the Pre-Training Dynamics of In-Context Learning: Task Recognition vs. Task Learning [99.05401042153214]
In-context Learning(ICL)は、タスク認識(TR)とタスク学習(TL)の2つの主要な能力に起因する可能性がある。
ICLの出現の事前学習のダイナミクスを調べることで、第一歩を踏み出す。
そこで本研究では,この2つの機能を推論時によりよく統合するための,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-06-20T06:37:47Z) - Implicit In-context Learning [37.0562059811099]
Inlicit In-context Learning (I2CL)は、ICLの推論コストを最小限の情報損失でゼロショット学習に還元する革新的なパラダイムである。
I2CLはゼロショット推論コストで数ショットレベルのパフォーマンスを実現し、実演例のバリエーションに対して堅牢性を示す。
論文 参考訳(メタデータ) (2024-05-23T14:57:52Z) - ParaICL: Towards Robust Parallel In-Context Learning [74.38022919598443]
大規模言語モデル(LLM)が自然言語処理の標準となっている。
インコンテキスト・ラーニング(ICL)は、いくつかの実演例の選択に依存している。
パラレルインコンテキスト学習(ParaICL)という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-31T05:56:15Z) - Rectifying Demonstration Shortcut in In-Context Learning [15.08431909212102]
大規模言語モデル(LLM)は、ICL(In-context Learning)能力を利用したいくつかのデモで、様々なタスクを解くことができる。
LLMは、ICL予測を進めるために、インプット-ラベル関係よりも、事前に訓練されたデモのセマンティック先行に頼っていることが多い。
論文 参考訳(メタデータ) (2024-03-14T15:30:14Z) - Identifying and Analyzing Performance-Critical Tokens in Large Language Models [52.404072802235234]
我々は大規模な言語モデルがいかに実演からタスクを実行するかを研究する。
私たちの仕事は、大規模な言語モデルがデモからタスクを実行するための学習方法に光を当て、さまざまな種類のトークンが大きな言語モデルで果たす役割についての理解を深めます。
論文 参考訳(メタデータ) (2024-01-20T20:55:21Z) - Prompting classes: Exploring the Power of Prompt Class Learning in
Weakly Supervised Semantic Segmentation [15.467510304266883]
本稿では,プロンプトチューニングが弱教師付きセマンティックセグメンテーションに与える影響について検討する。
PrOmpt cLass lEarning(POLE)戦略に基づく新しいアプローチを提案する。
我々は、よく知られたWSSSベンチマークにおいて、シンプルで効率的なアプローチがSOTA性能を達成することを実証する。
論文 参考訳(メタデータ) (2023-06-30T19:25:18Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z) - Alleviating Over-smoothing for Unsupervised Sentence Representation [96.19497378628594]
本稿では,この問題を緩和するために,SSCL(Self-Contrastive Learning)というシンプルな手法を提案する。
提案手法は非常に単純で,様々な最先端モデルに拡張して,性能向上を図ることができる。
論文 参考訳(メタデータ) (2023-05-09T11:00:02Z) - Learning to Ask Conversational Questions by Optimizing Levenshtein
Distance [83.53855889592734]
明示的な編集動作によって最小レベンシュテイン距離(MLD)を最適化する強化反復シーケンス編集(RISE)フレームワークを導入する。
RISEは会話の特徴に関連するトークンに注意を払うことができる。
2つのベンチマークデータセットの実験結果から、RISEは最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-30T08:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。