論文の概要: The Mystery of In-Context Learning: A Comprehensive Survey on
Interpretation and Analysis
- arxiv url: http://arxiv.org/abs/2311.00237v2
- Date: Fri, 16 Feb 2024 00:55:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 20:09:49.659533
- Title: The Mystery of In-Context Learning: A Comprehensive Survey on
Interpretation and Analysis
- Title(参考訳): 文脈学習の謎--解釈と分析に関する包括的調査
- Authors: Yuxiang Zhou, Jiazheng Li, Yanzheng Xiang, Hanqi Yan, Lin Gui, Yulan
He
- Abstract要約: In-context Learning (ICL) 機能により、大規模な言語モデルが実演例を通じて習熟できる。
本稿では,文脈内学習の解釈と分析について,徹底的な調査を行う。
我々は,本研究が,文脈内学習の解釈のさらなる探求の基盤となると信じている。
- 参考スコア(独自算出の注目度): 21.342945716103884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding in-context learning (ICL) capability that enables large
language models (LLMs) to excel in proficiency through demonstration examples
is of utmost importance. This importance stems not only from the better
utilization of this capability across various tasks, but also from the
proactive identification and mitigation of potential risks, including concerns
regarding truthfulness, bias, and toxicity, that may arise alongside the
capability. In this paper, we present a thorough survey on the interpretation
and analysis of in-context learning. First, we provide a concise introduction
to the background and definition of in-context learning. Then, we give an
overview of advancements from two perspectives: 1) a theoretical perspective,
emphasizing studies on mechanistic interpretability and delving into the
mathematical foundations behind ICL; and 2) an empirical perspective,
concerning studies that empirically analyze factors associated with ICL. We
conclude by highlighting the challenges encountered and suggesting potential
avenues for future research. We believe that our work establishes the basis for
further exploration into the interpretation of in-context learning.
Additionally, we have created a repository containing the resources referenced
in our survey.
- Abstract(参考訳): 実例による大規模言語モデル(llm)の能力向上を可能にする、コンテキスト内学習(icl)能力の理解は極めて重要である。
この重要性は、様々なタスクでこの能力をよりうまく利用することだけでなく、真理性、バイアス、毒性に関する懸念を含む潜在的なリスクの積極的な識別と緩和にも起因しています。
本稿では,文脈内学習の解釈と分析について,徹底的な調査を行う。
まず,コンテキスト内学習の背景と定義を簡潔に紹介する。
次に、2つの視点から進歩の概要を示す。
1)機械的解釈可能性の研究とICLの背後にある数学的基礎への展開という理論的視点
2) iclに関連する因子を実証的に分析する研究に関する経験的視点。
今後の研究に直面する課題を強調し,今後の可能性を提案する。
我々は,本研究が,文脈内学習の解釈をさらに探求する基盤となると信じている。
さらに、調査で参照されたリソースを含むレポジトリも作成しました。
関連論文リスト
- Investigating Expert-in-the-Loop LLM Discourse Patterns for Ancient Intertextual Analysis [0.0]
この研究は、大きな言語モデルがテキスト間の直接引用、暗示、エコーを検出することを実証している。
このモデルは、長いクエリパスと、偽のテキスト間の依存を含めることに苦労する。
提案するプリンシパル・イン・ザ・ループ手法は、テキスト間研究にスケーラブルなアプローチを提供する。
論文 参考訳(メタデータ) (2024-09-03T13:23:11Z) - Large Language Models are Limited in Out-of-Context Knowledge Reasoning [65.72847298578071]
大規模言語モデル (LLMs) は、文脈内推論の実行において広範な知識と強力な能力を持っている。
本稿では、複数の知識を組み合わせて新しい知識を推論する、文脈外知識推論(OCKR)という、文脈外推論の重要な側面に焦点を当てる。
論文 参考訳(メタデータ) (2024-06-11T15:58:59Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - Can Large Language Models Understand Context? [17.196362853457412]
本稿では,生成モデルの評価に適合する既存のデータセットを適応させることにより,文脈理解ベンチマークを提案する。
実験結果から, 事前学習された高密度モデルでは, 最先端の微調整モデルと比較して, よりニュアンスな文脈特徴の理解に苦慮していることが明らかとなった。
LLM圧縮は研究と実世界のアプリケーションの両方において重要度が高くなっているため、文脈学習環境下での量子化モデルの文脈理解を評価する。
論文 参考訳(メタデータ) (2024-02-01T18:55:29Z) - From Understanding to Utilization: A Survey on Explainability for Large
Language Models [27.295767173801426]
この調査は、Large Language Models (LLMs) における説明可能性の向上を示唆している。
主に、トレーニング済みの Transformer ベースの LLM に重点を置いています。
説明可能性の活用を考える際に、モデル編集、制御生成、モデル拡張に集中するいくつかの魅力的な方法を検討する。
論文 参考訳(メタデータ) (2024-01-23T16:09:53Z) - Understanding In-Context Learning from Repetitions [21.28694573253979]
本稿では,Large Language Models(LLMs)における文脈内学習の基盤となる概念的メカニズムについて考察する。
テキスト生成における表面的特徴の役割を定量的に検討し,エフェトケン共起強化の存在を実証的に確立する。
これらの特徴の二重的影響を調査することにより、本研究は、文脈内学習の内部動作を照らし、その失敗の原因について解説する。
論文 参考訳(メタデータ) (2023-09-30T08:13:49Z) - Context-faithful Prompting for Large Language Models [51.194410884263135]
大言語モデル(LLM)は世界事実に関するパラメトリック知識を符号化する。
パラメトリック知識への依存は、文脈的手がかりを見落とし、文脈に敏感なNLPタスクにおいて誤った予測をもたらす可能性がある。
我々は, LLMの文脈的忠実度を, 知識の衝突と, 棄権による予測の2つの側面で評価し, 向上する。
論文 参考訳(メタデータ) (2023-03-20T17:54:58Z) - A Survey on In-context Learning [77.78614055956365]
In-context Learning (ICL) は自然言語処理(NLP)の新しいパラダイムとして登場した。
まず、ICLの形式的定義を示し、関連する研究との相関を明らかにする。
次に、トレーニング戦略、迅速なデザイン戦略、関連する分析を含む高度なテクニックを組織化し、議論する。
論文 参考訳(メタデータ) (2022-12-31T15:57:09Z) - A Survey on Interpretable Reinforcement Learning [28.869513255570077]
本調査は、強化学習(RL)における高い解釈可能性を実現するための様々なアプローチの概要を提供する。
我々は、解釈可能性(モデルの特性として)と説明可能性(プロキシの介入によるポストホック操作として)を区別する。
我々は、解釈可能なRLは、解釈可能な入力、解釈可能な(遷移/回帰)モデル、解釈可能な意思決定など、異なる側面を受け入れることができると主張している。
論文 参考訳(メタデータ) (2021-12-24T17:26:57Z) - Which Mutual-Information Representation Learning Objectives are
Sufficient for Control? [80.2534918595143]
相互情報は、データの表現を学習するために魅力的な形式を提供する。
本稿では,最適政策の学習と表現のための状態表現の十分性について定式化する。
意外なことに、これらの2つの目的は、MDPの構造に関する軽度で一般的な仮定を前提に、不十分な表現をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-06-14T10:12:34Z) - AR-LSAT: Investigating Analytical Reasoning of Text [57.1542673852013]
テキストの分析的推論の課題を研究し、1991年から2016年までのロースクール入学試験からの質問からなる新しいデータセットを紹介します。
我々は,この課題をうまくこなすために必要な知識理解と推論能力を分析する。
論文 参考訳(メタデータ) (2021-04-14T02:53:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。