論文の概要: The Mystery of In-Context Learning: A Comprehensive Survey on
Interpretation and Analysis
- arxiv url: http://arxiv.org/abs/2311.00237v2
- Date: Fri, 16 Feb 2024 00:55:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 20:09:49.659533
- Title: The Mystery of In-Context Learning: A Comprehensive Survey on
Interpretation and Analysis
- Title(参考訳): 文脈学習の謎--解釈と分析に関する包括的調査
- Authors: Yuxiang Zhou, Jiazheng Li, Yanzheng Xiang, Hanqi Yan, Lin Gui, Yulan
He
- Abstract要約: In-context Learning (ICL) 機能により、大規模な言語モデルが実演例を通じて習熟できる。
本稿では,文脈内学習の解釈と分析について,徹底的な調査を行う。
我々は,本研究が,文脈内学習の解釈のさらなる探求の基盤となると信じている。
- 参考スコア(独自算出の注目度): 21.342945716103884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding in-context learning (ICL) capability that enables large
language models (LLMs) to excel in proficiency through demonstration examples
is of utmost importance. This importance stems not only from the better
utilization of this capability across various tasks, but also from the
proactive identification and mitigation of potential risks, including concerns
regarding truthfulness, bias, and toxicity, that may arise alongside the
capability. In this paper, we present a thorough survey on the interpretation
and analysis of in-context learning. First, we provide a concise introduction
to the background and definition of in-context learning. Then, we give an
overview of advancements from two perspectives: 1) a theoretical perspective,
emphasizing studies on mechanistic interpretability and delving into the
mathematical foundations behind ICL; and 2) an empirical perspective,
concerning studies that empirically analyze factors associated with ICL. We
conclude by highlighting the challenges encountered and suggesting potential
avenues for future research. We believe that our work establishes the basis for
further exploration into the interpretation of in-context learning.
Additionally, we have created a repository containing the resources referenced
in our survey.
- Abstract(参考訳): 実例による大規模言語モデル(llm)の能力向上を可能にする、コンテキスト内学習(icl)能力の理解は極めて重要である。
この重要性は、様々なタスクでこの能力をよりうまく利用することだけでなく、真理性、バイアス、毒性に関する懸念を含む潜在的なリスクの積極的な識別と緩和にも起因しています。
本稿では,文脈内学習の解釈と分析について,徹底的な調査を行う。
まず,コンテキスト内学習の背景と定義を簡潔に紹介する。
次に、2つの視点から進歩の概要を示す。
1)機械的解釈可能性の研究とICLの背後にある数学的基礎への展開という理論的視点
2) iclに関連する因子を実証的に分析する研究に関する経験的視点。
今後の研究に直面する課題を強調し,今後の可能性を提案する。
我々は,本研究が,文脈内学習の解釈をさらに探求する基盤となると信じている。
さらに、調査で参照されたリソースを含むレポジトリも作成しました。
関連論文リスト
- Can Large Language Models Understand Context? [17.196362853457412]
本稿では,生成モデルの評価に適合する既存のデータセットを適応させることにより,文脈理解ベンチマークを提案する。
実験結果から, 事前学習された高密度モデルでは, 最先端の微調整モデルと比較して, よりニュアンスな文脈特徴の理解に苦慮していることが明らかとなった。
LLM圧縮は研究と実世界のアプリケーションの両方において重要度が高くなっているため、文脈学習環境下での量子化モデルの文脈理解を評価する。
論文 参考訳(メタデータ) (2024-02-01T18:55:29Z) - From Understanding to Utilization: A Survey on Explainability for Large
Language Models [27.295767173801426]
この調査は、Large Language Models (LLMs) における説明可能性の向上を示唆している。
主に、トレーニング済みの Transformer ベースの LLM に重点を置いています。
説明可能性の活用を考える際に、モデル編集、制御生成、モデル拡張に集中するいくつかの魅力的な方法を検討する。
論文 参考訳(メタデータ) (2024-01-23T16:09:53Z) - Igniting Language Intelligence: The Hitchhiker's Guide From
Chain-of-Thought Reasoning to Language Agents [80.5213198675411]
大規模言語モデル(LLM)は言語知能の分野を劇的に拡張した。
LLMは興味をそそるチェーン・オブ・シークレット(CoT)推論技術を活用し、答えを導き出す途中の中間ステップを定式化しなければならない。
最近の研究は、自律言語エージェントの開発を促進するためにCoT推論手法を拡張している。
論文 参考訳(メタデータ) (2023-11-20T14:30:55Z) - Understanding In-Context Learning from Repetitions [21.28694573253979]
本稿では,Large Language Models(LLMs)における文脈内学習の基盤となる概念的メカニズムについて考察する。
テキスト生成における表面的特徴の役割を定量的に検討し,エフェトケン共起強化の存在を実証的に確立する。
これらの特徴の二重的影響を調査することにより、本研究は、文脈内学習の内部動作を照らし、その失敗の原因について解説する。
論文 参考訳(メタデータ) (2023-09-30T08:13:49Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Post Hoc Explanations of Language Models Can Improve Language Models [43.2109029463221]
AMPLIFY(Post Hoc Explanations)を用いたインコンテキスト学習の活用によるモデル性能向上のための新しいフレームワークを提案する。
我々は,各入力特徴がモデル予測に与える影響を抽出し,帰属スコア(説明)を出力するポストホック説明手法を活用する。
AMPLIFYは,幅広いタスクに対して約10~25%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-05-19T04:46:04Z) - Context-faithful Prompting for Large Language Models [51.194410884263135]
大言語モデル(LLM)は世界事実に関するパラメトリック知識を符号化する。
パラメトリック知識への依存は、文脈的手がかりを見落とし、文脈に敏感なNLPタスクにおいて誤った予測をもたらす可能性がある。
我々は, LLMの文脈的忠実度を, 知識の衝突と, 棄権による予測の2つの側面で評価し, 向上する。
論文 参考訳(メタデータ) (2023-03-20T17:54:58Z) - A Survey on In-context Learning [56.40261564926631]
In-context Learning (ICL)は自然言語処理のための新しいパラダイムである
まず、ICLの形式的定義を示し、関連する研究との相関を明らかにする。
そこで我々は,訓練戦略,実証設計戦略,関連する分析など,高度な手法を整理し,議論する。
論文 参考訳(メタデータ) (2022-12-31T15:57:09Z) - A Survey on Interpretable Reinforcement Learning [28.869513255570077]
本調査は、強化学習(RL)における高い解釈可能性を実現するための様々なアプローチの概要を提供する。
我々は、解釈可能性(モデルの特性として)と説明可能性(プロキシの介入によるポストホック操作として)を区別する。
我々は、解釈可能なRLは、解釈可能な入力、解釈可能な(遷移/回帰)モデル、解釈可能な意思決定など、異なる側面を受け入れることができると主張している。
論文 参考訳(メタデータ) (2021-12-24T17:26:57Z) - Which Mutual-Information Representation Learning Objectives are
Sufficient for Control? [80.2534918595143]
相互情報は、データの表現を学習するために魅力的な形式を提供する。
本稿では,最適政策の学習と表現のための状態表現の十分性について定式化する。
意外なことに、これらの2つの目的は、MDPの構造に関する軽度で一般的な仮定を前提に、不十分な表現をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-06-14T10:12:34Z) - AR-LSAT: Investigating Analytical Reasoning of Text [57.1542673852013]
テキストの分析的推論の課題を研究し、1991年から2016年までのロースクール入学試験からの質問からなる新しいデータセットを紹介します。
我々は,この課題をうまくこなすために必要な知識理解と推論能力を分析する。
論文 参考訳(メタデータ) (2021-04-14T02:53:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。