論文の概要: The Mystery and Fascination of LLMs: A Comprehensive Survey on the
Interpretation and Analysis of Emergent Abilities
- arxiv url: http://arxiv.org/abs/2311.00237v1
- Date: Wed, 1 Nov 2023 02:40:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 15:25:03.003155
- Title: The Mystery and Fascination of LLMs: A Comprehensive Survey on the
Interpretation and Analysis of Emergent Abilities
- Title(参考訳): LLMのミステリーとファスチン化:創発能力の解釈と解析に関する総合的研究
- Authors: Yuxiang Zhou, Jiazheng Li, Yanzheng Xiang, Hanqi Yan, Lin Gui, Yulan
He
- Abstract要約: 本稿では,大規模言語モデル(LLM)の創発能力の解釈と解析について述べる。
まず、背景と創発的能力の定義を簡潔に紹介する。
次に, マクロの観点から, 1) 機械的解釈可能性の研究を強調し, 創発的能力の背景にある数学的基礎を掘り下げるマクロ視点, 2) 実験的解釈可能性に焦点をあてたマイクロパースペクティブについて概観する。
- 参考スコア(独自算出の注目度): 21.342945716103884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding emergent abilities, such as in-context learning (ICL) and
chain-of-thought (CoT) prompting in large language models (LLMs), is of utmost
importance. This importance stems not only from the better utilization of these
capabilities across various tasks, but also from the proactive identification
and mitigation of potential risks, including concerns of truthfulness, bias,
and toxicity, that may arise alongside these capabilities. In this paper, we
present a thorough survey on the interpretation and analysis of emergent
abilities of LLMs. First, we provide a concise introduction to the background
and definition of emergent abilities. Then, we give an overview of advancements
from two perspectives: 1) a macro perspective, emphasizing studies on the
mechanistic interpretability and delving into the mathematical foundations
behind emergent abilities; and 2) a micro-perspective, concerning studies that
focus on empirical interpretability by examining factors associated with these
abilities. We conclude by highlighting the challenges encountered and
suggesting potential avenues for future research. We believe that our work
establishes the basis for further exploration into the interpretation of
emergent abilities.
- Abstract(参考訳): 大規模言語モデル(LLM)において、インコンテキスト学習(ICL)やチェーン・オブ・シント(CoT)などの創発的能力を理解することが最も重要である。
この重要性は、様々なタスクでこれらの能力をよりうまく利用することだけでなく、真理性、バイアス、毒性の懸念を含む潜在的なリスクの積極的な識別と緩和にも起因しています。
本稿では,llmの創発的能力の解釈と分析に関する徹底的な調査を行う。
まず,創発能力の背景と定義を簡潔に紹介する。
次に、2つの視点から進歩の概要を示す。
1)機械的解釈可能性の研究を強調し、創発的能力の背後にある数学的基礎を掘り下げるマクロ視点
2)これらの能力に関連する要因を調べることにより、経験的解釈性に焦点を当てた研究に関するマイクロスペクティブ。
今後の研究に直面する課題を強調し,今後の可能性を提案する。
我々は,本研究が創発的能力の解釈のさらなる探求の基盤となると信じている。
関連論文リスト
- Investigating Expert-in-the-Loop LLM Discourse Patterns for Ancient Intertextual Analysis [0.0]
この研究は、大きな言語モデルがテキスト間の直接引用、暗示、エコーを検出することを実証している。
このモデルは、長いクエリパスと、偽のテキスト間の依存を含めることに苦労する。
提案するプリンシパル・イン・ザ・ループ手法は、テキスト間研究にスケーラブルなアプローチを提供する。
論文 参考訳(メタデータ) (2024-09-03T13:23:11Z) - Large Language Models are Limited in Out-of-Context Knowledge Reasoning [65.72847298578071]
大規模言語モデル (LLMs) は、文脈内推論の実行において広範な知識と強力な能力を持っている。
本稿では、複数の知識を組み合わせて新しい知識を推論する、文脈外知識推論(OCKR)という、文脈外推論の重要な側面に焦点を当てる。
論文 参考訳(メタデータ) (2024-06-11T15:58:59Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - Can Large Language Models Understand Context? [17.196362853457412]
本稿では,生成モデルの評価に適合する既存のデータセットを適応させることにより,文脈理解ベンチマークを提案する。
実験結果から, 事前学習された高密度モデルでは, 最先端の微調整モデルと比較して, よりニュアンスな文脈特徴の理解に苦慮していることが明らかとなった。
LLM圧縮は研究と実世界のアプリケーションの両方において重要度が高くなっているため、文脈学習環境下での量子化モデルの文脈理解を評価する。
論文 参考訳(メタデータ) (2024-02-01T18:55:29Z) - From Understanding to Utilization: A Survey on Explainability for Large
Language Models [27.295767173801426]
この調査は、Large Language Models (LLMs) における説明可能性の向上を示唆している。
主に、トレーニング済みの Transformer ベースの LLM に重点を置いています。
説明可能性の活用を考える際に、モデル編集、制御生成、モデル拡張に集中するいくつかの魅力的な方法を検討する。
論文 参考訳(メタデータ) (2024-01-23T16:09:53Z) - Understanding In-Context Learning from Repetitions [21.28694573253979]
本稿では,Large Language Models(LLMs)における文脈内学習の基盤となる概念的メカニズムについて考察する。
テキスト生成における表面的特徴の役割を定量的に検討し,エフェトケン共起強化の存在を実証的に確立する。
これらの特徴の二重的影響を調査することにより、本研究は、文脈内学習の内部動作を照らし、その失敗の原因について解説する。
論文 参考訳(メタデータ) (2023-09-30T08:13:49Z) - Context-faithful Prompting for Large Language Models [51.194410884263135]
大言語モデル(LLM)は世界事実に関するパラメトリック知識を符号化する。
パラメトリック知識への依存は、文脈的手がかりを見落とし、文脈に敏感なNLPタスクにおいて誤った予測をもたらす可能性がある。
我々は, LLMの文脈的忠実度を, 知識の衝突と, 棄権による予測の2つの側面で評価し, 向上する。
論文 参考訳(メタデータ) (2023-03-20T17:54:58Z) - A Survey on In-context Learning [77.78614055956365]
In-context Learning (ICL) は自然言語処理(NLP)の新しいパラダイムとして登場した。
まず、ICLの形式的定義を示し、関連する研究との相関を明らかにする。
次に、トレーニング戦略、迅速なデザイン戦略、関連する分析を含む高度なテクニックを組織化し、議論する。
論文 参考訳(メタデータ) (2022-12-31T15:57:09Z) - A Survey on Interpretable Reinforcement Learning [28.869513255570077]
本調査は、強化学習(RL)における高い解釈可能性を実現するための様々なアプローチの概要を提供する。
我々は、解釈可能性(モデルの特性として)と説明可能性(プロキシの介入によるポストホック操作として)を区別する。
我々は、解釈可能なRLは、解釈可能な入力、解釈可能な(遷移/回帰)モデル、解釈可能な意思決定など、異なる側面を受け入れることができると主張している。
論文 参考訳(メタデータ) (2021-12-24T17:26:57Z) - Which Mutual-Information Representation Learning Objectives are
Sufficient for Control? [80.2534918595143]
相互情報は、データの表現を学習するために魅力的な形式を提供する。
本稿では,最適政策の学習と表現のための状態表現の十分性について定式化する。
意外なことに、これらの2つの目的は、MDPの構造に関する軽度で一般的な仮定を前提に、不十分な表現をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-06-14T10:12:34Z) - AR-LSAT: Investigating Analytical Reasoning of Text [57.1542673852013]
テキストの分析的推論の課題を研究し、1991年から2016年までのロースクール入学試験からの質問からなる新しいデータセットを紹介します。
我々は,この課題をうまくこなすために必要な知識理解と推論能力を分析する。
論文 参考訳(メタデータ) (2021-04-14T02:53:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。