論文の概要: The Mystery and Fascination of LLMs: A Comprehensive Survey on the
Interpretation and Analysis of Emergent Abilities
- arxiv url: http://arxiv.org/abs/2311.00237v1
- Date: Wed, 1 Nov 2023 02:40:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 15:25:03.003155
- Title: The Mystery and Fascination of LLMs: A Comprehensive Survey on the
Interpretation and Analysis of Emergent Abilities
- Title(参考訳): LLMのミステリーとファスチン化:創発能力の解釈と解析に関する総合的研究
- Authors: Yuxiang Zhou, Jiazheng Li, Yanzheng Xiang, Hanqi Yan, Lin Gui, Yulan
He
- Abstract要約: 本稿では,大規模言語モデル(LLM)の創発能力の解釈と解析について述べる。
まず、背景と創発的能力の定義を簡潔に紹介する。
次に, マクロの観点から, 1) 機械的解釈可能性の研究を強調し, 創発的能力の背景にある数学的基礎を掘り下げるマクロ視点, 2) 実験的解釈可能性に焦点をあてたマイクロパースペクティブについて概観する。
- 参考スコア(独自算出の注目度): 21.342945716103884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding emergent abilities, such as in-context learning (ICL) and
chain-of-thought (CoT) prompting in large language models (LLMs), is of utmost
importance. This importance stems not only from the better utilization of these
capabilities across various tasks, but also from the proactive identification
and mitigation of potential risks, including concerns of truthfulness, bias,
and toxicity, that may arise alongside these capabilities. In this paper, we
present a thorough survey on the interpretation and analysis of emergent
abilities of LLMs. First, we provide a concise introduction to the background
and definition of emergent abilities. Then, we give an overview of advancements
from two perspectives: 1) a macro perspective, emphasizing studies on the
mechanistic interpretability and delving into the mathematical foundations
behind emergent abilities; and 2) a micro-perspective, concerning studies that
focus on empirical interpretability by examining factors associated with these
abilities. We conclude by highlighting the challenges encountered and
suggesting potential avenues for future research. We believe that our work
establishes the basis for further exploration into the interpretation of
emergent abilities.
- Abstract(参考訳): 大規模言語モデル(LLM)において、インコンテキスト学習(ICL)やチェーン・オブ・シント(CoT)などの創発的能力を理解することが最も重要である。
この重要性は、様々なタスクでこれらの能力をよりうまく利用することだけでなく、真理性、バイアス、毒性の懸念を含む潜在的なリスクの積極的な識別と緩和にも起因しています。
本稿では,llmの創発的能力の解釈と分析に関する徹底的な調査を行う。
まず,創発能力の背景と定義を簡潔に紹介する。
次に、2つの視点から進歩の概要を示す。
1)機械的解釈可能性の研究を強調し、創発的能力の背後にある数学的基礎を掘り下げるマクロ視点
2)これらの能力に関連する要因を調べることにより、経験的解釈性に焦点を当てた研究に関するマイクロスペクティブ。
今後の研究に直面する課題を強調し,今後の可能性を提案する。
我々は,本研究が創発的能力の解釈のさらなる探求の基盤となると信じている。
関連論文リスト
- Can Large Language Models Understand Context? [17.196362853457412]
本稿では,生成モデルの評価に適合する既存のデータセットを適応させることにより,文脈理解ベンチマークを提案する。
実験結果から, 事前学習された高密度モデルでは, 最先端の微調整モデルと比較して, よりニュアンスな文脈特徴の理解に苦慮していることが明らかとなった。
LLM圧縮は研究と実世界のアプリケーションの両方において重要度が高くなっているため、文脈学習環境下での量子化モデルの文脈理解を評価する。
論文 参考訳(メタデータ) (2024-02-01T18:55:29Z) - From Understanding to Utilization: A Survey on Explainability for Large
Language Models [27.295767173801426]
この調査は、Large Language Models (LLMs) における説明可能性の向上を示唆している。
主に、トレーニング済みの Transformer ベースの LLM に重点を置いています。
説明可能性の活用を考える際に、モデル編集、制御生成、モデル拡張に集中するいくつかの魅力的な方法を検討する。
論文 参考訳(メタデータ) (2024-01-23T16:09:53Z) - Igniting Language Intelligence: The Hitchhiker's Guide From
Chain-of-Thought Reasoning to Language Agents [80.5213198675411]
大規模言語モデル(LLM)は言語知能の分野を劇的に拡張した。
LLMは興味をそそるチェーン・オブ・シークレット(CoT)推論技術を活用し、答えを導き出す途中の中間ステップを定式化しなければならない。
最近の研究は、自律言語エージェントの開発を促進するためにCoT推論手法を拡張している。
論文 参考訳(メタデータ) (2023-11-20T14:30:55Z) - Understanding In-Context Learning from Repetitions [21.28694573253979]
本稿では,Large Language Models(LLMs)における文脈内学習の基盤となる概念的メカニズムについて考察する。
テキスト生成における表面的特徴の役割を定量的に検討し,エフェトケン共起強化の存在を実証的に確立する。
これらの特徴の二重的影響を調査することにより、本研究は、文脈内学習の内部動作を照らし、その失敗の原因について解説する。
論文 参考訳(メタデータ) (2023-09-30T08:13:49Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Post Hoc Explanations of Language Models Can Improve Language Models [43.2109029463221]
AMPLIFY(Post Hoc Explanations)を用いたインコンテキスト学習の活用によるモデル性能向上のための新しいフレームワークを提案する。
我々は,各入力特徴がモデル予測に与える影響を抽出し,帰属スコア(説明)を出力するポストホック説明手法を活用する。
AMPLIFYは,幅広いタスクに対して約10~25%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-05-19T04:46:04Z) - Context-faithful Prompting for Large Language Models [51.194410884263135]
大言語モデル(LLM)は世界事実に関するパラメトリック知識を符号化する。
パラメトリック知識への依存は、文脈的手がかりを見落とし、文脈に敏感なNLPタスクにおいて誤った予測をもたらす可能性がある。
我々は, LLMの文脈的忠実度を, 知識の衝突と, 棄権による予測の2つの側面で評価し, 向上する。
論文 参考訳(メタデータ) (2023-03-20T17:54:58Z) - A Survey on In-context Learning [56.40261564926631]
In-context Learning (ICL)は自然言語処理のための新しいパラダイムである
まず、ICLの形式的定義を示し、関連する研究との相関を明らかにする。
そこで我々は,訓練戦略,実証設計戦略,関連する分析など,高度な手法を整理し,議論する。
論文 参考訳(メタデータ) (2022-12-31T15:57:09Z) - A Survey on Interpretable Reinforcement Learning [28.869513255570077]
本調査は、強化学習(RL)における高い解釈可能性を実現するための様々なアプローチの概要を提供する。
我々は、解釈可能性(モデルの特性として)と説明可能性(プロキシの介入によるポストホック操作として)を区別する。
我々は、解釈可能なRLは、解釈可能な入力、解釈可能な(遷移/回帰)モデル、解釈可能な意思決定など、異なる側面を受け入れることができると主張している。
論文 参考訳(メタデータ) (2021-12-24T17:26:57Z) - Which Mutual-Information Representation Learning Objectives are
Sufficient for Control? [80.2534918595143]
相互情報は、データの表現を学習するために魅力的な形式を提供する。
本稿では,最適政策の学習と表現のための状態表現の十分性について定式化する。
意外なことに、これらの2つの目的は、MDPの構造に関する軽度で一般的な仮定を前提に、不十分な表現をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-06-14T10:12:34Z) - AR-LSAT: Investigating Analytical Reasoning of Text [57.1542673852013]
テキストの分析的推論の課題を研究し、1991年から2016年までのロースクール入学試験からの質問からなる新しいデータセットを紹介します。
我々は,この課題をうまくこなすために必要な知識理解と推論能力を分析する。
論文 参考訳(メタデータ) (2021-04-14T02:53:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。