論文の概要: What Makes In-context Learning Effective for Mathematical Reasoning: A Theoretical Analysis
- arxiv url: http://arxiv.org/abs/2412.12157v1
- Date: Wed, 11 Dec 2024 11:38:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 14:01:55.909457
- Title: What Makes In-context Learning Effective for Mathematical Reasoning: A Theoretical Analysis
- Title(参考訳): 数理推論における文脈内学習の有効性 : 理論的解析
- Authors: Jiayu Liu, Zhenya Huang, Chaokun Wang, Xunpeng Huang, Chengxiang Zhai, Enhong Chen,
- Abstract要約: 本稿では,大規模言語モデルの推論性能に及ぼす文脈内実演の影響を理論的に解析することを目的とする。
本稿では, LMS3 という, 単純で一般化可能な, 低複雑さな実演選択法を提案する。
- 参考スコア(独自算出の注目度): 81.15503859645149
- License:
- Abstract: Owing to the capability of in-context learning, large language models (LLMs) have shown impressive performance across diverse mathematical reasoning benchmarks. However, we find that few-shot demonstrations can sometimes bring negative performance and their effectiveness on LLMs' reasoning abilities remains unreliable. To this end, in this paper, we aim to theoretically analyze the impact of in-context demonstrations on LLMs' reasoning performance. We prove that the reasoning efficacy (measured by empirical prediction loss) can be bounded by a LLM-oriented semantic similarity and an inference stability of demonstrations, which is general for both one-shot and few-shot scenarios. Based on this finding, we propose a straightforward, generalizable, and low-complexity demonstration selection method named LMS3. It can adaptively facilitate to select the most pertinent samples for different LLMs and includes a novel demonstration rejection mechanism to automatically filter out samples that are unsuitable for few-shot learning. Through experiments on three representative benchmarks, two LLM backbones, and multiple few-shot settings, we verify that our LMS3 has superiority and achieves consistent improvements on all datasets, which existing methods have been unable to accomplish.
- Abstract(参考訳): 文脈内学習の能力のため、大規模言語モデル(LLM)は、様々な数学的推論ベンチマークで印象的な性能を示している。
しかし,数発のデモではネガティブなパフォーマンスが生じることもあり,LLMの推論能力に対する効果は信頼性が低いことが判明した。
そこで本稿では,LLMの推論性能に及ぼす文脈内実演の影響を理論的に解析することを目的とする。
実験的な予測損失によって測定された推論の有効性は、LLM指向のセマンティックな類似性と、単発・少数発の両方のシナリオで一般的な実演の推論安定性によってバウンドできることを実証する。
そこで本研究では,LMS3という,単純で一般化可能な,低複雑さな実演選択法を提案する。
異なるLLMに対して最も適切なサンプルを適応的に選択しやすくし、数発の学習に適さないサンプルを自動的にフィルタリングする新しいデモンストレーション拒否機構を含む。
3つの代表的なベンチマーク、2つのLLMバックボーン、および複数回のショット設定の実験を通して、我々のLMS3が優れていることを確認し、既存の手法では達成できなかったすべてのデータセットに対して一貫した改善を実現する。
関連論文リスト
- Deconfounded Causality-aware Parameter-Efficient Fine-Tuning for Problem-Solving Improvement of LLMs [12.48241058167222]
大規模言語モデル(LLM)は、人間の指示に基づいて様々なタスクに取り組む際に、顕著な効率性を示した。
しかし、数学や物理学の限界など、推論を必要とするタスクに苦しむことが研究によって明らかになっている。
このことは、LLMが組み込み知識を本当に理解しているか、それとも、コンテンツに対する真の理解なしにトークン分布を複製することを学ぶだけなのかという疑問を提起する。
モデルの推論能力を高めるために,新しいパラメータ効率細調整法であるDecon Causal Adaptation (DCA)を提案する。
論文 参考訳(メタデータ) (2024-09-04T13:17:09Z) - Can Many-Shot In-Context Learning Help LLMs as Evaluators? A Preliminary Empirical Study [14.906150451947443]
大規模言語モデル(LLM)における潜在的なバイアスを軽減するために,評価者を支援するため,多発性ICLプロンプトを2つ検討した。
設計したプロンプトに基づいて,テキスト内サンプルのスケーリングが評価結果の一貫性と品質に与える影響について検討する。
GPT-4oのような高度なLCMは、ゼロショット方式よりも多ショット方式の方が優れていることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2024-06-17T15:11:58Z) - Large Language Models are Inconsistent and Biased Evaluators [2.136983452580014]
我々は,Large Language Models (LLMs) が親しみの偏りを示し,評価の歪んだ分布を示すため,評価値の偏りを示すことを示した。
また, LLM は不整合性評価器であり, テキスト品質の人間の理解に欠かせない相違を誘発する「サンプル間合意」が低く, 感度が高いことがわかった。
論文 参考訳(メタデータ) (2024-05-02T20:42:28Z) - LLMs for Relational Reasoning: How Far are We? [8.840750655261251]
大規模言語モデル(LLM)は、下流タスクで最先端のパフォーマンスを達成することで、多くの領域に革命をもたらした。
近年の取り組みにより,LSMは逐次決定問題の解決に乏しいことが示されている。
論文 参考訳(メタデータ) (2024-01-17T08:22:52Z) - Explanation-aware Soft Ensemble Empowers Large Language Model In-context
Learning [50.00090601424348]
大規模言語モデル(LLM)は、様々な自然言語理解タスクにおいて顕著な能力を示している。
我々は,LLMを用いたテキスト内学習を支援するための説明型ソフトアンサンブルフレームワークであるEASEを提案する。
論文 参考訳(メタデータ) (2023-11-13T06:13:38Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z) - Introspective Tips: Large Language Model for In-Context Decision Making [48.96711664648164]
我々は,大規模言語モデル(LLM)の自己最適化を促進するために,イントロスペクティブティップス(Introspective Tips)を採用している。
本手法は,少数ショットとゼロショットの両方の学習状況において,エージェントの性能を向上させる。
TextWorldにおける100以上のゲームに関する実験は、我々のアプローチの優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-05-19T11:20:37Z) - What In-Context Learning "Learns" In-Context: Disentangling Task
Recognition and Task Learning [24.395288160951118]
大規模言語モデル(LLM)は、いくつかのデモでタスクを解くためにコンテキスト内学習(ICL)を利用する。
ICLがデモを利用する2つの方法の特徴付けを行う。
TRのみを用いて非自明な性能を達成でき、TRはより大きなモデルやより多くのデモでさらに改善されないことを示す。
論文 参考訳(メタデータ) (2023-05-16T18:05:19Z) - ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for
Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。
ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。
具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文 参考訳(メタデータ) (2023-03-09T06:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。