Fugu-MT 論文翻訳(概要): Emergent Abilities of Large Language Models

論文の概要: Emergent Abilities of Large Language Models

arxiv url: http://arxiv.org/abs/2206.07682v1
Date: Wed, 15 Jun 2022 17:32:01 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-16 14:19:17.700649
Title: Emergent Abilities of Large Language Models
Title（参考訳）: 大規模言語モデルの創発的能力
Authors: Jason Wei, Yi Tay, Rishi Bommasani, Colin Raffel, Barret Zoph, Sebastian Borgeaud, Dani Yogatama, Maarten Bosma, Denny Zhou, Donald Metzler, Ed H. Chi, Tatsunori Hashimoto, Oriol Vinyals, Percy Liang, Jeff Dean, William Fedus
Abstract要約: より小さなモデルには存在しないが、より大きなモデルには存在しない場合、創発する能力を考える。このような出現の存在は、さらなるスケーリングが言語モデルの機能範囲をさらに拡大することを意味している。
参考スコア（独自算出の注目度）: 172.08007363384218
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scaling up language models has been shown to predictably improve performance and sample efficiency on a wide range of downstream tasks. This paper instead discusses an unpredictable phenomenon that we refer to as emergent abilities of large language models. We consider an ability to be emergent if it is not present in smaller models but is present in larger models. Thus, emergent abilities cannot be predicted simply by extrapolating the performance of smaller models. The existence of such emergence implies that additional scaling could further expand the range of capabilities of language models.
Abstract（参考訳）: 言語モデルのスケールアップは、幅広い下流タスクのパフォーマンスとサンプル効率を予測可能改善することが示されている。本稿では,大言語モデルの創発的能力と呼ぶ予測不能な現象について述べる。より小さなモデルには存在しないが、より大きなモデルには存在しない場合、創発する能力を考える。したがって、より小さなモデルの性能を外挿するだけでは、創発能力は予測できない。このような出現の存在は、さらなるスケーリングが言語モデルの機能範囲をさらに拡大することを意味する。

関連論文リスト

Grow Up and Merge: Scaling Strategies for Efficient Language Adaptation [4.2178072320683375]
我々は、事前学習されたモデルを新しいターゲット言語に適応するための効率的な戦略として、スケーリングについて検討する。十分なターゲット言語データに晒されると、より大規模なモデルでは、継続的に事前訓練された小さなモデルの性能にマッチしたり、超えたりすることができる。最後に、そのようなスケールした言語固有のモデルをマージして、モジュール化された柔軟な多言語システムを構築する方法について検討する。
論文参考訳（メタデータ） (2025-12-11T16:09:54Z)
Stands to Reason: Investigating the Effect of Reasoning on Idiomaticity Detection [2.8330244018167945]
大規模言語モデルにおける推論能力が慣用性検出性能にどのように影響するかを検討する。推論の効果は,予想よりも小さく,多様であることがわかった。より小さなモデルでは、チェーン・オブ・シンクレット(CoT)推論は、Math-tunedの中間モデルから性能を向上するが、ベースモデルのレベルには及ばない。
論文参考訳（メタデータ） (2025-08-18T21:17:09Z)
Towards a Deeper Understanding of Reasoning Capabilities in Large Language Models [0.017476232824732776]
本研究は, 自己回帰, 突然変異, 計画の有効性を, エージェントの適応能力を試験するための技術として体系的に評価する。動的環境における様々なオープンソース言語モデルを用いて実験を行う。より大きなモデルは一般的により小さなモデルよりも優れていますが、戦略的なプロンプトはこのパフォーマンスギャップを埋めることができます。
論文参考訳（メタデータ） (2025-05-15T17:53:47Z)
Effects of Scale on Language Model Robustness [7.725206196110384]
逆向きに訓練された大規模モデルは、より小さなモデルと比較して、訓練中に見えないような攻撃に対して、より速く、より良く一般化できることが示される。また、計算量の増加による悪用/防御のバランスを分析し、ある設定で同等性を見つけ、他の設定で悪用する利点を見つけます。
論文参考訳（メタデータ） (2024-07-25T17:26:41Z)
Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文参考訳（メタデータ） (2024-05-17T17:49:44Z)
Emergent Abilities in Reduced-Scale Generative Language Models [10.51168925267033]
大規模言語モデルはタスク固有の微調整なしで新しいタスクを解くことができる。この能力は創発的能力と見なされ、数十億のパラメータを持つ大きな言語モデルで主に見られる。本研究では,そのような創発特性がモデルサイズと厳密に結びついているか,縮小スケールで訓練されたより小さなモデルで示すことができるかを検討する。
論文参考訳（メタデータ） (2024-04-02T18:00:28Z)
Evaluating Large Language Models on Controlled Generation Tasks [92.64781370921486]
本稿では,異なる粒度を持つ文計画ベンチマークを含む,様々なベンチマークを広範囲に分析する。大規模言語モデルと最先端の微調整された小型モデルを比較した後、大規模言語モデルが後方に落ちたり、比較されたり、より小型モデルの能力を超えたりしたスペクトルを示す。
論文参考訳（メタデータ） (2023-10-23T03:48:24Z)
Diffusion Language Models Can Perform Many Tasks with Scaling and Instruction-Finetuning [56.03057119008865]
拡散言語モデルを拡張することで、強力な言語学習者が効果的に学習できることが示される。大規模データから知識を最初に取得することで,大規模に有能な拡散言語モデルを構築する。実験により、拡散言語モデルのスケーリングは、下流言語タスクにおけるパフォーマンスを一貫して改善することが示された。
論文参考訳（メタデータ） (2023-08-23T16:01:12Z)
Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。異なるサイズの言語モデルは事前学習中にどのように学習するか? より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文参考訳（メタデータ） (2022-12-19T19:16:29Z)
Rarely a problem? Language models exhibit inverse scaling in their predictions following few-type quantifiers [0.6091702876917281]
言語モデルにおいて特に課題となる「おもちゃのような2人の子供」のような「2つの」型の量化器に焦点をあてる。人間の2つの神経言語実験から、異なる大きさの22個の自己回帰トランスフォーマーモデルまで、960の英語文刺激を提示する。
論文参考訳（メタデータ） (2022-12-16T20:01:22Z)
Predicting on the Edge: Identifying Where a Larger Model Does Better [61.793778186198864]
小型モデルが最も不確実な例では,大規模モデルが最も改善されていることを示す。小型モデルが不確実な場合,サンプルを大モデルにデフェクトするスイッチャーモデルにより,性能と資源利用の大幅な向上が達成できることを示す。
論文参考訳（メタデータ） (2022-02-15T18:53:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。