Fugu-MT 論文翻訳(概要): Teaching Language Models to Self-Improve through Interactive Demonstrations

論文の概要: Teaching Language Models to Self-Improve through Interactive Demonstrations

arxiv url: http://arxiv.org/abs/2310.13522v1
Date: Fri, 20 Oct 2023 14:11:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-23 22:46:26.510518
Title: Teaching Language Models to Self-Improve through Interactive Demonstrations
Title（参考訳）: 対話型デモンストレーションによる言語モデルの自己改善教育
Authors: Xiao Yu, Baolin Peng, Michel Galley, Jianfeng Gao, Zhou Yu
Abstract要約: 大規模言語モデルの自己改善能力は欠如しており、より小さなモデルで学ぶことは困難である。このような自己改善能力を持つ小型モデルのトレーニングアルゴリズムであるTriPosTを導入する。我々は,LLaMA-7bの算数および推論タスクの性能を最大7.13%向上させることができることを示す。
参考スコア（独自算出の注目度）: 90.05698053752806
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The self-improving ability of large language models (LLMs), enabled by prompting them to analyze and revise their own outputs, has garnered significant interest in recent research. However, this ability has been shown to be absent and difficult to learn for smaller models, thus widening the performance gap between state-of-the-art LLMs and more cost-effective and faster ones. To reduce this gap, we introduce TriPosT, a training algorithm that endows smaller models with such self-improvement ability, and show that our approach can improve a LLaMA-7b's performance on math and reasoning tasks by up to 7.13%. In contrast to prior work, we achieve this by using the smaller model to interact with LLMs to collect feedback and improvements on its own generations. We then replay this experience to train the small model. Our experiments on four math and reasoning datasets show that the interactive experience of learning from and correcting its own mistakes is crucial for small models to improve their performance.
Abstract（参考訳）: 大規模言語モデル(LLM)の自己改善能力は、彼らのアウトプットを分析して修正することを可能にし、近年の研究において大きな関心を集めている。しかし、この能力はより小さなモデルでは欠如しており、学習が困難であることが示されており、それによって最先端のLLMとよりコスト効率が高くより高速なLCMのパフォーマンスギャップが広がる。このギャップを減らすために,このような自己改善能力を持つ小型モデルを実現するトレーニングアルゴリズムTriPosTを導入し,LLaMA-7bの性能を最大7.13%向上させることができることを示す。従来の作業とは対照的に、より小さなモデルを用いてLLMと対話し、フィードバックを収集し、自分自身の世代で改善する。この経験を再生して、小さなモデルをトレーニングします。 4つの数学および推論データセットに関する実験により、小規模モデルでは、学習のインタラクティブな経験と、誤りの修正が、パフォーマンス向上に不可欠であることが示されている。

関連論文リスト

EvaLearn: Quantifying the Learning Capability and Efficiency of LLMs via Sequential Problem Solving [61.99289768925256]
EvaLearnは、大きな言語モデル(LLM)を学習能力と課題の効率性を評価するために設計されたベンチマークである。 9つのフロンティアモデルをベンチマークし、様々な性能プロファイルを観察する。静的能力の強い現在のLLMは、全てのタスクにおいて学習能力に明らかな優位性を示すものではない。
論文参考訳（メタデータ） (2025-06-03T09:18:33Z)
Advancing Multimodal Reasoning via Reinforcement Learning with Cold Start [24.244577648817188]
アハモーメント」パターンは強化学習(RL)の創発的特性に起因することが多い本稿では,2段階アプローチによるマルチモーダル推論の強化に関する総合的研究について述べる。実験の結果,この組み合わせはSFTのみの手法とRLのみの手法より一貫して優れていることがわかった。
論文参考訳（メタデータ） (2025-05-28T13:21:38Z)
LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning [76.82159851648711]
負対に対する埋め込みモデルの表現学習を動的に改善するフレームワークを提案する。 LLaVEは、最先端(SOTA)のパフォーマンスを実現する強力なベースラインを確立する。 LLaVEはゼロショット方式でテキストビデオ検索タスクを一般化し、高い性能を実現する。
論文参考訳（メタデータ） (2025-03-04T10:21:57Z)
Improving Vision-Language-Action Model with Online Reinforcement Learning [17.043068379668842]
近年の研究では、教師付き微調整により、大規模視覚言語モデルを低レベルロボット制御に統合することに成功した。 VLAモデルを効果的に改善するために、強化学習と監視学習を反復するiRe-VLAフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-28T02:53:48Z)
SuperCorrect: Supervising and Correcting Language Models with Error-Driven Insights [89.56181323849512]
より小規模な学生モデルの推論と反映の両方を教師モデルを用いて監督し,修正するフレームワークであるSuperCorrectを提案する。第1段階では、教師モデルから階層的な高レベルかつ詳細な思考テンプレートを抽出し、よりきめ細かい推論思考を導き出す学生モデルを指導する。第2段階では、学生モデルの自己補正能力を高めるために、クロスモデル協調直接選好最適化(DPO)を導入する。
論文参考訳（メタデータ） (2024-10-11T17:25:52Z)
Rethinking VLMs and LLMs for Image Classification [6.550471260627169]
大きな言語モデル(LLM)は、新しい機能を実現するために、Visual Language Models(VLM)と統合されつつある。オブジェクト認識やシーン認識では,LLMを使わないVLMの方が,VLMよりも優れた性能が得られることを示す。本稿では,視覚的タスクをタスクに適したモデルに効率的にルーティングする,比較的小さなLCMを含む軽量な修正法を提案する。
論文参考訳（メタデータ） (2024-10-03T23:40:21Z)
LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文参考訳（メタデータ） (2024-07-28T06:10:47Z)
LLMs-as-Instructors: Learning from Errors Toward Automating Model Improvement [93.38736019287224]
LLMs-as-Instructors"フレームワークは、より小さなターゲットモデルのトレーニングを自律的に強化する。このフレームワークは、"Learning from Errors"理論にインスパイアされ、ターゲットモデル内の特定のエラーを注意深く分析するインストラクターLLMを使用している。本フレームワークでは,適切なトレーニングデータに対する誤応答のみに焦点を当てた「エラーからの学習」と,比較学習を用いて誤りの深い理解を行う「コントラストによるエラーからの学習」という2つの戦略を実装している。
論文参考訳（メタデータ） (2024-06-29T17:16:04Z)
Mixed Distillation Helps Smaller Language Model Better Reasoning [27.934081882868902]
本稿では,大規模言語モデル (LLM) におけるプログラム・オブ・シント (PoT) とチェーン・オブ・シント (CoT) の強みを生かした混合蒸留 (MD) フレームワークを紹介する。実験の結果, MDは, 様々なタスクにおいて, より小さなモデルのシングルパスとマルチパス推論能力を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2023-12-17T14:28:28Z)
Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2023-03-13T16:00:31Z)
Large Language Models Are Latent Variable Models: Explaining and Finding Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文参考訳（メタデータ） (2023-01-27T18:59:01Z)
Sharpness-Aware Minimization Improves Language Model Generalization [46.83888240127077]
シャープネス認識最小化(SAM)は,計算オーバーヘッドを伴わずに言語モデルの一般化を大幅に改善できることを示す。 SAMは,SuperGLUE,GLUE,Web Questions,Natural Questions,Trivia QA,TyDiQAの性能向上を図っている。
論文参考訳（メタデータ） (2021-10-16T09:44:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。