Fugu-MT 論文翻訳(概要): Reinforced Large Language Model is a formal theorem prover

関連論文リスト

Generalist Reward Models: Found Inside Large Language Models [50.7432354447554]
我々は,従来の次世代予測によって訓練されたLarge Language Models (LLM) の中に,強力な報酬モデルが存在することを示す。この内因性報酬は、オフライン逆強化学習によって学習された報酬関数ではないことを実証する。また、この内因性報酬を用いた後続の強化学習が、ベースモデルと比較して明らかに優れたエラー境界を持つポリシーにつながることを証明した。
論文参考訳（メタデータ） (2025-06-29T13:45:54Z)
Large Language Models as Computable Approximations to Solomonoff Induction [11.811838796672369]
我々は,大規模言語モデル (LLM) とアルゴリズム情報理論 (AIT) の間の最初の公式な接続を確立する。我々はAITを活用し、文脈内学習、少数ショット学習、スケーリング法則の統一的な理論的説明を提供する。我々の枠組みは理論的基礎と実践的LLM行動のギャップを埋め、将来のモデル開発に説明力と実用的な洞察を提供する。
論文参考訳（メタデータ） (2025-05-21T17:35:08Z)
d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning [31.531278643184656]
最近の大規模言語モデル(LLM)は、オンライン強化学習(RL)の恩恵を受ける強力な推論能力を示している。教師付き微調整(SFT)とRLの組み合わせにより,事前学習したdLLMを推論モデルに適応するフレームワークであるd1を提案する。 d1は最高の性能を示し、最先端のdLLMの性能を大幅に向上させる。
論文参考訳（メタデータ） (2025-04-16T16:08:45Z)
CuDIP: Enhancing Theorem Proving in LLMs via Curriculum Learning-based Direct Preference Optimization [22.935127114462475]
本稿では,Curriculum Learning-based DPO Iterative Theorem Proving (CuDIP)法を提案する。 LLMと既存の定理証明データを利用した嗜好データ構築手法を提案する。次に、この選好データ構築手法とカリキュラム学習を統合し、定理証明モデルを反復的に微調整する。
論文参考訳（メタデータ） (2025-02-25T03:07:02Z)
Activation Steering in Neural Theorem Provers [0.0]
大規模言語モデル(LLM)は、Leanのような証明アシスタントを使って形式的な定理を証明することを約束している。 LLMは正しい戦術を予測できるが、候補戦術の範囲内で適切にランク付けする上での課題に直面している。我々は、アクティベーションステアリングを用いてLSMの応答を誘導し、推論時の世代を改善する。
論文参考訳（メタデータ） (2025-02-21T15:04:48Z)
Large Language Models as Markov Chains [7.078696932669912]
有限状態空間上で定義された自己回帰変換言語モデルとマルコフ連鎖の同値性を描く。以上の結果とLLMで観察された病理行動との関連性を検討した。最新のLlamaとGemmaのモデル群による実験は、我々の理論が実際にそれらの振る舞いを正しく捉えていることを示している。
論文参考訳（メタデータ） (2024-10-03T17:45:31Z)
DaRec: A Disentangled Alignment Framework for Large Language Model and Recommender System [83.34921966305804]
大規模言語モデル (LLM) はレコメンデーションシステムにおいて顕著な性能を示した。 LLMと協調モデルのための新しいプラグ・アンド・プレイアライメントフレームワークを提案する。我々の手法は既存の最先端アルゴリズムよりも優れている。
論文参考訳（メタデータ） (2024-08-15T15:56:23Z)
Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。 MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文参考訳（メタデータ） (2024-05-26T00:29:04Z)
Self-Refine Instruction-Tuning for Aligning Reasoning in Language Models [0.8133739801185272]
小さい言語モデルと大きい言語モデルの間の推論能力のアライメントは、主にスーパーバイザード・ファイン・チューニング(SFT)を通して行われる。そこで本研究では,より小さな言語モデルを用いて自己定義する自己記述型指導手法を提案する。コモンセンスと数学の推論タスクで得られた結果は、このアプローチがドメイン内とドメイン外の両方のシナリオでインストラクションチューニングを著しく上回っていることを示している。
論文参考訳（メタデータ） (2024-05-01T09:10:27Z)
Towards Optimal Learning of Language Models [124.65669486710992]
言語モデル(LM)の最適学習の理論を提案する。我々は、最適学習過程における力学の性質を明らかにするために、学習法則という定理を導出した。我々は、LMの最適学習が、LMのスケーリング法則における係数の改善に起因することを実証的に検証した。
論文参考訳（メタデータ） (2024-02-27T18:52:19Z)
Retrieval-based Knowledge Transfer: An Effective Approach for Extreme Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文参考訳（メタデータ） (2023-10-24T07:58:20Z)
Faithful Explanations of Black-box NLP Models Using LLM-generated Counterfactuals [67.64770842323966]
NLPシステムの予測に関する因果的説明は、安全性を確保し、信頼を確立するために不可欠である。既存の手法は、しばしばモデル予測を効果的または効率的に説明できない。本稿では, 対物近似(CF)の2つの手法を提案する。
論文参考訳（メタデータ） (2023-10-01T07:31:04Z)
Evaluating and Explaining Large Language Models for Code Using Syntactic Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文参考訳（メタデータ） (2023-08-07T18:50:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

論文の概要: Reinforced Large Language Model is a formal theorem prover

関連論文リスト