論文の概要: LEDOM: An Open and Fundamental Reverse Language Model
- arxiv url: http://arxiv.org/abs/2507.01335v1
- Date: Wed, 02 Jul 2025 03:52:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.038434
- Title: LEDOM: An Open and Fundamental Reverse Language Model
- Title(参考訳): LEDOM: オープンで基本的なリバース言語モデル
- Authors: Xunjian Yin, Sitao Cheng, Yuxi Xie, Xinyu Hu, Li Lin, Xinyi Wang, Liangming Pan, William Yang Wang, Xiaojun Wan,
- Abstract要約: 最初の純粋逆言語モデルであるLEDOMを導入し,2Bおよび7Bパラメータの435Bトークンに対して自己回帰訓練を行った。
本稿では, 一般的なタスクにまたがる基盤モデルとして, 興味深い事例と洞察のセットを伴って, 逆言語モデルを提示する。
LEDOMをベースにした新しいアプリケーションであるReverse Rewardを紹介します。
- 参考スコア(独自算出の注目度): 100.50724471864775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce LEDOM, the first purely reverse language model, trained autoregressively on 435B tokens with 2B and 7B parameter variants, which processes sequences in reverse temporal order through previous token prediction. For the first time, we present the reverse language model as a potential foundational model across general tasks, accompanied by a set of intriguing examples and insights. Based on LEDOM, we further introduce a novel application: Reverse Reward, where LEDOM-guided reranking of forward language model outputs leads to substantial performance improvements on mathematical reasoning tasks. This approach leverages LEDOM's unique backward reasoning capability to refine generation quality through posterior evaluation. Our findings suggest that LEDOM exhibits unique characteristics with broad application potential. We will release all models, training code, and pre-training data to facilitate future research.
- Abstract(参考訳): 2B と 7B のパラメータ変異を持つ 435B トークン上で自己回帰的にトレーニングされた,最初の純粋逆言語モデルである LEDOM を導入する。
一般タスクをまたいだ潜在的な基礎モデルとして、初めてリバース言語モデルを提示し、興味深い例と洞察のセットを添える。
リバース・リワード(Reverse Reward)では, LEDOMによる前方言語モデル出力の再ランク付けにより, 数学的推論タスクの性能が大幅に向上する。
このアプローチでは、LEDOMの独自の後方推論機能を活用して、後続評価を通じて生成品質を向上する。
この結果から,LEDOMは幅広い応用可能性を持つ特異な特性を示すことが示唆された。
将来の研究を促進するために、すべてのモデル、トレーニングコード、事前トレーニングデータをリリースします。
関連論文リスト
- OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。
本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。
OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - AlphaMaze: Enhancing Large Language Models' Spatial Intelligence via GRPO [0.0]
大きな言語モデル(LLM)は、言語処理において印象的な能力を示してきたが、視覚的な空間的推論を必要とするタスクにしばしば苦労している。
迷路ナビゲーションのための視覚的推論能力を備えた標準LLMの2段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-20T16:05:18Z) - Large Language Diffusion Models [77.02553707673418]
自己回帰モデル(ARM)は、大規模言語モデル(LLM)の基盤として広く見なされている。
我々は,事前学習および教師付き微調整パラダイムの下で,ゼロから学習した拡散モデルであるLLaDAを紹介する。
広範なベンチマークを通じて、LLaDAは強力なスケーラビリティを示し、自己構築されたARMベースラインを上回っています。
論文 参考訳(メタデータ) (2025-02-14T08:23:51Z) - Model Extrapolation Expedites Alignment [135.12769233630362]
本研究では,人選好によるアライメントトレーニングを迅速化するExPOという手法を提案する。
我々は、ExPOがトレーニングされたDPOモデルを20%のステップで強化し、完全に訓練されたモデルを上回ることを実証した。
ExPO は AlpacaEval 2.0 と MT-Bench ベンチマークにおいて,既存のオープンソース LLM を特に改善している。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - Structured Thoughts Automaton: First Formalized Execution Model for
Auto-Regressive Language Models [0.0]
我々は,信頼性の高い検査可能な実行モデルを構築するために,LMの予測をサンプリングする新しいアルゴリズムを提案する。
この実行モデルに「認知プログラム」を書くための低レベル言語を導入する。
論文 参考訳(メタデータ) (2023-06-16T22:04:50Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。