論文の概要: Reinforced Context Order Recovery for Adaptive Reasoning and Planning
- arxiv url: http://arxiv.org/abs/2508.13070v1
- Date: Mon, 18 Aug 2025 16:42:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.488634
- Title: Reinforced Context Order Recovery for Adaptive Reasoning and Planning
- Title(参考訳): 適応推論と計画のための強化文脈秩序回復
- Authors: Long Ma, Fangwei Zhong, Yizhou Wang,
- Abstract要約: 現在の因果関係と拡散モデルでは、適応的なトークン生成順序を必要とする問題で難題に遭遇する。
適応型・データ依存型トークン生成順序を抽出する強化学習ベースのフレームワークであるReinforced Context Order Recovery (ReCOR)を提案する。
- 参考スコア(独自算出の注目度): 23.229513376337607
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Modern causal language models, followed by rapid developments in discrete diffusion models, can now produce a wide variety of interesting and useful content. However, these families of models are predominantly trained to output tokens with a fixed (left-to-right) or random order, which may deviate from the logical order in which tokens are generated originally. In this paper, we observe that current causal and diffusion models encounter difficulties in problems that require adaptive token generation orders to solve tractably, which we characterize with the $\mathcal{V}$-information framework. Motivated by this, we propose Reinforced Context Order Recovery (ReCOR), a reinforcement-learning-based framework to extract adaptive, data-dependent token generation orders from text data without annotations. Self-supervised by token prediction statistics, ReCOR estimates the hardness of predicting every unfilled token and adaptively selects the next token during both training and inference. Experiments on challenging reasoning and planning datasets demonstrate the superior performance of ReCOR compared with baselines, sometimes outperforming oracle models supervised with the ground-truth order.
- Abstract(参考訳): 現代の因果言語モデルは、離散拡散モデルにおける急速な発展に続き、様々な興味深く有用なコンテンツを生み出すことができる。
しかしながら、これらのモデルの族は、主に固定された(左から右)またはランダムな順序でトークンを出力するよう訓練されており、トークンが最初に生成される論理的な順序から逸脱する可能性がある。
本稿では,現在の因果関係モデルと拡散モデルが,適応トークン生成命令を強制的に解くことを必要とする問題において困難に直面することを観察し,これを$\mathcal{V}$-information frameworkで特徴づける。
アノテーションを使わずにテキストデータから適応的・データ依存トークン生成命令を抽出する強化学習ベースのフレームワークであるReinforced Context Order Recovery (ReCOR)を提案する。
ReCORはトークン予測統計によって自己監督され、未満たのトークンを予測し、トレーニングと推論の両方の間、次のトークンを適応的に選択する難しさを推定する。
挑戦的推論と計画データセットの実験は、ベースラインと比較してReCORの優れた性能を示し、時には、地上構造順に教師されるオラクルモデルよりも優れている。
関連論文リスト
- Predicting Through Generation: Why Generation Is Better for Prediction [10.098410272203301]
本稿では,トークンレベルの生成が相互情報を保持するため,予測タスクにプール表現を使用するよりも,出力トークンの生成の方が効果的であると主張している。
PredGenは、(i)露光バイアスを減らすためにスケジュールサンプリングを使用するエンド・ツー・エンドのフレームワークで、(ii)生成されたトークンを構造化された出力に変換するタスクアダプタを導入します。
以上の結果から,PredGenは標準ベースラインを一貫して上回り,構造化予測タスクの有効性を示した。
論文 参考訳(メタデータ) (2025-02-25T03:48:19Z) - Bridging the Training-Inference Gap in LLMs by Leveraging Self-Generated Tokens [45.745443096804586]
言語モデルは、トレーニングデータセットで過去のトークンが与えられた次のトークンの可能性を最大化するためにしばしば訓練される。
推論時間の間は、前述したトークンを入力として次のトークンを予測することによって、テキストを逐次かつ自動回帰的に生成する。
本稿では、モデル自己生成に基づく2つの簡単なアプローチを提案し、この訓練時間と推論時間との相違に対処する。
論文 参考訳(メタデータ) (2024-10-18T17:48:27Z) - Non-autoregressive Sequence-to-Sequence Vision-Language Models [59.445765313094434]
本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。
このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
論文 参考訳(メタデータ) (2024-03-04T17:34:59Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Tokenization Consistency Matters for Generative Models on Extractive NLP
Tasks [54.306234256074255]
生成モデルの訓練において一般的に無視されるトークン化の不整合の問題を特定する。
この問題は、入力と出力が無矛盾にトークン化されると、これらのタスクの抽出特性を損なう。
一貫性のあるトークン化では、ドメイン内のデータセットとドメイン外のデータセットの両方で、モデルのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2022-12-19T23:33:21Z) - COINS: Dynamically Generating COntextualized Inference Rules for
Narrative Story Completion [16.676036625561057]
我々は、文脈文を反復的に読み出し、文脈化された推論規則を生成し、それらを符号化し、タスク固有の出力生成をガイドするフレームワークであるCOINSを提案する。
繰り返しモデルで推論と文生成のステップをモジュール化することにより、推論のステップとその次の文生成に対する影響を透過的にすることを目指す。
自動的および手動的評価は、特にコヒーレンスの観点から、SOTAベースラインよりも優れたストーリー文を生成することを示す。
論文 参考訳(メタデータ) (2021-06-04T14:06:33Z) - ReClor: A Reading Comprehension Dataset Requiring Logical Reasoning [85.33459673197149]
標準化された大学院受験試験から抽出した論理的推論(ReClor)を必要とする新たな読解データセットを提案する。
本稿では、偏りのあるデータポイントを識別し、それらをEASY集合と残りをHARD集合に分離することを提案する。
実験結果によると、最先端のモデルでは、データセットに含まれるバイアスをEASYセット上で高精度にキャプチャする能力に優れていた。
しかし、彼らはランダムな推測に近い性能のHARDセットに苦慮しており、現在のモデルの論理的推論能力を本質的に向上させるためには、より多くの研究が必要であることを示している。
論文 参考訳(メタデータ) (2020-02-11T11:54:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。