論文の概要: Review, Remask, Refine (R3): Process-Guided Block Diffusion for Text Generation
- arxiv url: http://arxiv.org/abs/2507.08018v1
- Date: Mon, 07 Jul 2025 21:18:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.094423
- Title: Review, Remask, Refine (R3): Process-Guided Block Diffusion for Text Generation
- Title(参考訳): レビュー, Remask, Refine (R3): テキスト生成のためのプロセスガイドブロック拡散
- Authors: Nikita Mounier, Parsa Idehpour,
- Abstract要約: 反復テキスト生成の鍵となる課題は、モデルが自身のエラーを効率的に識別し、修正できるようにすることである。
本稿では、追加のモデルトレーニングを必要としないフレームワークであるReview, Remask, Refine (R3)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key challenge for iterative text generation is enabling models to efficiently identify and correct their own errors. We propose Review, Remask, Refine (R3), a relatively simple yet elegant framework that requires no additional model training and can be applied to any pre-trained masked text diffusion model (e.g., LLaDA or BD3-LM). In R3, a Process Reward Model (PRM) is utilized for the Review of intermediate generated blocks. The framework then translates these PRM scores into a Remask strategy: the lower a block's PRM score, indicating potential mistakes, the greater the proportion of tokens within that block are remasked. Finally, the model is compelled to Refine these targeted segments, focusing its efforts more intensively on specific sub-optimal parts of past generations, leading to improved final output.
- Abstract(参考訳): 反復テキスト生成の重要な課題は、モデルが自身のエラーを効率的に識別し、修正できるようにすることである。
提案するReview, Remask, Refine (R3) は比較的シンプルでエレガントなフレームワークで,追加のモデルトレーニングを必要とせず,事前学習した任意のマスク付きテキスト拡散モデル(例: LLaDA, BD3-LM)に適用できる。
R3では、中間生成ブロックのレビューにプロセスリワードモデル(PRM)が使用される。
フレームワークはこれらのPRMスコアをRemaskの戦略に変換する: ブロックのPRMスコアが低いほど、潜在的なミスを示し、ブロック内のトークンの割合が大きくなる。
最後に、このモデルはこれらのセグメントを再定義し、過去の世代の特定の部分の最適化に集中させ、最終的な出力を改善する。
関連論文リスト
- Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である
本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文 参考訳(メタデータ) (2025-04-18T10:46:22Z) - ReARTeR: Retrieval-Augmented Reasoning with Trustworthy Process Rewarding [25.329712997545794]
ReARTeR(Retrieval-Augmented Reasoning)を提案する。
ReARTeRは、ポストトレーニングとテストタイムスケーリングを通じて、RAGシステムの推論能力を向上する。
マルチステップ推論ベンチマークの実験結果から,大幅な改善が示された。
論文 参考訳(メタデータ) (2025-01-14T05:56:26Z) - Segmenting Text and Learning Their Rewards for Improved RLHF in Language Model [96.20350225621813]
人間からのフィードバックからの強化学習(RLHF)は、言語モデル(LM)を人間の好みに合わせるために広く採用されている。
本稿では,セグメントレベルの報酬モデルを用いて,学習と活用の両面での優位性を追求する。
論文 参考訳(メタデータ) (2025-01-06T06:17:56Z) - MAgICoRe: Multi-Agent, Iterative, Coarse-to-Fine Refinement for Reasoning [60.55556283848063]
大規模言語モデル(LLM)推論は、テストタイムアグリゲーション戦略、すなわち、複数のサンプルを生成し、生成されたサンプル間で投票することで改善することができる。
Refinementは、LLM生成したフィードバックを使ってソリューションの品質を改善する方法を提供する。
本稿では,問題の難易度を,難易度や難易度に分類することで,過度な改善を回避するMagICoReを提案する。
論文 参考訳(メタデータ) (2024-09-18T17:12:41Z) - Sequence to Sequence Reward Modeling: Improving RLHF by Language Feedback [8.601283886845664]
人間のフィードバック(RLHF)からの強化学習は、大規模言語モデル(LLM)と人間の意図と価値を一致させる。
その効果と人気にもかかわらず、RLHFは局所最適化に偏っている。
本稿では,新しいテキストシーケンス・ツー・シーケンス(seq2seq)報酬モデリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T16:14:35Z) - MaFeRw: Query Rewriting with Multi-Aspect Feedbacks for Retrieval-Augmented Large Language Models [22.50450558103786]
現実世界のRAGシステムでは、現在のクエリは会話コンテキストからの音声楕円とあいまいな参照を含むことが多い。
本稿では,検索プロセスと生成結果の両方からマルチアスペクトフィードバックを統合することにより,RAG性能を向上させる新しいクエリ書き換え手法MaFeRwを提案する。
2つの対話型RAGデータセットの実験結果から、MaFeRwはベースラインよりも優れた生成指標と安定したトレーニングを達成できることが示された。
論文 参考訳(メタデータ) (2024-08-30T07:57:30Z) - Learning to Refine with Fine-Grained Natural Language Feedback [81.70313509881315]
我々は,3つの異なるLLM能力の構成要素として,フィードバックによる洗練を検討することを提案する。
提案手法の鍵となる特性は,ステップ2の批判モデルがエラーに対してきめ細かいフィードバックを与えることができる点である。
文書基盤要約の事実整合性を改善する作業において,異なる機能モデルがDCRによる精細化の恩恵を受けることを示す。
論文 参考訳(メタデータ) (2024-07-02T16:15:01Z) - Continual Referring Expression Comprehension via Dual Modular
Memorization [133.46886428655426]
Referring Expression (REC) は、自然言語で記述された対象のイメージ領域をローカライズすることを目的としている。
既存のRECアルゴリズムは、モデルへのデータ供給のトレーニングを前もって行うと強く仮定する。
本稿では、入ってくるタスクのストリーム上でモデルが学習するRECの新しい設定である連続参照表現(CREC)を提案する。
学習済みの知識を忘れずに,スクラッチから繰り返し再学習することなく,逐次的タスクのモデルを継続的に改善するために,デュアルモジュール記憶法という効果的なベースライン手法を提案する。
論文 参考訳(メタデータ) (2023-11-25T02:58:51Z) - BASS: Block-wise Adaptation for Speech Summarization [47.518484305407185]
本研究では,非常に長い列の要約モデルを漸進的に訓練する手法を開発した。
音声要約はストリーミングプロセスとして実現され、各ブロック毎に仮説要約が更新される。
How2データセットの実験により、提案したブロックワイドトレーニング手法は、乱れた入力ベースライン上のROUGE-L上で絶対的に3ポイント向上することを示した。
論文 参考訳(メタデータ) (2023-07-17T03:31:36Z) - Mitigating the Learning Bias towards Repetition by Self-Contrastive
Training for Open-Ended Generation [92.42032403795879]
GPT2のような事前訓練された言語モデル(LM)は、繰り返しテキストを生成する傾向にあることを示す。
トークンレベルの反復確率の過大評価は学習バイアスに起因している。
LMは文レベルの繰り返しループの原因となる非繰り返しトークンよりも長い範囲依存を用いて繰り返しトークンを予測する。
論文 参考訳(メタデータ) (2023-07-04T07:53:55Z) - PLANNER: Generating Diversified Paragraph via Latent Language Diffusion Model [37.2192243883707]
本稿では,潜在意味の拡散と自己回帰生成を組み合わせ,流動的なテキストを生成するモデルであるPLANNERを提案する。
意味生成, テキスト補完, 要約の結果は, 高品質な長文を生成する上での有効性を示す。
論文 参考訳(メタデータ) (2023-06-05T01:36:39Z) - RDF-to-Text Generation with Reinforcement Learning Based Graph-augmented
Structural Neural Encoders [34.774049199809426]
本稿では, RDF三重項における局所構造情報と大域構造情報の両方を学習するために, 2つのグラフ拡張構造型ニューラルエンコーダを組み合わせたモデルを提案する。
テキストの忠実性をさらに向上するため,情報抽出に基づく強化学習報酬を革新的に導入する。
論文 参考訳(メタデータ) (2021-11-20T08:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。