論文の概要: Think-While-Generating: On-the-Fly Reasoning for Personalized Long-Form Generation
- arxiv url: http://arxiv.org/abs/2512.06690v1
- Date: Sun, 07 Dec 2025 06:49:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.470869
- Title: Think-While-Generating: On-the-Fly Reasoning for Personalized Long-Form Generation
- Title(参考訳): Think-While-Generating:Personalized Long-Form GenerationのためのOn-Fly Reasoning
- Authors: Chengbing Wang, Yang Zhang, Wenjie Wang, Xiaoyan Zhao, Fuli Feng, Xiangnan He, Tat-Seng Chua,
- Abstract要約: FlyThinkerは、パーソナライズされたロングフォーム・ジェネレーションのための効率的な「思考時生成」フレームワークである。
FlyThinkerは、遅延トークンレベルの推論を並列に生成する別の推論モデルを採用し、反応生成を動的に導くために生成モデルに融合する。
実世界のベンチマークの実験では、FlyThinkerはトレーニングと推論の効率を維持しながら、よりパーソナライズされた生成を実現している。
- 参考スコア(独自算出の注目度): 91.94112924753445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preference alignment has enabled large language models (LLMs) to better reflect human expectations, but current methods mostly optimize for population-level preferences, overlooking individual users. Personalization is essential, yet early approaches-such as prompt customization or fine-tuning-struggle to reason over implicit preferences, limiting real-world effectiveness. Recent "think-then-generate" methods address this by reasoning before response generation. However, they face challenges in long-form generation: their static one-shot reasoning must capture all relevant information for the full response generation, making learning difficult and limiting adaptability to evolving content. To address this issue, we propose FlyThinker, an efficient "think-while-generating" framework for personalized long-form generation. FlyThinker employs a separate reasoning model that generates latent token-level reasoning in parallel, which is fused into the generation model to dynamically guide response generation. This design enables reasoning and generation to run concurrently, ensuring inference efficiency. In addition, the reasoning model is designed to depend only on previous responses rather than its own prior outputs, which preserves training parallelism across different positions-allowing all reasoning tokens for training data to be produced in a single forward pass like standard LLM training, ensuring training efficiency. Extensive experiments on real-world benchmarks demonstrate that FlyThinker achieves better personalized generation while keeping training and inference efficiency.
- Abstract(参考訳): 優先順位アライメントにより、大きな言語モデル(LLM)は人間の期待をよりよく反映することができるが、現在の手法は主に人口レベルの嗜好を最適化し、個々のユーザーを見渡せるようにしている。
パーソナライズ(パーソナライズ)は不可欠だが、初期のアプローチでは、暗黙の選好を優先し、現実世界の有効性を制限するために、迅速なカスタマイズや微調整ストルグルといったアプローチが不可欠である。
最近の「シンプソン・ジェネレーション」手法は、応答生成前の推論によってこの問題に対処している。
静的なワンショット推論は、完全なレスポンス生成に必要なすべての関連情報をキャプチャしなければなりません。
この問題を解決するためにFlyThinkerを提案する。FlyThinkerは、パーソナライズされたロングフォーム生成のための効率的な"思考時生成"フレームワークである。
FlyThinkerは、遅延トークンレベルの推論を並列に生成する別の推論モデルを採用し、反応生成を動的に導くために生成モデルに融合する。
この設計は推論と生成を同時に実行し、推論効率を保証します。
さらに、推論モデルは、従来の出力ではなく、以前の応答にのみ依存するように設計されており、異なる位置にわたる訓練の並列性を維持する。
実世界のベンチマークに関する大規模な実験は、FlyThinkerがトレーニングと推論の効率を維持しながら、パーソナライズされた生成を改善することを実証している。
関連論文リスト
- Hybrid Training for Vision-Language-Action Models [10.451756630631609]
本稿では,視覚言語モデルを用いて思考から学習し,関連するパフォーマンス向上の恩恵を受けることができるフレームワークを提案する。
多様な出力のセットを条件付きで予測することを学ぶことで、HyTは推論時の柔軟性をサポートし、モデルが直接アクションを予測するか、思考を生成するか、指示に従うことができる。
論文 参考訳(メタデータ) (2025-10-01T07:27:15Z) - Personalized Reasoning: Just-In-Time Personalization and Why LLMs Fail At It [81.50711040539566]
現在の大規模言語モデル(LLM)開発は、タスク解決と優先順位調整を別の課題として扱う。
静的ベンチマークを対話型パーソナライズタスクに変換する評価手法であるPreFDISCOを紹介する。
我々のフレームワークは、ユーザコンテキストに応じて、同じ質問が異なる推論チェーンを必要とするシナリオを作成します。
論文 参考訳(メタデータ) (2025-09-30T18:55:28Z) - Generate, Discriminate, Evolve: Enhancing Context Faithfulness via Fine-Grained Sentence-Level Self-Evolution [61.80716438091887]
GenDiE (Generate, Discriminate, Evolve) は、微粒な文レベルの最適化によって文脈忠実性を高める新しい自己進化フレームワークである。
応答中の各文を独立した最適化単位として扱うことで、GenDiEは以前のアプローチの限界に効果的に対処する。
ASQA(ドメイン内のLFQA)とConFiQAデータセットの実験は、GenDiEが忠実さと正しさの両方で様々なベースラインを超えることを示した。
論文 参考訳(メタデータ) (2025-03-03T16:08:33Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [75.1351701045874]
Best-of-N selectionは、Large Language Models(LLMs)の推論性能を改善するための重要なテクニックである。
本稿では, LLM出力の固有確率分布を利用して, 外部報酬モデルを必要としない応答品質を推定する, 新規で効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - Efficient Response Generation Strategy Selection for Fine-Tuning Large Language Models Through Self-Aligned Perplexity [29.665161650753742]
細調整された大言語モデル(LLM)は、通常、大量の入出力ペアを生成することに依存する。
近年の研究では、これらのトレーニングアウトプットの生成が微調整モデルの性能に大きく影響を与えることが示されている。
本稿では,特定の目標LLMに対する適合性を推定するために,生成したデータの小さなサブセットを評価する,スケーラブルな近似手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T13:14:11Z) - Reasoning-Enhanced Self-Training for Long-Form Personalized Text Generation [38.36527758138711]
REST-PG(Reasoning-Enhanced Self-Training for Text Personalized Generation)は、応答生成中の個人データを推論するようにLCMをトレーニングするフレームワークである。
個人化された4つの長文テキスト生成タスクからなるLongLaMPベンチマークでREST-PGを評価した。
論文 参考訳(メタデータ) (2025-01-07T22:29:08Z) - Thinking LLMs: General Instruction Following with Thought Generation [56.30755438254918]
本稿では,人体データの追加を使わずに,そのような思考能力を持つ既存LLMの訓練方法を提案する。
各命令に対して、思考候補は判断モデルを用いて応答のみを評価し、好みの最適化によって最適化される。
この手法がAlpacaEvalやArena-Hardに優れたパフォーマンスをもたらすことを示すとともに,マーケティング,健康,一般知識といった非合理的なカテゴリーの考え方から得られる利益を示す。
論文 参考訳(メタデータ) (2024-10-14T15:38:56Z) - Aligning Large Language Models with Counterfactual DPO [1.8130068086063336]
本稿では,人的介入に頼らずにモデルスタイルを整列させる反事実的プロンプトの利用について検討する。
本研究では,この手法が望ましい行動を効果的に抑制し,望ましくない行動を緩和し,不適切な指示を無視するようモデルに促すことを実証する。
論文 参考訳(メタデータ) (2024-01-17T19:43:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。