論文の概要: Recon: Reconstruction-Guided Reasoning Synthesis for User Modeling
- arxiv url: http://arxiv.org/abs/2605.26969v1
- Date: Tue, 26 May 2026 12:55:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.16699
- Title: Recon: Reconstruction-Guided Reasoning Synthesis for User Modeling
- Title(参考訳): Recon: ユーザモデリングのための再構成誘導推論合成
- Authors: Alan Zhu, Mihran Miroyan, Carolyn Wang, Andrew Zhou, Lisa Dunlap, Narges Norouzi, Joseph E. Gonzalez,
- Abstract要約: 本稿では、行動再構成を用いて、その予測力による推論トレースをスコアリングするReconを提案する。
モデル間におけるRecon-synthesized reasoning(Recon-synthesized reasoning)の伝達について述べる。
- 参考スコア(独自算出の注目度): 30.893319122518587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: User modeling aims to use language models (LMs) to mimic an individual's behavior from a corpus of past context-action pairs (e.g., conversation turns), enabling the simulation of users in settings like behavioral science, human-AI collaboration, and market research. Recent approaches augment these corpora with synthesized reasoning traces, typically generated by conditioning on both context and action. However, such conditioning constitutes post-hoc rationalization rather than reasoning: the trace is guaranteed to justify the action, but may not encode the underlying latent causal decision paths. We propose Recon, which uses action reconstruction to score reasoning traces by their predictive power: given a context and candidate reasoning, a reconstruction model predicts the action, and reconstruction fidelity determines reasoning quality. Across four domains, Recon achieves a 54.7% win rate over Backward Synthesis, a standard post-hoc rationalization baseline. Further, we find that training a reasoning synthesis model with rewards derived from Recon improves downstream user modeling performance, achieving a win rate of up to 70.0% over baselines. We further show that Recon-synthesized reasoning transfers across models, and improves user modeling beyond the reconstruction model. Our work demonstrates that post-hoc rationalization is insufficient for reasoning synthesis, and that useful and interpretable reasoning should naturally elicit the action from the context.
- Abstract(参考訳): ユーザモデリングは、過去のコンテキスト-アクションペア(例えば会話のターン)のコーパスから個人の振る舞いを模倣するために言語モデル(LM)を使用することを目的としている。
近年のアプローチでは、これらのコーパスを合成された推論トレースで強化し、典型的には文脈と行動の条件付けによって生成される。
しかし、そのような条件付けは、推論よりもむしろポストホック合理化を構成する: トレースはアクションを正当化することが保証されるが、根底にある潜在因果決定経路を符号化しないかもしれない。
提案するReconは,行動再構成を用いて,行動の質を予測し,行動の質を推定する。
4つの領域にわたって、Reconは標準のポストホック合理化基準である後方合成よりも54.7%の勝利率を達成した。
さらに,Reconから得られる報酬を用いた推論合成モデルのトレーニングにより,ダウンストリームのユーザモデリング性能が向上し,ベースライン上で最大70.0%の勝利率が得られることがわかった。
さらに,Recon-synthesized reasoning transfers across model, and improveing user modeling beyond the reconstruction model。
我々の研究は、ポストホック合理化は合成の推論に不十分であり、有用で解釈可能な推論は自然に文脈から行動を引き出すべきであることを示した。
関連論文リスト
- RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time [51.256131853751754]
本研究では,多次元的批判を明示的に生成するために報酬モデルを教えることで,受動的評価器から能動的最適化ツールへ変換することを示す。
提案手法では, 嗜好データから高品質な論理を復元する原理的フレームワークであるpreference-Anchored Rationalization (PARROT) を導入する。
その結果、RationalRewards (8B) は、オープンソース報酬モデル間の最先端の好み予測を実現する。
論文 参考訳(メタデータ) (2026-04-13T15:38:09Z) - ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal Generation [79.17352367219736]
ROVERは1つのモダリティを使用して、もう1つの出力を誘導、検証、精査する。
ROVERは、相互モーダルな推論を明示的にターゲットとする、人間による注釈付きベンチマークである。
論文 参考訳(メタデータ) (2025-11-03T02:27:46Z) - OpenRubrics: Towards Scalable Synthetic Rubric Generation for Reward Modeling and LLM Alignment [38.1645520104553]
OpenRubricsは,ルーブリック世代とルーブリックベースの報酬モデルをトレーニングするための,大規模な(プロンプト,エクスプリシット)ペアのコレクションである。
識別的・包括的評価信号を引き出すために,優先的・拒否的な応答を対比することにより,厳格な規則(単純質)と原則(簡易品質)の両方を導出するコントラスト生成(CRG)を導入する。
この結果から,ごみは費用対人評価と自動報酬モデリングのギャップを狭めるような,スケーラブルなアライメント信号を提供することがわかった。
論文 参考訳(メタデータ) (2025-10-09T03:31:26Z) - Controlled Agentic Planning & Reasoning for Mechanism Synthesis [18.8323743697237]
本研究は、自動平面機構合成のための二重エージェントアクラムに基づく推論フレームワークを提案する。
自然言語によるタスク記述から、システムはシンボリック制約と方程式を構成し、シミュレーションコードを生成し、パラメタライズし、批判駆動のフィードバックを通じて設計を反復的に洗練する。
論文 参考訳(メタデータ) (2025-05-23T08:16:32Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - SocREval: Large Language Models with the Socratic Method for Reference-Free Reasoning Evaluation [78.23119125463964]
我々は,参照フリー推論評価における新規な設計手法であるSocREvalを開発した。
SocREvalはGPT-4の性能を大幅に改善し、既存の参照フリーおよび参照ベース推論評価指標を上回っている。
論文 参考訳(メタデータ) (2023-09-29T18:25:46Z) - Rethinking Coherence Modeling: Synthetic vs. Downstream Tasks [15.044192886215887]
コヒーレンスモデルは一般的に、下流のアプリケーションでの性能を表すものではない合成タスクでのみ評価される。
我々は、合成文順序付けタスクにおいて、よく知られた従来型およびニューラルコヒーレンスモデルのベンチマーク実験を行う。
本結果は,合成作業におけるモデル性能と下流アプリケーションとの相関関係が弱いことを示す。
論文 参考訳(メタデータ) (2020-04-30T08:00:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。