論文の概要: Learning to Answer from Correct Demonstrations
- arxiv url: http://arxiv.org/abs/2510.15464v1
- Date: Fri, 17 Oct 2025 09:20:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.554799
- Title: Learning to Answer from Correct Demonstrations
- Title(参考訳): 正しい説明から答えることを学ぶ
- Authors: Nirmit Joshi, Gene Li, Siddharth Bhandari, Shiva Prasad Kasiviswanathan, Cong Ma, Nathan Srebro,
- Abstract要約: 質問(あるいはプロンプト)に対する回答(あるいは完了)を生成するための学習の課題について,複数の正しい回答が存在する可能性について検討する。
我々は,この問題を文脈的包帯におけるオフライン模倣学習として定式化し,いくつかの最適推定から実演する。
私たちの仕事は、正しいデモから学ぶとき、可能性以上のものを探します。
- 参考スコア(独自算出の注目度): 26.367368795756903
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We study the problem of learning to generate an answer (or completion) to a question (or prompt), where there could be multiple correct answers, any one of which is acceptable at test time. Learning is based on demonstrations of some correct answer to each training question, as in Supervised Fine Tuning (SFT). We formalize the problem as offline imitation learning in contextual bandits, with demonstrations from some optimal policy, without explicitly observed rewards. Prior work assumes that the demonstrator belongs to a low-complexity policy class, which motivates maximum likelihood estimation (i.e., log-loss minimization). In contrast, we propose relying only on the reward model (specifying which answers are correct) being in a low-cardinality class, which we argue is a weaker assumption. We show that likelihood maximization methods can fail in this case, and instead devise an alternative novel approach that learns with sample complexity logarithmic in the cardinality of the reward class. Our work motivates looking beyond likelihood maximization when learning from correct demonstrations.
- Abstract(参考訳): 質問(あるいはプロンプト)に対する回答(あるいは完了)を生成するための学習の問題について検討する。
学習は、SFT(Supervised Fine Tuning)のように、各トレーニング質問に対する正しい回答のデモに基づいている。
我々は,この問題を文脈的包帯におけるオフライン模倣学習として定式化し,与えられた報酬を明示的に観察することなく,最適な政策の実証を行った。
先行研究では、実証者は極大推定(すなわちログロス最小化)を動機付ける低複雑さポリシークラスに属すると仮定している。
対照的に、低心力クラスにある報酬モデル(どの答えが正しいかを指定する)にのみ依存することを提案するが、これはより弱い仮定である。
この場合、最大化法が失敗する可能性を示し、代わりに、報酬クラスの濃度において、サンプル複雑性対数で学習する新しいアプローチを考案する。
私たちの仕事は、正しいデモンストレーションから学ぶとき、最大限の最大化以上のものを探すモチベーションを与えます。
関連論文リスト
- Answer-Consistent Chain-of-thought Reinforcement Learning For Multi-modal Large Langauge Models [33.398631680508814]
本稿では,GRPOアルゴリズムを補助的整合性チェックで修正するAnswer-Consistent Reinforcement Learningを提案する。
我々は、オリジナルとポストシャッフルの両方の回答が一致して正しい場合にのみ高い報酬を与える一貫性検証報酬を設計する。
我々は、ACREを挑戦的なビデオ推論ベンチマークとマルチモーダル数学推論ベンチマークで評価し、平均2.2%と1.5%の改善を達成した。
論文 参考訳(メタデータ) (2025-10-11T08:32:52Z) - What Can You Do When You Have Zero Rewards During RL? [3.0795668932789515]
結果に基づく報酬を伴う強化学習(RL)は、複雑な推論タスクにおいて大きな言語モデル(LLM)を改善するのに有効であることが証明されている。
本稿では,Bachmann et al. (2024) で導入されたグラフ検索タスクを通じて,このシナリオを検証し,望ましいコンポーネントを組み込んだ最近の手法を評価する。
トレーニングセットに簡単なサンプルを追加するという単純なデータ中心の介入によって、報酬のゼロから始まるにもかかわらず、モデルが最終的に元のハードタスクを解決できることが分かりました。
論文 参考訳(メタデータ) (2025-10-04T23:10:38Z) - The Majority is not always right: RL training for solution aggregation [53.1050856072799]
我々はアグリゲータモデルをトレーニングし、最終的な正解をレビューし、精査し、合成する。
重要な要素は、簡単なトレーニング例と厳しいトレーニング例のバランスを取ることだ。
我々の手法であるAggLMは、強いルールベースと報酬モデルベースラインの両方を上回ります。
論文 参考訳(メタデータ) (2025-09-08T16:39:38Z) - Q-Probe: A Lightweight Approach to Reward Maximization for Language Models [16.801981347658625]
本稿では,タスク固有報酬関数を最大化するために,事前学習言語モデルを適用するQ-probingという手法を提案する。
高いレベルでは、Q-probingは、微調整のようなより重いアプローチと、少ないショットプロンプトのようなより軽いアプローチの間に位置する。
論文 参考訳(メタデータ) (2024-02-22T16:43:16Z) - Increasing Probability Mass on Answer Choices Does Not Always Improve
Accuracy [60.18632773935895]
同一の意味を持つ複数の曲面に確率質量を分散させることは、モデルの真の性能の過小評価を引き起こすと考えられている。
我々はSFCの数学的形式論を提案し、初めてその影響を定量化し、束縛することができる。
提案手法は,各回答選択の確率質量をaで増加させるという単純な方法であり,プロンプトに含め,bに含めた確率質量をbで増加させる手法である。
論文 参考訳(メタデータ) (2023-05-24T00:27:00Z) - Chaos is a Ladder: A New Theoretical Understanding of Contrastive
Learning via Augmentation Overlap [64.60460828425502]
コントラスト学習の下流性能に関する新たな保証を提案する。
我々の新しい理論は、攻撃的なデータ強化の下で、異なるクラス内サンプルのサポートがより重なり合うという知見に基づいている。
本稿では、下流の精度とよく一致した教師なしモデル選択距離ARCを提案する。
論文 参考訳(メタデータ) (2022-03-25T05:36:26Z) - Reinforcement Learning in Reward-Mixing MDPs [74.41782017817808]
報酬混合マルコフ決定過程(MDP)におけるエピソード強化学習
cdot S2 A2)$ episodes, where$H$ is time-horizon and $S, A$ are the number of state and actions。
epsilon$-optimal policy after $tildeO(poly(H,epsilon-1) cdot S2 A2)$ episodes, $H$ is time-horizon and $S, A$ are the number of state and actions。
論文 参考訳(メタデータ) (2021-10-07T18:55:49Z) - A Mutual Information Maximization Approach for the Spurious Solution
Problem in Weakly Supervised Question Answering [60.768146126094955]
弱々しい教師付き質問応答は通常、最終的な答えのみを監督信号として持つ。
偶然に正解を導出する刺激的な解が多数存在するかもしれないが、そのような解の訓練はモデルの性能を損なう可能性がある。
本稿では,質問応答対と予測解間の相互情報の最大化により,このような意味的相関を明示的に活用することを提案する。
論文 参考訳(メタデータ) (2021-06-14T05:47:41Z) - Replacing Rewards with Examples: Example-Based Policy Search via
Recursive Classification [133.20816939521941]
標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。
多くのシナリオでは、ユーザーはタスクを単語や数字で記述できないが、タスクが解決された場合の世界がどのように見えるかを簡単に示すことができる。
この観察に動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的としている。
論文 参考訳(メタデータ) (2021-03-23T16:19:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。