論文の概要: Learning to Reason from Feedback at Test-Time
- arxiv url: http://arxiv.org/abs/2502.15771v2
- Date: Thu, 29 May 2025 05:35:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 15:42:33.308188
- Title: Learning to Reason from Feedback at Test-Time
- Title(参考訳): テスト時間でのフィードバックから推論を学ぶ
- Authors: Yanyang Li, Michael Lyu, Liwei Wang,
- Abstract要約: 成功を得るためには、環境とフィードバックとの反復的な相互作用がしばしば必要です。
既存のアプローチは、長さの一般化に苦しむか、事前情報を活用することなく、単純な再試行に依存している。
本稿では,テスト時の最適化問題としてフィードバック利用を定式化する新しいパラダイムであるFTTTを紹介する。
- 参考スコア(独自算出の注目度): 19.576076567451434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Solving complex tasks in a single attempt is challenging for large language models (LLMs). Iterative interaction with the environment and feedback is often required to achieve success, making effective feedback utilization a critical topic. Existing approaches either struggle with length generalization or rely on naive retries without leveraging prior information. In this paper, we introduce FTTT, a novel paradigm that formulates feedback utilization as an optimization problem at test time. Additionally, we propose a learnable test-time optimizer, OpTune, to effectively exploit feedback. Experiments on two LLMs across four reasoning datasets demonstrate that FTTT and OpTune achieve superior scalability and performance.
- Abstract(参考訳): ひとつの試みで複雑なタスクを解決することは、大きな言語モデル(LLM)では難しい。
環境とフィードバックとの反復的な相互作用は、しばしば成功するために必要であり、効果的なフィードバック利用が重要なトピックとなる。
既存のアプローチは、長さの一般化に苦しむか、事前情報を活用することなく、単純な再試行に依存している。
本稿では,テスト時の最適化問題としてフィードバック利用を定式化する新しいパラダイムであるFTTTを紹介する。
さらに,フィードバックを効果的に活用するために,学習可能なテストタイムオプティマイザであるOpsTuneを提案する。
4つの推論データセットにまたがる2つのLLM実験により、FTTTとOpTuneは優れたスケーラビリティと性能を実現することが示された。
関連論文リスト
- HF4Rec: Human-Like Feedback-Driven Optimization Framework for Explainable Recommendation [8.532115411106068]
提案する提案手法は,人為的なフィードバック駆動型最適化フレームワークである。
このフレームワークは、人中心で説明可能な要求を達成するために、高い労働コストを発生させることなく、動的にインタラクティブな最適化機構を使用する。
特に,大規模言語モデル(LLM)を人間のシミュレータとして利用して,学習プロセスの指針となる人間的なフィードバックを予測することを提案する。
論文 参考訳(メタデータ) (2025-04-19T02:46:10Z) - Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。
本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Adaptive Prompt: Unlocking the Power of Visual Prompt Tuning [27.703316805290843]
Visual Prompt Tuning (VPT)は、トレーニング済みの視覚モデルを下流タスクに適応するための強力な方法として登場した。
入力の適応関数としてプロンプトを再定義する新しい世代のプロンプトであるVisual Adaptive Prompt Tuning (VAPT)を提案する。
我々の理論解析は,VAPTが最適な試料効率を実現することを示す。
論文 参考訳(メタデータ) (2025-01-31T07:41:06Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - Improving the Validity of Automatically Generated Feedback via Reinforcement Learning [46.667783153759636]
強化学習(RL)を用いた正当性と整合性の両方を最適化するフィードバック生成フレームワークを提案する。
具体的には、直接選好最適化(DPO)によるトレーニングのための拡張データセットにおいて、GPT-4のアノテーションを使用してフィードバックペアよりも好みを生成する。
論文 参考訳(メタデータ) (2024-03-02T20:25:50Z) - Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。
我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。
このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文 参考訳(メタデータ) (2023-10-10T09:20:14Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - Improving Language Models via Plug-and-Play Retrieval Feedback [42.786225163763376]
大規模言語モデル(LLM)は、様々なNLPタスクで顕著なパフォーマンスを示す。
彼らはしばしば誤った情報や幻覚的な情報を生成し、現実のシナリオにおける現実的な適用を妨げます。
ReFeedは,プラグイン・アンド・プレイフレームワークにおける自動検索フィードバックを提供することにより,LLMの強化を目的とした新しいパイプラインである。
論文 参考訳(メタデータ) (2023-05-23T12:29:44Z) - How Does In-Context Learning Help Prompt Tuning? [55.78535874154915]
微調整された大きな言語モデルは、急速に拡大するスケールのために、ますます実用的ではないものになりつつある。
これはプロンプトチューニング(PT)のようなパラメータ効率のよい適応手法の使用を動機付け、凍ったモデルに少数のチューナブルな埋め込みを追加する。
近年,Singhalら (2022) はPTとICLを組み合わせた命令プロンプトチューニング (IPT) を提案している。
論文 参考訳(メタデータ) (2023-02-22T17:45:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。