Fugu-MT 論文翻訳(概要): Learning to Reason from Feedback at Test-Time

論文の概要: Learning to Reason from Feedback at Test-Time

arxiv url: http://arxiv.org/abs/2502.15771v1
Date: Sun, 16 Feb 2025 11:05:27 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 22:36:55.7416
Title: Learning to Reason from Feedback at Test-Time
Title（参考訳）: テスト時間でのフィードバックから推論を学ぶ
Authors: Yanyang Li, Michael Lyu, Liwei Wang,
Abstract要約: 成功を得るためには、環境とフィードバックとの反復的な相互作用がしばしば必要です。既存のアプローチは、長さの一般化に苦しむか、事前情報を活用することなく、単純な再試行に依存している。本稿では,テスト時の最適化問題としてフィードバック利用を定式化する新しいパラダイムであるFTTTを紹介する。
参考スコア（独自算出の注目度）: 19.576076567451434
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Solving complex tasks in a single attempt is challenging for large language models (LLMs). Iterative interaction with the environment and feedback is often required to achieve success, making effective feedback utilization a critical topic. Existing approaches either struggle with length generalization or rely on naive retries without leveraging prior information. In this paper, we introduce FTTT, a novel paradigm that formulates feedback utilization as an optimization problem at test time. Additionally, we propose a learnable test-time optimizer, OpTune, to effectively exploit feedback. Experiments on two LLMs across four reasoning datasets demonstrate that FTTT and OpTune achieve superior scalability and performance.
Abstract（参考訳）: ひとつの試みで複雑なタスクを解決することは、大きな言語モデル(LLM)では難しい。環境とフィードバックとの反復的な相互作用は、しばしば成功するために必要であり、効果的なフィードバック利用が重要なトピックとなる。既存のアプローチは、長さの一般化に苦しむか、事前情報を活用することなく、単純な再試行に依存している。本稿では,テスト時の最適化問題としてフィードバック利用を定式化する新しいパラダイムであるFTTTを紹介する。さらに,フィードバックを効果的に活用するために,学習可能なテストタイムオプティマイザであるOpsTuneを提案する。 4つの推論データセットにまたがる2つのLLM実験により、FTTTとOpTuneは優れたスケーラビリティと性能を実現することが示された。

関連論文リスト

Expanding the Capabilities of Reinforcement Learning via Text Feedback [49.561885700139676]
テキストフィードバックをトレーニング中に利用できるが、推論では利用できないマルチターンRLセットアップであるテキストフィードバック(RLTF)を形式化する。そこで本研究では, 自己蒸留法(RLTF-SD)と, フィードバック条件付き第2ターン世代に適合するように単一ターンポリシーを訓練するフィードバックモデリング法(RLTF-FM)の2つの手法を提案する。以上の結果から,両手法はベンチマークにおいて強いベースラインを一貫して上回っていることが明らかとなった。
論文参考訳（メタデータ） (2026-02-02T18:56:56Z)
TACO: Think-Answer Consistency for Optimized Long-Chain Reasoning and Efficient Data Learning via Reinforcement Learning in LVLMs [50.820065021136024]
DeepSeek R1には、大規模言語モデル(LLM)のためのかなり高度な複雑な推論がある。最近の手法は、R1の推論能力をマルチモーダルな設定で再現しようと試みている。視覚推論のための新しい強化学習アルゴリズムTACOを提案する。
論文参考訳（メタデータ） (2025-05-27T06:30:48Z)
HF4Rec: Human-Like Feedback-Driven Optimization Framework for Explainable Recommendation [8.532115411106068]
提案する提案手法は,人為的なフィードバック駆動型最適化フレームワークである。このフレームワークは、人中心で説明可能な要求を達成するために、高い労働コストを発生させることなく、動的にインタラクティブな最適化機構を使用する。特に,大規模言語モデル(LLM)を人間のシミュレータとして利用して,学習プロセスの指針となる人間的なフィードバックを予測することを提案する。
論文参考訳（メタデータ） (2025-04-19T02:46:10Z)
Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
Adaptive Prompt: Unlocking the Power of Visual Prompt Tuning [27.703316805290843]
Visual Prompt Tuning (VPT)は、トレーニング済みの視覚モデルを下流タスクに適応するための強力な方法として登場した。入力の適応関数としてプロンプトを再定義する新しい世代のプロンプトであるVisual Adaptive Prompt Tuning (VAPT)を提案する。我々の理論解析は,VAPTが最適な試料効率を実現することを示す。
論文参考訳（メタデータ） (2025-01-31T07:41:06Z)
A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文参考訳（メタデータ） (2024-12-18T15:38:39Z)
In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-04T03:39:28Z)
Improving the Validity of Automatically Generated Feedback via Reinforcement Learning [46.667783153759636]
強化学習(RL)を用いた正当性と整合性の両方を最適化するフィードバック生成フレームワークを提案する。具体的には、直接選好最適化(DPO)によるトレーニングのための拡張データセットにおいて、GPT-4のアノテーションを使用してフィードバックペアよりも好みを生成する。
論文参考訳（メタデータ） (2024-03-02T20:25:50Z)
Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文参考訳（メタデータ） (2023-10-10T09:20:14Z)
UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文参考訳（メタデータ） (2023-10-02T17:40:01Z)
Query-Dependent Prompt Evaluation and Optimization with Offline Inverse RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。このような最適化では、以前見過ごされたクエリ依存の目的を特定します。本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文参考訳（メタデータ） (2023-09-13T01:12:52Z)
Improving Language Models via Plug-and-Play Retrieval Feedback [42.786225163763376]
大規模言語モデル(LLM)は、様々なNLPタスクで顕著なパフォーマンスを示す。彼らはしばしば誤った情報や幻覚的な情報を生成し、現実のシナリオにおける現実的な適用を妨げます。 ReFeedは,プラグイン・アンド・プレイフレームワークにおける自動検索フィードバックを提供することにより,LLMの強化を目的とした新しいパイプラインである。
論文参考訳（メタデータ） (2023-05-23T12:29:44Z)
How Does In-Context Learning Help Prompt Tuning? [55.78535874154915]
微調整された大きな言語モデルは、急速に拡大するスケールのために、ますます実用的ではないものになりつつある。これはプロンプトチューニング(PT)のようなパラメータ効率のよい適応手法の使用を動機付け、凍ったモデルに少数のチューナブルな埋め込みを追加する。近年,Singhalら (2022) はPTとICLを組み合わせた命令プロンプトチューニング (IPT) を提案している。
論文参考訳（メタデータ） (2023-02-22T17:45:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。