Fugu-MT 論文翻訳(概要): Teaching Models to Improve on Tape

論文の概要: Teaching Models to Improve on Tape

arxiv url: http://arxiv.org/abs/2411.01483v3
Date: Wed, 06 Nov 2024 17:04:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:43.7939
Title: Teaching Models to Improve on Tape
Title（参考訳）: テープ改善のためのモデル教育
Authors: Liat Bezalel, Eyal Orgad, Amir Globerson,
Abstract要約: 大きな言語モデル(LLM)は、特定の制約の下でコンテンツを生成するよう促されたときにしばしば苦労する。最近の研究によると、LLMはそのような「修正的フィードバック」の恩恵を受けることができる。本稿では,そのような報酬をモデルに教えるためのRLフレームワークを紹介し,その制約を満たす能力に応じてモデルに報酬を与える。
参考スコア（独自算出の注目度）: 30.330699770714165
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) often struggle when prompted to generate content under specific constraints. However, in such cases it is often easy to check whether these constraints are satisfied or violated. Recent works have shown that LLMs can benefit from such "corrective feedback". Here we claim that this skill of LLMs can be significantly enhanced via training. We introduce an RL framework for teaching models to use such rewards, by simulating interaction sessions, and rewarding the model according to its ability to satisfy the constraints. We refer to our method as CORGI (Controlled Generation with RL for Guided Interaction), and evaluate it on a variety of controlled generation tasks using unlabeled training data. We find that CORGI consistently outperforms the baseline reinforcement learning method that does not incorporate conversational feedback. Furthermore, CORGI's interactive framework enables meta-learning, allowing the LLM to generalize better to guided interaction in new tasks. Our results clearly show that conversational optimization, when combined with reinforcement learning, significantly improves the effectiveness of LLMs in controlled generation contexts.
Abstract（参考訳）: 大きな言語モデル(LLM)は、特定の制約の下でコンテンツを生成するよう促されたときにしばしば苦労する。しかし、そのような場合、これらの制約が満たされているか違反されているかを確認するのは容易であることが多い。近年の研究では、LLMはこのような「修正的フィードバック」の恩恵を受けることが示されている。ここでは、このLLMのスキルは、トレーニングによって大幅に向上できると主張している。本稿では,そのような報酬をモデルに教えるためのRLフレームワークを紹介し,その制約を満たす能力に応じてモデルに報酬を与える。我々は、CORGI(Controlled Generation with RL for Guided Interaction)と呼び、ラベルのないトレーニングデータを用いて、様々な制御された生成タスクで評価する。 CORGIは,会話フィードバックを組み込まないベースライン強化学習法よりも一貫して優れていることがわかった。さらに、CORGIのインタラクティブなフレームワークはメタラーニングを可能にし、LLMは新たなタスクにおけるガイド付きインタラクションをより一般化することができる。この結果から,LLMの制御環境における会話最適化と強化学習の併用により,LLMの有効性が著しく向上することが示唆された。

関連論文リスト

Memory-Based Advantage Shaping for LLM-Guided Reinforcement Learning [18.215893951726166]
スパースや遅延した報酬のある環境では、強化学習は高いサンプル複雑さを引き起こす。この制限は、大規模言語モデル(LLM)をサブゴール発見や軌道誘導に使う動機となった。 LLMガイダンスとエージェント自身のロールアウトの成功の両方から,サブゴールとトラジェクトリを符号化したメモリグラフを構築することで,これらの課題に対処する。
論文参考訳（メタデータ） (2026-02-20T01:44:35Z)
Scaling In-Context Online Learning Capability of LLMs via Cross-Episode Meta-RL [28.82521610729606]
大規模言語モデル(LLM)は、すべてのタスク関連情報が事前に利用できる場合、高いパフォーマンスを達成する。 ORBITはマルチタスク・マルチタスク・メタ強化学習フレームワークで,文脈におけるインタラクションから学習するためにLDMを訓練する。メタトレーニングの後、比較的小さなオープンソースモデル(Qwen3-14B)は、完全に見えない環境でコンテキスト内オンライン学習を大幅に改善することを示した。
論文参考訳（メタデータ） (2026-02-03T23:53:05Z)
Beyond Static LLM Policies: Imitation-Enhanced Reinforcement Learning for Recommendation [23.945049006150555]
大規模言語モデル(LLM)は、多様なデジタルプラットフォームにまたがってパーソナライズされたコンテンツを配信することによって、ユーザエンゲージメントを高める重要なツールとなっている。 LLMを主要なレコメンデーションポリシとして直接デプロイすることは、永続的なレイテンシの問題を含む、注目すべき課題を提示する。本稿では,LLM生成軌道からの模倣学習を利用した新しいオフライン強化学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-10-15T07:28:29Z)
What LLMs Miss in Recommendations: Bridging the Gap with Retrieval-Augmented Collaborative Signals [4.297070083645049]
ユーザとイテムのインタラクションには、多くの成功したレコメンデーションシステムのバックボーンを形成する、リッチなコラボレーティブなシグナルが含まれている。大規模言語モデル(LLM)がこの種類の協調的な情報を効果的に説明できるかどうかは不明だ。構造化された相互作用データにそれらの予測を基礎づけることによりLLMを強化する単純な検索拡張生成(RAG)手法を提案する。
論文参考訳（メタデータ） (2025-05-27T05:18:57Z)
Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL [62.984693936073974]
大きな言語モデル(LLM)は、質問応答や対話といったタスクに優れています。交渉や説得のような相互作用を必要とする複雑なタスクは、さらなる長期の推論と計画を必要とする。目的条件付き値関数を用いて LLM エージェントの推論を導出する手法を提案する。
論文参考訳（メタデータ） (2025-05-23T16:51:54Z)
Post-training an LLM for RAG? Train on Self-Generated Demonstrations [19.972220654354494]
大規模言語モデル(LLM)は知識集約型NLPタスクとしばしば競合する。検索拡張生成(RAG)は、モデルがコンテキスト内情報を利用することを可能にする。自己生成型実演を用いたRAG対応LDMの学習法を提案する。
論文参考訳（メタデータ） (2025-02-14T23:00:49Z)
The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文参考訳（メタデータ） (2025-01-15T10:57:55Z)
Real-Time Personalization for LLM-based Recommendation with Customized In-Context Learning [57.28766250993726]
この研究は、モデル更新なしに動的なユーザ関心に適応することを検討する。既存のLarge Language Model (LLM)ベースのレコメンダは、レコメンデーションチューニング中にコンテキスト内学習能力を失うことが多い。本稿では,レコメンデーション固有のインコンテキスト学習をリアルタイムレコメンデーションにカスタマイズするRecICLを提案する。
論文参考訳（メタデータ） (2024-10-30T15:48:36Z)
Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文参考訳（メタデータ） (2024-10-07T23:38:58Z)
LLMs Are In-Context Bandit Reinforcement Learners [30.192422586838997]
大規模言語モデル(LLMs)は、モデルコンテキストに注釈付きサンプルを追加することに依存する教師付き学習技術であるICL(In-context Learning)で優れている。そこで本研究では、教師付きデータではなく、外部報酬からオンラインのコンテキスト内学習を行うICRL(In-context reinforcement Learning)について検討する。
論文参考訳（メタデータ） (2024-10-07T17:45:00Z)
CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。そこで本研究では,学習バランスを定量的に評価する尺度を提案する。さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文参考訳（メタデータ） (2024-07-29T23:18:55Z)
LLMs-as-Instructors: Learning from Errors Toward Automating Model Improvement [93.38736019287224]
LLMs-as-Instructors"フレームワークは、より小さなターゲットモデルのトレーニングを自律的に強化する。このフレームワークは、"Learning from Errors"理論にインスパイアされ、ターゲットモデル内の特定のエラーを注意深く分析するインストラクターLLMを使用している。本フレームワークでは,適切なトレーニングデータに対する誤応答のみに焦点を当てた「エラーからの学習」と,比較学習を用いて誤りの深い理解を行う「コントラストによるエラーからの学習」という2つの戦略を実装している。
論文参考訳（メタデータ） (2024-06-29T17:16:04Z)
Soft Prompting for Unlearning in Large Language Models [11.504012974208466]
この研究は、データ保護規制を動機とした大規模言語モデルのための機械学習の研究に焦点をあてる。我々はtextbfUntextbflearning (SPUL) のための textbfSoft textbfPrompting フレームワークを提案する。本研究では,提案手法の厳密な評価を行い,SPULが実用性と忘れとのトレードオフを大幅に改善できることを示す。
論文参考訳（メタデータ） (2024-06-17T19:11:40Z)
Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。 Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文参考訳（メタデータ） (2024-05-23T08:33:19Z)
Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文参考訳（メタデータ） (2023-12-07T13:53:29Z)
ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential Behavior Comprehension in Recommendation [43.270424225285105]
ゼロショットと少数ショットのレコメンデーションタスクのために、純粋に大きな言語モデルを適応し、強化することに重点を置いています。ゼロショット設定と少数ショット設定の両方でレコメンデーションタスクを行うRetrieval-enhanced Large Language Model (ReLLa)を提案する。
論文参考訳（メタデータ） (2023-08-22T02:25:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。