Fugu-MT 論文翻訳(概要): Boosting Universal LLM Reward Design through Heuristic Reward Observation Space Evolution

論文の概要: Boosting Universal LLM Reward Design through Heuristic Reward Observation Space Evolution

arxiv url: http://arxiv.org/abs/2504.07596v2
Date: Fri, 11 Apr 2025 02:05:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-21 13:18:43.507689
Title: Boosting Universal LLM Reward Design through Heuristic Reward Observation Space Evolution
Title（参考訳）: ヒューリスティック・リワード観測空間の進化によるユニバーサル・リワード設計の促進
Authors: Zen Kit Heng, Zimeng Zhao, Tianhao Wu, Yuanfei Wang, Mingdong Wu, Yangang Wang, Hao Dong,
Abstract要約: 自動強化学習のための有望なツールとして,大規模言語モデル(LLM)が登場している。本稿では,リワード観測空間を進化させることにより,LLM駆動型報酬設計を向上する新しいフレームワークを提案する。本フレームワークでは,環境状態の履歴的使用率と成功率を追跡する状態実行テーブルを導入する。
参考スコア（独自算出の注目度）: 20.231393248594173
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) are emerging as promising tools for automated reinforcement learning (RL) reward design, owing to their robust capabilities in commonsense reasoning and code generation. By engaging in dialogues with RL agents, LLMs construct a Reward Observation Space (ROS) by selecting relevant environment states and defining their internal operations. However, existing frameworks have not effectively leveraged historical exploration data or manual task descriptions to iteratively evolve this space. In this paper, we propose a novel heuristic framework that enhances LLM-driven reward design by evolving the ROS through a table-based exploration caching mechanism and a text-code reconciliation strategy. Our framework introduces a state execution table, which tracks the historical usage and success rates of environment states, overcoming the Markovian constraint typically found in LLM dialogues and facilitating more effective exploration. Furthermore, we reconcile user-provided task descriptions with expert-defined success criteria using structured prompts, ensuring alignment in reward design objectives. Comprehensive evaluations on benchmark RL tasks demonstrate the effectiveness and stability of the proposed framework. Code and video demos are available at jingjjjjjie.github.io/LLM2Reward.
Abstract（参考訳）: 大きな言語モデル(LLM)は、コモンセンス推論やコード生成における堅牢な機能のために、自動強化学習(RL)報酬設計のための有望なツールとして現れています。 LLMはRLエージェントと対話することで、関連する環境状態を選択して内部操作を定義することで、リワード観測空間(ROS)を構築する。しかし、既存のフレームワークは、この空間を反復的に進化させるために、歴史的調査データや手動のタスク記述を効果的に活用していない。本稿では、テーブルベースの探索キャッシング機構とテキストコード和解戦略により、ROSを進化させ、LLM駆動の報酬設計を強化する新しいヒューリスティックフレームワークを提案する。本フレームワークでは,環境状態の履歴的使用状況と成功率を追跡する状態実行表を導入し,LLM対話で典型的に見られるマルコフ制約を克服し,より効率的な探索を容易にする。さらに、ユーザが提供するタスク記述を、構造化されたプロンプトを用いて専門家が定義した成功基準と整合させ、報酬設計目標の整合性を確保する。ベンチマークRLタスクの総合評価は,提案フレームワークの有効性と安定性を示す。コードとビデオのデモはjingjjjjjjie.github.io/LLM2Rewardで公開されている。

関連論文リスト

Enhancing Repository-Level Code Generation with Call Chain-Aware Multi-View Context [19.604823896796404]
RepoScopeは、リポジトリレベルのコード生成のためのコールチェーン対応のマルチビューコンテキストである。本稿では,リポジトリの構造的セマンティクスを利用して,対象関数における呼び出し者の識別を改善する新しいコールチェーン予測手法を提案する。 RepoScopeは最先端の手法より優れており、pass@1スコアの36.35%の相対的な改善を達成している。
論文参考訳（メタデータ） (2025-07-20T02:35:36Z)
MEMETRON: Metaheuristic Mechanisms for Test-time Response Optimization of Large Language Models [0.6926105253992517]
大規模言語モデル(LLM)は、オープンエンドタスクと構造化タスクの両方にますます使われている。本稿では,個別のブラックボックス最適化問題としてLCMデコーディングを定式化するタスク非依存フレームワークMEMETRONを紹介する。我々は,人間の嗜好アライメントタスクの枠組みを評価し,標準的な復号化手法と復号化手法を著しく上回っていることを示す。
論文参考訳（メタデータ） (2025-06-10T09:55:53Z)
MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。 MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文参考訳（メタデータ） (2025-05-12T17:35:43Z)
EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks [24.41705039390567]
EmbodiedVSR (Embodied Visual Space Reasoning) は動的シーングラフ誘導型Chain-of-Thought (CoT)推論を統合する新しいフレームワークである。本手法はタスク固有の微調整なしでゼロショット空間推論を可能にする。実験により,我々のフレームワークは,既存のMLLM法よりも精度と推論コヒーレンスにおいて優れていることが示された。
論文参考訳（メタデータ） (2025-03-14T05:06:07Z)
New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。 2つの重要な特徴を持つ新しいRECデータセットを導入する。第一に、オブジェクトカテゴリ、属性、関係性に関する詳細な推論を必要とする、制御可能な難易度で設計されている。第二に、微粒な編集によって生成された否定的なテキストと画像が組み込まれ、既存のターゲットを拒否するモデルの能力を明示的にテストする。
論文参考訳（メタデータ） (2025-02-27T13:58:44Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文参考訳（メタデータ） (2024-06-24T03:36:29Z)
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文参考訳（メタデータ） (2024-06-19T00:28:58Z)
LEARN: Knowledge Adaptation from Large Language Model to Recommendation for Practical Industrial Application [54.984348122105516]
Llm-driven knowlEdge Adaptive RecommeNdation (LEARN)フレームワークは、オープンワールドの知識と協調的な知識をシナジする。オープンワールドの知識と協調的な知識を相乗化するLlm-driven knowlEdge Adaptive RecommeNdation (LEARN) フレームワークを提案する。
論文参考訳（メタデータ） (2024-05-07T04:00:30Z)
Towards a Robust Retrieval-Based Summarization System [11.747998334533776]
本稿では,大規模言語モデル(LLM)のRAGに基づく要約タスクに対する堅牢性について検討する。最初のコントリビューションはLogicSummで、現実的なシナリオを取り入れた革新的な評価フレームワークです。 LogiSummによって特定された制限に基づいて、トレーニング対話を作成し、堅牢性を高めるためのモデルを微調整する包括的システム SummRAG を開発した。
論文参考訳（メタデータ） (2024-03-29T00:14:46Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)
A Review of Repository Level Prompting for LLMs [0.0]
大規模言語モデル(LLM)は、HumanEvalベンチマークで94.6%の解決率を達成するなど、顕著な成功を収めている。 GitHub CopilotやTab Nineといったリポジトリレベルのインラインコード補完ツールの商用化が進んでいる。本稿では,個々のコーディング問題からリポジトリスケールソリューションへの移行について述べる。
論文参考訳（メタデータ） (2023-12-15T00:34:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。