論文の概要: The Evolving Landscape of LLM- and VLM-Integrated Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2502.15214v1
- Date: Fri, 21 Feb 2025 05:01:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:11:42.871831
- Title: The Evolving Landscape of LLM- and VLM-Integrated Reinforcement Learning
- Title(参考訳): LLMとVLMを融合した強化学習の展開する景観
- Authors: Sheila Schoepp, Masoud Jafaripour, Yingyue Cao, Tianpei Yang, Fatemeh Abdollahi, Shadan Golestan, Zahin Sufiyan, Osmar R. Zaiane, Matthew E. Taylor,
- Abstract要約: 強化学習(RL)は、逐次意思決定タスクにおいて印象的な結果を示した。
大規模言語モデル (LLM) と視覚言語モデル (VLM) が登場し、マルチモーダル理解と推論において印象的な能力を発揮している。
本稿では,これらのLLM/VLM支援RLアプローチをエージェント,プランナー,報酬の3つの役割に分類する分類法を提案する。
- 参考スコア(独自算出の注目度): 7.092323056639036
- License:
- Abstract: Reinforcement learning (RL) has shown impressive results in sequential decision-making tasks. Meanwhile, Large Language Models (LLMs) and Vision-Language Models (VLMs) have emerged, exhibiting impressive capabilities in multimodal understanding and reasoning. These advances have led to a surge of research integrating LLMs and VLMs into RL. In this survey, we review representative works in which LLMs and VLMs are used to overcome key challenges in RL, such as lack of prior knowledge, long-horizon planning, and reward design. We present a taxonomy that categorizes these LLM/VLM-assisted RL approaches into three roles: agent, planner, and reward. We conclude by exploring open problems, including grounding, bias mitigation, improved representations, and action advice. By consolidating existing research and identifying future directions, this survey establishes a framework for integrating LLMs and VLMs into RL, advancing approaches that unify natural language and visual understanding with sequential decision-making.
- Abstract(参考訳): 強化学習(RL)は、逐次意思決定タスクにおいて印象的な結果を示した。
一方、Large Language Models (LLMs) と Vision-Language Models (VLMs) が登場し、マルチモーダル理解と推論において印象的な能力を示した。
これらの進歩により、LLMとVLMをRLに統合する研究が急増した。
本稿では,従来の知識の欠如,長期計画,報酬設計など,LLにおける重要な課題を克服するためにLLMとVLMが使用される代表的作業について概説する。
本稿では,これらのLLM/VLM支援RLアプローチをエージェント,プランナー,報酬の3つの役割に分類する分類法を提案する。
我々は、接地、偏見緩和、表現の改善、行動アドバイスなど、オープンな問題を探求することで結論付ける。
既存の研究を統合し,今後の方向性を特定することにより,LLMとVLMをRLに統合する枠組みを確立し,自然言語と視覚的理解を逐次的意思決定と統合するアプローチを推進した。
関連論文リスト
- Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - Large Language Model Enhanced Recommender Systems: Taxonomy, Trend, Application and Future [31.31030891846837]
本稿では,Large Language Model (LLM) を利用したレコメンダシステム(RS)の強化を目的とした最新の研究成果について報告する。
我々は、LLMをオンラインシステムに組み込む動き、特に推論時にの使用を避けることで、この分野における重要な変化を識別する。
論文 参考訳(メタデータ) (2024-12-18T02:07:21Z) - Reinforcement Learning Enhanced LLMs: A Survey [45.57586245741664]
本稿では,RL強化言語モデルに関する最新の知識を体系的にレビューする。
本稿では、RLの基礎を詳述し、人気のあるRL強化LLMを紹介し、広く使われている2つの報酬モデルに基づくRL技術について検討する。
既存のメソッドの現在の課題や欠陥についても指摘し、さらなる改善の道筋をいくつか提案する。
論文 参考訳(メタデータ) (2024-12-05T16:10:42Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Reinforcement Learning Problem Solving with Large Language Models [0.0]
大規模言語モデル (LLM) には膨大な量の世界知識があり、自然言語処理 (NLP) タスクの性能向上のために様々な分野に応用できるようになっている。
これはまた、人間とAIシステム間の会話に基づく対話による、意図した問題を解決するための、よりアクセスしやすいパラダイムを促進する。
研究科学者」と「レガリー・マター・インテーク」の2つの詳細なケーススタディを通して、我々のアプローチの実践性を示す。
論文 参考訳(メタデータ) (2024-04-29T12:16:08Z) - A Survey on Self-Evolution of Large Language Models [116.54238664264928]
大規模言語モデル(LLM)は、様々な分野やインテリジェントエージェントアプリケーションにおいて大きく進歩している。
この問題に対処するために、LLMが自律的に獲得し、洗練し、モデル自身によって生成された経験から学ぶことができる自己進化的アプローチが急速に成長している。
論文 参考訳(メタデータ) (2024-04-22T17:43:23Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - Mutual Enhancement of Large Language and Reinforcement Learning Models
through Bi-Directional Feedback Mechanisms: A Case Study [1.3597551064547502]
我々は,大規模言語モデル(LLM)と強化学習(RL)モデルの課題に対処するために,教師による学習フレームワークを採用している。
この枠組みの中で、LLMは教師として、RLモデルは学生として機能する。
本手法の有効性を評価するために,この問題に対処し,実証実験を行うための実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-12T14:35:57Z) - Large Language Models Meet Computer Vision: A Brief Survey [0.0]
大規模言語モデル(LLM)とコンピュータビジョン(CV)は研究の重要な領域として現れ、人工知能(AI)分野において大きな進歩を遂げている。
この調査論文は、視覚変換器(ViT)とLLMに革命をもたらす可能性を強調しながら、トランスフォーマーの領域における最新の進歩を論じている。
調査は、この分野のオープンな方向性を強調し、将来の研究開発の場を示唆することで締めくくられる。
論文 参考訳(メタデータ) (2023-11-28T10:39:19Z) - Integration of Large Language Models and Federated Learning [58.9876604258949]
本稿では,LLMとFLの融合を3つの部分に分割する研究フレームワークを提案する。
まず,LLMの領域とFLを組み合わせた研究の現状について概説する。
次に、医療、金融、教育などの重要なシナリオにおけるLLMとFLの組み合わせの実践的応用について論じる。
論文 参考訳(メタデータ) (2023-07-18T02:09:14Z) - A Comprehensive Overview of Large Language Models [68.22178313875618]
大規模言語モデル(LLM)は、最近自然言語処理タスクにおいて顕著な機能を示した。
本稿では, LLM関連概念の幅広い範囲について, 既存の文献について概説する。
論文 参考訳(メタデータ) (2023-07-12T20:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。