論文の概要: SySLLM: Generating Synthesized Policy Summaries for Reinforcement Learning Agents Using Large Language Models
- arxiv url: http://arxiv.org/abs/2503.10509v1
- Date: Thu, 13 Mar 2025 16:10:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:51:50.109092
- Title: SySLLM: Generating Synthesized Policy Summaries for Reinforcement Learning Agents Using Large Language Models
- Title(参考訳): SySLLM:大規模言語モデルを用いた強化学習エージェントのための合成ポリシー要約の生成
- Authors: Sahar Admoni, Omer Ben-Porat, Ofra Amir,
- Abstract要約: 本稿では,大言語モデル(LLM)の広範な世界知識とパターンをキャプチャする能力を活用し,合成要約を利用する新しい手法であるSySLLMを提案する。
SySLLMサマリーは、デモベースのポリシーサマリーよりも好まれており、客観的エージェント識別タスクにおいて、それらのパフォーマンスにマッチするか、上回っている。
- 参考スコア(独自算出の注目度): 10.848775419008442
- License:
- Abstract: Policies generated by Reinforcement Learning (RL) algorithms can be difficult to describe to users, as they result from the interplay between complex reward structures and neural network-based representations. This combination often leads to unpredictable behaviors, making policies challenging to analyze and posing significant obstacles to fostering human trust in real-world applications. Global policy summarization methods aim to describe agent behavior through a demonstration of actions in a subset of world-states. However, users can only watch a limited number of demonstrations, restricting their understanding of policies. Moreover, those methods overly rely on user interpretation, as they do not synthesize observations into coherent patterns. In this work, we present SySLLM (Synthesized Summary using LLMs), a novel method that employs synthesis summarization, utilizing large language models' (LLMs) extensive world knowledge and ability to capture patterns, to generate textual summaries of policies. Specifically, an expert evaluation demonstrates that the proposed approach generates summaries that capture the main insights generated by experts while not resulting in significant hallucinations. Additionally, a user study shows that SySLLM summaries are preferred over demonstration-based policy summaries and match or surpass their performance in objective agent identification tasks.
- Abstract(参考訳): Reinforcement Learning (RL)アルゴリズムによって生成されたポリシーは、複雑な報酬構造とニューラルネットワークに基づく表現との相互作用の結果、ユーザに説明することが難しい。
この組み合わせはしばしば予測不可能な行動をもたらし、現実のアプリケーションにおける人間の信頼を促進するために重要な障害を分析し、引き起こす政策を困難にしている。
グローバルな政策要約手法は,世界国家のサブセットにおける行動の実証を通じてエージェントの行動を記述することを目的としている。
しかし、ユーザーは限られた数のデモしか見ることができず、ポリシーに対する理解が制限される。
さらに、これらの手法は、観測結果をコヒーレントパターンに合成しないため、ユーザの解釈に過度に依存している。
本稿では,LLMを用いたSySLLM(Synthesized Summary using LLMs)を提案する。この手法は,大規模言語モデル(LLM)の広い世界的知識とパターンをキャプチャする能力を利用して,ポリシーのテキスト要約を生成する。
具体的には、専門家による評価により、提案手法が、専門家が生み出す主要な洞察を捉えながら、重大な幻覚を生じさせない要約を生成することを示す。
さらに,SySLLMサマリーは実演ベースの政策サマリーよりも好まれ,客観的エージェント識別タスクにおいて,それらのパフォーマンスに適合するか,上回っていることを示す。
関連論文リスト
- Semantic Consistency Regularization with Large Language Models for Semi-supervised Sentiment Analysis [20.503153899462323]
本稿では,半教師付き感情分析のためのフレームワークを提案する。
テキストを意味的に拡張する2つのプロンプト戦略を導入する。
実験により,従来の半教師付き手法よりも優れた性能が得られた。
論文 参考訳(メタデータ) (2025-01-29T12:03:11Z) - LLMs for Generalizable Language-Conditioned Policy Learning under Minimal Data Requirements [50.544186914115045]
本稿では,オフライン言語によるポリシー学習のための新しいトレーニングパイプラインTEDUOを提案する。
TEDUOは、分かりやすい、ラベルなしのデータセットを運用し、いわゆるインザワイルド評価(in-the-wild evaluation)に適している。
論文 参考訳(メタデータ) (2024-12-09T18:43:56Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Privacy Policy Analysis through Prompt Engineering for LLMs [3.059256166047627]
PAPEL (Privacy Policy Analysis through Prompt Engineering for LLMs) は、Large Language Models (LLMs) の力を利用してプライバシーポリシーの分析を自動化するフレームワークである。
これらのポリシーからの情報の抽出、アノテーション、要約を合理化し、追加のモデルトレーニングを必要とせず、アクセシビリティと理解性を高めることを目的としている。
PAPELの有効性を, (i) アノテーションと (ii) 矛盾解析の2つの応用で実証した。
論文 参考訳(メタデータ) (2024-09-23T10:23:31Z) - Large Language Models are Interpretable Learners [53.56735770834617]
本稿では,Large Language Models(LLM)とシンボルプログラムの組み合わせによって,表現性と解釈可能性のギャップを埋めることができることを示す。
自然言語プロンプトを持つ事前訓練されたLLMは、生の入力を自然言語の概念に変換することができる解釈可能な膨大なモジュールセットを提供する。
LSPが学んだ知識は自然言語の記述と記号規則の組み合わせであり、人間(解釈可能)や他のLLMに容易に転送できる。
論文 参考訳(メタデータ) (2024-06-25T02:18:15Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - Representation Learning with Large Language Models for Recommendation [33.040389989173825]
本稿では,大規模言語モデル (LLM) を用いた表現学習によるレコメンデータの強化を目的とした,モデルに依存しないフレームワーク RLMRec を提案する。
RLMRecには補助的なテキスト信号が組み込まれており、LLMが権限を持つユーザ/イテムプロファイリングパラダイムを開発し、LLMの意味空間と協調的関係信号の表現空間を整合させる。
論文 参考訳(メタデータ) (2023-10-24T15:51:13Z) - Large Language Models as General Pattern Machines [64.75501424160748]
我々は,事前訓練された大規模言語モデル (LLM) が,複雑なトークンシーケンスを自動回帰的に完了することを示す。
驚いたことに、語彙からランダムにサンプリングされたトークンを用いてシーケンスが表現された場合でも、パターン完了の習熟度を部分的に保持することができる。
本研究では,ロボット工学における問題に対して,これらのゼロショット機能がどのように適用されるかを検討する。
論文 参考訳(メタデータ) (2023-07-10T17:32:13Z) - Learning Symbolic Rules over Abstract Meaning Representations for
Textual Reinforcement Learning [63.148199057487226]
本稿では,汎用的な意味一般化とルール誘導システムを組み合わせて,解釈可能なルールをポリシーとして学習するモジュール型 NEuroSymbolic Textual Agent (NESTA) を提案する。
実験の結果,NESTA法は,未確認テストゲームや少ないトレーニングインタラクションから学習することで,深層強化学習技術よりも優れることがわかった。
論文 参考訳(メタデータ) (2023-07-05T23:21:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。